当前位置: 首页 > news >正文

做的网站怎么让百度收索时搜东莞市 住房与城乡建设部网站

做的网站怎么让百度收索时搜,东莞市 住房与城乡建设部网站,精彩app应用下载,龙岗英文网站制作背景 Web应用程序变得越来越智能。 从网站上使用服务的日子已经一去不复返了#xff0c;用户不得不填写一个巨大的表格。 假设您有一个适合书迷的网站。 在Web 2.0之前#xff0c;此类网站曾经以诸如年龄#xff0c;阅读书籍#xff0c;喜欢的书籍类型#xff0c;语言偏好… 背景 Web应用程序变得越来越智能。 从网站上使用服务的日子已经一去不复返了用户不得不填写一个巨大的表格。 假设您有一个适合书迷的网站。 在Web 2.0之前此类网站曾经以诸如年龄阅读书籍喜欢的书籍类型语言偏好作者偏好等形式向用户提出各种问题。如今如今一种常见的做法是要求用户在自己个人资料上写一个段落。 在此注释中用户表达了一些细节但是挑战在于如何从这种自由格式的文本中提取有用的信息以及如何找到兴趣相似的用户 这种用例已经变得如此普遍以至于每个Java开发人员都应该了解一些有关从文本检索信息的技巧。 在本文中我将引导您完成一种简单而有效的方法。 从文本中提取信息的过程 过滤单词 逐字阅读文本内容并删除不需要的单词。 作为此过滤状态的一部分请删除所有常用的英语单词。 人们还可以应用审查规则并删除露骨的色情字词或仇恨言论等。 执行词干 “搜索”或“搜索”或“搜索”之类的词都表示“搜索”。 将单词还原为词根的过程称为词干。 计算相似度 经过前两个步骤我们现在有了一组关键字它们真实地表示原始文本在此示例中为用户个人资料。 我们可以将这些关键字视为一组唯一的单词。 要计算两个用户资料之间的相似度最好用一个数字来表示相似度该数字代表两个内容在0不相似到1完全相似范围内的相似程度。 一种实现方法是计算Jaccard Index该索引用于计算集合的相似性或多样性。 Jaccard index J(A,B) |A∩B|/| A⋃B| 其中A和B是集合而JAB在0到1之间。 实施细节 根据以上几点可以开发一个库来提取关键字并计算相似度。 但是Apache Lucene是一个Java库具有大量用于执行关键字提取的API。 这是此API不同重要区域的简要说明。 分词器 Tokenizer将您的文本分成多个块。 有不同的令牌生成器根据您使用的令牌生成器您可以获得不同的输出令牌流文本块序列。 词干 词干用于获取有疑问的单词的基础。 在很大程度上取决于所使用的语言。 诸如“ seaerch”“ searched”“ searching”等词源于词根“ search”。 在信息检索领域如果我们能找到根词这将非常有用因为它可以减少噪声并且用更少的词仍可以承载文档的意图。 著名的词干提取算法之一是Porter Stemmer算法。 令牌过滤器 可以将令牌过滤器应用于令牌生成器的输出以标准化或过滤令牌。 像LowerCaseFilter它将令牌文本规范化为小写字母或stopfilter抑制最频繁且几乎无用的单词。 同样它在很大程度上取决于语言。 对于英语这些停用词是“ a”“ the”“ I”“ be”“ have”等。 分析仪 分析器是使用令牌生成器从输入生成令牌使用词干提取器减少令牌使用过滤器抑制/标准化令牌的更高级别的类。 这是粘接其他三个主要组件的类。 不同的分析器使用标记器和过滤器的不同组合。 例如StandardAnalyzer使用StandardTokenizer从字符串中提取令牌将其传递给LowerCaseFilter以将令牌转换为小写然后将令牌流传递给StopFilter以除去最常用的英语单词。 默认情况下它不执行词干。 可以通过根据需要混合和匹配标记器和标记过滤器来开发定制分析器。 代码遍历 可以从https://github.com/shamikm/similarity访问该示例的源代码。 以下是这些步骤的重点 创建一个执行以下步骤的自定义分析器 根据空间逗号句点等对英语单词进行标记。使用StandardTokenizer可以完成此任务。 使用LowerCaseFilter将标记转换为小写 使用StopFilter停止常见的英语单词 使用Porter Stemmer阻止英语单词 从StemmAnalyzer类 Overridepublic TokenStream tokenStream(String fieldName, Reader reader) {(a).. final StandardTokenizer src new StandardTokenizer(matchVersion, reader);TokenStream tok new StandardFilter(matchVersion, src);(b).. tok new LowerCaseFilter(matchVersion, tok);(c).. tok new StopFilter(matchVersion, tok, getStopWords());(d).. return new PorterStemFilter(tok);} 一旦我们有了一组单词就很容易计算出两个单词之间的相似度。 从JaccardIndexBasedSimilarity类 public double calculateSimilarity(String oneContent, String otherContet) {SetString keyWords1 keywordGenerator.generateKeyWords(oneContent);SetString keyWords2 keywordGenerator.generateKeyWords(otherContet);SetString denominator Sets.union(keyWords1,keyWords2);SetString numerator Sets.intersection(keyWords1,keyWords2);return denominator.size()0? (double)numerator.size()/(double)denominator.size() : 0;} 这是一个示例测试案例以演示代码如何工作 Testpublic void calculateSim(){SimilarityCalculator calculator new JaccardIndexBasedSimilarity();Assert.assertEquals(calculator.calculateSimilarity(They Licked the platter clean,Jack Sprat could eat no fat),0.0);//1(lamb) out of 6(littl,lamb,mari,had,go,sure) words are sameAssert.assertEquals(calculator.calculateSimilarity(Mary had a little lamb, The lamb was sure to go.), 0.16, 0.02);Assert.assertEquals(calculator.calculateSimilarity(Mary had a little lamb,Mary had a little lamb),1.0);} 您可以脱机运行此过程并找出一个用户配置文件与数据库中任何其他用户的相似之处并可以根据相似用户正在阅读的内容开始推荐用户。 结论 从文本中检索信息是当今的一种常见用例。 对这个关键领域有基本的了解对任何开发人员都有帮助。在本文中我们研究了如何有效地使用Apache Lucene API来提取关键字并计算文本之间的相似度。 资源 http://en.wikipedia.org/wiki/Jaccard_index http://tartarus.org/martin/PorterStemmer/ http://www.manning.com/ingersoll/ http://www.amazon.com/Algorithms-Intelligent-Web-Haralambos-Marmanis/dp/1933988665 翻译自: https://www.javacodegeeks.com/2014/07/keyword-extraction-and-similarity-calculation-among-textual-content.html
http://www.sadfv.cn/news/405177/

相关文章:

  • 微信机器人网站开发建设企业人力资源网站
  • 网站推广怎样做WordPress科技网站
  • 个人备案企业网站wordpress关注公众号下载
  • 二级网站建设检查评比方案网站上的文章做参考文献
  • 临沂建设工程招聘信息网站seo优化系统
  • 做网站的公司成都优化网站的技巧
  • 泉州网站模板建站网站标题关键词用什么隔开
  • iis 建立默认网站十堰市茅箭区建设局网站
  • 房地产建设项目网站有漏洞的网站
  • 哪里有手机网站建设在遵义找工作去哪里找好找
  • 铁路网站建设论文wordpress数据库内容搬家
  • 苏州乡村旅游网站建设策划书zimg wordpress
  • 烟台百度网站排名网站开发部组织架构
  • dede网站本地访问速度慢深圳景观设计公司排名
  • 做网站的费用入账网上网页设计
  • 定制网站与模板建站维护外贸经济平台代销到哪里买
  • 深圳电子商务网站 开发镇江抖音seo
  • 国外经典平面设计网站网店运营规划
  • 锡盟本地网站建设西安家电商城网站建设
  • 网站开发的英文参考文献网站建设问题
  • 做物流网站模块辽宁省造价信息网
  • 广州企业网站建设方案title (网站建设)
  • 成都网站建设推荐图文广告店最佳名字
  • 优设设计网站导航网络优化工程师吃香吗
  • wordpress类开源网站广告网站建设目标
  • 制作网站用的域名网站建设业务员提成
  • 湖北公司网站建设多少钱淄博网站建设app开发
  • 企业网站cms源码网络推广对产品销售的重要性
  • 佛山正规的免费网站优化开源网站统计
  • 网站建设合同编号购买链接怎么买