当前位置: 首页 > news >正文

策划专业网站代做论文网站

策划专业网站,代做论文网站,模板网站 优帮云,西安建设工程信息交易中心官网一、传统检索的背景痛点 和传统的基于关键词的匹配方式不同#xff0c;语义检索#xff0c;利用大模型#xff0c;将文本内容映射到神经网络空间#xff0c;最终记忆token做检索。 例如想要搜索中国首都#xff0c;例如数据集中#xff0c;只有一篇文章在描述北京#x… 一、传统检索的背景痛点 和传统的基于关键词的匹配方式不同语义检索利用大模型将文本内容映射到神经网络空间最终记忆token做检索。 例如想要搜索中国首都例如数据集中只有一篇文章在描述北京恰好在文章中并没有提到中国首都这四个字。利用传统的关键词匹配技术搜索“中国首都”是绝对无法将数据召回的因为这篇文章中不不包含中国首都这四个字。如果加上语义理解我们都知道中国首都其实就是北京。其实搜索北京应该也是可以搜索到的。在语义检索下上述的描述北京的文章大概率可以别召回。 传统的关键词匹配技术有很大的弊端处理上述的问题在相关性分数计算中其实也是用的BM25算法此算法虽然在大多数领域都适用但是它是基于词频和逆文档率计算的分数它的效果在我看来也就只有80分但是想要适用Elasticsearch做到90分的召回效果就比较困难了。上述的搜索“中国首都”就是一个很好的反例。 虽然在传统搜索中我们利用同义词可以解决问题那就是把“中国首都”和“北京”建立一个同义词。问题是我们无法穷举所有的同义词。普遍的做法是人工收集和构建自己领域内同义词。 语义搜索与关键字搜索 语义搜索和关键字搜索之间的区别在于关键字搜索会返回单词与单词、单词与同义词或单词与相似单词的匹配结果。语义搜索旨在匹配查询中单词的含义。在某些情况下语义搜索可能不会生成直接的单词匹配结果但会符合用户的意图。 关键字搜索引擎使用的是查询扩展或简化工具如同义词或省略词。它们还会使用自然语言处理和理解工具如允许拼写错误、词汇切分和规范化。另一方面语义搜索能够通过使用矢量搜索返回与含义相匹配的查询结果。 以“chocolate milk”巧克力牛奶为例。 语义搜索引擎会区分“chocolate milk”巧克力牛奶和“milk chocolate”牛奶巧克力。 尽管查询中的关键字相同但它们的书写顺序会影响含义。作为人类我们知道“milk chocolate”牛奶巧克力是指各种巧克力而“chocolate milk”巧克力牛奶是巧克力口味的牛奶。 二、语义检索 基于上述的背景这篇文章给大家带来的是全新的东西——语义检索。顾名思义可以根据意思去做搜索而并非是根据关键词做匹配。 语义检索是如何做到的 第一步先是依靠深度学习大模型将文本内容这里并不局限于文本还可以是不同模态的数据例如图片和声音到更多维度的空间。通常512维度甚至是1024维度的空间中。映射的基本原则是越相近的内容空间距离越近。这里举个例子苹果和橘子的空间距离是1苹果和猫咪的空间距离应该是大于1的而猫咪和cat的空间距离是小于1的。利用维度空间的距离来算事物的相似性或者说问题和答案的相似度。 第二步将映射后的数据存储在向量数据库数据在多维度的空间位置使用多位浮点类型的数组维护的把它称为向量。    第三步将问题使用相同的模型也映射成向量。 第四步计算问题和答案的空间距离。这里比较普遍的做法是计算cosin值。即向量检索。 三、Elasticsearch中的语义检索 在上述语义检索中已经说了语义检索是如何做的。作为优秀的搜索引擎elasticsearch也在努力的实现上述的这个过程。 1.先来看看es官方对语义检索的定义 语义搜索是一种解读单词和短语含义的搜索引擎技术。语义搜索的结果将返回与查询含义相匹配的内容而不是与查询字面意思相匹配的内容。 语义搜索是一系列的搜索引擎功能包括从搜索者的意图及其搜索上下文中理解单词。 这种类型的搜索旨在根据上下文更准确地解读自然语言来提高搜索结果的质量。语义搜索借助 Machine Learning 和人工智能等技术将搜索意图与语义相匹配从而实现这一目标。 2.利用 Elasticsearch 进行语义搜索 Elasticsearch 平台配备了 Machine Learning 和 AI 解决方案包括一个语义搜索模型Elastic Learned Sparse EncodeR (ELSER)。这个 NLP 模型由 Elastic 训练而成可在易于部署的工具中实现语义搜索。 Elasticsearch 可以安全地存储您的数据以实现快速搜索、微调相关性和高效扩展的强大分析功能。Elasticsearch 是 Elastic Stack一套用于数据采集、扩充、存储、分析和可视化的免费开放工具的核心组件。 3.语义检索效果如何 以下部分提供有关 ELSER 如何在不同硬件上执行的信息并将模型性能与 Elasticsearch BM25 和其他强大的基准例如 Splade 或 OpenAI进行比较。 硬件测试 使用两个数据集来评估 ELSER 在不同硬件配置中的性能msmarco-long-light和arguana。 该msmarco-long-light数据集包含平均超过 512 个标记的长文档这可以深入了解长文档的索引和推理时间的性能影响。这是专门为文档检索设计的“msmarco”数据集的子集不应与用于段落检索的“msmarco”数据集混淆后者主要由较短的文本范围组成。 该arguana数据集是BEIR数据集。它由长查询组成每个查询平均包含 200 个标记。它可以表示查询速度慢的上限。 下表显示了使用各种硬件配置的 ELSER 基准测试结果。 基准测试 用于评估ELSER排名能力的指标是归一化贴现累积增益NDCG它可以处理多个相关文档和细粒度的文档评级。该指标应用于固定大小的检索文档列表在本例中为前 10 个文档 (NDCG10)。 下表显示了 ELSER 与使用英语分析器的 Elasticsearch BM25 的性能比较并按用于评估的 12 个数据集细分。ELSER 取得 10 胜 1 平 1 负NDCG10 平均进步 17%。 NDCG10 用于 BM25 和 ELSER 的 BEIR 数据集 - 值越高越好 下表将 ELSER 的平均性能与其他一些强基线进行了比较。OpenAI 结果被分开因为它们使用 BEIR 套件的不同子集。 BEIR 数据集与各种高质量基线的平均 NDCG10越高 越好。OpenAI 选择了不同的子集该集的 ELSER 结果 单独报告。 要了解有关评估详细信息的更多信息请参阅 此博客文章。 四、为什么语义搜索很重要 语义搜索之所以重要是因为它有助于进行范围更广泛的搜索。由于语义搜索由矢量搜索提供支持因此它可以提供更直观的搜索体验根据查询的上下文和搜索意图生成匹配结果。 因为语义搜索算法可持续“学习”各种关键绩效指标 (KPI)例如转化率和跳出率所以语义搜索有助于提高用户满意度。 更易于客户使用         客户可能记不住专业术语也想不起来具体的产品名称。借助语义搜索客户输入模糊的搜索查询便可获得具体的结果。客户还可以使用文字描述进行搜索以发现相关名称。例如您可以通过搜索所知道的歌词来发现歌曲并找到歌名。 因为语义搜索会通过考虑意图和上下文来解读搜索含义所以客户方面的体验更像是人与人之间的互动。 语义比关键字更强大         通过匹配概念而不是关键字语义搜索可以生成更准确的结果。通过维度嵌入一个矢量代表一个单词的概念。“Car”汽车不再只与“car”汽车或“cars”轿车匹配它还与“driver”司机、“insurance”保险、“tires”轮胎、“electric”电动、“hybrid”混合动力等匹配因为这些单词都与“car”汽车的矢量相关联。 因此由矢量搜索提供支持的语义搜索扩展了简单匹配由词元表示的关键字的概念。
http://www.sadfv.cn/news/269888/

相关文章:

  • 怎么做用户调研网站做简历比较好的网站叫什么
  • 西安公司网站建设服务商站长之家网站介绍
  • html 学习网站公司做网站怎么样
  • 成都注册网站公司个人网站做淘宝客
  • 金融企业网站建设新浪短网址生成器
  • 天网站建设如何做好线上销售
  • 上海定制建设网站网站优化排名网站
  • 如何把自己做的网站连上网广州省建设厅官方网站
  • 各电商网站的特点可以找人帮忙做设计的网站
  • wordpress怎么做淘客网站2012服务器做网站
  • 房产中介网站建设模板wordpress自带水印
  • 公司网站做百度广告如何报税公司网站服务器租用
  • 网站管理助手旅游网站开发实现开题报告
  • 柏乡县网站建设滁州seo
  • 模板下载网站哪个好教育网站报名
  • 百度站长工具怎么查排名南京那些公司做网站
  • 大型网站制作小程序电子商务网站的设计要素
  • 别人做的网站不能用了友情链接网站
  • wordpress站群有什么好的书写网站
  • 淘宝网网站建设外包公司排行
  • 在哪个网站找水利工地做建站平台软件
  • 云网站开发wordpress静态分页
  • 怎么做个手机版的网站网站建设电脑和手机有区别吗
  • 网站运行费用预算软件网站建设基本流程
  • go语言 网站开发帮朋友做网站 知乎
  • dede网站文章同步淮南发布网
  • 网站建设算行政工作吗怎样建设自己网站
  • 营销手机网站制作大连网站平台研发
  • 网站邮箱代码张掖网站建设培训班
  • 谁能赐教内蒙网站建设seo优化