当前位置: 首页 > news >正文

北京网站建设电话温州网站建设前十公司

北京网站建设电话,温州网站建设前十公司,wordpress交易系统,安装appLLMs模型实战教程 文章来源#xff1a;https://zhuanlan.zhihu.com/p/641516393 Kevin 一、介绍 随着基础模型的兴起#xff0c;向量数据库的受欢迎程度也飙升。事实上#xff0c;在大型语言模型环境中#xff0c;向量数据库也很有用。 在机器学习领域#xff0c;我们经…LLMs模型实战教程 文章来源https://zhuanlan.zhihu.com/p/641516393 Kevin 一、介绍 随着基础模型的兴起向量数据库的受欢迎程度也飙升。事实上在大型语言模型环境中向量数据库也很有用。 在机器学习领域我们经常处理的是向量嵌入。向量嵌入是通过特定的机器学习模型运行对象的特征将对象的上下文信息投射到潜在空间中来创建的。 为了在使用向量嵌入时能够表现得特别好创建向量数据库是必要的。这方面的工作包括存储、更新和检索向量。当我们谈论检索时通常是指检索与查询最相似的向量这些向量与嵌入到同一潜在空间并传递到向量数据库中。这个检索过程被称为近似最近邻。 嵌入是由人工智能模型生成的并且由于它们包含大量属性或特征因此管理它们的表示可能很困难。在人工智能和机器学习的背景下这些特征代表数据的许多元素所有这些元素对于理解模式、相关性和底层结构都是必要的。 因此我们需要专门为管理此类信息而开发的数据库。像Chroma-DB这样的向量数据库能够满足这一需求因为它们提供了经过优化的嵌入式存储和查询功能并且具备典型数据库所不具备的独立向量索引特性。此外向量数据库还具备处理向量嵌入的专门能力这是传统基于标量的数据库所不具备的。 PostgreSQL是一个强大的对象关系数据库系统可在开源许可下使用。它已经积极开发了超过35年这使得它在可靠性、稳健性和性能方面建立了良好的声誉。好消息是除了外部扩展之外PostgreSQL还支持向量。 一些流行的向量数据库包括Pinecone、Weviate、Chroma、Milvus、Faiss。尽管Redis、Cassandra等数据库并非向量数据库但越来越多的数据库提供商开始提供ANN搜索功能。 二、什么是向量数据库 向量数据库是一种专门用于存储、管理和搜索向量数据的数据库。它以向量的形式存储数据其中向量是抽象实体如图像、音频文件、文本等的数学表示。通过存储数据向量并使用向量之间的相似度度量向量数据库可以实现高效、准确的数据搜索和分析。 下面显示了一个非常简单的示例。虽然顶部的两个句子的含义非常相似但底部的句子却截然不同。向量数据库能够将这些句子编码为向量然后找到接近的句子 - 这意味着它们是相似的。 请记住在实际应用中我们拥有的维度远不止 2 个维度 - OpenAI 嵌入目前使用大约 1500 个维度来进行有意义的语言矢量化。 向量数据库的核心特点如下 1、向量表示向量数据库将复杂的数据类型转换为向量表示使得高维数据能够以多维空间中的点的形式表示。这种表示不仅具有高计算效率还简化了数据点之间的比较和关联过程。 2、基于相似性的搜索向量数据库擅长根据向量表示来搜索与给定查询相似的数据项。它们使用欧氏距离、余弦相似度或曼哈顿距离等相似性度量来确定多维空间中数据点之间的接近程度从而找到最相关和最相似的结果。 3、可扩展性向量数据库被设计成能够处理大规模的数据集并且在数据集大小增长时能够保持高搜索精度和响应时间。此外它们通常提供并行处理和分布式计算的机制以满足不断增长的数据需求。 4、与机器学习和人工智能兼容随着人工智能和机器学习应用的迅速增长向量数据库的采用也在增加。将复杂数据转换为向量表示可以与这些算法无缝集成从而获得规模化的有价值洞见和预测。 总之向量数据库利用向量数据的特性提供高效、准确的搜索和分析功能。它们在处理高维数据和进行相似性搜索方面具有优势并且与机器学习和人工智能应用的兼容性使其在各个领域中变得越来越重要。 三、向量数据库的应用场景 向量数据库具有多种应用场景以下是其中一些突出的应用领域 自然语言处理NLP向量数据库可以有效处理词嵌入或文档向量促进语义搜索和文本分析。它们可以用于文档分类、情感分析、关键词提取等任务帮助组织理解来自社交媒体、论坛、客户互动等数据源的大量文本数据。 图像搜索和识别图像数据库受益于向量数据库的向量表示和基于相似性的搜索功能。通过识别高维数据的相似性和模式它们可以有效处理反向图像搜索、对象检测、人脸识别等任务。 推荐系统强大的推荐引擎是现代电子商务和内容平台的关键组成部分之一。通过使用向量数据库这些系统可以分析用户偏好和内容特征实时生成个性化且高度相关的推荐。 异常检测和欺诈预防特定领域的数据点如金融交易或用户行为可以转换为向量表示进行实时分析。基于相似性的搜索功能可以快速识别异常模式或潜在欺诈帮助组织减少风险。 基因组研究在基因组学领域研究人员处理复杂的生物数据并经常需要识别相似的基因序列或结构。向量数据库的强大搜索功能可以加速这一过程更准确地进行关键发现和进展。 多媒体内容管理向量数据库可以通过将音频和视频转换为向量表示来处理各种内容。这种能力使得内容搜索和分析变得更加普遍实现了基于相似性、模式识别或自动内容标记的媒体无缝检索。 除了上述应用领域向量数据库在许多其他行业和领域中也有广泛的应用。随着对向量数据库潜力认识的增加其在数据管理和分析方面的采用和探索将继续推动创新和发展。 四、PostgreSQL 向量扩展-pgvector pgvector 是一个基于 PostgreSQL 的扩展为用户提供了一套强大的功能用于高效地存储、查询和处理向量数据。它具有以下特点 直接集成pgvector 可以作为扩展直接添加到现有的 PostgreSQL 环境中方便新用户和长期用户获得矢量数据库的好处无需进行重大系统更改。 支持多种距离度量pgvector 内置支持多种距离度量包括欧几里德距离、余弦距离和曼哈顿距离。这样的多功能性使得可以根据具体应用需求进行高度定制的基于相似性的搜索和分析。 索引支持pgvector 扩展为矢量数据提供高效的索引选项例如 k-最近邻 (k-NN) 搜索。即使数据集大小增长用户也可以实现快速查询执行并保持较高的搜索准确性。 易于查询语言访问作为 PostgreSQL 的扩展pgvector 使用熟悉的 SQL 查询语法进行向量操作。这简化了具有 SQL 知识和经验的用户使用矢量数据库的过程并避免了学习新的语言或系统。 积极的开发和支持pgvector 经常更新以确保与最新的 PostgreSQL 版本和功能兼容并且开发者社区致力于增强其功能。用户可以期待一个受到良好支持的解决方案满足其矢量数据的需求。 稳健性和安全性通过与 PostgreSQL 的集成pgvector 继承了相同级别的稳健性和安全性功能使用户能够安全地存储和管理其矢量数据。 总之pgvector 是一个功能强大的 PostgreSQL 扩展为用户提供了高效、灵活和可靠的方式来处理向量数据。它的直接集成、多种距离度量支持、索引支持和易于访问的查询语言使其成为处理矢量数据的理想选择。 4.1、如何使用 pgvector 在数据库服务器上安装 pgvector cd /tmp git clone --branch v0.4.2 https://github.com/pgvector/pgvector.git cd pgvector make make install # 可能需要sudo 在您的数据库中运行此命令以启用扩展 CREATE EXTENSION IF NOT EXISTS vector; 创建一个存储向量的表 CREATE TABLE items (id bigserial PRIMARY KEY, name, features vector(3)); 添加数据的工作原理如下 INSERT INTO items (features) VALUES (‘[1,2,3]’), (‘[4,5,6]’); 由于 pgvector 构建在 postgres 之上因此许多 PG DML 可用。例如。要更新插入您可以运行 INSERT INTO items (id, features) VALUES (1, ‘[1,2,3]’), (2, ‘[4,5,6]’) 2ON CONFLICT (id) DO UPDATE SET features EXCLUDED.features; 4.2、pgvector 查询运算符 在 pgvector 中可以使用各种查询运算符对矢量数据进行不同的操作。这些运算符主要用于计算向量之间的相似度或距离其中一些运算符使用不同的距离度量。以下是一些常用的 pgvector 查询运算符 -该运算符计算两个向量之间的欧几里德距离。欧几里德距离是多维空间中向量表示的点之间的直线距离。较小的欧几里德距离表示向量之间的相似性较大因此该运算符在查找和排序相似项目时非常有用。 SELECT id, name, features, features - ‘[0.45, 0.4, 0.85]’ as distance 2FROM items 3ORDER BY features - ‘[0.45, 0.4, 0.85]’; 该运算符计算两个向量之间的余弦相似度。余弦相似度比较两个向量的方向而不是它们的大小。余弦相似度的范围在 -1 到 1 之间1 表示向量相同0 表示无关-1 表示向量指向相反方向。 SELECT id, name, features, features ‘[0.45, 0.4, 0.85]’ as similarity 2FROM items 3ORDER BY features ‘[0.45, 0.4, 0.85]’ DESC; #该运算符计算两个向量之间的曼哈顿距离也称为 L1 距离或城市街区距离。曼哈顿距离是每个维度对应坐标差的绝对值之和。相对于欧几里德距离而言曼哈顿距离更加强调沿着维度的较小移动。 SELECT id, name, features, features # ‘[0.45, 0.4, 0.85]’ as distance 2FROM items 3ORDER BY features # ‘[0.45, 0.4, 0.85]’;p 在选择适当的运算符时您应该考虑您的应用需求和数据特性。这可能涉及保持相对距离、强调大小或方向以及关注特定维度等因素。请注意根据您的数据和用例运算符的选择可能会对搜索结果的质量以及最终应用程序的有效性产生重大影响。 4.3、pgvector索引 在 pgvector 中可以通过添加索引来使用近似最近邻搜索以提高查询性能。以下是一些关于 pgvector 索引的建议 1、在表中有一定数量的数据后创建索引在创建索引之前确保表中有足够的数据以便索引能够提供更好的查询性能。 2、选择适当数量的列表可以根据表的大小来选择适当数量的列表。一般来说可以使用表的行数除以 1000最多 1M 行和平方根(rows)超过 1M 行作为起点。 3、指定适当的探针数量在执行查询时可以指定适当的探针数量来平衡查询速度和召回率。一般来说可以使用列表数量除以 10最多 1M 行和平方根(lists)超过 1M 行作为起点。 这些建议可以帮助您在近似最近邻搜索中获得良好的准确性和性能。请注意具体的索引配置可能需要根据您的数据和查询需求进行调整以达到最佳性能。 BEGIN; SET LOCAL ivfflat.probes 10; SELECT … COMMIT; 为您要使用的每个距离函数添加一个索引。 L2距离 CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists 100); 内积 CREATE INDEX ON items USING ivfflat (embedding vector_ip_ops) WITH (lists 100); 余弦距离 CREATE INDEX ON items USING ivfflat (embedding vector_cosine_ops) WITH (lists 100); 五、总结 在这篇文章中我们探讨了矢量数据库在管理高维数据和其在各个行业中的应用中的重要性。我们介绍了 pgvector这是一个功能强大的 PostgreSQL 扩展支持矢量数据的存储和搜索并提供了一个易于访问的矢量数据库解决方案。通过实用指南我们演示了如何使用 pgvector 创建表、插入数据和查询相似项。此外我们还讨论了 pgvector 中用于计算相似性度量的不同查询运算符如欧几里得距离、余弦相似度和曼哈顿距离。 通过使用 pgvector我们可以轻松地处理高维数据并根据具体需求进行相似性搜索和分析。pgvector 的直接集成、索引支持和易于查询的语言使其成为处理矢量数据的理想选择。无论是新用户还是长期用户都可以从中获得矢量数据库的好处而无需进行重大系统改动。 在选择适当的查询运算符和索引配置时我们应该考虑数据特性、查询需求以及平衡准确性和性能的要求。通过合理地配置和使用 pgvector我们可以获得高效、准确且可靠的矢量数据解决方案满足不同行业和应用的需求。 项目地址https://github.com/pgvector/pgvector 发布于 2023-07-04 23:33・IP 属地广东
http://www.yutouwan.com/news/422753/

相关文章:

  • 网站建设捌金手指花总四wordpress动效
  • 深圳高端网站建设费用wordpress 死钥链接
  • h5响应式网站公司怎么自己制作微信小程序
  • 权威的手机排行榜网站导航网站制作
  • 昆明做商城网站多少钱无锡响应式网站
  • 网站开发人员绩效考核表网站建设及服务合同书
  • 网站站内内链建设建设网站的注意事项
  • html 网站源码 卖手机机关网站建设费入什么科目
  • 企业创建网站的途径都有啥酒店营销推广方案
  • 十堰市茅箭区建设局网站还能电子商务网站建设
  • 表白网站是怎么做的哪个平台建网站比较好
  • 计算机专业学做网站吗中国网站开发语言
  • 网站开发微信提现功能菜鸟怎样做自己的网站
  • 征婚网站咋做wordpress 评论系统
  • 广州 四合一网站开发网页游戏排行榜前十名大型网络游戏
  • 电子商务就是建网站数据库调用做wordpress
  • 做博客网站如何盈利中国建盏形象设计大赛获奖名单
  • 自己做网站赚钱案例网站制作 符合百度
  • 海外网站备案基于推荐算法的网站开发
  • 芙蓉区网站建设公司广州市官网网站建设平台
  • 高端网站建设哪家好成都h5网站建设
  • 做网站改版多少钱作品集设计
  • 嘉兴企业网站建设公司郑州网站建设msgg
  • 网站建设类课题的研究方法做网站推广好做吗
  • 河北制作网站模板建站公司阿里巴巴怎么做企业网站
  • 抽奖网站开发公司网站谁负责做
  • 网站开发qq群苏州保洁公司诗雨
  • 上海浦东新区做网站一个完整的品牌策划方案范文
  • 网站后台显示不全2016响应式网站模板
  • 中卫网站建设报价网站支付界面怎么做