当前位置: 首页 > news >正文

大学信息化建设 网站群如何利用视频网站做推广

大学信息化建设 网站群,如何利用视频网站做推广,wordpress屏蔽广告插件,潍坊网站建设解决方案深度学习自然语言处理 原创作者#xff1a;cola 用外部工具增强大型语言模型(LLM)已经成为解决复杂问题的一种方法。然而#xff0c;用样例数据对LLM进行微调的传统方法#xff0c;可能既昂贵又局限于一组预定义的工具。最近的上下文学习范式缓解了这一问题#xff0c;但有… 深度学习自然语言处理 原创作者cola 用外部工具增强大型语言模型(LLM)已经成为解决复杂问题的一种方法。然而用样例数据对LLM进行微调的传统方法可能既昂贵又局限于一组预定义的工具。最近的上下文学习范式缓解了这一问题但有限的上下文长度局限于少样本样例导致不能完全挖掘工具的潜力。此外当有许多工具可供选择时上下文学习可能完全不起作用。因此本文提出了一种替代方法ToolkenGPT它结合了双方的优势。 论文ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings 地址https://arxiv.org/abs/2305.11054 介绍 LLM已经成为各种现实世界应用程序的强大工具。随着这些模型的不断发展人们对其与现实世界交互的潜力越来越感兴趣并通过与其他工具集成来增强其功能如计算器、数据库等。这些模型掌握和控制各种工具的能力不仅是其智能的标志还标志着一条有希望的克服其部分基本弱点的道路。包括更新最新的世界知识减少其幻觉以及执行符号操作等。 然而新工具的迅速出现如高级软件库、新颖的API或特定领域的实用程序为LLM的工具学习任务带来了额外的丰富和复杂性。这种不断的演变强调了赋予LLM快速适应和掌握大量新工具的能力的重要性。 表1展示了与LLM的工具集成的两种主要研究方法。第一种方法涉及微调以学习特定工具。虽然这种方法可以产生很好的结果但它的计算成本很高并且缺乏对新工具的适应性。第二种方法依赖于上下文学习LLM通过提示中提供的上下文样例来学习如何使用工具。这种方法允许LLM处理新引入的工具。然而上下文学习有其独特的局限性使它不可能在上下文中使用大量的工具。此外仅通过少量样本掌握新工具可能具有挑战性。本文提出ToolkenGPT一种使LLM能够掌握大量的工具而不需要任何微调同时允许LLM快速适应新工具。ToolkenGPT的关键思想是将每个工具表示为一个新token(“toolken”)以增加词汇表。具体来说每个工具都与插入到LLM头部的嵌入相关联就像常规的单词tokens嵌入一样。在生成过程中一旦预测到toolken, LLM临时切换到特殊模式(通过提示)以产生工具要执行的输入参数并将输出注入到生成中(参见图1)。这种方法为LLM提供了一种有效的方法只需学习轻量级toolken嵌入即可掌握工具。因此ToolkenGPT结合了微调和上下文学习范式的优势同时避免了它们的局限性:与只能容纳少量工具和少量样例的上下文学习相比ToolkenGPT允许大量工具(通过简单地在词汇表中插入各自的工具)并可以使用广泛的样例数据来学习toolken嵌入;与微调相比不仅需要最小的训练成本而且还提供了一种方便的方法通过扩展toolken词汇表来动态插入任意新工具。 ToolkenGPT掌握大量工具 首先介绍一下工具使用语言建模的背景和符号表示。通常LLMs对单词标记序列为其中每个单词token来自LLM的词汇,即,表示第步之前的部分词token序列。在实践中通常设置序列的前缀(称为提示)以引导LLM生成所需的内容。进一步深入下一个token的分布被预测为其中是当前上下文的最后一个隐藏状态是单词token的嵌入矩阵(也称为语言模型头)。 给定工具集,我们的目标是使LLM能够调用这些工具的子集来解决复杂的问题。所提出的灵活公式允许工具通过返回一些可以帮助LLM进行文本生成(例如计算)或影响现实世界环境(例如机器人动作)的结果来发挥作用。要在生成过程中调用工具LLM首先需要选择工具然后输入参数。在图1所示的运行示例中在答案生成过程(“Reasoning model”)中选择数学运算符square作为工具并在“工具模式”中生成一个操作数16作为参数。一旦外部工具收到调用它就会执行工具并返回结果256返回Reasoning model。 框架概览 ToolkenGPT的核心思想是明确地将工具制定为token。每个工具集被参数化为一个工具集嵌入向量我们将一组工具集嵌入表示为一个矩阵即。假设我们已经训练了toolken嵌入如图1所示LLM默认处于推理模式以生成下一个token。该框架允许LLM统一考虑单词token和工具token。具体来说工具嵌入矩阵与连接。因此LLM预测下一个token的概率如下:其中下一个token可以是词token也可以是工具集即且[;]是拼接操作。我们将工具表述为toolken嵌入自然允许通过扩展toolken嵌入矩阵来快速适应新工具。要执行工具一旦其toolken被预测为下一个令牌(如图1中的“mode switch”所示)LLM将切换到“tool mode”其目的是为工具生成参数。 具体来说LLM暂停生成并将当前生成的上下文附加到另一个提示符。工具模式下的提示由预测工具的上下文样例组成展示如何通过引用特殊语法[tool]中的工具调用来生成工具参数。然后LLM可以在样例中遵循模式来完成当前工具调用的参数。与之前完全依赖上下文学习进行工具学习的方法相比所提出框架只将完成论证的简单工作留给上下文学习。此外对于单个指定工具的样例将有丰富的上下文空间。最后将参数发送到指定的工具执行并将返回值发送回推理模式下的文本。 学习工具嵌入 该框架冻结了原始LLM的参数并使用工具嵌入引入了最小的额外训练开销。该嵌入矩阵包含唯一需要优化的参数但与其他有效的LLM微调方法不同它不需要梯度流过LLM参数的主体从而导致非常稳定和高效的训练。因此toolken嵌入的微调与LLM推理使用了几乎相同的GPU内存。每当添加新工具时toolken嵌入可以方便地扩展然后在涉及新工具的工具样例数据上的后续训练逐渐细化其嵌入。此外与只将少数示例消化为训练信号的上下文学习方法不同ToolkenGPT能够从大规模样例中调整工具嵌入。 本文主要关注通过工具样例学习工具嵌入它可以是域内训练数据也可以是LLM生成的合成数据。我们首先描述训练数据的格式和训练目标并使用图1中的相同示例来展示如何将其用于训练。例如the area is 256 square feet …可以标记为token序列s(the,area,is,2,5,6,square ,feet,…)。为了表明何时预测工具集我们需要一个混合了词token和工具集的平行序列即s(“the”,“area”,“is”,“[square]”,“[N/a]”,“[N/a]”,“square”,“feet”,…)。在s中(“2”,“5”,“6”)的子序列是返回的工具结果应该填充的地方我们选择s中对应的第一个token作为工具调用的工具以下token填充[N/A]表示在损失计算中被忽略。因此给定一个由配对序列D{(s,s)}组成的数据集ToolkenGPT的训练目标为: 其中在公式1中定义了是指示函数表示我们在训练期间忽略[N/A]标记。因此我们的训练过程在很大程度上与推理模式中的推理一致。 获取配对数据的方法主要有两种。首先一些数据集与自然语言序列一起提供了基准事实工具调用。为了将数据用于监督学习我们对其进行预处理以获得训练所需的成对数据如上文所述。其次探索了用LLM合成工具样例分享了与自指导类似的想法。对这个过程的直观解释是将LLM中的知识提取到新的工具嵌入中。具体来说我们可以用工具文档和一些具有特殊语法指示工具调用的样例来提示LLM例如The capital of U.S. is capital (U.S.)Washington D.C.。在此基础上LLM可以生成一些新的用例这些用例利用给定的工具并使用相同的语法引用工具调用。然后我们可以轻松地定位工具调用并将数据处理为用于训练的成对数据。 实验 作者将ToolkenGPT应用于三个不同的应用:用于数值推理的算术工具、用于基于知识的问答的数据库API、用于具具计划生成的机器人动作。重点关注方法如何准确地调用工具以及它们如何成功地解决任务。实验表明ToolkenGPT可以有效地掌握大量工具同时利用它们来解决复杂问题性能有所提高始终优于先进的提示技术。 数理推理 探索四个基本算术函数(、−、×、÷)的可用性。此外为了对更复杂数学问题中的工具处理能力进行基准测试包括更多可用的工具即扩展的函数集并创建一组合成数据。结果表明通过仅在合成数据上进行训练ToolkenGPT显著优于基线。 数据集 为全面评估工具学习在数值推理方面的能力策划了两个新的测试数据集: GSM8K-XL现有GSM8K数据集的增强版本。GSM8K是一个包含不同语言的小学数学应用题的数据集涉及使用4种基本算术运算(、−、×、÷)进行一系列计算以得到最终答案。在测试集中我们放大数字以增加LLMs的计算难度这导致了GSM8K-XL数据集具有568个具有更大数字的测试用例。FuncQA该数据集需要至少13个运算符(如power、sqrt、lcm)来解决在没有外部计算器的情况下人类和LLM都具有挑战性。将FuncQA分为两个子集:68个只需一次操作即可求解的单跳问题(one-hop question, FuncQAone)和60个需要少量推理步骤的多跳问题(multi-hop question, FuncQAmulti)。 对比方法 我们为每个可用的数学运算符训练toolken嵌入。在推理过程中用4-shot思维链的例子来提示LLM。为了进行比较对以下基线进行了评估: 使用ChatGPT作为基础LLM。这个基线衡量了LLM用其自身的推理和计算能力回答复杂数值推理问题的能力。思维链(chain -of- thought, CoT)是一种更先进的提示技术。在这种方法中精心设计了一系列相互关联的提示以指导LLM一步步地推理过程。示例中的推理链与我们在ToolkenGPT中使用的推理链相同但没有可用的函数。ReAct通过促使LLM以交错的方式生成语言推理轨迹和工具调用将推理和工具相结合。具体来说不仅仅是提供推理链还引入了特殊的语法来调用操作符。一旦在推理过程中检测到语法就会调用该工具来计算结果。 结果分析 表2显示了所有方法在GSM8K-XL和FuncQA数据集上的性能。在GSM8K-XL数据集上使用CoT的零样本ChatGPT和少样本学习在没有工具帮助的情况下很难计算大量的数字而ReAct和ToolkenGPT设法以较大的幅度持续提高准确性。这两个方法都可以在必要时调用正确的工具因为工具集只有4个基本操作符。 然而对于FuncQAone和FuncQAmulti数据集随着工具数量的增加学习调用适用的工具变得具有挑战性。在ReAct中尽管所有的工具都列在提示符的开头但在有限的上下文中包括每个工具的样例是不可行的。因此ReAct很容易受到缺少工具调用、错误的工具调用和预测错误的参数的影响特别是对于没有在上下文中样例的工具。ToolkenGPT在单跳和多跳场景中都优于所有基线当有许多工具时显示出卓越的工具学习能力。 基于知识的问答 由于有限的知识限制LLM经常犯事实错误和幻觉。让它们能够访问知识库(KBs)是一个有希望的研究方向以减少它们的幻觉。我们将对知识库的访问表述为查询数据库的API。因此每个关系查询都可以被视为一个工具其输入参数是主题实体输出是相应的尾部实体。 数据集 KAMEL是一个基于Wikidata的问答数据集。参照ToolFormer采用KAMEL来评估KB查询工具的使用情况。KAMEL包含了来自Wikidata的243个关系的知识每个关系都与一个问题模板相关联以便将Wikidata中的一个事实转换为一个问题。这个数据集总共有234个工具。为了分析不同数量工具的性能我们从原始测试集中抽样创建了四个子集。每个子集由与不同数量关系相关的问题组成分别对应于30、60、100和234。每个子集的大小是500。 对比方法 我们设置了两个不同的框架 ToolkenGPT(sup):从KAMEL的训练集中每个关系采样200个示例并通过监督学习训练toolken嵌入。该设置表示有足够的域内训练数据可用的真实场景。ToolkenGPT(syn):假设域内训练数据不可用使用每个关系的文本描述与ChatGPT合成训练数据使用潜在的工具winner_of(NOBEL PEACE PRIZE IN 2020)→UNITED NATIONS WORLD FOOD PROGRAMME。平均使用40个示例来训练每个toolken嵌入。 本文提出以下比较基线: 提示用LLM的内部知识回答问题。我们在 question:[QUESTION]\nThe answer is提示符中构建每个问题并让LLM继续这个句子。上下文学习(ICL)在提出问题之前我们列出所有可用工具的工具样例和描述。样例以特定的语法显示以便LLM可以以类似的风格生成以进行解析。上下文学习(desc)所有可用工具的描述将在上下文中提供但它们的样例并不直接显示。相反我们展示了测试子集中不包含的工具的样例。 所有方法的基本模型都是LLaMA-13B。 结果分析 我们在图2中展示了涉及不同数量关系的4个测试集上的实验结果。ToolkenGPT(sup)取得了最高的结果表明在有大量域内训练数据时学习toolken嵌入是一种有效的方法。相反即使上下文学习也会在上下文中看到域内训练数据但它仍然不清楚要调用哪些工具。此外当要使用的工具超过30个时上下文长度限制会导致性能急剧下降。多工具场景中的失败揭示了上下文学习范式的根本局限性。ToolkenGPT(syn)在所有子集中也优于所有其他基线。 合成训练数据通常与数据集具有非常不同的表达风格但仍然有助于LLM理解这些关系。这一成功反映了该框架的灵活性即使在没有域内训练数据可用的情况下也可以应用。上下文学习(desc)在这项任务中通常失败因为LLM很难记忆在上下文中显示的文本描述并将其映射到关系标识符。该结果证实了LLM在使用不熟悉的工具时存在困难这一猜想。基于这种观察我们有理由推测LLM主要是从它们的标识符中回忆工具而不是真正从它们的描述中学习使用工具。 具身计划生成 最近有许多研究尝试利用LLM作为具身智能体的控制器。我们也探索了所提出框架如何应用于具身智能体的计划生成。与之前提示LLM的方法相比ToolkenGPT可以通过学习智能体动作和对象的toolken嵌入来更好地理解环境。 数据集 VirtualHome一个典型家庭活动的仿真平台活动程序知识库由许多可在VirtualHome中执行的任务和计划组成。从活动程序中得出297个任务的子集。对于每个任务给模型一个高级目标(例如:“读书”)、详细的指令(例如:“我会躺在床上打开书开始阅读”以及对环境的描述其中包括初始状态和环境的对象列表(例如:“我在[家庭办公室]。我可以操作的对象是[邮件冰箱电视…,‘小说’)”。该模型被期望输出一个可执行的计划它是一个动词-对象指令的有序列表。每个任务都有一个初始状态图和最终状态图从而能够使用模拟器验证生成的计划并将最终状态与真实状态进行比较。我们将数据集划分为包含247个任务的训练集和包含50个任务的测试集数据集中总共使用了25个动词和32个对象。 对比方法 我们认为VirtualHome中的所有动作和对象都是工具。加上一个额外的[END]函数表示计划的结束我们总共有58个工具。对于这个数据集我们不需要图1中描述的参数生成过程因为这些工具不接受参数。在推理过程中ToolkenGPT交替生成动作工具和对象工具并以[END]工具结束。toolken嵌入在训练集上进行训练。将该方法与以下基线进行了比较: 上下文学习提示LLM并将其输出解析为计划。LLM显示了行动列表、3个样例计划和一个具有目标、详细描述和环境描述的新任务。Translation:使用SentenceRoBERTa-large将动作或对象转换为具有最高余弦相似度的可用动作或对象。Grounded Decoding用affordance grounding函数鼓励LLM生成有效的动作和对象。 结果分析 我们在表3中列出了结果。尽管使用上下文学习的LLM在上下文中明确列出了所有有效的动作和对象但有时它不能将其预测作为可接受的指令的基础。即使动作和对象是有效的但在VirtualHome中往往违反物理规律导致成功率较低。ToolkenGPT不仅通过其设计自然地预测有效的动作和对象而且还通过从更多的训练任务中学习toolken嵌入来实现最高的成功率。图3展示了一个具体的例子来说明差异。 分析 计算损耗 通过实验比较了ToolkenGPT和微调在计算效率和性能方面的差异。本文在LLaMA-7B上实现了这两种方法。结果列在表4中。对LLMs进行微调后在FuncQA上的性能略好于ToolkenGPT。即使我们应用了以效率著称的LoRA但与训练工具嵌入相比微调的时间消耗明显更长。 消融学习 ToolkenGPT的设计有利于工具选择和参数完成。为了理解它们各自对性能的贡献我们进一步实现了一个将ReAct-style的提示和参数完成的子程序(工具模式)相结合的基线。在工具模式下LLM只使用所选工具对样例进行提示这将提供比ReAct提示更相关的知识。如表5所示添加工具模式确实可以通过提高参数补全的准确性来改进普通的ReAct提示方法。然而ToolkenGPT仍然在很大程度上优于这个改进的基线这表明toolken嵌入有效地帮助LLM决定何时调用以及调用哪个工具。 训练数据 因为有两种不同的训练数据来源并且很容易处理或合成更多的数据所以在KAMEL上扩展实验。对每个工具的ToolkenGPT(sup)和ToolkenGPT(syn)进行了10/20/40的训练样本采样并报告了在包含30个工具的测试集上的精度。结果汇总在表6中。在相同的数据规模预算下使用监督数据进行训练可以获得更好的性能。尽管在大多数合成数据实例中没有观察到明显的错误但合成数据和测试集之间的分布差距可能会阻止toolken嵌入的良好表现。更大的训练集有利于提高两个数据源的性能。 总结 提出了ToolkenGPT一种用大量外部工具来增强LLM的新方法。该方法为每个工具引入了toolken嵌入的概念使LLM能够像生成单词标记一样轻松地调用和使用不同的工具。该方法克服了当前微调和上下文学习范式的限制使LLM能够适应更大的工具集并使用广泛的样例数据来学习工具嵌入。ToolkenGPT能够快速适应和利用新工具表明它有能力跟上不断发展的大规模工具的步伐。 备注昵称-学校/公司-方向/会议(eg.ACL)进入技术/投稿群 idDLNLPer记得备注呦
http://www.sadfv.cn/news/12013/

相关文章:

  • 沈阳网站建设公司的公司海南网上房地产
  • 鞋网站建设方案如何用dw做网站首页
  • ps做网站图片牙克石网站建设
  • 网站开发 html中国建设门户网站
  • 山西建筑劳务网站网站开发 在线支付
  • 免费快速网站动画设计属于什么专业类别
  • 易网 网站建设自建网站避免侵权
  • 安徽省建设厅证书查询官方网站wordpress更换域名后显示空白
  • 云南火电建设公司网站网站绿标怎么做
  • 上海市建设合同信息表网站做诱导网站
  • 做蛋糕网站的 实训报告图wordpress ip地址修改
  • 成都中小企业申请网站郑州百姓网征婚交友
  • 网站构建是什么低内存vps搭建WordPress
  • 临沂国际外贸网站建设.vip网站 被百度收录
  • 惠州自适应网站建设外包接单网
  • 网站做微信支付网站开发团队人员构成
  • 南昌网站开发制作公司纪检监察网站建设的意义
  • 论坛网站需要多大的空间手机端的网站怎么做的
  • 网站建设需要注意什么 知乎湛江市seo网站设计报价
  • 建立网站代码seo优化是什么职位
  • 精品个人网站源码下载网站开发服务费入什么科目
  • 深圳网站官网建设网站返利程序
  • 星月教你做网站回顾文档微信怎么做小程序的
  • 关于网站建设请示百度网站优化推广
  • 电商网站的宣传推广巢湖网站制作
  • 佛山网站建设 奇锐科技设计公司简介范文
  • 照明网站建设微信开发网站开发未来前景
  • 网上招聘网站开发报告郑州量站站软件开发有限公司
  • 武义住房和城乡建设局网站网站经营性备案多少钱
  • 网站外链优化方法腾讯云服务器centos做静态网站