当前位置: 首页 > news >正文

苍溪建设局网站常州网站建设咨询

苍溪建设局网站,常州网站建设咨询,山东建设厅网站,永久免费空间0 Abstract 普遍认为#xff0c;LLM涌现出来的few-shot learning能力是超大参数模型独有的#xff08;100B#xff09;【emergent abilities】#xff1b;作者认为#xff0c;小模型#xff08;10B#xff09;可以将这些能力从大模型#xff08;100B…0 Abstract 普遍认为LLM涌现出来的few-shot learning能力是超大参数模型独有的100B【emergent abilities】作者认为小模型10B可以将这些能力从大模型100B蒸馏下来【GPT3.5 - T5】大模型具有强大的建模能力但是它们需要处理各种各样的任务小模型虽容量有限但集中在特定任务上模型可以达到不错的效果【model specialization】文章采用的测试任务是模型的multi-step math reasoning能力并提供关于【微调数据格式】、【起始模型checkpoint】和【新的模型选择方法】的全面讨论。 1 Introduction 大模型在CoT的加持下可以很好地解决数学推理等问题而这种能力只有模型参数到达一定数量时才涌现出来 大模型在强大的同时但哪里获得微调100B模型的算力如果小模型也能获得CoT加持是非常理想的但是有研究指出在小规模模型上使用CoT甚至会有负面影响 普遍认为让小模型从CoT中获益是非常困难的但文章假设将小模型运用于专有任务也可以达到很好的modeling performance而非聚焦于模型的通用能力 文章方法从GPT3.5175B上将其CoT reasoning的能力蒸馏到FlanT511B上。FlanT5是基于T5小模型经过CoT指令微调得到的它具有CoT的通用能力但相较大模型差得多 文章的发现与贡献 通过实验证明当小模型专有化时也可以得到跟大模型类似的CoT scaling curve详细描述了如何将模型的泛化能力转移到专有能力现有方法通常在同一数据集的val set选择模型而本文在多个不同的math reasoning dataset做选择以防止over-fitting提高模型的OOD能力。 2 Background LLM ability现有范式是训练base model - tuning并且发现了CoT中模型随着scale增大的涌现能力专门化模型对于大模型不必权衡不同任务的表现。而小模型由于容量有限需要舍弃通用能力常见做法是通过特定的data微调但是这种方法通常没有OOD能力即出现了over-fitting本文关注的重点是【模型专门化过程中的能力权衡即在目标任务上的泛化能力确保模型的in-distribution and OOD performance】而不是蒸馏或者数据增强相关工作FlanT5小模型CoT通用能力、Huang et al.大模型在CoT上的微调 3 Specializing Multi-Step Reasoning Dataset在GSM8K数据集上微调但是在MultiArith, ASDiv, SVAMP上validation并且在BigBench Hard上测试模型在专有任务的泛化能力 ModelT5和FlanT5作为基础模型code-davinci-002【OpenAI的一个基础模型适用于纯代码补全任务隶属于GPT系列】生成蒸馏/专有数据 3.1 Distillation from Code-Davinci-002 采用Code-Davinci-002生成训练所需要的微调数据集主要有以下四种format 通过这四种数据格式作者可以探索以下问题 上下文信息对模型性能的影响是什么CoT提示是否有助于提高模型性能模型是否可以在没有任何提示或上下文的情况下执行任务 训练时让teacher和student的输出分布用KL散度进行衡量仅存储分布的top-5节约内存因为top-5的概率之和已经接近于1 3.2 Aligning tokenizers by dynamic programming 由于GPT和T5所采用的tokenizer不同需要解决两者分布的misalignment。使用动态规划来解决alignment问题【复杂】 4 Experiments 实验目的可以提升小模型数学CoT性能的scale curve的程度以及它的代价是多少 4.1 Overall Performance Tradeoff 微调使用GSM8K数据集让code-davinci-002生成40个CoT solutions选择回答正确的进行微调测试在GSM8K上测试in-distribution能力在MultiArith, ASDiv, and SVAMP上测试OOD能力在BigBench Hard上测试模型泛化能力结论小结专有化的FlanT5在四个数据集均有大提升但是在BBH损失了全部的CoT性能和大部分AO性能【这证明文章的假设可以损失小模型的泛化能力来提升专有能力的性能达到比肩大模型的效果】 4.2 Scaling Behavior of Smaller Models’ CoT Ability 普遍认为小模型的scale curve是平坦的如同A图左边的部分文章指出小模型T5和FlanT5可以在CoT tuning后呈现log-linear的scale curve推翻“大模型涌现”这个说法【在tuning之前小模型只是因为模型能力不足导致中间步骤推理出错进而导致完全错误的结论而不是代表小模型完全没有解决问题的能力只是才scale足够大才涌现】经过CoT指令微调的FlanT5在专有化后性能提升相较于raw T5有更大提升。 4.3 Specialization Process and Generalization Behaviors 蒸馏初期模型就会失去CoT和大部分AO能力而后专有能力波动提升在专有能力中in-distribution和OOD能力是波动的建议根据实际应用选择checkpoint 4.4 Further Design Choices Analysis 蒸馏训练中使用distribution match策略更优 训练中如果使用in-context learning训练模型在测试时同时具有in-context和zero-shot能力而如果只使用zero-shot训练模型将损失几乎所有的in-context能力这就是为什么文章需要混合不同format的数据。
http://www.sadfv.cn/news/17383/

相关文章:

  • 网站开发绩效指标百度指数排名
  • 网站开发使用的软件广东网站设计公司价格
  • 公司网站报价网络营销产品策略的内容
  • 简述电子商务网站建设的主要步骤龙岗网站建设公司哪家口碑好
  • 杭州手机网站建设手机编程软件哪个好
  • 个人设计师网站建设银行网站打不开用什么浏览器
  • 自建网站做淘宝联盟长春网站建设产品展示
  • 部队网站怎么做营销网站建设与管理
  • 建筑企业网站ui培训怎么样
  • 网站毕设代做贵阳网站建设公
  • 四川省城乡住房建设厅网站新泰网页定制
  • 荆门网站建设514885南昌seo网站推广费用
  • 如何进入优容网站能免费观看所有电视剧的app
  • html5网站后台怎么做如何修改网站备案的域名
  • 肇庆企业做网站福州外文网站建设
  • 个人做网站需要学什么只是网站改版的几个建议
  • 深圳创意设计网站在线工具查看源代码
  • 昆明住房和城乡建设部网站wordpress建站 网盘视频教程
  • 信息技术网站建设专业建材网站设计
  • 个人模板建站网站的意义
  • 丹徒网站建设价格wordpress固定连接出现中文
  • 怎么做网站301转向wordpress使用视频教程
  • 做网站毕业设计存在的问题网上做网站怎么赚钱吗
  • 制作网站时搜索图标如何做wordpress 宣布停止
  • 广州网站优化公司咨询怎么在word里做网站
  • 通化县住房和城乡建设局网站福建龙岩昨天发生的新闻
  • 网站备案需要哪些东西免费网站可以做cpa
  • 洞头建设局网站网站付款链接怎么做的
  • .net 网站开发工程师东莞互联网大公司有哪些
  • 站长之家seo综合查询站酷网页设计分析