各种网站建设报价,猴痘的传播途径,网站页面设计费用,贵州省高层建筑信息平台文 | iven从 GPT3 到 Prompt#xff0c;越来越多人发现大模型在零样本学习#xff08;zero-shot#xff09;的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。但有一件事让人非常疑惑#xff1a;19 年 T5 通过“调参”发现#xff0c;设计预训练模型时#x… 文 | iven从 GPT3 到 Prompt越来越多人发现大模型在零样本学习zero-shot的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。但有一件事让人非常疑惑19 年 T5 通过“调参”发现设计预训练模型时Encoder-Decoder 的模型结构 MLM 任务在下游任务 finetune 效果是最好的。可是在 2202 年的当下主流的大模型用的都是仅 decoder 的模型结构设计比如 OpenAI 的 GPT 系列、Google 的 PaLM [1]、Deepmind 的 Chinchilla [2] 等等。这是为什么难道这些大模型设计都有问题今天带来一篇 Hugging Face 和 Google 的文章。这篇文章与 T5 在实验上的思路相似通过大量对比设计得到一个重磅结论要是为了模型的 zero-shot 泛化能力decoder 结构 语言模型任务最好要是再 multitask finetuningencoder-decoder 结构 MLM 任务最好。除了找到最好的训练方式作者通过大量的实验还找到了最好的同时还能最节省成本的训练方式。训练计算量只需要九分之一论文题目: What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?论文链接: https://arxiv.org/abs/2204.05832模型设计模型设计可以分成图中的四个方面即选什么结构什么训练目标要不要搞 adaptationmultitask finetuning文章还在两个 benchmark 进行了评测。模型结构 Architecture模型结构都基于 transformer有三个选项如图所示Causal decoder-only (CD)直接只用 transformer decoder。这类模型大多使用语言模型的训练目标即通过上文预测当前 token。代表作有 GPT 系列。Non-causal decoder-only (ND)为了能在给定条件下生成或基于输入生成训练时可以让前面一部分 token 可见。Encoder-decoder (ED)这就是原始 transformer 的结构输入一个序列encoder 输出同样长度的向量表示序列decoder 基于 encoder 的输出做有条件的自回归生成。小结一下CD 是只用 decoderND 是给提示的 decoderED 是 encoder-decoder。后面将用缩写表示。训练目标 Objective与模型结构对应训练目标也有三种Full language modeling (FLM)CD 类的模型架构常用 FLM通过上文预测当前 token。在训练时每个 token 可以并行计算出 loss预测时要迭代预测。Prefix language modeling (PLM)ND 类和 ED 类的模型架构可以用 PLM。首先在 attention 矩阵中定义一段 prefix训练时要求模型生成 prefix 后面的 tokens。Masked language modeling (MLM)只用 Encoder 的模型常用 MLM 目标。后来在 T5 这个 seq2seq 模型里也使用了整段 mask 的 MLM 任务。小结一下FLM 就是语言模型目标PLM 是带提示的语言模型目标MLM 是掩码目标。后面也会用缩写表示。适应任务 Adaptation适应任务是预训练之后换一个新的训练目标继续训练。与 finetune 不同的是适应的过程并没有使用新的下游任务的数据只是继续使用预训练的数据。适应任务也可以分成两类。Language modeling adaptation (LM-A)预训练用 MLM后面再用 PLM 或 FLM 继续训练。MLM FLM 就是 T5 采用的方式而 MLM PLM就是之前非常火的连续化 prompt-tuning 的方法比如 prefix-tuning 等等。Non-causal MLM adaptation (NC-A) 预训练用的是 PLM后面再用 FLM 继续训练。这个方法是本文首次提出的给 decoder 前面一部分 prefix 固定住用 PLM 目标训练相当于给 GPT 做 prefix-tuning。多任务微调 Multitask finetuning多任务微调 multitask finetuning (MT-F) 是 Hugging Face 去年年底的工作 [3]即拿到预训练模型给他在 171 个任务上用 prompt 的方式同时 finetune。这种方式可以极大地增加预训练模型的 zero-shot 能力。实验和结论评测任务这篇文章用了两个 benchmarkEleutherAI LM Evaluation Harness (EAI-Eval)这个任务是用来评测语言模型也就是本文中使用 FLM 训练目标的模型的 zero-shot 能力。T0 的测试集 (T0-Eval)就是 Hugging Face 之前 multitask finetuning 工作使用的测试集。这两个测试集都是用 prompt 的方式进行测试即直接构建 prompt 输入给预训练模型让模型生成预测结果。两个测试集不同的地方在于EAI-Eval 的每个任务只给了一个 prompt因此评测受 prompt 波动影响比较大因此在本文的测试里作者们为每个任务多设计了一些 prompts来消除随机性。结论实验得到如下结论只无监督预训练时CD 的模型结构 FLM 训练目标 zero shot 最好的模型。这里就跟现在的大模型对上了。大模型都用的是这个组合有最好的零样本泛化能力。预训练之后再加上多任务微调时ED 的模型结构 MLM 训练目标 zero shot 最好的模型。这张图左右表示两个评测集。每张图上都有九个点代表九个模型架构和训练目标的组合。左边 T0-Eval 上结果非常明显可以将九个组合分成三组左边是几个 baseline中间是三种模型结构 语言模型训练目标右边是三种模型结构 MLM 训练目标。可以明显看到MLM 训练目标明显更好MLM ED 最好。适应任务的作用预训练之后换一个新的训练目标继续训练这带来的主要是训练成本的降低。比如左图本身我们想要一个 CD FLM 的结合那就先训一个 ND MLM然后改成 CD FLM 再做适应任务这样可以总体提速 1.6 倍。经过一系列实验作者最后总结出一个结论如果想最低成本的构建效果好的大模型那就用 CD FLM 预训练然后再改用 ND MLM 做适应任务最后再使用多任务微调。这样的训练方式要比直接训练提速 9.1 倍同时效果最好。总结这篇文章跟 T5 非常像也是用调参的感觉在设计实验最终找到最好的模型设计和训练方式。这样的论文读下来也感觉逻辑清晰严谨。但是从另外一个角度想这样的文章似乎也有些无聊现在大模型的使用变成了找 prompt 的特征工程。这篇文章的训练和设计也变成了调参而失去了创新的灵机一动。这可能代表了大模型领域的内卷吧。萌屋作者在北大读研目前做信息抽取对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心 ヾ(ω)o作品推荐老板让我用少量样本 finetune 模型我还有救吗急急急在线等谷歌CNN 击败 Transformer有望成为预训练界新霸主LeCun 却沉默了...中文 BERT 上分新技巧多粒度信息来帮忙恕我直言很多小样本学习的工作就是不切实际的你的 GNN可能 99% 的参数都是冗余的后台回复关键词【入群】加入卖萌屋NLP、CV、搜推广与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Aakanksha Chowdhery, et. el., Palm: Scaling language modeling with pathways., https://arxiv.org/abs/2204.02311[2]Jordan Hoffmann, et. al., Training Compute-Optimal Large Language Models., https://arxiv.org/abs/2203.15556[3]Victor Sanh, et. al., Multitask Prompted Training Enables Zero-Shot Task Generalization, https://arxiv.org/abs/2110.08207