腾讯广告卖东西怎么建设网站,百度一键安装,科技有限公司起名,aws注册wordpress笔记整理 | 李磊#xff0c;浙江大学硕士#xff0c;研究方向为自然语言处理链接#xff1a;https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型#xff08;如GPT#xff09;在预训练阶段学习到了大量的知识#xff0c;具有很好的学习新任务的能力#xff0c… 笔记整理 | 李磊浙江大学硕士研究方向为自然语言处理链接https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型如GPT在预训练阶段学习到了大量的知识具有很好的学习新任务的能力给定几个“任务示例”模型可以很快的学习到任务形式并回答新问题但这种能力仅限于文本领域。Prompt tuning通过添加提示信息充分挖掘预训练语言模型蕴含的知识在few-shot场景下取得了良好的效果。作者提出了Frozen 利用Visual Encoder对图片进行编码编码得到的结果作为prompt与文本一起送入语言模型中试图将大规模语言模型和prompt应用于多模态领域。在VQA、OKVQA、miniImageNet等多个数据集的多模态few-shot场景下进行了实验结果表明Frozen有效的利用了预训练语言模型的先验知识具有很好的迁移学习能力、模型结构图 1模型结构图如图1所示模型结构主要分为两个部分1.预训练自回归语言模型在公共数据集C4上预训练一个基于transformer结构的深度自回归语言模型模型具有70亿参数。2.视觉编码器基于NF-ResNet-50主要功能是将原始的图片映射为连续的序列以便transformer模型进行处理。将NF-Resnet全局池化层后的结果作为最终输出向量。受Prefix-tuning的启发作者将视觉编码器的输出作为视觉prefix与文本一起送入语言模型中。这种方式将静态的文本prefix转换成动态的视觉prefix输入的图片不同产生的视觉prefix也不同从而更好地“提示”语言模型。训练如图1所示训练时采用image-caption数据集输入是图片文本对以生成式的方式输出对图片的描述文本信息。训练过程中冻结语言模型仅训练视觉编码器。在k-shot场景下需要给出几个示例因此模型的输入可能会包含多个图片文本对作者使用相对位置编码使图文始终在对应文本之前。实验作者以下三个角度进行了实验1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding1.Rapid Task Adaptation图 2 Rapid Task Adaptation结果测试在image-caption上训练的模型在VQA数据集上的表现并设置了多个对照模型。Frozen scratch表示语言模型是随机初始化的Frozen finetuned 表示语言模型使用预训练权重Frozen train-blind 控制视觉编码器的输入始终是黑色图像。可以发现Frozen随着提供示例n的增多效果有所提升。2.Encyclopedic Knowledge图 3 Encyclopedic Knowledge结果此部分测试了Frozen在需要外部知识的OKVQA数据集上的表现Frozen同样在Image-caption上进行训练。同时比较了语言模型大小对结果的影响Frozen 400mLM。3.Fast Concept Binding图 4 Fast Concept Binding输入示例如图4所示将blicket和dax等无实际意义的词与某一事物类别进行绑定同时给出几个示例测试模型是否具有概念绑定的能力。图 5 概念数等于2时的结果图 6 概念数等于5时的结果作者还进一步测试了概念绑定与外部知识结合的场景下Frozen的效果。随着任务难度增加Frozen的效果也有所下降但提供的示例数增加的时候Frozen能从示例中提取到相关知识指导结果的生成。 OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。