做网站背景图的科技图片,建设官方企业网站,辽宁建设工程信息网直接发包工程,课程设计代做网站php文 | ????????????????编 | 小轶以前的小样本学习#xff08;Few-shot Learning#xff09;#xff0c;是需要用一个巨大的训练集训练的。测试时只给出 n-way k-shot#xff0c;在这 N * k 个样本上学习并预测。我第一次看到这种任务设定的时候真是非常失望… 文 | ????????????????编 | 小轶以前的小样本学习Few-shot Learning是需要用一个巨大的训练集训练的。测试时只给出 n-way k-shot在这 N * k 个样本上学习并预测。我第一次看到这种任务设定的时候真是非常失望这和现实情况的需求也相差太远了真实场景下的小样本学习哪有大量的训练数据呢从 GPT3 开始学术界开启了一个新的小样本风潮。借助预训练模型人们只给出几条或几十条样本作为训练集用小小训练集进行 finetune。看到这些工作我觉得这样才是真正的小样本学习最近有一些工作也在这种任务设定下取得了不错的进展。所谓prompt就是结合具体场景设计新的 finetune 任务形式从而将与当前任务相关的提示信息prompt引入模型以此更好地利用预训练模型的结构与先验知识。我们大名鼎鼎的 GPT 系列就是这么干的。比如我们拿 GPT3 做 QA 的 finetune直接喂给他一串“Question问题内容 Answer”剩下的答案部分就让 GPT3 自己填完。卖萌屋之前还推送过其中一个工作刚刚被评为 NAACL 的最佳短文详见这里。这篇工作表明基于 prompt 的方法能在几分之一的训练数据下达到传统 finetune 的训练结果。但是这样的任务设定就是真正的小样本学习了吗今天这篇 NYU、facebook、CIFAR 三巨头一起带来的文章直接 打脸了所有人以上任务设定也还不是真正的小样本学习由于给出了一个巨大的验证集因此人们用这个验证集挑选最好的 prompt、用它调参这也是不切合实际的真正的小样本学习训练集验证集都要小另外本文还在真正的小样本学习任务设定下评测了挑选 prompt、调参的效果实验发现我们对模型小样本学习的能力还是过于乐观了????????论文题目: True Few-Shot Learning with Language Models论文链接: http://arxiv-download.xixiaoyao.cn/pdf/2105.11447v1.pdf代码地址https://github.com/ethanjperez/true_few_shotArxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0616】 下载论文PDF~真正的小样本学习可能大家被我上面说的各种“小样本学习”的情景搞晕了为了清楚我们可以总结成这样的一张表表中列举了四种情况Data-Rich Supervised 表示传统有大量数据的有监督学习。Multi-Distribution Few-Shot 表示原始的小样本学习情景即在大量 n-way k-shot 上进行训练。由于每个 task 都包含不同的数据分布因此这相当于在不同的分布中训练在新的分布中使用模型。Tuned Few-Shot 表示从 GPT3 开始的用 prompt 的方式对预训练模型微调。True Few-Shot 就是本文提出的啦本文认为对于小样本学习既不应该有其它分布的数据辅助、也不应该有很多训练数据更不应该有很多验证集的数据。因为这些数据全都是需要标注的那还能调参嘛界定了真正的小样本学习作者就想之前那些 prompt 的方法用了大量验证集信息来调整超参、选择最好的 prompt。他们对性能的提升其实都来自验证集中蕴含的信息。那么在没有验证集的情况下对作者为了更好的比较就只留少量样本的训练集该怎么调参呢作者给了两个方法k 折交叉验证将数据集分为 k 个部分用其中 k-1 个部分作为训练集剩下的一个部分作为验证集。在后面的实验中这种方法被称作 CVcross validation。类似在线学习的交叉验证将数据集分为 k 个部分第 1 轮用第 1 部分训练第 2 部分验证第 i 轮用前 i 部分训练第 i1 部分验证。在后面的实验中这种方法被称作 MDLminimum description lengthm因为其本质上遵循的是最小描述长度准则。另外作者还给出一个交叉验证的准则即在训练和验证集之间样本 loss 的差距要尽可能小。实验和分析作者使用以上两种交叉验证方法在 LAMA[1] 数据集上对基于 prompt 的模型[2]进行了实验。LAMA 是一个评测语言模型的数据集它给出一句话让语言模型提取这句话在知识图谱中对应的三元组。首先是对不同 prompt 的对比实验发现无论是在多大参数量的模型上基于两种方法选择 prompt图中蓝色粉色都要比随机挑选 prompt 图中黄色的效果好但选出的 prompt 效果还是远不如最好的 prompt图中绿色。如果把随机选择 prompt 作为基线最好的 prompt 作为上界那么两种交叉验证带来的性能提升便如下图所示在理想的验证集里我们是能挑选出最好的 prompt 的因此最好的 prompt 就代表了在理想的巨量验证集中挑选 prompt 最好的结果。从上图可以看出在没有验证集时作者提出的两个交叉验证方法只能带来理想验证集带来的大约 25% 的性能增益。因此没了大量数据作为验证集的确也就不能有很好的交叉验证效果了。另外作者还对“在验证集上调参”这件事进行了实验。模型中有两个参数是需要调整的一个是 epoch 数量另一个是输入文本中被 mask 掉的 token 的比例。这里的评测使用 SuperGLUE 的任务其中包含文本蕴含、阅读理解等等和理解相关的任务。实验结果如下图所示这里发现用两种交叉验证在小验证集上调参其结果和随机参数差不多甚至总体上看还更差一点甚至在 MultiRC 上调参出来的结果与最坏的一组参数表现差不多表明在小验证集上调参并不一定就能稳定提升性能。这结果太让人失望了不过作者不死心还进行了一个有意思的实验有多少数据之后才一定能通过调参得到一组比随机更好的参数呢上面这张图是在 WiC 任务上使用 k 折交叉验证来调参横轴代表总的训练样本数量纵轴是模型性能灰色的区域是 16 组不同参数的模型性能区间。实验发现到了 2000 多个样本时调参才是确定有效的总结这篇文章表明在真正的小样本情境下模型选择做的还不太好。为此作者对未来的小样本学习给出了以下建议在写文章的时候同时注明模型选择的原则以及所有超参数和尝试的 prompts。将验证集的数量也归入小样本学习的“数据量”里。当有大量样本作为验证集的时候先不要用先在测试集直接得到结果、做消融实验等所有试验完成后最后再引入验证集。这样避免实验结果使用验证集大量样本的信息。不要使用前人工作中的超参数只在这少量样本中重新调参。最严格的一种方式是在设计评测任务时只给出小小的训练集和小小的验证集真正评分的测试集不给出只能在线评测。这篇文章说了真正的小样本学习自然地就延伸出来一个问题在零样本学习Zero-shot Learning的情境下还能进行调参吗还能挑选模型吗个人感觉似乎不行了。萌屋作者????????????????在北大读研目前做信息抽取对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心 ヾ(ω)o作品推荐老板让我用少量样本 finetune 模型我还有救吗急急急在线等谷歌CNN击败Transformer有望成为预训练界新霸主LeCun却沉默了...中文BERT上分新技巧多粒度信息来帮忙寻求报道、约稿、文案投放添加微信xixiaoyao-1备注“商务合作”后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1].Fabio Petroni, et al., Language models as knowledge bases?, EMNLP 2019, http://arxiv-download.xixiaoyao.cn/pdf/1909.01066v2.pdf[2].Derek Tam, et al., Improving and simplifying pattern exploiting training., http://arxiv-download.xixiaoyao.cn/pdf/2103.11955.pdf