当前位置: 首页 > news >正文

新站整站优化各种浏览器大全

新站整站优化,各种浏览器大全,做一人网站要多少钱,品牌包包都有哪些牌子文 | 橙橙子亲爱的读者#xff0c;你是否被各种千亿、万亿模型的发布狂轰乱炸#xff0c;应接不暇#xff0c;甚至有点产生对大模型的审美疲劳#xff1f;出于这个目的#xff0c;今天来分享一篇研究静态词向量的小清新文章。希望大家可以在理性追热的同时#xff0c;小冶… 文 | 橙橙子亲爱的读者你是否被各种千亿、万亿模型的发布狂轰乱炸应接不暇甚至有点产生对大模型的审美疲劳出于这个目的今天来分享一篇研究静态词向量的小清新文章。希望大家可以在理性追热的同时小冶情操。并且能够发现内在共性有所启示。论文标题Learning Zero-Shot Multifaceted Visually Grounded Word Embeddings via Multi-Task Training论文链接https://arxiv.org/pdf/2104.07500.pdf词向量为什么要进行视觉增强词是自然语言表达语义的基本单元从静态词向量word2vec[1],GloVe[2]到动态词向量ELMo[3],BERT[4]词向量的演变进化之路就是深度学习在NLP辉煌发展历程的灵感源泉之一。在现有词向量技术的分布式假设中有一个非常重要的概念就是“文本上下文(Context)”即在相似的文本上下文中出现的词在语义表示空间中会更相似。这个理念非常成功但是也有缺陷它直接导致了词向量的学习过分依赖于词汇的共现关系co-occurrences缺乏更广泛的、来源于真实世界的知识背景。一个经典的例子是Good和Bad与它们共现的上下文词汇经常是相似的物理含义却截然不同。康德曾强调过类比在科学认识活动中的重要作用尤其是在仿生设计上。模拟和类比人类启发了神经网络、深度学习看起来也是人工智能否通过图灵测试的关键。我们知道人类在理解词的基本概念的时候会不由自主的和现实世界建立关联所谓在阅读和交谈时身临其境、浮想联翩说的都是这种神奇的能力。自然语言处理中也有一种类似的技术叫做Grounding它甚至有个更高大上的名字叫 Grounded Natural Language Processing (GNLP) 研究目的是将自然语言和外部物理世界的丰富的感知连接在一起从而解决各种多模态问题以及反过来加强自然语言理解能力。这种感知可以是视觉信号、声音信号、运动信号等等所以和计算机视觉、机器人技术、图形学等学科都密不可分。“Grounded,ing”这个词不是很好翻译成中文我们可能最容易联想到的就是Ground Truth此处应该有类比。既然人类很擅长将视觉和语言建立关联Visual-Lauguage Grounding从而更好的理解语言。模型也可以借助视觉信息得到更好的词向量么多任务视觉Grounding对于任意词, 已经在文本数据上预训练好的词向量是譬如word2vecGloVe等。我们的目的是学习一个映射矩阵将 Ground 到对应视觉强化的语义空间上获得的Grounded词向量记作。为了达成这一目的论文设计了三个部分语言模型设图文描述数据集为其中对应文本部分对应图像部分。我们使用 获得对应的词向量表示我们接着学习一个映射矩阵将这些表示 Ground 到对应的视觉强化的语义空间上。获得的Grounded词向量记作其中。为了达到这个目的该文本对应的图像视觉信息融合到了语言模型的学习过程中。论文使用了GRU这里比较巧妙地将视觉信息在线性映射后初始化第一个hidden state 相当于在语言模型的学习前有一个全局的视觉背景我们希望GRU的门控机制可以学习到外部的视觉知识如何传播到映射矩阵中。同时映射矩阵的转置也被用于进行逆向操作即从 Grounded 空间映射回纯文本空间最终前向语言模型基于图像和之前的词来逐个生成下一个词。其中代表词汇表的大小代表batch size大小 和 分别表示预测概率和Ground Truth另外论文增加了新的一个反向的GRU来加强学习能力实现的时候将词序列逆序进行GRU建模。除两个GRU的参数不同外其余参数都是共享的。这个设计类似于双向GRU但是后者用在语言模型中会有会有标签泄漏的问题所以论文这里使用了两个GRU来代替。图文匹配尽管基于上下文的词表示方法是获得高质量的词向量的有效途径但是从目标设计的角度却不见得能同时给多种视觉-语言任务visual-language task都带来增益譬如图文检索任务需要模型具备两种模态的强相关性建模。所以本文也增加了一个图文匹配判定任务试图让Grounded Embedding进一步增强图像和文字相关性能力。虽然这里模型选的简单也很符合直觉但是想法其实和多模预训练里使用对比学习对齐视觉和语言表示空间是类似的。这里使用了第三个GRU同样用视觉表示来初始化这里用最后的hidden state 来建模整体负样例随机采样优化二元交叉熵其中 和 分别表示预测概率和Ground Truth正则化以上任务均共享预训练好的文本词向量一个容易想到的问题是它究竟要不要finetune呢如果要进行更新它们可能会极大的偏离原始向量扰乱预先训练好的语义关系特别是在有限的训练语料的情况下。如果完全不进行更新由于这些词向量本身有偏可能会很难映射到Grouded Embedding上去。为了兼容这两种情况论文这里对的学习进行了正则约束其中控制了正则约束整体的影响控制调整后的词向量和最初的词向量被允许的差异程度。最终模型优化的是多个任务实验实验训练图文训练数据选择了MS-COCO图像的视觉信息使用训练好的Inception-V3加一层tanh非线性层来提取。预训练好的文本词向量则选择使用了经典的GloVe[2] () 和 fastText[5] ()词表大小设置为10k。由于已经学到了文本空间向Grounded空间的映射矩阵对于一些不在image-text训练语料中的未登录词Oov也可以采取这样的映射获得对应的Grounded空间从而获得zero-shot的能力也是论文的卖点之一。这里设原始文本词向量为GloVe和fastText视觉增强后的Grounded 词向量为V_GloVe和V_fastText。如何评估词向量的好坏至今也是一个开放性问题论文选择了intrinsic内在评价和 extrinsic外在评价两种评估方法。内在评价度量的是词向量本身的质量忽略了它的下游任务表现。外在评价度量的是词向量在句子粒度的下游任务上的表现。内在评估内在评估在多种词汇相似度评估基准集合Benchmark上进行了测试。基线对比上作者选择了纯文本训练的词向量和一些其他的Grounded 词向量模型。可以发现V_GloVe和V_fastText在各个benchmark上相对于纯文本预训练词向量GloVe和fastText均获得了稳定的效果提升Spearman系数平均6.5和1.6。另外实验也揭示了一些有趣的现象SimLex999主要关注词向量之间的语义相似度WSim353主要关注于相关性。V_Word Embedding看起来在语义相似度度量上提升的更多。细粒度内在评估为了进一步研究Grounded Embedding的贡献论文在SimLex999的多个类别数据下进行了实验分为形容词、名词、动词以及词的具像程度。譬如Apple苹果这个词是一个实体词非常具像。而Pressure压力这个词比较抽象Conc-qx的分位数越高代表词越具体。论文这里对比了Google hinton组在早年发的一篇Grounded 词向量的模型PictureBook[6]的结果这个工作利用了大量图文搜索引擎日志数据来训练Grounded词向量。V_GloVe的表现并不落下风。我们可以看到之前的方法对于具体词的Grounding能力是做的比较好的这也符合直觉因为图文训练语料大多数都是在描述一个客观的实体。而V_Glove在抽象词的表现上要好于PictureBook很大程度上归功于Grounding映射矩阵在zero-shot上的设计。外在评估外在评估是在数年的SentEval数据集上进行测试这种评估的优势在于不需要训练数据而是直接把词向量进行累加平均后得到句子表示最大程度的评估词向量空间的内在结构并且能够发现其中存在的不规律性。我们看到V_Word Embedding大幅提升了效果Spearman系数平均10.0。进一步分析论文接着展示了多组词向量的最近邻结果。进一步表明Grounded 词向量可以优化纯文本向量空间从而对齐到真实物理世界的概念上。譬如我们看bird鸟这个词GloVe展示的最近邻词是turtle乌龟、nest鸟巢和squirrel松鼠。而V_Glove的最近邻是sparrow麻雀、Birds鸟avian鸟类。另一个例子是抽象程度更高的词happy高兴我们可以看到由于纯文本预训练词向量存在强的词共现关系的假设会得到一些无价值的词汇譬如everyone所有人always总是。而V_Glove得到的词更符合人类的认知pleased高兴delighted高兴。结论论文提出了一种使用视觉Grounding来增强词向量表示能力的方法。麻雀虽小五脏俱全。论文在模型设计中使用了视觉-文本联合上下文取代纯文本上下文来进行语言模型训练同时具备一定的zero-shot能力其背后阐释的思想和目前火热的多模态大模型是类似的希望对大家有所启发。萌屋作者橙橙子拿过Kaggle金水过ACM银发过顶会Paper捧得过多个竞赛冠军。梦想是和欣欣子存钱开店沉迷于美食追剧和炼丹游走于前端后端与算法竟还有一颗想做PM的心作品推荐惊呆不用一张图片却训出个图像识别SOTA寻求报道、约稿、文案投放添加微信xixiaoyao-1备注“商务合作”后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Efficient Estimation of Word Representations in Vector Space https://arxiv.org/abs/1301.3781[2] GloVe: Global Vectors for Word Representation https://www.aclweb.org/anthology/D14-1162/[3] Deep contextualized word representations https://arxiv.org/abs/1802.05365[4] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/abs/1810.04805[5] Enriching Word Vectors with Subword Information https://arxiv.org/abs/1607.04606[6] Illustrative Language Understanding:Large-Scale Visual Grounding with Image Search https://www.cs.toronto.edu/~hinton/absps/picturebook.pdf
http://www.sadfv.cn/news/96871/

相关文章:

  • 郑州运营网站搭建优化衡水哪有建网站的吗
  • wordpress网站后台手机网站建设策划
  • 制作网站的视频教程asp 建站
  • 新增网站推广教程小程序申请
  • 广州 网站制作 网站推广网站除了wordpress外
  • 广州建站业务公司wordpress客户端插件下载
  • 给网站做优化怎么做w3c标准网站
  • 网站底部版权html代码wordpress块引用
  • 淘宝店采用哪些方法做网站推广滨州市网站建设
  • 17网站一起做网店好不好品牌设计策划
  • 微网站建设找哪家公司网站推广怎么做才有效果
  • 四川网站建设 招标太原自助建站软件
  • 网站建设信息表沈阳网站建设选网龙
  • 十大免费ppt网站下载appwordpress 后台上传
  • 珠海网站建设防东莞人才市场现场招聘信息
  • 怎么样创办一个网站宁波市建筑业管理信息网
  • 聊城做网站的公司教程做网站广告软件
  • 全国 做网站的企业施工企业税款缴纳
  • 高站网站建设百科网wordpress
  • 游戏网站开发设计报告用jsp做网站一般会用到什么软件
  • 跟老外做网站我的电脑做网站服务器
  • 定制东莞网站制作公司制作自己的平台网站
  • 游戏网站建设尚海整装电话号码
  • 学网站建设去什么学校上海网站备案审核
  • 建设银行造价咨询中心网站赚钱平台网站
  • 国外设计欣赏网站做电影网站怎么拿到版权
  • 农业行业网站模板蔡甸做网站
  • 个人可以做淘宝客网站吗wordpress 文章间距
  • 机构网站源码建个商场网站
  • 平台网站开发公司WordPress开启局域网