当前位置: 首页 > news >正文

用源码网站好优化吗wordpress 版本

用源码网站好优化吗,wordpress 版本,防水补漏东莞网站建设,网站织梦后台怎么做文 | 小轶今天给大家介绍一篇谷歌的最新工作#xff0c;解决的是 Transformer 的长文本处理问题。在原生 Transformer 中#xff0c;attention 的复杂度是输入序列长度的平方级别#xff0c;因此限制了它处理长文本的能力。简单来说#xff0c;本文提出的解决方案就是把 Tr… 文 | 小轶今天给大家介绍一篇谷歌的最新工作解决的是 Transformer 的长文本处理问题。在原生 Transformer 中attention 的复杂度是输入序列长度的平方级别因此限制了它处理长文本的能力。简单来说本文提出的解决方案就是把 Transformer当做 RNN 中的循环单元来用。和传统 RNN 的区别只在于传统 RNN encoder 每个循环单元负责编码一个 token而本文中每个循环单元负责编码一段长度为 的文本片段且每个循环单元都由构造相同的 Transformer Block 来实现。如此一来每个片段在编码时都能用类似 RNN 的方式同时考虑之前文本中的信息了。想法很简单但具体实现起来还是有一些难点。接下来我们展开介绍一下本文所提出的 Block-Recurrent Transformer。论文标题BLOCK-RECURRENT TRANSFORMERS论文链接https://arxiv.org/pdf/2203.07852.pdf滑动注意力机制先来看一下每个 block 的 attention 范围。本文采用的是一种滑动窗口注意力机制一种专门针对长文档场景的技术。由于文本过长让每个 token 都 attend 到整个文本中的所有 token 难以实现。在滑动窗口注意力机制中每个 token 只需要 attend 到它的前 个 token。在本文中滑动窗口长度 与每个循环单元所需处理的文本长度 相等即 。上图示例中假设窗口长度为 8相应地输入文本也被分为长度为 8 的片段交由 Transformer blocks 分别处理。图中浅蓝色区域表示了 attention 范围。图中两个黑框分别对应了两个 Transformer block 。8个红色标记点代表右下角那个 block 所需要处理的 8 个 token。可以看到每个 block 的 attention 矩阵大小为 。因此对于长度为 N 的输入来说整个模型的 attention 复杂度为 O(N)。循环单元接下来我们就往每个 Transformer block 内部看看究竟是如何实现循环的。▲传统 RNN 结构类似传统 RNN每个循环单元输入是input embeddings 和 current state输出是 output embeddings 和 next state所以我们这里所需要理解的两个核心问题也就是在 Block-Recurrent Transformer 中这两个输出分别是如何得到的垂直方向如何得到 output embeddings下图展示了得到 output embeddings 的过程。▲垂直方向如何得到 output embeddings和传统的 Transformer layer 非常相像差别只集中在红框标识出来的部分。在这一部分中为了融合上一个循环单元给的 current state 信息他们将 input embeddings 和 current state vectors 做了一个 cross attention。另一方面input embeddings 自身也会过一个 self-attention 层。这两部分拼接后通过线性层融合在了一起。水平方向如何得到 next state下图展示了得到 next state 的过程。▲水平方向循环单元之间如何传递 state与传统 Transformer 不同的地方用红色和粉色框标识了。红色部分同样是用 cross attention 将 input embeddings 和 current state vectors 融合。粉色部分则是用两个 gate 替代了原本 Transformer 中的残差层。这两个 gate 的作用与 LSTM 中的遗忘门类似控制了对前一个 state 信息的保留程度。垂直方向如何多层叠加最后还有一个问题。我们都知道传统 Transformer Encoder 通常是由多个 Transformer Layer 叠加起来的。也就是下图中那个 的意义。那么在 Block-Recurrent Transformer 中如何实现垂直方向上的多层叠加呢▲传统 Transformer Encoder文中讨论了两种方式Single Recurrent Layer 和 Feedback。▲Single Recurrent LayerSingle Recurrent Layer SRL 的实现比较简单。我简单花了张示意图大致如上图所示。垂直方向上叠加的多个层大多数都是普通的 Transformer Layer只有其中的一层在水平方向上接收了 current state做了循环操作。这种方式的运算复杂度也比较低只相当于在普通的 Transformer 基础上多加了一层 layer 的运算量。也就是说如果垂直叠加了 12 层相当于普通 Transformer 叠加 13 层的运算量。▲FeedbackFeedback 在 SRL 的基础上current state 还会广播给其他 Transformer Layer。这些层会用 cross attention 的方式将 current state 的信息融合。实验中Feedback 比 SRL 性能有小幅提升不过它的模型参数更多训练时长也要陡增 35~40%。实验实验在三个长文本数据集上进行分别是 PG19arxiv 和 Github。评测任务是自回归语言建模指标为 perplexity。结果如下图所示。其中黄色高亮的是本文所提出方法的两个变种获得了 SOTA 的效果。红色框出的是三个比较重要的 baseline。其中上面两个 baseline 是此前经典的长文档处理模型 Transformer-XL 的两个变种。可以看到本文方法的性能要比他们好不少。最后一行的 Memorizing Transformer 同样是谷歌的工作刚刚被 ICLR2022 录用。其基本思想是编码长文本时模型一边往下读一边把之前见过的所有 token 保存在一个数据库中在读当前片段时会用 kNN 的方式找到数据库中相似的内容然后和当前内容同时交互编码。可以看到这个模型的效果其实和本文方法相差不大但复杂度要高很多运算时延也要长[1]。虽然...但是本文并没有把 Memorizing Transformer 的 step time 明确写在表格中。个人感觉有些不妥。小结本文的想法其实很简单把 Transformer 作为 RNN 的循环单元解决长文本问题。我相信想到过类似 idea 的应该早有人在。我确实也看到了类似的 previous works不过它们的模型复杂度和性能效果都逊于本文。就本文来说只是拥有一个 idea 肯定是不够的还要解决很多问题包括相邻的 block 之间如何以适配 Transformer 的方式传递信息模型设计的时候还要同时考虑到将运算复杂度的降到最低能并行运算的绝不搞串行还有最后工程实现上的一些问题。比如说模型训练的时候是否会像传统 RNN 一样遇到梯度消失的问题如果有该如何解决我在本篇推送中没有涵盖这方面的讨论。原文确实提了一些方法来提高模型训练的稳定性。从一个宏观的 idea 到真正落实还是有很长距离的。所以还是不能轻易地说一篇论文的 idea “too simple”。往期回顾《Longformer超越RoBERTa为长文档而生的预训练模型》《告别自注意力谷歌为Transformer打造新内核Synthesizer》《Google综述细数Transformer模型的17大高效变种》萌屋作者小轶是小轶不是小秩更不要叫小铁高冷的形象是需要大家共同维护的作为成熟的大人正在勤俭节约、兢兢业业为成为一名合格的但是仍然发量充足的PhD而努力着。日常沉迷对话系统。说不定正在和你对话的并不是不是真正的小轶哦“高冷那是站在冰箱顶端的意思啦。”  ——白鹡鸰作品推荐写了一篇关于 NLP 综述的综述全球44家机构55位大佬历时两年打造最强NLG评测基准谷歌重磅可以优化自己的优化器手动调参或将成为历史ACL20 Best Paper揭晓NLP模型评价体系或将迎来重大转折后台回复关键词【入群】加入卖萌屋NLP、CV与搜推广求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Memorizing Transformers https://arxiv.org/abs/2203.08913
http://www.yutouwan.com/news/354183/

相关文章:

  • 彭州网站建设28pz别人做的网站不能用
  • 罗湖福田app网站开发建站哪家好 phpwind
  • 长宁品牌网站建设软件开发公司税收优惠政策
  • 重庆业务外包网站建设服装企业的网站建设
  • 学习html的网站企业查天眼查官网
  • 网站推广的案例河南的网络推广公司
  • 求一个dw做的网站网页翻译浏览器
  • 三联网站建设wordpress登录cdn
  • 选择荣胜网络宁波网站建设女生学软件工程后悔了
  • 企业网站后台模版汕头东莞网站建设
  • 鹤壁网站设计在国外做h网站怎么样
  • 国家重大建设项目库填报网站织梦做的网站要怎么放到浏览器
  • 济南企业网站制小微企业查询系统
  • 搭建网站免费设计师互联网
  • 大型网站域名河北省建设执业注册中心网站
  • 网站后台管理系统 静态页面东莞建设网雅园新村第20期名单公布
  • 网站排名优化策略网站开发流程规范
  • 咨询公司网站spring做网站
  • 做网站项目实例成都网站推广优化公司
  • 学校网站代码模板黑龙江建设网三类人员
  • 赣州市城乡建设局官方网站医疗电子网站建设
  • 大连网站设计培训班wordpress域名展示
  • 个人网站推广手段有哪些免费注册建网站
  • seo网站优化插件wordpress 引用js
  • 养殖企业网站wordpress div layer
  • 宝安区做外贸网站的公司松岗建网站
  • 扬中网站建设好么高端娱乐网站建设
  • 建设网站宣传情侣博客网站模板下载
  • 杭州定制网站公司三亚专业网站建设
  • 超市的网站怎么建设wordpress副标题调用函数