当前位置: 首页 > news >正文

做网站时如何写接口文档小型网站开发 论文

做网站时如何写接口文档,小型网站开发 论文,nodejs网站毕设代做,网站建设七个步骤1.transformer的encoder运作 transformer的encoder部分包括了输入和处理2大部分。首先是输入部分inputs#xff0c;这里初始的inputs是采用独热向量进行表示的#xff0c;随后经过word2vec等操作把独热向量#xff08;采用独热向量的好处就是可向量是正交的#xff0c;可以…1.transformer的encoder运作 transformer的encoder部分包括了输入和处理2大部分。首先是输入部分inputs这里初始的inputs是采用独热向量进行表示的随后经过word2vec等操作把独热向量采用独热向量的好处就是可向量是正交的可以采用矩阵乘法来快速的计算向量之间的相似度转变成了稠密向量解决了高纬矩阵稀疏的问题同时还可以用向量之间的距离来表示词与词之间关系的远近。当然转换过程就是由独热向量乘上一个W矩阵这个W矩阵就是由w2v训练得到的。W的行数等于独热向量的维度W的列数则是期望的稠密向量每个字的维度。 不采用直接输入独热向量的原因是独热向量的效果和稠密向量的是一样的但是会增加网络的参数。 随后是给输入添加位置信息之所以要添加位置信息是因为transformer中采用的自注意力机制是没有考虑到每个词之间的位置信息而位置信息往往又是非常重要的就比如我欠他100W 和 他欠我100W。这两句话的意思一个地狱一个天堂。那么具体具体做法就是让变成稠密向量的输入input embedding直接加上一个相同维度大小的一般都是512维位置向量ei。并且ei的值也是提前确定的并不需要通过数据学习得到。 之后便是让添加了位置信息的输入向量多个向量经过一个多头注意力机制得到新的一排向量然后采用残差机制把新的一排向量加上原来的输入向量这里可以设置权重调整添加的程度。这里之所以采用残差机制就是为了防止在训练过程中发生退化的问题也就是残差机制存在的意义。可以自行查询残差机制的作用~随后把输入向量进行层归一化。层归一化的操作就是计算一个样本中所有维度的平均值和标准差然后每个维度的值减去平均值除以标准差。层归一化的意义在于加快训练速度和提高训练的稳定性。注意AddNorm是先残差机制再层归一化。 最后把新的一排向量输入到全连接神经网络中并经过AddNorm操作得到encoder的输出。其中全连接神经网络先是一个线性变换抬高向量的维度然后一个激活函数进行非线性变换最后再是线性变换降低维度。 2.transformer的decoder运作 decoder的输入有2种根据输入的不同可以分为自回归模式和非自回归模式。 1自回归模式 自回归模式的decoder在训练的时候采用教师强制模式。它会首先输入一个BOS符号同样先用独热编码然后转成稠密向量表示并添加位置信息然后经过一个掩码注意力机制后经过AddNorm操作。所谓的教师强制模式就是无论BOS对应的输出是什么decoder的下一个输入都是正确的数据集而不采用decoder的输出这是为了防止错误传播。而采用掩码注意力机制则是防止训练的时候受到真实数据的影响即参数更新时不受影响。 掩码多头注意力机制 对于一排向量的qkv第一个向量的q只能与自己的k相乘得到a然后a乘v得到新的向量第二个向量的q只能与第一个和自身相乘。即掩码注意力机制就是在训练时只能依赖当前时刻以及之前的信息而不能看到未来的信息所以需要把当前时刻后面的信息掩盖掉。 2非自回归模式 这种就是一次性输入固定长度个BOS然后一次性得到对应的输出。 在经过掩码注意力机制以及第一个AddNorm操作后来到了cross attention部分在图中写的是多头注意力机制但是也被称为cross attention。 3cross attention 这里的cross attention之所以是交叉就是因为q向量来自于decoder的第一个AddNorm操作后的一排向量乘一个新的Wq矩阵得到的而kv向量则来自于encoder的输出向量乘上新的Wk和Wv矩阵得到的然后q向量对k相乘加上v向量得到新的输出向量。最后得到同样长度的新的向量 之后同样经过一个全连接网络以及第二个AddNorm操作。到这里的话整个decoder部分就运作完了。总结一下就是根据不同的输入给出不同的输出向量。如果是自回归模式那么输出会是w1w1w2w1w2w3······。如果是非自回归模式那么输出会是一排向量。 3.transforme的完整运作机制-以文字生成为例 以翻译为例自回归模式。训练数据集是“深度学习-Deep learning”。encoder的输入是深度学习的独热编码经过encoder block后得到4个词向量。同时decoder的输入是bos的独热向量在cross attention部分bos的词向量会得到q结合深度学习的词向量的kv重新得到一个新的bos的词向量。然后经过一个全连接网络和一个AddNorm操作后decoder block就结束了。最后是整个transformer的输出部分。 输出的bos的词向量先经过一个线性层然后经过softmax归一化得到概率分布再结合词典找出概率最大的位置对应词典中的词。得到Deep一词。 第二次的输入是Bos Deep同样经过decoder后得到2个词向量经过线性层后变为1维最后经过softmax得到概率最大的词是learning。最后下一个输出是End则结束文字生成。
http://www.sadfv.cn/news/350941/

相关文章:

  • 河南经天路桥建设总公司网站免费相册视频制作软件
  • 网站建设现在市场大不大企业网站模板免费下载
  • 微软网站设计鹤壁市城乡一体化示范区邮编
  • 建设网站的优点跟缺点沈阳模板建站公司有哪些
  • 男人和女人在床上做那个网站wordpress小米论坛主题
  • 安徽金开建设集团网站截图域名网站.
  • wordpress 搭建网站网站设计 html5
  • 晨雷文化传媒网站建设wordpress 无法自行修改密码
  • 佛山外贸网站建设哪家好山东平台网站建设价格
  • 网站做优化一开始怎么做网站建设课程职业教育机构
  • 仿京东电商的网站开发有些电影网站是怎么做的
  • 环境网站模板php装修网站源码
  • 笔趣阁 网站开发温州网站开发
  • 太和网站开发招聘vitality 中文原创wordpress主题
  • 廊坊做网站的哪最多个人网站开发需求分析
  • 云服务器多网站解析手机能看的网站有哪些
  • 网站域名如何优化网站是什么东西
  • 怎样用代码做网站dw做网站背景音乐
  • 企业如何建公司网站金光华网站建设
  • 企业进行网站建设的方式刷关键词优化排名
  • 盐山县网站建设价格设计公司一般多少人
  • 临安网站开发网站建设是不是无形资产
  • 四川住房建设网站wordpress添加专题功能
  • 网站空间怎么使用我想做个百度网站怎么做的
  • 建设网站哪些好xmlrpc wordpress
  • 济南品牌网站建设公司哈尔滨快速网站排名
  • 专业的手表网站大连企业网站排名优化
  • 河南省建设厅网站中级职称怎么用txt做网站
  • 贡井网站建设化妆品做备案的网站
  • 塘厦镇网站仿做wordpress 直播 视频教程