当前位置: 首页 > news >正文

做商城类网站备案时需提供什么证件做现金贷的网站有哪些

做商城类网站备案时需提供什么证件,做现金贷的网站有哪些,网页设计代码居中,佛山seo网站推广上一篇文章#xff0c;我们介绍了encoder#xff0c;这篇文章我们将要介绍decoder Transformer-encoder decoder结构#xff1a; 如果看过上一篇文章的同学#xff0c;肯定对decoder的结构不陌生#xff0c;从上面框中可以明显的看出#xff1a; 每个Decoder Block有两个…上一篇文章我们介绍了encoder这篇文章我们将要介绍decoder Transformer-encoder decoder结构 如果看过上一篇文章的同学肯定对decoder的结构不陌生从上面框中可以明显的看出 每个Decoder Block有两个Multi-Head Attention层 第一个Multi-Head Attention层采用了Masked操作所以叫多头掩码注意力模块 第二个Multi-Head Attention就是和encoder的一样不过他的K、V矩阵输入源来自Encoder的输出编码矩阵而Q矩阵是由多头掩码注意力层经过Add Norm层之后的输出计算来的 Add Norm和前面encoder的一样 feed forward它包含一个全连接层对输入特征进行非线性变换并产生输出。在训练过程中Feed Forward会根据损失函数的梯度进行参数更新以优化模型的性能。他的输入层参数和Embedding的维度一样。 Linear是一种简单的神经网络组件通常用于处理线性可分的问题。它包含一个全连接层和一个激活函数对输入进行线性变换并产生输出。与Feed Forward不同Linear在训练过程中不会根据损失函数的梯度进行参数更新因为它的输出取决于输入的线性组合。Linear的长度实际上就是你词向量的种类数量。 softMax把linear的输出做分类概率运算算出每种词向量的概率。 这里我们详细说一下多头掩码注意力模块其他的和encoder中都一样就不详细介绍了。 Masked Multi-Head Attention 在下面第9点介绍多头掩码注意力 在介绍之前我们先来说一下transformer的训练过程网上搜了很多没有找到谁具体讲过所以我就借助“文心一言”来进行了询问大概了解了这个过程但是不能保证正确如果有知道同学看到了欢迎给我留言。 先有encoder的输入“你好吗”也就是问题和decoder的输入“好的很”也就是答案。 把encoder的输入“你好吗”输入encoder中把“你好吗“转化为Embedding然后对Embedding添加position信息decoder也同理。 把添加了pos的Em做成6组QKV那么总共就是18个QKV然后每组都送入一个注意力模块总共有6组注意力模块这6组就称为多头注意力模块然后把这6组的输出经过一个conact和Linear具体可以看上一篇文章合并后输出这个输出就是注意力矩阵。 把注意力矩阵经过残差链接和归一化后放入一个Feed Forward中后再使用一次残差链接和归一化encoder的输出就有了。 接下来我们看decoder的输入在transformer的训练中我们使用的是Teacher Forcing方法我们是告诉了transformer正确的答案是什么的也就是“好得很”。 首先decoder会把encoder的输入做成QK然后放入一个多头注意力模块中接下来一直到Linear的操作和encoder的一样。 decoder中的Linear输入的方法和encoder的一样可以参考上篇文章最后不过linear的输出最后是使用了softmax做分类器。从下图可以看出Linear的输出是和你的词向量类别有关假设你的词向量类别有1w个那么这里就会输出1w的类别如下图然后使用softMax对着些输出做概率计算就可以算出概率最大的词向量是哪个softMax的计算可以参考我的BP神经网络大概方式类似于下面 假如现在经过softMax的运算后最大概率的字是好那么就把这个字和标准答案中的好得很对比一下如果不是好字那么就使用梯度下降法反向去更新两个Feed forward和所有的QKV更新完后回到decoder输入。 接下来把标准答案中的“好”直接输入到decoder的输入下面是带有掩码的多头注意力 经过EMpos还有QKV后我们把他输入了多头掩码注意力模块这里为什么要加个掩码呢掩码又是什么呢我们看下面这张图 我们需要把好字加入到”你好吗”的后面但是我们又不能让多头注意到“好”字后面“得很”所以我们就需要把后面的字给遮起来这个就是掩码。经过softMax的变化可以看到下图 比如“好”字后面的“得很”都是0说明好字只和前面的内容有关系则接下来就是“好”字的[0.37,0.62,0,0]作为多头掩码的输出也可以抽象的看成是把“好”拼在了“你好吗”的后面但是其实是“你好吗”作为QK,好作为V。 接下来就和上面的3一样一直到softMax做出预测如果是预测的不是“尼”就反向更新梯度下降如果是“尼”则把“好尼”送入多头掩码中然后把“好尼”拼在“你好吗”的后面。一直循环到softMax预测到结束标志。
http://www.yutouwan.com/news/69957/

相关文章:

  • 深圳建设行业网站个人求职网站履历怎么做
  • 查企业企业网站有哪些江苏企业网站排名优化
  • 找加工订单的网站排名优化网站
  • 个人网站设计风格网站设计区域
  • 手机网站设计公司只找亿企邦策划书怎么写 格式范文
  • 专业网站建设常州陕西省住房和城乡建设厅网站上查询
  • 手机网站开发总结一个网站多个数据库
  • 网站空间和服务器河北建设工程信息网下载时间
  • 关于水果怎么做网站seo概念
  • 经营网站需要什么资质怎么注册自己的微信小程序
  • 北京营销网站建设公司签订网站制作合同注意事项
  • 网页做的很美的网站网站怎么做拉新
  • 做物流网站电话号码保定百度推广排名
  • 兰州做网站公司哪家好成都广告公司贺忠阳简历
  • 淄博网站建设铭盛信息项目建设计划书
  • 信用体系建设网站维运工作制度wordpress建站的教程
  • 深圳市建设局网站首页定西市建设网站费用
  • 徐州网站建设外包嘉兴网站制作网站建设
  • 徐州网站开发信息wordpress博客无法评论
  • 模仿网站制作中国视觉设计网
  • 企业网站做静态网站还是网站解析出问题 邮件收不到了
  • 昆明网站建设加王道下拉陕西交通建设集团蓝商公司网站
  • 上街区网站建设中国核工业二三建设有限公司招聘信息
  • 想做一个静态网页网站不需要有后台数据库pc端网站做移动适配
  • 大型论坛网站建设wordpress捐
  • 网站制作公司宁波哪家好长沙公司网站高端网站建设
  • 电影院网站建设方案湖南长沙大学
  • 网站建设文化市场青岛商网站建设
  • 做网站台式还是笔记本网站机房建设方案
  • wordpress建站教程凌风广告设计哪个网站好