用别人的电影网站做公众号,榆林网络推广,工商个人营业执照注册官网,企业网站都没的百度快照咋办问题#xff1a;下图调用了多少次模型#xff1f; 不久以前我以为是调用一次
通过看代码是输出多少个token就调用多少次#xff0c;如图所示#xff1a; 我理解为分类模型
预测下一个token可以理解为分类模型#xff0c;类别是vocab的所有token#xff0c;每一次调用都…问题下图调用了多少次模型 不久以前我以为是调用一次
通过看代码是输出多少个token就调用多少次如图所示 我理解为分类模型
预测下一个token可以理解为分类模型类别是vocab的所有token每一次调用都是在分类
为什么不能一次输出呢
从数学维度来讲本质是条件概率每次预测token都要基于前面的token为条件; 比如说预测了某个token设为t1然后要预测t2这个时候t1要成为t2的条件了那么t1也要转换成特征向量那有两种选择一种是直接使用t0的最后一层向量当作t1还有一种是调用一次模型生成t1的特征向量 对比两种选择显然再调用一次模型更合理才能利用transformer的优势能得到更好的结果。
详情请看https://www.zhihu.com/tardis/zm/art/623704947?source_id1003