网站建设哪家不错,wordpress 加关注插件,wap源码之家,房产类网站建设论文#xff1a;EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018CTC的一个问题在于#xff0c;其假设当前帧的输出与历史输出之间的条件独立性#xff1b;RNN-T引入预测网络来弥补CTC这种条件独立性假设带来…论文EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018CTC的一个问题在于其假设当前帧的输出与历史输出之间的条件独立性RNN-T引入预测网络来弥补CTC这种条件独立性假设带来的问题思想1)针对CTC网络的条件独立性假设(当前时刻输出与之前的输出条件独立)引入语言模型预测网络分支通过联合前馈神经网络将二者结合在预测最终输出时能够同时利用声学和语言特征信息;2)在grapheme作为建模单元基础上引入了词组单元wordpieces能够捕获更长的文本信息有利于减少替换错误模型CTC网络: 采用多级任务CTC建模单元包括音素phoneme、字母grapheme、词条wordspieces音素CTC结构采用5层LSTM(700cell)、字母CTC采用10层LSTM(700cell)、词条CTC采用12层LSTM(700cell)此外在字母LSTM输出时通过时域卷积(kenel size3)来缩短时间片长度减少参数量加速训练的同时对效果不造成影响预测网络: 对于字母建模单元预测网络采用两层LSTM(1000cell)对于词条单元因为词条标签数目较多在LSTM之前引入一个较短的embedding层维度为500联合网络采用前馈神经网络结构即一层全连接层(700)softmaxCTC损失细节输入特征声学特征输入特征80logfbank一阶差分二阶差分240维语言模型特征采用词组词典对应的one-hot向量训练数据采用[2]中的数据增强添加噪声和混响每个样本得到20个左右的混响或噪声增强数据CTC网络预训练采用多级(phonemes、graphemes、wordspieces)多任务CTC目标损失预测网络预训练采用交叉熵损失联合网络采用词条单元wordspieces CTC目标损失音素级CTC的输出单元个数为61个phonemeblank字母级CTC的输出单元个数为44graphemeblank词条级CTC的输出单元个数为100030000有效词条blankgraphemewordspiece解码beam search输出单元为grapheme beam width100输出单元为词条时beam width25训练声学模型训练数据集18000小时voice-search、voice-dictation混响和噪声增强语言模型训练数据集10亿句文本数据来源于voice-search、voice-dictation、匿名化google搜索等日志测试集15000voice-search utts15000voice-dictation uttsCTC网络和预测网络采用预训练进行初始化联合网络随机初始化grapheme beam width100wordpieces beam width25预测当前步输出yu p(y|xt,yu-1),如果yu为non-blank,那么下一步预测输出为p(y|xt,yu),否则下一步输出为p(y|xt1,yu-1);当最后一个时间步T输出为blank时终止实验论文中RNN-T取得了接近state-of-the-art的效果WER voicesearch 8.5% voice-dictation 5.2%CTC网络和语言模型预训练均有助于提升效果提升LSTM深度从5层到8层带来10%相对提升wordspiece RNN-T相对于grapheme RNN-T实际效果更好原因在于wordspiece作为输出单元能够降低替换错误grapheme LSTM输出通过时域卷机操作(kernel size3)在不影响实际效果的情况下有效减少wordpiece输入的时间片维度节省wordpiece LSTM参数训练和解码的时间wordspiece作为输出单元时相对于grapheme语言模型困惑度更低增加wordspiece输出单元个数1k-30k有助于进一步降低语言模型困惑度提升实际效果但也相应的增大了参数量环境kaldi特征提取CMVNpytorch模型构建及训练数据集aishell1 178h train/dev/test输入3*left-contextcurrent frame0*right-context4*40160维模型CTC网络4*Bi-LSTM(320)预测网络1*LSTM(512)联合网络1*full_connect(512)tanhsoftmax(4232)训练SGDmax_gram200lr0.0001momentum0.9weight_ratio0.5解码贪心搜索每一个时间步取最大概率对应的输出效果aishell dev10.13/test11.82