杭州外贸网站建设公司申跃,wordpress后台图,定兴做网站,简单网站建设软件本文中#xff0c;Google 团队提出了一种文本语音合成#xff08;text to speech#xff09;神经系统#xff0c;能通过少量样本学习到多个不同说话者#xff08;speaker#xff09;的语音特征#xff0c;并合成他们的讲话音频。此外#xff0c;对于训练时网络没有接触…本文中Google 团队提出了一种文本语音合成text to speech神经系统能通过少量样本学习到多个不同说话者speaker的语音特征并合成他们的讲话音频。此外对于训练时网络没有接触过的说话者也能在不重新训练的情况下仅通过未知说话者数秒的音频来合成其讲话音频即网络具有零样本学习能力。
目前已经有人将该论文实现并在 GitHub 上发布了开源项目目前该项目标星超 9.5kfork 数是 1.5k。
AI 换声 GitHub代码
https://github.com/CorentinJ/Real-Time-Voice-Cloning?utm_sourcemybridgeutm_mediumblogutm_campaignread_more
简介
传统的自然语音合成系统在训练时需要大量的高质量样本通常对每个说话者都需要成百上千分钟的训练数据这使得模型通常不具有普适性不能大规模应用到复杂环境有许多不同的说话者。而这些网络都是将语音建模和语音合成两个过程混合在一起。本文工作首先将这两个过程分开通过第一个语音特征编码网络encoder建模说话者的语音特征接着通过第二个高质量的TTS网络完成特征到语音的转换。
两个网络可以分别在不同的数据集上训练因此对训练数据的需求量大大降低。对于特征编码网络其关键在于声纹信息的建模即判断两段语音为同一人所说因此可以从语音识别speaker verification任务进行迁移学习并且该网络可以在带有噪声和混响的多目标数据集上训练。
为了保证网络对未知训练集中没有的说话者仍然具有声音特征提取能力编码网络在18K说话者的数据集上训练而语音合成网络只需要在1.2K说话者的数据集上训练。
网络结构 主要由三部分构成
声音特征编码器speaker encoder
1. 语音编码器提取说话者的声音特征信息。将说话者的语音嵌入编码为固定维度的向量该向量表示了说话者的声音潜在特征。 2. 序列到序列的映射合成网络
基于Tacotron 2的映射网络通过文本和1得到的向量来生成对数梅尔频谱图log mel spectrogram。
梅尔光谱图将谱图的频率标度Hz取对数转换为梅尔标度使得人耳对声音的敏感度与梅尔标度承线性正相关关系 3.基于WaveNet的自回归语音合成网络
将梅尔频谱图谱域转化为时间序列声音波形图时域完成语音的合成。
需要注意的是这三部分网络都是独立训练的声音编码器网络主要对序列映射网络起到条件监督作用保证生成的语音具有说话者的独特声音特征。 总结
本文提出的语音合成网络能对训练不可见的说话者进行声音合成并且仅仅依赖于说话者的一小段语音这使得该网络能够大规模应用于实际环境也使得语音造假的成本大大降低类似于之前的deepfake网络。
作者指出该网络生成的合成语音和真实语音仍然是可以区分的这是因为训练集的数量不足避免太逼真带来的安全问题。如果要生成非常逼真的声音对每个目标说话仍然需要数十分钟的语音。
论文链接
https://arxiv.org/pdf/1806.04558.pdf