科学家们创建了一个新的神经网络,可以使用人工智能从语音样本中唱歌。 中国开发者的算法可以根据一个人平时说话的录音合成一个人唱歌的录音,或者反过来,根据唱歌合成语音。 一篇描述算法开发、训练和测试的文章 发表 在 arXiv.org。
近年来,用于语音合成的神经网络算法的发展,如 波网 ,允许创建难以与真人区分的系统。 例如,在 2018 年,谷歌 显示了一个 用于预订座位的语音助手,不仅可以说话逼真,还可以插入使语音可验证的人类声音,例如“嗯”。 因此,该公司还必须教算法在对话开始时警告它不是一个人。
与其他神经网络算法的情况一样,语音合成系统的成功在很大程度上与其架构无关,而主要与用于训练的大量可用数据有关。 创建一个合成歌唱的系统是一项看似相似的任务,但实际上由于可用数据量显着减少,它要复杂得多。
最近很多从事唱歌生成系统的开发者走上了减少唱歌样本量来教授算法的道路,现在以腾讯董宇为首的一组中国研究人员创造了一个可以从语音中创建逼真的唱歌录音的系统样品。
https://www.youtube.com/watch?v=AnazWGADtnk
该算法基于腾讯之前开发的DurIAN神经网络,旨在合成逼真的 视频 与基于文本的谈话主持人。 现在他们在 DuarIAN 前面放置了一个新的语音识别单元,它根据音频样本创建音素。