AI现在可以从语音样本中唱歌

科学家们创建了一个新的神经网络，可以使用人工智能从语音样本中唱歌。中国开发者的算法可以根据一个人平时说话的录音合成一个人唱歌的录音，或者反过来，根据唱歌合成语音。一篇描述算法开发、训练和测试的文章发表在 arXiv.org。

近年来，用于语音合成的神经网络算法的发展，如波网，允许创建难以与真人区分的系统。例如，在 2018 年，谷歌显示了一个用于预订座位的语音助手，不仅可以说话逼真，还可以插入使语音可验证的人类声音，例如“嗯”。因此，该公司还必须教算法在对话开始时警告它不是一个人。

与其他神经网络算法的情况一样，语音合成系统的成功在很大程度上与其架构无关，而主要与用于训练的大量可用数据有关。创建一个合成歌唱的系统是一项看似相似的任务，但实际上由于可用数据量显着减少，它要复杂得多。

最近很多从事唱歌生成系统的开发者走上了减少唱歌样本量来教授算法的道路，现在以腾讯董宇为首的一组中国研究人员创造了一个可以从语音中创建逼真的唱歌录音的系统样品。

https://www.youtube.com/watch?v=AnazWGADtnk

该算法基于腾讯之前开发的DurIAN神经网络，旨在合成逼真的视频与基于文本的谈话主持人。现在他们在 DuarIAN 前面放置了一个新的语音识别单元，它根据音频样本创建音素。

作者在两个专有数据集上训练了该算法，其中包括一个半小时的歌唱和 28 小时的演讲。训练结束后，他们在 14 名志愿者身上测试了算法，这些志愿者评估了合成歌唱的真实性和相似性。结果，其中一项测试在真实性方面获得了 3.8 分，在相似性方面获得了 3.65 分。作者发表神经网络工作的样本。