法国人工智能公司 Mistral 推出了一款名为 Voxtral TTS 的开源文本转语音模型,专为语音人工智能助手和客户支持等企业应用程序而设计。这一发展使 Mistral 能够直接对抗包括 ElevenLabs、Deepgram 和 OpenAI 在内的竞争对手。

Voxtral TTS 支持九种语言:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。该模型旨在满足客户对适用于各种边缘设备的灵活语音模型的需求,提供保持高性能的经济高效的解决方案。

Mistral AI 科学运营副总裁 Pierre Stock 表示:“我们的客户一直在寻求语音模型。因此我们构建了一个小型语音模型,可以安装在智能手表、智能手机、笔记本电脑或其他边缘设备上。”他强调,虽然该型号的价格具有竞争力,但它提供了最先进的性能。

该模型允许使用少于五秒的样本来适应自定义语音。它捕捉微妙的特征,如口音和言语不规则。此外,基于Ministral 3B的Voxtral TTS可以在不损失语音质量的情况下切换语言,使其适合实时翻译和配音。

该模型的性能指标值得注意。对于 500 个字符的 10 秒样本,它的首次音频时间 (TTFA) 为 90 毫秒,实时因子 (RTF) 为 6 倍,这意味着它可以在大约 1.6 秒内渲染一个剪辑。

此次发布是 Mistral 在 2023 年初推出的两种转录模型之后推出的,旨在实现大批量处理和低延迟实时用例。 Voxtral TTS 是 Mistral 向企业提供全套语音产品战略的一部分。

斯托克概述了未来的计划,表示:“我们计划拥有一个可以处理多模式输入流(包括音频、文本和图像)的端到端平台。”该平台旨在增强其集成系统处理的信息。

<小时/>

特色图片来源

  Apple 选择 Google Gemini 作为 Siri