微软推出了“MAI-Transcribe-1”,这是一种人工智能转录模型,可在 25 种广泛使用的语言中实现语音到文本的准确性。该模型旨在为会议、隐藏式字幕和听写等应用程序提供服务。

MAI-Transcribe-1 将与其他模型 MAI-Voice-1 和 MAI-Image-2 一起在 Microsoft Foundry 上提供。微软表示,此次发布使得“MAI 模型首次广泛用于商业用途”,使客户能够在转录、语音和图像生成中评估和构建利用人工智能的应用程序。

MAI-Voice-1 具有超现实语音生成功能,可在扩展内容中保持说话者身份和情感细微差别。它包括语音提示功能,可以从仅一分钟的录制音频中开发自定义品牌声音。

同时,MAI-Image-2 是一种新的文本到图像生成模型,擅长渲染自然光、准确的肤色和图像中的清晰文本。该模型在 Arena.ai 文本转图像排行榜上名列前三。

微软继续减少对 OpenAI 技术的依赖。该公司批评 GPT-4 成本高且响应时间慢。因此,微软已经开始开发自己的内部人工智能模型,并正在评估其 Copilot 功能的第三方模型。

微软 AI 首席执行官 Mustafa Suleyman 确认了开发“前沿”AI 模型的重点,并指出它们不会达到 OpenAI 产品的复杂程度。 Microsoft Copilot 领导层最近进行了重组,形成了四个部门:Copilot 体验、Copilot 平台、Microsoft 365 应用程序和 AI 模型。 Snap 前高管 Jacob Andreou 将领导 Copilot 体验部门,并向微软首席执行官 Satya Nadella 汇报。

Salesforce首席执行官马克·贝尼奥夫此前表示,微软可能会停止使用OpenAI技术,并指出OpenAI面临的挑战,包括放弃其旨在在美国各地建设数据中心的价值5000亿美元的Stargate项目。

<小时/>

精选图片来源

  Anthropic 的 Sonnet 4.6 打破了 SWE-Bench 和 OS 世界纪录