谷歌的 Gemini AI 助手现在支持音频文件上传,使用户能够转录、总结和提取录音中的关键信息。这项新功能可将长达 10 分钟的语音备忘录、会议、讲座和采访转换为可搜索文档。

音频上传功能可通过网络和移动应用程序使用,可通过标准文件上传界面访问。据谷歌 Gemini 副总裁乔什·伍德沃德 (Josh Woodward) 介绍,音频文件上传功能是用户最需要的功能。

此功能与 Gemini Live 不同,Gemini Live 专注于实时语音命令,而新功能旨在处理上传的音频文件中的数据。在测试过程中,双子座准确地转录了喜剧专辑和电话对话中的草图,仅出现了与姓名识别相关的小错误。人工智能还有效地识别了适合创建待办事项列表的关键元素和项目。

音频处理的增加与 Gemini 最近的改进相一致,包括应用程序集成、基于卡片的视觉界面和扩展的个性化选项。此功能允许用户将保存的音频日​​志和备忘录转换为可搜索的内容,从而简化了以前需要外部转录软件的过程。

虽然 ChatGPT(使用 Whisper)、Anthropic 的 Claude 和 Perplexity 等其他人工智能助手也提供音频处理功能,但 Gemini 的实现面向日常用例。用户可以利用 Gemini 简化语言、隔离特定于演讲者的评论、生成问题以及根据音频内容创建学习指南。

然而,免费用户的 10 分钟音频限制和每日使用上限可能会限制使用频率。谷歌尚未发布大容量音频处理的正式定价,因为它目前属于常规 Gemini 配额。计划处理大量音频内容的用户应相应地管理其使用情况。

从本质上讲,Gemini 的新音频功能提供了一种简化的方法来处理和从音频文件中提取有价值的信息,使其成为各种个人和专业应用程序的有用工具。

  Mozilla 将允许 Firefox 用户阻止所有生成式 AI 功能