Gemini Live 是 Google 最新的 AI 功能,允许用户与人工智能系统进行语音对话。该工具在 Made by Google 活动上推出,旨在为希望通过自然语言与设备交互的用户提供无缝、互动的体验。听起来不错?让我们仔细看看。
Gemini Live 是什么?
Gemini Live 是一款语音激活的人工智能助手,它利用了谷歌最新的大型语言模型 Gemini。它是谷歌更广泛计划的一部分,该计划旨在将先进的人工智能功能融入日常任务中,使与技术的互动更加直观和方便。
此功能允许用户与 AI 进行动态、持续的对话,就像与人交谈一样。与通常提供僵硬、脚本化响应的传统语音助手不同,Gemini Live 旨在处理更流畅、更自由的对话。这意味着用户可以在 AI 响应中途打断它、提出后续问题或自然地切换话题,而无需重新开始或重新措辞命令。
您可以用 Gemini Live 做什么?
- 实时互动: Gemini Live 允许用户实时与人工智能互动,实现自然的对话交流。这对于需要来回对话的任务特别有用,例如规划活动、查找信息或获取个性化推荐。
- 免提操作: Gemini Live 的一大特色是免提操作。即使手机锁定或在后台运行,用户也可以继续通话,方便进行多任务处理或外出时使用。这类似于传统电话的体验,即使用户没有主动握住或看着设备,通话也不会中断。
- 中断并恢复: Gemini Live 的一个独特之处是能够在 AI 回答过程中打断它。用户可以将对话引向不同的方向,或深入探讨特定主题,而无需等待 AI 讲完。此外,如果对话暂停,稍后可以轻松恢复,从中断的地方继续。
- 与Google生态系统集成: Gemini Live 与 Android 操作系统和其他 Google 服务深度集成。用户只需长按电源按钮或说“Hey Google”即可激活 AI。这种集成允许 Gemini Live 与用户屏幕上的内容进行交互,例如提供有关在 YouTube 上观看的视频的更多信息或将旅行视频博客的详细信息直接添加到 Google 地图中。
- 情境感知响应: 得益于其先进的语言模型,Gemini Live 可以理解并提供情境感知响应。这意味着人工智能可以考虑当前活动、最近的互动以及用户设备上的特定内容,以提供更相关和个性化的帮助。
- 新的扩展和功能: Google 计划推出各种扩展程序来增强 Gemini Live 的功能,例如用于记笔记的 Keep、用于待办事项列表的 Tasks、实用程序和 YouTube Music 中的高级功能。这些扩展程序将允许用户在 Gemini 界面中执行检索食谱、编制购物清单或创建音乐播放列表等任务。
Gemini Live 与其他语音助手(包括 OpenAI 的高级语音模式)相比如何?
Gemini Live 旨在与其他人工智能语音助手直接竞争,尤其是 OpenAI 在 ChatGPT 中的高级语音模式。虽然 OpenAI 的功能在 alpha 测试中仍然有限,但谷歌已经向公众推出了一个完全开发的版本。
Gemini Live 与其竞争对手之间的一个显著区别是,谷歌专注于增强移动 AI 交互。通过提供免提操作以及中断和恢复对话等功能,Gemini Live 旨在提供更灵活、更人性化的体验。
不过,谷歌也设置了一些限制。例如,Gemini Live 不允许人工智能唱歌或模仿十个预定义选项之外的声音,这可能是在 OpenAI 丑闻之后为避免版权问题而采取的预防措施。
此外,谷歌选择不优先考虑情绪语音识别,这是 OpenAI 在其演示中强调的一项功能。这一选择表明谷歌专注于用户交互的不同方面,或许更看重速度、准确性和实用性,而不是情绪细微差别。
综上所述Gemini Live 标志着语音激活 AI 向前迈出了重要一步,为用户提供了一种更自然、更多样化的设备交互方式。它的实时交互、免提操作以及与 Google 生态系统的深度集成使其成为日常任务的强大工具。虽然它确实存在一些局限性,例如缺乏情感语音识别,但 Gemini Live 对实用、无缝通信的关注使其在不断发展的 AI 助手领域中脱颖而出。随着 Google 不断完善和扩展其功能,Gemini Live 有望成为我们与技术互动不可或缺的一部分。
Source: 使用 Google 的 Gemini Live 进行更智能的聊天