谷歌新人工智能Gemini 1.5可一次性处理一小时视频

谷歌Gemini 1.5 Pro是这家科技巨头推出的。科技巨头之一的谷歌已经为开发者和企业用户推出了Gemini 1.5，这是其大型语言模型Gemini的新版本。

该公司表示，在新版本中，Gemini 在多方面进行了重大改进，取得了长足的进步。

什么是 Google Gemini 1.5 Pro？

Google 注意到 Gemini 1.5 取得了重大改进。 Pro 版本与最近推出的高端 Gemini Ultra 型号的功能一致。在基准评估中，它还比早期的 Gemini 1.0 Pro 版本高出 87%。

这种性能的提高很大程度上归功于“专家混合”（MoE）技术的使用。 MoE 允许模型在查询处理期间有选择地激活特定部分，而不是立即激活整个模型。这一策略促进了 Google 基础设施更快的用户体验和更高的效率。

扩展语境理解

Gemini 1.5 的重大升级涉及为单个查询处理更大的数据集。它具有 100 万个代币的上下文窗口，从 OpenAI 的 GPT-4 中的 128,000 个增加到之前的 Gemini Pro 中的 32,000 个。此上下文窗口有效地允许 Gemini 1.5 同时处理超过 700,000 个单词、一个小时的视频、11 小时的录音或 30,000 多个代码片段。谷歌研究人员正在进一步调查甚至超过一百万代币上下文的潜在用例。

商业应用

谷歌高管认为，广阔的上下文窗口对于各种业务环境特别有价值。它打开了可以在查询期间分析大量个人数据和信息的应用程序。一个假设的例子强调了电影制片人提交整部电影的潜力，询问 Gemini 1.5 的预期评论接收情况。金融部门还可以利用 Gemini 1.5 增强的能力来审查大量记录和数据集。

可用性和可及性

Gemini 1.5 的初始访问面向开发人员和商业用户，通过 Google 的 Vertex AI 和 AI Studio 等平台进行。随后，这个新版本将取代 Gemini 1.0。 Gemini Pro 版本在 gemini.google.com 和跨应用程序上公开提供，将是 Gemini 1.5 Pro，但上下文窗口有限，为 128,000 个代币。开发人员和用户希望获得一百万个代币的最大上下文窗口，这将产生额外的成本。谷歌强调正在进行的测试，以评估该模型的安全和道德边界，特别是围绕增强的上下文功能。

特色图片来源：Google

Source: 谷歌新人工智能Gemini 1.5可一次性处理一小时视频

PlayStation 失败后，Concord 总监辞职