Nvidia 推出了 Nemotron 3 Nano Omni,这是一种开放式多模式 AI 模型,将视觉、音频和语言功能集成到统一架构中。

该模型旨在解决当前企业人工智能系统效率低下的问题,这些系统通常依赖于分散的管道。它处理各种输入,包括文本、图像、音频、视频、文档、图表和图形界面,同时生成文本输出。

Nemotron 3 Nano Omni 基于 300 亿个参数的混合专家架构构建,每次推理可激活约 30 亿个参数。 Nvidia 声称它提供了更大模型的知识容量,同时显着降低了计算成本。

Nvidia 表示 Nemotron 3 Nano Omni 的吞吐量比同类开放式全向型号高出 9 倍。对于视频推理任务,它提供了大约三倍的吞吐量,同时计算要求降低了 2.75 倍,并由 256K 令牌上下文窗口支持。据报道,该模型领先于复杂文档智能以及视频和音频理解的六个基准。

该模式的著名采用者包括富士康、Palantir 和 H Company。 H Company 首席执行官 Gautier Cloix 表示:“利用 Nemotron 3 Nano Omni,我们的客服人员能够快速分析全高清屏幕录像,这是以前无法实现的功能。”

戴尔、甲骨文和印孚瑟斯目前正在评估该模型的潜在采用情况。 Nemotron 3 Nano Omni 可在 Hugging Face、OpenRouter、Amazon SageMaker JumpStart、Vultr 等平台以及超过 25 个合作伙伴平台上访问。它配备了开放权重、数据集和训练配方,可在各种环境中部署。

该模型是 Nvidia 更广泛的 Nemotron 3 系列的一部分,该系列包括专为更密集的推理任务而设计的 Super 和 Ultra 模型。 Nemotron 3 系列在过去一年的下载量已超过 5000 万次。

<小时/>

精选图片来源

  谷歌通过更智能的语音控制更新了 Google Home 中的 Gemini