Meta 公开了一种新的开源 Meta ImageBind AI 模型,该模型将文本、音频、视觉数据、温度读数和运动读数等许多数据流联系在一起。
该模型目前只是一项研究工作,没有直接的消费者或实际应用,但它预示着未来的生成 人工智能系统 可以产生身临其境的多感官体验。 它还展示了如何公开 元 与竞争对手如 开放人工智能 和 谷歌,两者都变得更加隐居。
该研究的核心思想是将多种数据类型整合到一个单一的多维索引(或“嵌入 空间”,使用 人工智能行话). 尽管此时听起来有点抽象,但最近生成式人工智能兴起背后的基本概念是相同的。
什么是 Meta ImageBind AI?
例如,在训练阶段,许多 AI 图像生成器,包括 达尔–乙, 稳定的 扩散, 和 中途,依靠这些系统。 在将该数据与照片描述相关联的同时,他们搜索视觉数据中的模式。 因此,这使得这些系统可以生成与用户输入的文本相对应的图像。 许多人工智能技术也以类似的方式产生视频或音频。
根据 Meta ImageBind AI 是第一个集成的模型 六个不同 形式 数据到一个单一的嵌入空间。 视觉(以图片和视频的形式)、热(红外图像)、文本、音频、深度信息,以及——最有趣的——由惯性测量单元或 IMU 产生的运动测量是合并的六类数据在模型中。
IMU 在手机和智能手表中用于各种功能,包括将手机从横向模式切换到纵向模式以及识别各种形式的 身体的 活动.
这个概念是,就像目前的人工智能系统处理文本输入一样,未来的人工智能系统将能够交叉引用这些数据。 例如,考虑一个未来的虚拟现实系统,它不仅可以创建音频和视频输入,还可以创建您的 环境 和 移动 在真实的舞台上。
如果你让它模拟长时间的海上航行,它会让你置身于一艘船上,除了远处的海浪声之外,还有脚下甲板的摇晃和海洋空气的冷风。
Meta ImageBind AI 如何工作?
在博客文章中,Meta ImageBind AI 提及 未来的模型可能包括“触觉、语言、嗅觉和大脑 fMRI 信号”。 根据声明,这一发现“使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力。” 没关系; 任何。 这些阶段有多短将决定。)
当然,所有这些都是假设性的,而且这种研究的直接用途很可能会受到更多限制。 例如,元 显示 去年开发了一个人工智能模型,可以根据文本描述创建简短、模糊的电影。 系统的未来迭代可能会结合额外的数据流,产生音频以补充视频输出,例如,如 ImageBind 等工作所证明的那样。
然而,对于那些关注该行业的人来说,这项研究特别有趣,因为 Meta ImageBind AI 正在开源底层模型,这一趋势在 AI 领域受到密切关注。
Meta ImageBind AI 开源方法:为什么有效?
那些反对开源的,比如 开放人工智能声称这种方法对创作者不利,因为竞争对手可能会复制他们的作品,而且它甚至可能是危险的,因为它可能允许不法分子利用尖端的人工智能模型。
作为回应,支持者声称开源使第三方能够检查系统的缺陷并修复它们的一些缺陷。 他们指出,它甚至可能具有财务优势,因为它有效地使企业能够聘请外部编码员作为无偿雇员来改善他们的工作。
尽管有过挑战,但Meta ImageBind AI至今仍稳固地站在开源阵营中。 (例如,它最新的语言模型, 骆驼,于今年年初在线发布。)在许多方面,该公司缺乏商业 AI 成功(它没有聊天机器人与之竞争 必应, 诗人, 或者 聊天GPT) 使这一战略成为可能。 在此期间,此策略仍在与 ImageBind 一起使用。
查看以下文章,了解最新的技术进步,尤其是与 AI 相关的文章。
- 了解 ChatGPT 是获得聘用的关键:是的,一家日本初创公司表示
- Visual ChatGPT 旨在改进文本到图像生成器
- Midjourney V5 来大饱眼福!
Source: Meta ImageBind AI 模型在生成 AI 领域开辟了新天地