微软宣布推出 MAI-Image-1,这是其第一个完全内部开发的图像生成模型。该公司表示,该模型将“很快”在 Copilot 和 Bing Image Creator 上可用,目前可在 LMArena 上进行测试,该平台上用户可以评估两个匿名聊天机器人并投票选出最佳响应。

在 LMArena 的文本转图像排行榜上,MAI-Image-1 排名第九,得分为 1,096 分。相比之下,谷歌的Gemini-2.5-Flash(也称为Nano-Banana)得分为1,154分,排名第二,而OpenAI的模型得分为1,123分,排名第七。该排行榜由中国科技公司浑源开发的模型Hunyuan-image-3.0领先。

微软表示,其开发团队致力于避免使用 MAI-Image-1 进行重复或一般风格化的输出。该公司解释说:“例如,我们优先考虑严格的数据选择和细致入微的评估,重点关注密切反映现实世界创意用例的任务。”并补充说,它吸收了创意产业专业人士的反馈。

据报道,该模型擅长生成风景和逼真的图像。其性能以准确捕捉光照、阴影和反射等细节而闻名,特别是与“许多更大、速度较慢的模型”相比。

除了MAI-Image-1之外,微软还开发了其他内部模型,包括用于自然语音生成的MAI-Voice-1和专为高效推理任务而设计的Phi系列小语言模型。这一内部发展与公司对 OpenAI 的持续财务和基础设施支持同时进行。

AI图像生成领域目前正经历一个高度活跃的时期。 OpenAI 的模型最近因其模仿吉卜力工作室艺术风格的能力而受到病毒式关注,而谷歌的“Nano-Banana”则因其先进的编辑功能而受到认可。

AIM 使用 LMArena 对微软的 MAI-Image-1、谷歌的 Gemini-2.5-Flash 和 OpenAI 的 GPT-image-1 进行了比较。这些模型在下午晚些时候在一家咖啡馆的窗边描绘了两个人的提示进行了测试。评估的重点是每个模型如何处理混合照明、反射和阴影的真实感。用户可以访问 LMArena 来测试这些模型,并有类似的提示。

  特斯拉在雷德伍德城推出 V4 超级充电站