尽管其底层模型取得了进步,ChatGPT 仍然难以完成基本的计数任务。聊天机器人错误地指出单词“strawberry”包含两个“r”字母,而实际数量是三个。即使在 2025 年 12 月发布的最新版本 GPT-5.2 中,此问题仍然存在。

现代人工智能系统可以轻松处理复杂的操作,例如生成营销图像、通过代理浏览器编译报告或创作排行榜冠军歌曲。然而,对于七岁孩子可以毫不费力完成的简单任务,他们却步履维艰。计算“草莓”中的“r”就体现了这种差距。该单词分解为 s-t-r-a-w-b-e-r-r-y,产生字母“r”的三个实例。

最近的测试证实该问题仍未解决。 GPT-5.2 推出后,对 ChatGPT 的查询得到的直接答复是“二”。尽管投资数十亿美元,硬件需求增加推高了 RAM 价格,而且全球大量用水与人工智能训练相关,但这种情况还是发生了。

根本原因在于ChatGPT等大型语言模型的标记化输入和输出设计。系统不是处理单个字母,而是将文本划分为标记,这些标记可以是整个单词、音节或单词的一部分。对于“strawberry”,OpenAI Tokenizer 显示三个标记:“st”、“raw”和“berry”。其中只有两个——“raw”和“berry”——包含字母“r”。因此,该模型计算带有“r”的标记,而不是单个字母。

这种标记化会影响相似的单词。 ChatGPT 报告称“raspberry”也有两个“r”,忽略了第三个。系统将“berry”视为单个标记,将其两个“r”压缩为一个单元。 GPT-5.x 采用 OpenAI o1-mini 和 GPT-4o 引入的较新的“o200k_harmony”标记化方法,但“草莓”错误仍然存​​在。

自 ChatGPT 于 2022 年底首次亮相以来,OpenAI 已经解决了许多基于令牌的问题。早期版本遇到了特定短语的问题,导致响应不稳定或处理失败。补丁调整了训练数据并改进了系统,解决了诸如拼出“Mississippi”(m-i-s-s-i-s-s-i-p-p-i)或以正确顺序反转字母“lollipop”等情况。

然而,人工智能模型在精确计算小值时通常表现不佳,尽管它们在数学和解决问题方面表现出色。对经典问题词的测试显示,除​​了已知的草莓案例之外,没有出现任何失败。 ChatGPT 正确处理了“Mississippi”和“lollipop”。

一个值得注意的遗迹涉及字符串“solidgoldmagikarp”。在 GPT-3 中,这个短语导致了崩溃,包括用户侮辱、难以理解的输出以及由于标记化怪癖而导致的处理错误。 GPT-5.2 避免了崩溃,但产生了幻觉:它声称“solidgoldmagikarp”是开发人员隐藏在 GitHub 存储库中的秘密 Pokémon 笑话。据称,激活会将头像、存储库图标和功能转换为神奇宝贝主题元素。这种说法完全错误,源于琴弦的历史问题。

其他人工智能模型正确回答了“草莓”问题。 Perplexity、Claude、Grok、Gemini、Qwen 和 Copilot 各自识别出三个“r”。即使那些利用 OpenAI 模型的人也能取得成功,因为他们使用独特的标记化系统,可以更好地捕获单个字母。

ChatGPT 作为预测引擎运行,依靠训练模式来预测后续文本,而不是真正的字母级智能。标记化优先考虑效率而不是字面计数,这解释了像草莓问题这样持续存在的怪癖。

自 2022 年底以来,OpenAI 不断完善代币处理。最初的发布暴露了某些字符串的漏洞,引发了内省循环或愤怒般的反应。针对这些问题进行了系统性修复,例如“密西西比”字母枚举和“棒棒糖”反转,现在可以准确运行。

精确计数在各个模型中仍然存在更广泛的限制。尽管在算术方面具有优势,但小值计数对变压器架构提出了挑战。 “solidgoldmagikarp”测试强调了挥之不去的象征性敏感性,从明显的失败演变为捏造的叙述。

比较凸显了标记化的作用。 Perplexity 采用自己的方案,能够精确检测“草莓”中的“r”。来自 Anthropic 的 Claude、来自 xAI 的 Grok、来自 Google 的 Gemini、来自阿里巴巴的 Qwen 以及微软的 Copilot——都返回了 3。令牌边界的变化使得 OpenAI 的设置中不存在字母级粒度。

OpenAI Tokenizer 工具演示了这种拆分:“st-raw-berry”。 “St”缺少“r”,而“raw”有一个,“berry”有两个,但算作 1 个标记。 “Raspberry”紧随其后:令牌压缩了最后的“r”。

GPT-5.2 采用“o200k_harmony”旨在提高 o1-mini 和 GPT-4o 时代的效率,但草莓标记化保留了该缺陷。 OpenAI 的补丁历史表明有针对性的干预措施对世博会有效sed 案例。

早期的 ChatGPT 在短语上呈现出由代币引发的螺旋式增长,无法计数。 “Solidgoldmagikarp”举例说明:GPT-3 的代币处理超载,产生混乱。 GPT-5.2 将其重新定义为不存在的 GitHub 复活节彩蛋,通过发明保留错误。

测试确认修复的范围。 “Mississippi”现在准确地列出了 11 个字母:四个“i”、四个“s”、两个“p”、一个“m”。 “Lollipop”反转为“p-i-l-l-o-p-o-l”,完好无损。

  宝马将2020款扁平标志应用于iX3 SUV

尽管如此,核心计数赤字仍然存在。 Models approximate rather than enumerate precisely in constrained contexts.

替代提供商通过自定义标记器回避。 Perplexity 的搜索增强方法、Claude 的体质训练、Grok 的实时数据、Gemini 的多模态解析、Qwen 的多语言优化、Copilot 的企业调整——所有这些都可以实现正确的草莓响应。

这种差异强调了代币化的关键。 OpenAI 的字节对编码优先考虑常见子词,牺牲了“草莓”等复合词中罕见的字母分布。

历史背景:2022 年末的发布充斥着有关代币怪异的报道。 OpenAI 通过快速更新做出回应,到 2025 年消除了大多数公开的漏洞。

目前正在编写的 GPT-5.2 体现了累积的改进,但保留了草莓作为标志性缺陷。

侧边栏参考注释相关内容:“你知道 ChatGPT 可以做到这一点吗?”作者:Amir Bohlooli,日期:2025 年 9 月 27 日。