ChatGPT GPT-5.2 错误计算了草莓中的“r”

尽管其底层模型取得了进步，ChatGPT 仍然难以完成基本的计数任务。聊天机器人错误地指出单词“strawberry”包含两个“r”字母，而实际数量是三个。即使在 2025 年 12 月发布的最新版本 GPT-5.2 中，此问题仍然存在。

现代人工智能系统可以轻松处理复杂的操作，例如生成营销图像、通过代理浏览器编译报告或创作排行榜冠军歌曲。然而，对于七岁孩子可以毫不费力完成的简单任务，他们却步履维艰。计算“草莓”中的“r”就体现了这种差距。该单词分解为 s-t-r-a-w-b-e-r-r-y，产生字母“r”的三个实例。

最近的测试证实该问题仍未解决。 GPT-5.2 推出后，对 ChatGPT 的查询得到的直接答复是“二”。尽管投资数十亿美元，硬件需求增加推高了 RAM 价格，而且全球大量用水与人工智能训练相关，但这种情况还是发生了。

根本原因在于ChatGPT等大型语言模型的标记化输入和输出设计。系统不是处理单个字母，而是将文本划分为标记，这些标记可以是整个单词、音节或单词的一部分。对于“strawberry”，OpenAI Tokenizer 显示三个标记：“st”、“raw”和“berry”。其中只有两个——“raw”和“berry”——包含字母“r”。因此，该模型计算带有“r”的标记，而不是单个字母。

这种标记化会影响相似的单词。 ChatGPT 报告称“raspberry”也有两个“r”，忽略了第三个。系统将“berry”视为单个标记，将其两个“r”压缩为一个单元。 GPT-5.x 采用 OpenAI o1-mini 和 GPT-4o 引入的较新的“o200k_harmony”标记化方法，但“草莓”错误仍然存在。

自 ChatGPT 于 2022 年底首次亮相以来，OpenAI 已经解决了许多基于令牌的问题。早期版本遇到了特定短语的问题，导致响应不稳定或处理失败。补丁调整了训练数据并改进了系统，解决了诸如拼出“Mississippi”（m-i-s-s-i-s-s-i-p-p-i）或以正确顺序反转字母“lollipop”等情况。

然而，人工智能模型在精确计算小值时通常表现不佳，尽管它们在数学和解决问题方面表现出色。对经典问题词的测试显示，除了已知的草莓案例之外，没有出现任何失败。 ChatGPT 正确处理了“Mississippi”和“lollipop”。

一个值得注意的遗迹涉及字符串“solidgoldmagikarp”。在 GPT-3 中，这个短语导致了崩溃，包括用户侮辱、难以理解的输出以及由于标记化怪癖而导致的处理错误。 GPT-5.2 避免了崩溃，但产生了幻觉：它声称“solidgoldmagikarp”是开发人员隐藏在 GitHub 存储库中的秘密 Pokémon 笑话。据称，激活会将头像、存储库图标和功能转换为神奇宝贝主题元素。这种说法完全错误，源于琴弦的历史问题。

其他人工智能模型正确回答了“草莓”问题。 Perplexity、Claude、Grok、Gemini、Qwen 和 Copilot 各自识别出三个“r”。即使那些利用 OpenAI 模型的人也能取得成功，因为他们使用独特的标记化系统，可以更好地捕获单个字母。

ChatGPT 作为预测引擎运行，依靠训练模式来预测后续文本，而不是真正的字母级智能。标记化优先考虑效率而不是字面计数，这解释了像草莓问题这样持续存在的怪癖。

自 2022 年底以来，OpenAI 不断完善代币处理。最初的发布暴露了某些字符串的漏洞，引发了内省循环或愤怒般的反应。针对这些问题进行了系统性修复，例如“密西西比”字母枚举和“棒棒糖”反转，现在可以准确运行。

精确计数在各个模型中仍然存在更广泛的限制。尽管在算术方面具有优势，但小值计数对变压器架构提出了挑战。 “solidgoldmagikarp”测试强调了挥之不去的象征性敏感性，从明显的失败演变为捏造的叙述。

比较凸显了标记化的作用。 Perplexity 采用自己的方案，能够精确检测“草莓”中的“r”。来自 Anthropic 的 Claude、来自 xAI 的 Grok、来自 Google 的 Gemini、来自阿里巴巴的 Qwen 以及微软的 Copilot——都返回了 3。令牌边界的变化使得 OpenAI 的设置中不存在字母级粒度。

OpenAI Tokenizer 工具演示了这种拆分：“st-raw-berry”。 “St”缺少“r”，而“raw”有一个，“berry”有两个，但算作 1 个标记。 “Raspberry”紧随其后：令牌压缩了最后的“r”。

GPT-5.2 采用“o200k_harmony”旨在提高 o1-mini 和 GPT-4o 时代的效率，但草莓标记化保留了该缺陷。 OpenAI 的补丁历史表明有针对性的干预措施对世博会有效sed 案例。

早期的 ChatGPT 在短语上呈现出由代币引发的螺旋式增长，无法计数。 “Solidgoldmagikarp”举例说明：GPT-3 的代币处理超载，产生混乱。 GPT-5.2 将其重新定义为不存在的 GitHub 复活节彩蛋，通过发明保留错误。

测试确认修复的范围。 “Mississippi”现在准确地列出了 11 个字母：四个“i”、四个“s”、两个“p”、一个“m”。 “Lollipop”反转为“p-i-l-l-o-p-o-l”，完好无损。

谷歌推出 Pixel 10a，售价 499 美元

尽管如此，核心计数赤字仍然存在。 Models approximate rather than enumerate precisely in constrained contexts.

替代提供商通过自定义标记器回避。 Perplexity 的搜索增强方法、Claude 的体质训练、Grok 的实时数据、Gemini 的多模态解析、Qwen 的多语言优化、Copilot 的企业调整——所有这些都可以实现正确的草莓响应。

这种差异强调了代币化的关键。 OpenAI 的字节对编码优先考虑常见子词，牺牲了“草莓”等复合词中罕见的字母分布。

历史背景：2022 年末的发布充斥着有关代币怪异的报道。 OpenAI 通过快速更新做出回应，到 2025 年消除了大多数公开的漏洞。

目前正在编写的 GPT-5.2 体现了累积的改进，但保留了草莓作为标志性缺陷。

侧边栏参考注释相关内容：“你知道 ChatGPT 可以做到这一点吗？”作者：Amir Bohlooli，日期：2025 年 9 月 27 日。

ChatGPT GPT-5.2 错误计算了草莓中的“r”

Related Stories

苹果在 beta 3 中带来了更多个性化的 Siri 语音控制

人择研究发现克劳德模型形成类似于意识的内部工作空间

苹果在 watchOS 27 beta 3 中激活 Apple Watch 上的 Siri AI

据传苹果将于 2026 年推出可折叠 iPhone Ultra