Anthropic 的绩效优化团队自 2024 年以来一直在评估求职者,修改其技术面试测试,以应对人工智能辅助作弊,团队负责人 Tristan Hume 表示。

Anthropic 为求职者实施了一项带回家的测试。人工智能编码工具的功能不断提高,需要经常修改这项旨在评估候选人技能的测试。团队负责人 Tristan Hume 在周三的一篇博客文章中详细介绍了这些挑战。

休谟表示,“每一个新的克劳德模型都迫使我们重新设计测试。”他指出,“在相同的时间限制下,Claude Opus 4 的表现优于大多数人类申请者。”随后,“Claude Opus 4.5 甚至匹配了那些”,指的是最强的人类候选人。

这一发展提出了一个重要的候选人评估问题。由于没有现场监考,因此无法阻止测试过程中人工智能的使用。休谟解释说,“在带回家的测试的限制下,我们不再有办法区分我们最好的候选人和我们最有能力的模型的输出。”

全球教育机构中已经观察到人工智能作弊现象的泛滥,现在正在影响人工智能实验室。然而,人类拥有独特的资源来解决这个特定问题。

休谟最终开发了一种新的测试。此次修订后的评估较少关注硬件优化,这对当前的人工智能工具来说具有挑战性。作为帖子的一部分,他发布了原始测试,邀请读者提出替代解决方案。该帖子称:“如果您能超越 Opus 4.5,我们很乐意听取您的意见。”

<小时/>

特色图片来源

  谷歌将个人情报功能扩展到所有美国用户