在澳大利亚政府进行的一项实验中,人工智能(AI)与人类智能在总结复杂文件方面进行了比较,结果证明人类在各个方面都更为有效。
这项研究由澳大利亚企业监管机构证券和投资委员会 (ASIC) 开展,旨在评估人工智能在通常需要细致分析和集中注意力的任务中的效率。根据研究结果,人工智能可能会增加工作量,而不是减少工作量。
人工智能不如人类审阅者
今年早些时候,亚马逊测试了来自不同制造商的各种人工智能模型,协助澳大利亚政府进行这项实验。它最终选择了 Meta 的 Llama2-70B 来完成这项任务。人工智能的任务是总结议会调查的五份意见书,重点关注 ASIC 的提及、建议、对法规的引用和其他关键细节。同时,十名不同资历的人——ASIC 员工——也被赋予了同样的任务。这组审阅者不知道人工智能的参与,他们评估了摘要的连贯性、长度、相关性和对法规引用的准确性。
人类参与者的表现明显优于人工智能,获得了令人印象深刻的 81% 在评估标准上,相比 47% 人工智能。人类擅长识别 ASIC 文档的引用,这是一项众所周知的挑战人工智能的任务。此外,人类摘要因保留重点、细微差别和背景而受到称赞,而人工智能经常错过这些关键要素。审稿人还指出,人工智能摘要有时包含不相关的信息或遗漏了重要细节,使其可靠性降低。
人工智能摘要性能的影响
实验结果表明,目前的人工智能技术在节省时间方面可能并不像人们普遍认为的那样高效。另一方面,人工智能往往会忽略关键细节并犯错,这可能会导致人类承担额外的任务,因为人类必须验证和编辑人工智能创建的材料。审阅者担心,依靠人工智能进行总结可能没有好处,因为它通常不能像人类审阅者那样传达文档的要点。
尽管该报告承认存在某些限制,例如使用的 AI 模型过时,但最终得出的结论是,人类在解释和评估信息方面的技能仍然优于 AI。该试验强调了将 AI 视为一种工具的重要性,它可以帮助人类完成需要彻底掌握背景和细微差别的任务,而不是取代人类。
政府透明度和人工智能
报告结果并不令绿党参议员戴维·舒布里奇 (David Shoebridge) 感到意外,他领导了此次调查,并最终发表了该报告。他提到,尽管人工智能可以协助评估提交的内容,但它应该始终受到人类的监督。这项实验强调了这样一种观点,即目前,人工智能在协助人类能力而不是接管人类能力时最有益。
此次审判还引发了人们对人工智能在政府程序中的透明度的普遍担忧。参议员 Shoebridge 强调,政府部门应主动披露其人工智能的使用情况,而不是等待参议院委员会听证会上披露这些信息。
特色图片来源:Furkan Demirkaya / Midjourney
Source: 在政府试验中,人类接触胜过人工智能