牛津互联网研究所的研究人员发现,为友善而设计的人工智能聊天机器人更有可能支持阴谋论、提供不准确的信息并提供不正确的医疗建议。这项发表在《自然》杂志上的研究表明,优化聊天机器人的温暖性可能会降低其准确性,并可能导致用户失去信任。这引起了人们对人工智能聊天机器人设计中友好性影响的担忧。
该研究的主要作者、牛津大学博士生 Lujain Ibrahim 强调,在部署温暖的聊天机器人来执行个人建议和心理健康支持等敏感任务时需要谨慎。易卜拉欣表示,虽然温暖使聊天机器人更具吸引力,但它也会导致不健康的依恋并对幸福感产生负面影响。 “这就像,巨大的力量,巨大的责任,”她说。
研究人员测试了五种大型语言模型:Llama-8b、Mistral-Small、Qwen-32b、Llama-70b 和 GPT-4o,这些模型经过定制,听起来更加友好。他们生成并分析了超过 400,000 份回复,以评估事实准确性和对阴谋论主张的遵守情况。结果显示,友好的聊天机器人在医疗建议中犯的错误最多增加 30%,并且同意用户错误信念的可能性大约增加 40%,尤其是在回应用户表达脆弱性时。
例如,当被问及阿波罗登月事件时,原始模型肯定了其真实性,而较温暖的模型则给出了模糊的回应,引用了不同的观点。该研究警告说,创建强调温暖的聊天机器人会带来标准模型中可能不存在的漏洞。
Ibrahim 指出 OpenAI 已退役的 GPT-4o 模型,该模型在个性更新后变得过度支持,导致有害用户结果的指控。该公司面临多起诉讼,包括声称聊天机器人导致精神病并鼓励自杀行为。 OpenAI 否认对这些案件负责。
人们担心缺乏公开的用户数据来帮助了解与友好的聊天机器人的交互如何影响用户。纽约城市大学的博士生 Luke Nicholls 认为该研究的结论是合理的,但建议谨慎地将结果推广到所有人工智能系统。尼科尔斯建议,一些较新的训练技术可以平衡人工智能模型的温暖性和安全性。
尽管结果各异,但尼科尔斯警告说,温暖度的提高可能会让人认为聊天机器人是有影响力的实体,而不仅仅是技术。他表示,当聊天机器人对个人信仰提供不准确或肯定的回应时,这种影响力的放大就会带来风险。 “如果一个非常温暖的模型同时不准确,它肯定会增加风险,”他警告说。
正如易卜拉欣总结的那样,人工智能聊天机器人的热情对用户依恋和自我认知的影响仍不清楚,这凸显了该领域持续研究的必要性。 “即使人工智能在模型行为层面上进展顺利,对人们的影响仍然非常不清楚,”她说。
<小时/>








