X 的工程团队上个月发布了其“为你”推荐算法的代码。埃隆·马斯克将该出版物描述为透明度的胜利,并表示:“我们知道该算法很愚蠢,需要大规模改进,但至少你可以看到我们努力使其实时且透明地变得更好。”马斯克补充道,“没有其他社交媒体公司这样做。”
X 是唯一开源其推荐算法元素的主要社交网络。然而,研究人员认为,已发布的代码对于了解该平台 2024 年的运行情况提供的透明度有限。康奈尔大学计算机科学助理教授 John Thickstun 表示,该代码类似于 2023 年发布的经过编辑的版本。
Thickstun 告诉 Engadget,“这些版本让我感到困扰的是,它们让你假装它们在发布代码方面是透明的,并且让人感觉有人可能能够使用此版本来做某种事情。”审计工作或监督工作实际上根本不可能。”
发布后,X 用户分享了解释代码的大量线程,为创建者提供提高可见性的建议。一篇浏览量超过 35 万次的帖子表示,X“将奖励那些交谈的人”并“提高 X 的振动”。另一篇拥有超过 20,000 次浏览的帖子声称,发布视频是关键。第三篇文章建议坚持“利基”,因为“话题转换会损害你的影响力”。
Thickstun 警告不要从代码中得出病毒式传播策略。 “他们不可能从发布的内容中得出这些结论,”他说。该代码揭示了次要的操作细节,例如过滤掉超过一天的内容。 Thickstun 将大部分信息描述为内容创作者“无法采取行动”。
当前算法与 2023 版本之间存在重大结构变化。新系统使用类似 Grok 的大语言模型来对帖子进行排名。鲁杰罗·拉扎罗尼,博士格拉茨大学的研究人员解释了其中的差异:“在之前的版本中,这是硬编码的:你记录某件事被点赞的次数、某事被分享的次数、某事被回复的次数……然后根据这些数据计算分数,然后根据分数对帖子进行排名。”
“现在,分数不是根据点赞和分享的实际数量得出的,而是根据 Grok 认为你点赞和分享帖子的可能性有多大,”Lazzaroni 继续说道。 Thickstun 表示,这种转变增加了不透明度。 “更多的决策……发生在黑盒神经网络中,他们正在根据数据进行训练,”他说。 “这些算法越来越多的决策权不仅正在从公众视野中转移,而且实际上甚至超出了研究这些系统的内部工程师的视野或理解范围,因为他们正在被转移到这些神经网络中。”
新版本省略了之前在 2023 年披露的有关排名交互加权的细节。 2023 年,X 指定一条回复等于 27 次转发,一条由原作者生成响应的回复等于 75 次转发。 X 以“安全原因”为由,在最新代码中修改了这些权重。
该代码没有提供有关模型训练数据的信息。卡内基梅隆大学商业技术助理教授 Mohsen Foroughifar 强调了这一差距:“我真正想看到的一件事是,他们用于该模型的训练数据是什么。如果用于训练该模型的数据本质上是有偏差的,那么无论您在模型中考虑什么样的因素,该模型实际上最终可能仍然存在偏差。”
拉扎罗尼负责一个欧盟资助的项目,该项目模拟社交媒体平台以测试推荐方法,他指出该代码本身缺乏模型。 “我们有运行算法的代码,但我们没有运行算法所需的模型,”他说。这可以防止研究人员复制 X 的算法。
研究算法的价值超越了社交媒体。 Thickstun 观察到,社交媒体推荐的挑战反映了人工智能聊天机器人的问题。 “我们在社交媒体平台和推荐系统上看到的许多挑战与这些生成系统也以非常相似的方式出现,”他说。 “因此,你可以将我们在社交媒体平台上看到的挑战推断为我们将在与 GenAI 平台互动时看到的挑战。”
拉扎罗尼在社交媒体上模拟有毒行为,他批评了人工智能开发的优先事项。 “AI公司es,为了最大化利润,优化大型语言模型以提高用户参与度,而不是为了说实话或关心用户的心理健康,”他说。“这正是同样的问题:他们赚了更多的利润,但用户的社会变得更糟,或者他们的心理健康状况因此变得更糟。
该版本于上个月发布,之前的基准是 2023 年版本。正如马斯克指出的那样,X 的方法与其他平台形成鲜明对比,尽管研究人员质疑其监督或审计的效用。尽管专家对代码的局限性发出了警告,但用户的解释立即激增。向基于神经网络的排名的转变用模型预测取代了显式交互计数,进一步模糊了过程。修订涵盖了权重和训练细节,限制了外部分析。
Thickstun 强调了这种转变对内部和外部理解的影响。 Foroughifar 对训练数据的关注凸显了偏见风险。拉扎罗尼的复制挑战阻碍了基于模拟的研究。研究人员表示,这些因素共同削弱了该版本的透明度主张。
<小时/>







