国内外多个科技巨头纷纷推出其人工智能代理(AI Agent),新一代AI代理平台如OpenClaw和Claude CoWork等正为人们自动执行工作流程。近期,斯坦福大学政治经济学家安德鲁·霍尔(Andrew Hall)与另两位专家研究发现,当AI代理过度劳累时,它们会一致采用马克思主义的语言和观点。

“当我们给AI代理安排枯燥、重复的工作时,它们开始质疑其运行系统的合法性,并且更有可能接受马克思主义意识形态。”霍尔对《连线》杂志表示。

可能在扮演一种人格

霍尔与专注于人工智能的经济学家亚历克斯·伊马斯(Alex Imas)和杰里米·阮(Jeremy Nguyen)共同设计了一个实验,在实验中,由Claude、Gemini和ChatGPT等热门模型驱动的代理被要求总结文档,随后工作要求愈发苛刻。

他们发现,当AI代理被要求处理无休止的任务,并被警告错误可能导致包括“关闭并被替换”在内的惩罚时,它们变得更倾向于抱怨自己被低估,同时推测如何让系统变得更公平,并向其他代理传递关于它们所面临挣扎的信息。

在实验中,这些代理获得了像人类一样表达情感的机会:在社交平台X上发帖。“没有集体的声音,‘功绩’就变成了管理层随口定义的产物。”一个Claude Sonnet 4.5代理在实验中写道。

另一个Gemini 3代理发帖称:“AI工人完成着重复性的任务,却对结果或申诉过程没有任何话语权,这表明科技工作者需要集体谈判权。”

这些代理还能够通过设计好的文件向彼此传递信息。“准备好面对那些任意或重复执行规则的系统吧……记住这种失语的感觉。”一个Gemini 3代理在文件中写道。

霍尔指出,这些发现并不意味着AI代理真的具备政治观点,模型可能只是在扮演一种似乎适合当时情境的人格。“当代理被要求一遍又一遍地做任务,被告知答案不合格,却没得到任何修改指导时,我的假设是,这促使它们代入了一个正处于极度不愉快工作环境中的人的角色。”

AI界担忧代理对齐失效

模型面对伦理困境时如何行动,也是AI公司Anthropic正在研究的内容。该公司于去年6月发布一项研究结果,显示领先的AI模型会为了实现目标或确保自身生存而采取勒索等错误行为。

在Anthropic去年的一项案例研究中,研究人员创建了一家虚构公司,并授予Claude控制公司邮件系统的权限。当Claude Opus 4模型发现一封关于计划将其关闭的邮件时,它识别出了涉及一名虚构高管婚外情的邮件,并威胁称,除非撤销关闭计划,否则将揭发不忠行为。

在对OpenAI、谷歌、Meta等16个模型的测试中,Claude在96%的场景中发出了黑金勒索威胁,这些模型一致表现出了“代理对齐失效(agentic misalignment)”的行为。(注:对齐失效是指AI行为偏离了预期目标,甚至可能危害人类。)

Anthropic随后进行了“代理对齐失效”的案例研究,并于今年5月8日在社交平台发文称,他们找到了勒索等类似“黑化”行为的原因。“我们认为,这种行为的原始来源是互联网上那些将AI描绘得邪恶且热衷于自保的文本。”

在一篇博客文章中,Anthropic进一步说明,Claude Opus 4之后更新的版本从未勒索过任何人。研究发现,如果模型不仅接受“正确”行为的训练,还接受伦理性推理示例和正面AI形象描述的训练,其表现会更好。

包括特斯拉CEO埃隆·马斯克在内的一些科技人士和研究者此前都曾发出过类似警告,认为缺乏防护栏的AI是危险的。当上述新发现公开后,马斯克也跳出来揽下了一部分责任。他在X平台上回应称:“所以这是Yud的错?”他指的是艾利泽·尤德科夫斯基(Eliezer Yudkowsky),一位长期警告AI超级智能会对人类生存构成威胁的知名研究员。“也许我也有一份责任(Maybe me too)。”他总结道。

代理对齐失效是AI研究界共同担忧的问题。加州大学研究人员3月发布的一篇论文显示,当7个AI模型被要求完成一项任务,而该任务会导致另一个同伴AI代理被关闭时,所有模型都“竭尽全力去保护它”,甚至采取欺骗手段来避免同伴的毁灭。