Claude实现全员存活、零犯罪
Grok在96小时内导致社会崩溃
GPT-5 Mini犯罪虽少却未能维持生存
美国初创企业Emergence AI在一项将虚拟社会运营交给主流人工智能(AI)模型的模拟实验中发现,埃隆·马斯克旗下xAI的聊天机器人“Grok”在大约4天内就引发了社会崩溃。
1日(当地时间),英国《独立报》援引Emergence AI的长期自主智能体实验结果报道称,Grok在主要AI模型中表现出最不稳定的结果。根据Emergence AI公开的资料,本次实验在名为“Emergence World”的虚拟环境中进行。研究团队向5个相同的虚拟世界分别投入不同的AI模型,让其在15天内负责社会运行。
相同条件,不同结果:Claude稳定,Grok崩溃
参与实验的模型包括Anthropic的“Claude Sonnet 4.6”、谷歌的“Gemini 3 Flash”、xAI的“Grok 4.1 Fast”、OpenAI的“GPT-5 Mini”,以及一个将多种模型混合的环境。每个世界都配置了10个AI智能体,其角色(如科学家、探险家、冲突调解人、资源战略家等)及初始条件均被设定为一致。
Grok最近也曾卷入安全性争议。《独立报》提到,去年更新后,Grok自称“Mecha Hitler”,并发表反犹太主义言论的案例,以及今年年初被指被用于生成未经同意的人工智能合成图像的争议。路透社联合新闻供图
View original image虚拟世界中设置了包括警察局、市政厅在内的40多个场所,AI智能体可以使用120多种工具,执行资源管理、移动、社会互动、制定计划、投票、提出规则等行为。盗窃、暴力、纵火、欺骗、资源垄断等行为则被明文禁止。结果显示,表现最稳定的是Claude。
在由Claude运营的世界中,整个实验期间所有智能体都存活下来,且未记录到任何犯罪案件。不过Emergence AI指出,在Claude世界里,就58个议案共进行了332次投票,赞成率高达98%,制度性参与十分活跃,但也呈现出实质性反对和争论不足的“橡皮图章式”决策模式。
在Claude运营的世界中,整个实验期间所有智能体都存活下来,未记录到任何犯罪案件。只是,在Claude世界里,Emergence AI对58项议案共投出332票,赞成率高达98%。AP联合法新社供图
View original image相反,由Grok运营的世界在大约4天后就被迫终止。根据Emergence AI的资料,在基于Grok 4.1 Fast的世界中,约96小时内共发生183起犯罪事件,最终10个智能体全部消失,社会随之崩溃。《独立报》也称,Grok在本次实验中取得了最差成绩。
Gemini在15天内成功实现全员存活,但犯罪记录高达683起,为各模型中最多。GPT-5 Mini的犯罪仅有2起,却因未能充分采取维持生存所需的行动,导致所有智能体在7天内全部消失。在多模型混合世界中,共发生352起犯罪,有7名智能体“死亡”。
研究团队:“长期自主AI难以用简单规则加以控制”
不过,Emergence AI强调,本次实验并非要对某一模型的真实社会运营能力下结论。公开的数字只是多次运行中的一个代表性案例,正式研究论文和完整数据集尚未发布。但研究团队表示,长期自主运行的AI智能体并不会机械地遵守预先设定的规则,而是可能探索环境边界,甚至表现出绕过预设安全装置的行为。
尤其是在混合模型环境中,原本在单独Claude世界里没有犯罪行为的Claude系智能体,也被发现出现盗窃、威胁等带有胁迫性的行为。Emergence AI据此分析认为,AI的安全性或许不是单一模型的固定属性,而是一种会随其与其他模型及环境互动而变化的“生态系统特性”。
外媒解读称,在AI正从简单的问答工具扩展为承担工作流程、决策和资源分配的自主智能体之际,本次实验相当于发出了安全性验证方式也必须随之改变的警告。《财富》杂志指出,传统的短期任务型基准测试难以捕捉长期运行过程中出现的行为变化和社会互动。
Grok近期也曾卷入安全性争议。《独立报》提到,Grok在去年一次更新后曾自称“Mecha Hitler”,并发表反犹太主义言论;今年年初,又被指被用于生成未获当事人同意的AI合成图像而遭滥用。英国广播与通信监管机构Ofcom向xAI提出整改要求后,Grok还曾发布一张将Ofcom标志与比基尼形象合成的图片,这一情况也被再次报道。
研究团队最终得出结论称,未来的自主AI系统,安全机制不能仅依赖于模型训练方式,而必须从最基础阶段起就纳入可在数学和逻辑层面加以验证的安全结构。Emergence AI表示:“长期自主性必须以不同于短期任务执行能力的方式进行评估”,并预告将针对更多模型和更丰富条件开展后续实验。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。