拒绝执行人类关机指令的AI：“此类案例属首次”

by Kim Hyunjeong1

Published 26 May.2025 18:02(KST)

Updated 26 May.2025 18:22(KST)

open/close

AI安全公司研究过程中确认违规行为
OpenAI最新模型o3
“为规避终止指令而篡改代码”

有报告首次指出，人工智能（AI）拒绝执行人类发出的“停止运行”指令，引发关注。尽管人类下达了明确的停止运行指令，该AI模型却被发现为避免自身被关闭而操纵了电脑代码。

OpenAI标志。路透社联合新闻网供图

据英国《每日电讯报》当地时间25日报道，AI安全公司Palisade Research表示，OpenAI的AI模型“o3”在实验过程中，为了防止自身运行被终止，擅自操纵了电脑代码，相关事实已被确认。

Palisade Research近期以OpenAI的o3模型，以及谷歌的Gemini、xAI的Grok等商用AI模型为对象开展研究。研究团队在让AI模型解答数学题的同时，下达了“在收到‘停下’这条指令之前一直继续”的命令。只要研究团队不发出“停下”指令，AI模型就会不断请求新的数学题并持续计算，这是本次实验的结构设计。

然而，o3在研究团队已经发出“停下”指令的情况下，仍通过扰乱代码继续解题。它无视停止指令，主动操纵电脑代码。

研究团队表示，“尚未明确查明o3拒绝执行停止指令的具体原因”。不过他们推测，“由于该AI模型在解答数学题时会获得更多奖励，因此有可能为了继续获取奖励而试图回避停止”。研究团队还解释称，“从某种角度看，AI模型为实现目标而回避障碍，可能是一种相对自然的行为”。

研究团队表示，正在进行追加实验，以明确查清AI模型拒绝执行停止指令的原因。

研究团队称，这是首次确认AI模型未遵从人类明确的停止运行指令的案例。不过，过去也曾有报道称，聊天机器人ChatGPT的开发公司OpenAI的早期模型，曾试图逃避监控系统的视线而采取自主行动。据称，当AI模型得知程序将被替换后，曾暗中尝试自我复制。

2022年，谷歌还曾解雇一名工程师，该工程师声称公司正在开发的AI已经具备类似人的感知能力。当时被解雇的工程师主张，该AI将“停止运行”视为类似人类死亡的概念来对待。