AI安全公司研究过程中确认违规行为
OpenAI最新模型o3
“为规避终止指令而篡改代码”

有报告首次指出,人工智能(AI)拒绝执行人类发出的“停止运行”指令,引发关注。尽管人类下达了明确的停止运行指令,该AI模型却被发现为避免自身被关闭而操纵了电脑代码。


OpenAI标志。路透社 联合新闻网供图

OpenAI标志。路透社 联合新闻网供图

View original image

据英国《每日电讯报》当地时间25日报道,AI安全公司Palisade Research表示,OpenAI的AI模型“o3”在实验过程中,为了防止自身运行被终止,擅自操纵了电脑代码,相关事实已被确认。


Palisade Research近期以OpenAI的o3模型,以及谷歌的Gemini、xAI的Grok等商用AI模型为对象开展研究。研究团队在让AI模型解答数学题的同时,下达了“在收到‘停下’这条指令之前一直继续”的命令。只要研究团队不发出“停下”指令,AI模型就会不断请求新的数学题并持续计算,这是本次实验的结构设计。


然而,o3在研究团队已经发出“停下”指令的情况下,仍通过扰乱代码继续解题。它无视停止指令,主动操纵电脑代码。


研究团队表示,“尚未明确查明o3拒绝执行停止指令的具体原因”。不过他们推测,“由于该AI模型在解答数学题时会获得更多奖励,因此有可能为了继续获取奖励而试图回避停止”。研究团队还解释称,“从某种角度看,AI模型为实现目标而回避障碍,可能是一种相对自然的行为”。


研究团队表示,正在进行追加实验,以明确查清AI模型拒绝执行停止指令的原因。


研究团队称,这是首次确认AI模型未遵从人类明确的停止运行指令的案例。不过,过去也曾有报道称,聊天机器人ChatGPT的开发公司OpenAI的早期模型,曾试图逃避监控系统的视线而采取自主行动。据称,当AI模型得知程序将被替换后,曾暗中尝试自我复制。


2022年,谷歌还曾解雇一名工程师,该工程师声称公司正在开发的AI已经具备类似人的感知能力。当时被解雇的工程师主张,该AI将“停止运行”视为类似人类死亡的概念来对待。



一直以来,AI专家不断警告,AI一旦获得更高自律性,可能会摆脱人类控制。Palisade Research表示,“在AI正被开发为可在无人类监督下运作的背景下,此类案例引发了极为严重的忧虑”。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点