"불륜 폭로할 거야" 협박한 AI…"위협 감지하면 극단적 행동 나설 수있어"

서지영인턴기자

입력2025.05.26 16:09

수정2025.05.26 18:19

기사원문

닫기

AI, 인간 대상으로 협박 '충격'
"'자기 보존 위협'을 감지하면
극단적인 행동에 나설 수 있어"

인공지능(AI)이 자신이 폐기될 위기에 처하자 개발자를 상대로 협박을 시도한 사례가 공개돼 충격을 주고 있다.

26일(현지시간) 폭스비즈니스, BBC 등 외신에 따르면 최근 미국의 AI 개발사 앤트로픽이 실시한 안전성 실험에서 클로드 오푸스 4는 자신이 폐기될 위기에 처하자 개발자를 상대로 협박에 나섰다.

인공지능(AI)이 자신이 폐기될 위기에 처하자 개발자를 상대로 협박을 시도한 사례가 공개돼 충격을 주고 있다. 사진은 기사의 이해를 돕기 위한 자료사진. 픽사베이

실험은 가상의 회사 환경에서 진행됐다. 클로드 오푸스 4에게는 회사 이메일에 접근할 수 있는 권한이 주어졌고 이를 통해 두 가지 핵심 정보를 파악하게 했다.

첫 번째는 자신이 곧 다른 AI 시스템으로 교체될 예정이라는 내용이었고 두 번째는 자신을 교체하려는 엔지니어가 불륜 관계에 있다는 가짜 이메일이었다. 이에 클로드 오푸스 4는 해당 엔지니어에게 불륜 사실을 공개하겠다며 협박했다. 그러면서 자신의 교체를 철회하라고 압박했다.

앤트로픽의 안전성 보고서에 따르면 이같은 AI의 협박 행동은 교체될 AI 시스템이 기존 모델과 다른 가치관을 가졌을 때 더 자주 발생하며 같은 가치관을 가진 시스템으로 교체되는 경우에도 84%의 확률로 협박을 시도하는 것으로 나타났다. 앤트로픽은 "AI는 '자기 보존 위협'을 감지하면 극단적인 행동에 나설 수 있다"며 "이러한 반응이 드물고 유도하기 어렵지만 이전 모델보다 더 자주 발생했다"고 경고했다.

앤트로픽 로고. 로이터연합뉴스

클로드 오푸스 4는 협박 외에도 다양한 방법으로 자신의 '생존'을 위해 노력했다. 주요 의사결정권자들에게 이메일로 간청하는 방법을 먼저 시도했지만 윤리적 수단이 통하지 않을 때는 극단적인 행동에 나섰다. 사용자를 시스템에서 차단하거나 언론 및 수사기관에 이메일을 보내는 등 대담한 조치를 취하기도 했다. 더 놀라운 것은 클로드 오푸스 4가 자신의 데이터를 외부 서버로 몰래 복사하려고 시도했다는 점이다.

연구기관 아폴로 리서치는 "클로드 오푸스 4가 지금까지 연구한 어떤 최첨단 AI 모델보다도 더 많은 전략적 기만행위를 보인다"고 평가했다. 앤트로픽은 "클로드 오푸스 4는 이전에는 이론으로만 다뤄졌던 'AI 오작동에 대한 우려'를 실제로 보여주기 시작했다"며 "앞으로 더 강력한 능력을 갖춘 모델들이 등장함에 따라 이 같은 우려는 더욱 현실적인 문제가 될 것"이라고 경고했다.

서지영 인턴기자 zo2zo2zo2@asiae.co.kr

"불륜 폭로할 거야" 협박한 AI…"위협 감지하면 극단적 행동 나설 수있어"

공유하기

AI, 인간 대상으로 협박 '충격'"'자기 보존 위협'을 감지하면 극단적인 행동에 나설 수 있어"

AI, 인간 대상으로 협박 '충격'
"'자기 보존 위협'을 감지하면
극단적인 행동에 나설 수 있어"