고려대와 개발…타 문화권 즉시 적용 가능
국내 최대 규모 1만4000개 평가샘플 반영
KT KT close 증권정보 030200 KOSPI 현재가 57,100 전일대비 1,700 등락률 +3.07% 거래량 370,669 전일가 55,400 2026.06.16 14:01 기준 관련기사 KT 매장에만 있는 다국어 AI 상담사…20여개 언어 지원 "재난 상황서 소방관 통화 우선 연결"…통신3사 10일부터 서비스 응급에도 통화 품질 유지…KT, 소방청에 우선전송 서비스 제공 는 멀티모달 거대언어모델(MLLM)이 한국 사회 이슈와 문화적 맥락을 반영해 얼마나 안전하게 답변하는지 평가하는 벤치마크 'KSAFE-MM'을 16일 공개했다.
고려대와 공동 개발한 이 벤치마크는 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성된다. 국내 최대 규모인 총 1만4135개의 평가 샘플을 바탕으로 구글 젬마(Gemma,), 네이버 하이퍼클로바 X(HyperCLOVA X) 등 12개 글로벌 MLLM을 검증했다.
이번 벤치마크의 특징은 자동화한 범용 파이프라인 제시했다는 점이다. 기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율도 높지 않다. 하지만 'KSAFE-MM'은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 쿼리(사용자가 인공지능(AI) 모델에 입력하는 질문) 생성, 합성 이미지 생성, AI의 안전장치나 윤리 제한을 교묘하게 우회하도록 변형된 탈옥 쿼리 생성까지 전 과정을 아우른다.
특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 표준 프레임워크를 제공해 비용은 낮추고 효율은 높일 수 있다는 의미다. KT·고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험(JSAFE-MM-C)에서 전 세계 어느 문화권에도 즉시 적용 가능함을 실증했다.
KT는 이번 연구 결과가 실제 AI 서비스 환경에서의 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등 다양한 목적으로 활용될 수 있을 것으로 기대했다. 연구 결과와 벤치마크는 아카이브와 허깅페이스에 공개돼 누구나 활용할 수 있다.
KT는 RAI 전담 조직을 중심으로 안전 리스크 분류 체계 설계, 평가 지표 및 로직 구현 등 연구 전반에 핵심적 역할을 수행해왔다. 이 조직은 최근 다국어 텍스트 벤치마크 'XL-세이프티벤치'도 공개했다.
꼭 봐야 할 주요 뉴스
그냥 뒀을 뿐인데 '1285만원→2330만원'…불장에 '...
박재형 KT AX미래기술원 프론티어 AI랩장(상무)은 "안전성 벤치마크 공개는 단순한 데이터 배포를 넘어 AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리 잡길 기대한다"고 말했다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>