KT, 자체 모델 '믿음 2.0' 공개…정부 독자 AI 프로젝트도 정조준(종합)

4일 허깅페이스서 오픈소스로 공개
"한국어와 한국 문화 깊이 이해"…B2B 특화 설계
'소버린 AI' 기준 제시…"MS 협력도 병행"

KT, 자체 모델 '믿음 2.0' 공개…정부 독자 AI 프로젝트도 정조준(종합) 원본보기 아이콘

KT 가 자체 개발한 한국어 특화 거대언어모델(LLM) '믿:음 2.0'을 4일부터 오픈소스로 공개하고, 정부의 '독자 인공지능(AI) 파운데이션 모델' 개발 프로젝트에도 본격적으로 참여하겠다는 뜻을 밝혔다. 마이크로소프트(MS) 등 글로벌 빅테크(대형 정보기술 기업)와의 협업에 주력하던 기존 기조에서, 독자 모델 개발 전략에도 무게를 두기 시작한 것으로 해석된다.


3일 KT는 온라인 브리핑을 열고 "지난 1년간 자체 기술로 개발한 믿음 2.0을 누구나 활용할 수 있도록 허깅페이스(HuggingFace)에 공개한다"며 "정부의 독자 AI 파운데이션 모델 프로젝트에도 참여할 준비를 하고 있다"고 밝혔다.

이날 신동훈 젠 AI 랩장은 발표를 통해 "KT는 단 한 번도 자체 개발을 멈춘 적이 없다"며 "믿:음 2.0은 한국어에 최적화된 토크나이저를 자체 설계하고, 문서 이해, 보고서 작성, 문서 기반 질의응답 등 기업간 거래(B2B) 환경에서 활용도가 높은 기능들에 중점을 두고 개발했다"고 설명했다.


모델 라인업은 미니·베이스 외에도 고성능 프로 모델, 추론모델, 멀티모달 모델 등으로 확장될 예정이다. 그는 "한국적인 뉘앙스와 감정 표현, 역사적 시각, 예의범절 등까지 반영하려 노력했다"며 "단순 생성형 AI가 아니라, 한국적 가치와 실용성을 갖춘 모델"이라고 강조했다.


신 랩장은 "모델 설계부터 학습까지 외부 도움 없이 KT가 직접 수행했기 때문에 소버린 AI의 대표 모델이라 자부한다"고 말했다. 학습된 정보 중 사실과 다른 내용을 교정하거나 삭제하는 기술인 'RAI(Responsible AI)' 원칙도 강조했다. KT는 믿:음 2.0 개발 전 과정에 RAI 거버넌스를 적용했다고 설명했다.

모델의 성능을 받쳐주는 건 데이터다. KT는 자체적으로 수집한 데이터와 K-데이터 얼라이언스를 통해 확보한 한국어 데이터를 기반으로 200여개 카테고리로 분류·정제해 학습에 활용했다. 저작권 이슈에 대한 질문이 나오자 "데이터는 모두 구매·제휴를 통해 확보했으며, 라이선스가 모호한 회색지대 데이터는 학습에서 철저히 제외했다"고 답했다.


'왜 MS와 GPT 기반 모델도 만들면서 믿음 모델을 별도로 개발하느냐'는 질문에는 "모든 작업에 GPT 수준의 모델이 필요한 것은 아니기 때문에, 목적과 사용 환경에 따라 두 모델을 상호보완적으로 제공하는 전략"이라는 답을 내놨다. GPT 기반 모델은 복잡한 추론이나 창작처럼 고성능이 요구되는 작업에 적합한 '무겁고 강력한 모델'인 반면, 믿:음 2.0은 상대적으로 가볍고 한국어와 한국 문화를 깊이 이해하도록 설계돼 국산 기술 기반의 가성비 높은 실용형 모델이라는 설명이다.


2023년 '믿음 7B'를 허깅페이스에 올렸다가 비공개로 전환했던 전례가 반복될 가능성에 대해서는 "이번 공개는 오픈소스로 AI 커뮤니티에 실질적으로 기여하겠다는 결단"이라며 "기간 한정이 아니라 지속적으로 고도화할 계획"이라고 강조했다.


한편, K-데이터 얼라이언스의 구체적 참여 기업과 확보 데이터 규모는 7월 중순 추가 발표 예정이다. 사업화와 수익 모델, 중장기 투자 계획 등도 별도 자리를 마련해 설명한다는 방침이다.





박유진 기자 genie@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>