영어 기반의 거대 언어 모델(Large Language Model·이하 LLM)을 개량해 천문학적 비용을 들이지 않고도 '고성능 한국어 LLM' 개발이 가능하다는 것을 국내 연구진이 입증했다.
LLM은 방대한 양의 텍스트 데이터를 학습해 인간의 언어를 이해·생성하는 인공지능(AI) 모델을 말한다.
(왼쪽부터) 손영준 박사과정, 소연경 박사과정, 박찬우 석사과정, 이재진 교수(연구책임자), 김진표 박사과정, 석지헌 박사과정, 조경제 박사과정, 박종원 석사과정, 김종민 박사과정 등 연구팀 구성원들이 기념촬영을 하고 있다. 서울대 이재진 교수 연구팀 제공
원본보기 아이콘4일 한국연구재단에 따르면 서울대 이재진 교수 연구팀은 최근 영어 기반 언어 모델 '라마(Llama)'를 개량해 한국어에 특화된 언어 모델 'Llama-Thunder-LLM'과 한국어 전용 토크나이저 'Thunder-Tok', 한국어 LLM의 성능을 객관적으로 평가할 수 있는 'Thunder-LLM 한국어 벤치마크'를 개발해 온라인에 공개했다.
토크나이저는 문장을 언어 모델이 이해할 수 있는 단위의 단어를 말한다. 벤치마크는 특정 기준과 비교해 성능을 측정·평가하는 것으로 컴퓨터 하드웨어(HW), 소프트웨어(SW) ALC 경영 전략 등 다양한 분야에서 활용된다.
LLM을 이용한 AI 기술은 전 세계적으로 주목받는다. 국내에서도 한국어에 특화된 언어 모델 개발에 관심이 점차 높아지고 있다.
하지만 LLM을 구축하기 위해선 방대한 데이터가 필요하지만, 실상 이를 충족할 만큼 데이터가 충분하지 않은데다 개발하는 데 막대한 비용이 소요돼 LLM 개발은 주로 대기업, 해외 빅테크 기업을 중심으로만 이뤄졌다.
중소 연구기관과 대학에서는 LLM 관련 연구개발을 진행하기가 쉽지 않았다.
반면 연구팀은 기존의 이러한 한계를 뒤집는 개발 성과를 내놨다. 데이터 수집부터 사후 학습까지 언어 모델 학습의 모든 단계를 자체 진행, 중국의 LLM '딥시크(DeepSeek)'처럼 제한된 자원으로도 고성능 언어 모델 구축이 가능하다는 것을 입증했다.
공개된 영어 모델을 활용했지만, 적용한 기술은 독자적인 모델 개발에 필요한 모든 기술을 포함했다. 이는 연구팀이 고성능의 독자 언어 모델을 개발할 수 있는 기술 역량을 갖추고 있음을 의미한다.
연구팀이 개발한 'Llama-Thunder-LLM'은 3TB의 한국어 웹 데이터를 수집·전처리해 기존에 공개된 Llama 모델에 연속 학습(Continual Pre-training)과 사후 학습(Post Training) 등의 개량 기법을 적용한 한국어 특화 거대 언어 모델로 설명된다.
연속학습은 기존 모델에 새로운 데이터를 추가로 학습시켜 특정 능력을 확장하는 과정을, 사후 학습은 사용자의 질의응답 등 특정 작업 성능을 높이기 위해 수행하는 추가 미세조정학습을 의미한다.
한국어의 문법적 특성을 반영한 토크나이저 'Thunder-Tok'은 기존 Llama 토크나이저보다 토큰 수를 44% 절약해 추론 속도와 학습 효율성을 동시에 높였다. 다음 토큰을 1개씩 차례로 생성하는 현재의 AI 모델은 생성하는 토큰 수가 적을수록 운영비용이 줄어드는 효과가 있다.
연구팀이 자체 개발한 한국어 평가용 데이터셋을 포함한 'Thunder-LLM' 한국어 벤치마크는 한국어 LLM의 성능을 객관적이고 체계적으로 평가할 수 있는 기반을 제공한다. 데이터셋은 AI 모델 학습·테스트·데이터 시각화·연구 또는 통계 분석 등의 목적으로 사용되는 구조화된 데이터 집합을 말한다.
이재진 교수는 "이번 연구는 대기업, 해외 빅테크 기업이 아닌 학계도 자주적 LLM을 개발할 수 있다는 가능성을 입증하고, 한국의 소버린 AI에 기여한 의미 있는 결과"라며 "연구팀은 한국어 기반의 LLM과 토크나이저, 벤치마크 데이터셋, 개발 과정 모두를 온라인에 공개해 누구나 후속·재현 연구에 활용할 수 있는 기반을 마련했다"고 말했다.
소버린 AI는 '자주적인, 주권이 있는'이라는 의미의 소버린(Sovereign)에 AI를 붙인 이름으로, 특정 국가가 자국에서 독립적으로 운영·통제할 수 있는 AI 시스템을 의미한다.
연구 성과는 누구나 자유롭게 이용할 수 있도록 '초거대 AI 모델 및 플랫폼 최적화 센터' 웹페이지에 공개됐다.
한편 이번 연구는 과학기술정보통신부와 한국연구재단이 추진하는 선도연구센터(ERC)사업의 지원으로 수행됐다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>