- AI 학습용 요약문 오류 데이터 10만 세트 구축
- AI 성능 높이고, 오류 발견/수정 AI 제작에 기여
㈜알토비전 컨소시엄이 한국지능정보사회진흥원(이하 NIA)의 ‘추상 요약 사실성 검증 데이터’(이하 추상 요약 사업) 사업으로 AI 학습용 데이터를 10만 세트 구축하며 성공적으로 마무리했다고 지난 21일 밝혔다.
해당 컨소시엄은 ㈜알토비전을 주관기관으로 하고 ㈜나라지식정보와 비플라이소프트㈜가 참여하여 지난 7월부터 사업을 추진해왔다. 비플라이소프트㈜에서 원시데이터 수집 및 정제와 원천데이터 생성을 담당, ㈜알토비전이 데이터 가공, ㈜나라지식정보에서 검수 및 품질 관리를 맡았다.
㈜알토비전 오주양 대표는 “AI 학습용 데이터가 더욱 정교화될수록 AI모델 발전에도 기여할 수 있고 우리의 생활과 AI 기술은 더욱 가까워질 것”이라고 전망했다.
보통 인터넷 기사나 요약 서비스 등에서 활용되고 있는 요약 방식은 추출 요약 방식이다. 네이버, 다음 등 포털과 일부 언론에서 제공하는 기사 요약 서비스에 활용 중인데 문장의 완성도가 높다는 장점이 있지만, 문장의 연결이 어색하거나 중요한 내용의 누락, 비슷한 내용이 중복으로 제시되는 등의 한계가 있다.
반면 추상 요약은 내용을 충실히 요약하는 장점이 있어 추출 요약보다는 한 단계 더 나아간 요약 방식이다. 이번 컨소시엄에서 진행한 추상 요약 방식은 기사 본문에서 핵심 내용을 담고 있는 문장을 골라서 그대로 제시하는 추출 요약 방식과 달리, AI가 본문의 내용을 새로운 문장으로 요약하는 방식이다.
이번에 구축한 추상 요약 오류 데이터를 활용해 추상 요약 AI의 성능을 높이고, 문장의 오류를 발견하거나 수정하는 AI를 제작하는 데에 향후 크게 기여할 수 있을 것으로 기대하고 있다.
추상 요약 사업의 구체적인 내용을 보면, 도메인별(기사, 칼럼, 법률) 원문을 활용하여 AI 기계 요약문과 사람 요약문을 작성하고, 요약문에 포함된 오류를 AI가 학습할 수 있는 데이터로 구축했다. 오류의 유형은 6가지 유형으로 분류되었는데 크게 문장 오류와 내용 오류로 나뉜다.
문장 오류는 △한글맞춤법, 띄어쓰기 오류 △단어 선택 오류 △비문 △미완성 또는 불완전한 문장 등이고 내용 오류는 △키워드 또는 중요 내용 오류 △유사한 내용 반복 오류 등이다. AI가 오류를 학습할 수 있도록 하나의 데이터 세트에 오류 요약문, 요약문 오류의 위치, 오류 유형 정보, 오류를 고친 정보가 들어 있고 json 파일 형태로 구축되었다.
㈜알토비전 오주양 대표는 “추상 요약문 오류 데이터를 활용한다면 새로운 여러 가지 AI 모델을 만들 수 있을 것”이라며 “알토비전은 2023년에 ㈜테디썸과 협업하여 올해 구축한 데이터를 활용해 신문 기사의 문장 오류를 자동으로 수정하는 솔루션을 개발할 계획이다”라고 전했다.
한편 ㈜알토비전은 2020년 설립된 중소기업으로 AI 학습용 데이터 구축 전문 기업이다. NIA의 데이터 구축 사업, 강릉시 용역 사업, 정보통신산업진흥원(NIPA) 사업 등을 수행해 왔다.
정진 기자 peng1@asiae.co.kr
꼭 봐야할 주요뉴스
尹, 체포 직전 "2년 반 더 해서 뭐하겠나" 與의원... 마스크영역<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>