AI 걸림돌 '데이터 부족' 문제 해소
합성데이터 생성 플랫폼 선보일 예정
인공지능(AI)의 성능은 '공부량'이 결정한다. 자율주행차의 AI는 도로에서 마주칠 수 있는 상황에 대한 충분한 양의 영상 데이터를 학습해야 한다. 의료 AI도 다양한 병변의 위치와 형태를 익혀야 제 기능을 한다. 자칫 공부가 충분하지 못하면 사고나 오진으로 이어질 수 있다. 그만큼 AI의 학습용 데이터는 중요하다. 하지만 실제 데이터는 턱없이 부족하다. AI 시대, '합성데이터'가 부상한 이유다. 합성데이터는 AI를 공부시키기 위해 만들어낸 가상의 데이터다. 컴퓨터 알고리즘이 실제 데이터의 특징을 반영해 무한대로 생성한다. 이 시장에서 스타트업 씨앤에이아이(CN.AI)는 가장 앞선 경험과 기술력을 보유한 기업으로 꼽힌다.
26일 씨앤에이아이는 합성데이터 생성 플랫폼 'CN Flow'를 선보일 예정이라고 밝혔다. 'CN Flow'는 지금까지 파편화돼 있던 이미지 생성 기술을 한데 모은 원스톱 플랫폼이다. 비전문가라도 누구나 쉽고 빠르게 합성데이터나 이미지 콘텐츠를 생성할 수 있다. 다양한 상황의 합성데이터를 생성해 AI 학습에 사용하고, 콘텐츠 크리에이터들은 필요한 이미지를 만들 수 있다. 현재 정식 출시 준비를 위해 국내 유수 기업과 함께 이미지 콘텐츠 생성 사업에 대한 실증(PoC)을 진행 중이다.
씨앤에이아이는 삼성전자 출신의 이원섭 대표가 2019년 설립했다. 이 대표는 합성데이터가 AI 고도화의 걸림돌이던 데이터 부족 문제를 해소할 수 있다는 데 주목했다. AI는 학습 데이터양이 많을수록 성능이 올라가지만 데이터를 구하는 것에는 큰 비용이 든다. 실제 데이터는 개인정보 등의 문제로 수집과 활용에 제한이 있는 데다가 데이터를 분류하는 라벨링 작업은 사람의 손을 거쳐야 해 '21세기판 인형 눈 붙이기'라고 불리기도 했다.
씨앤에이아이는 양적이나 질적으로 향상된 데이터를 만드는 합성데이터 기술이 AI 모델 구축 시 가장 큰 비용을 차지하는 데이터 비용을 절감할 수 있다고 설명했다. 고객의 니즈에 맞춘 데이터 생성이 가능하고 개인정보 침해 등의 이슈가 없는 새로운 데이터를 만들 수 있다. MIT테크놀로지리뷰가 지난해 10대 혁신 기술 중 하나로 합성데이터를 선정한 이유다. 글로벌 조사기관 가트너는 오는 2026년에는 AI 학습에 활용되는 합성데이터가 실제 데이터를 넘어설 것으로 전망했다. 글로벌 시장 규모도 내년 261억 달러에 이를 것으로 예상되고 국내서도 같은 기간 5800억원 규모로 확대될 전망이다.
씨앤에이아이는 이미지 생성에 특화된 합성데이터 전문성을 바탕으로 다양한 산업군의 프로젝트를 수행해 왔다. 대기업을 포함해 정부 기관, 교육기관, 의료기관 등에 합성데이터를 공급했다. 이미지 데이터 생성에 대한 전문성을 바탕으로 생성형 AI 사업에도 뛰어들었다. 씨앤에이아이의 생성형 AI 기술은 사용자가 텍스트로 묘사한 이미지를 정확히 생성하고 복수의 기존 이미지를 결합해 새로운 이미지를 만들기도 한다. 기존의 이미지를 사용자의 입맛에 맞게 변경할 수도 있다. 이 대표는 "모두가 고성능의 AI를 사용하는 위드(With) AI시대를 선도하겠다"면서 "AI 합성데이터 기반의 CN Flow 플랫폼을 기반 삼아, AI기반의 이미지·영상 생성 플랫폼을 제공하는 것이 목표”라고 말했다.
김철현 기자 kch@asiae.co.kr
꼭 봐야할 주요뉴스
무슨 돈으로 다들 집 사나 했더니…2030은 주식, 4... 마스크영역<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>