가우디오랩, 생성형 사운드 AI 기술 개발
영상·이미지·텍스트 등 입력하면 AI가 원하는 소리 자동 생성
콘텐츠를 만들면서 날카로운 고양이의 울음소리가 필요하다면 어떻게 해야 할까. 우선 고양이를 찾아야 한다. 다음엔 마이크를 켜고 고양이가 날카롭게 울어주기를 기다린다. 기존에 우리가 생각할 수 있는 방법이다. 하지만 인공지능(AI)의 시대엔 이런 번거로운 작업을 하지 않아도 된다. 그저 '날카로운 고양이의 울음소리'라고 입력하면 AI 모델이 이 소리를 낸다. 마음에 들지 않는다면 다른 고양이 소리도 계속해서 만들 수 있다. AI가 생성한 소리지만 현실의 소리와 똑같다. 이 기술을 개발한 곳이 가우디오랩이다. AI가 만든 소리는 게임을 포함한 가상세계뿐만 아니라 영화, 드라마 등 소리가 필요한 모든 곳에서 쓰일 수 있다. AI가 누구나 원하는 사운드를 쉽게 만들고 경험할 수 있는 미래를 연 것이다.
10일 가우디오랩은 영상 혹은 그림만 넣어도 그에 맞는 효과음과 소리를 자동으로 생성할 수 있도록 AI 기술을 고도화할 계획이라고 밝혔다. 이 생성형 사운드 AI를 가우디오랩에선 '쓱(SSG) 프로젝트'라고 부른다. '사운드 스튜디오 가우디오'의 약자다. 바탕이 되는 것은 가우디오랩이 보유한 세계 최고 수준의 AI 음원 분리 기술이다. 여러 음원이 섞여 있는 오디오 신호에서 개별 음원을 추출하는 기술로 이 세상의 소리를 분리해 학습데이터를 만든다. 정제된 데이터를 통해 AI 모델은 보다 양질의 소리를 생성할 수 있다. 가우디오랩의 AI 음원 분리 기술은 지난해 11월 방송된 ‘히든싱어7’이라는 프로그램을 통해서 많은 이들이 경험한 바 있다. 고(故) 김현식 편에서 AI는 1980년대 반주 음악과 목소리가 함께 녹음된 파일에서 그의 목소리만을 또렷하게 분리했다.
가우디오랩은 2015년 설립된 오디오 기술 스타트업으로 독보적인 기술력으로 시장을 선도해왔다. 핵심 기술은 헤드폰을 통한 공간음향 기술이었다. 오현오 가우디오랩 대표는 "헤드폰으로 음악을 들을 때도 실제 공연장에 있는 것과 같은 입체적인 음향과 몰입감을 경험할 수 있다"고 말했다. AI는 이 기술로 성장 기반을 닦은 가우디오랩이 글로벌 시장 진출을 위해 준비한 비장의 무기다. 텍스트를 입력하면 자동으로 소리를 생성하는 기술은 챗GPT가 시장을 흔들기 전인 2021년 이미 연구를 시작했다. 현재 AI는 100여개의 카테고리에서 현실과 구분하기 어려운 소리를 생성하고 있다. 유튜버 등 크리에이터뿐만 아니라 개인 누구나 영화와 같이 현실에 존재하는 듯한 소리를 입혀 콘텐츠를 빠르게 만들 수 있게 됐다는 게 가우디오랩의 설명이다. 로블록스, 제페토 등 메타버스 플랫폼에서도 몰입감을 강화할 수 있다.
현재 대부분의 오디오 AI 시장은 사람의 목소리에 집중하지만 가우디오랩은 기술적 난이도를 최상급으로 끌어올려 세상의 모든 소리를 겨냥한다. 지난해 국내 대표 영화 사운드 스튜디오인 웨이브랩을 인수한 이유다. 웨이브랩은 대표작으로 카지노, 국제시장, 올드보이 등을 작업하면서 20년 이상 시중에서 얻기 어려운 깨끗하고 자연스러운 고급 소리 데이터를 확보했다. 가우디오랩은 이 데이터를 음원 분리해 AI가 잘 학습할 수 있도록 정제했다. AI 기술력뿐만 아니라 전 세계적으로 희귀한 9명의 음향공학 박사를 포함한 40여 명의 오디오 전문가가 있어 가능했다.
오 대표는 "우리의 귀는 눈보다 예민하다. 눈은 영상에 엉뚱한 이미지가 섞여도 눈치채지 못하지만 소리는 단 1비트만 틀어져도 쉽게 소음으로 인식하고 만다"고 말했다. 소리를 생성하는 AI가 텍스트나 이미지보다도 어려울 수밖에 없다는 얘기다. 이어 오 대표는 "AI를 다루는데 능한 음향공학 박사가 즐비한 가우디오랩이 아니면 할 수 없다고 생각하며, 우리가 해낼 때 AI가 생성하는 미래가 비로소 완결된다고 믿는다"고 했다.
김철현 기자 kch@asiae.co.kr
꼭 봐야할 주요뉴스
"여행·휴식 제쳤다"…수능 끝나고 하고싶은 일 '... 마스크영역<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>