본문 바로가기
Dim영역

"풀어야 큰다"…구글, 대화용 AI 데이터셋 무료 공개

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

영화취향 관련 대화 데이터 1만여개 공개
식당·영화 등 예약 관련 데이터도 무료로 풀어

"풀어야 큰다"…구글, 대화용 AI 데이터셋 무료 공개
AD
원본보기 아이콘

[아시아경제 이민우 기자] 구글이 인공지능(AI) 학습을 위해 수만개의 데이터를 무료로 공개했다. 이를 통해 보다 사람과 비슷한 수준으로 자연스럽게 말하는 AI를 구현한다는 전략이다.


6일(현지시간) 벤처비트, 더버지 등 정보기술 전문매체 등은 구글이 이 같은 대화 데이터 묶음 'CCPE'와 '태스크마스터-1'을 무료로 공개했다고 전했다.

구글의 연구자들은 CCPE를 새로운 음성 대화 수집 방법이라고 설명했다. CCPE에는 500가지의 대화가 데이터화(化) 됐다. 여기에는 사람들이 1만2000번의 발언을 주고 받으며 영화 취향에 대한 의견을 나눴다. 배우와 감독 이름 등과 같은 메타데이터의 가치 때문에 영화 취향이 주제로 꼽혔다. 구글 측은 "우리는 세부적인 대본을 미리 제시하거나 일정 수준의 배경 지식을 갖춘 이용자들의 대화만을 취급하지 않았다"며 "때문에 기존 데이터묶음에 비해 더 현실적이고 다양한 대화를 담을 수 있었다"고 설명했다.


'태스크마스터-1' 데이터묶음은 1만3000개 이상의 대화로 구성됐다. 피자주문, 자동차수리 예약, 영화 예매, 커피 주문, 식당 예약 등 6가지로 분류해 상황에 맞는 대화 내용을 AI가 학습할수 있도록 데이터화한 것이다. 구글이 AI 관련 기술과 데이터를 무료로 공개한 것은 이번이 처음이 아니다. 일찌감치 머신러닝 개발 툴 '텐서플로우'를 무료로 공개하며 AI업계에 큰 전환점을 제시했다는 평을 받았다.


국내에서도 LG CNS가 최근 다량의 AI학습용 데이터를 공개했다. 위키백과 정보를 기반으로 만든 AI 학습용 한국어 표준데이터 묶음 '코쿼드 2.0'이다. 한국어 표준데이터 10만개 가량이 담겨 AI가 장문의 답변을 하는 데 활용될 전망이다. 예를 들어'서울특별시의 특징은?'과 같은 질문에도 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인 곳'이라는 답변도 가능해지는 식이다.

기업들이 AI 데이터를 이처럼 공개적으로 배포하는 이유는 유료로 판매하거나 비공개로 내부에서 활용하는 것보다 더욱 이득이 되기 때문이다. 업계 관계자는 "집단지성을 활용해 다양한 피드백을 받고 자연스레 우수한 인재를 영입하기도 보다 수월해지기 때문"이라고 설명했다.




이민우 기자 letzwin@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • 6년 만에 솔로 데뷔…(여자)아이들 우기, 앨범 선주문 50만장 "편파방송으로 명예훼손" 어트랙트, SBS '그알' 제작진 고소 강릉 해안도로에 정체모를 빨간색 외제차…"여기서 사진 찍으라고?"

    #국내이슈

  • 美대학 ‘친팔 시위’ 격화…네타냐후 “반유대주의 폭동” "죽음이 아니라 자유 위한 것"…전신마비 변호사 페루서 첫 안락사 "푸바오 잘 지내요" 영상 또 공개…공식 데뷔 빨라지나

    #해외이슈

  • [포토] 정교한 3D 프린팅의 세계 [포토] '그날의 기억' [이미지 다이어리] 그곳에 목련이 필 줄 알았다.

    #포토PICK

  • 제네시스, 中서 '고성능 G80 EV 콘셉트카' 세계 최초 공개 "쓰임새는 고객이 정한다" 현대차가 제시하는 미래 상용차 미리보니 매끈한 뒤태로 600㎞ 달린다…쿠페형 폴스타4 6월 출시

    #CAR라이프

  • [뉴스속 인물]하이브에 반기 든 '뉴진스의 엄마' 민희진 [뉴스속 용어]뉴스페이스 신호탄, '초소형 군집위성' [뉴스속 용어]日 정치인 '야스쿠니신사' 집단 참배…한·중 항의

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼