데이터가 쓰레기면, 그 어떤 천재나 최고의 분석 시스템을 갖다놔도 결과물은 쓰레기에 불과합니다.
통계학, 데이터사이언스 등 데이터를 다루는 분야의 격언이죠. 얼마나 양질의 데이터를 갖고 있느냐가 결과의 품질을 좌우한다는 의미입니다.
인공지능(AI) 영역에서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. AI는 본질적으로 주어진 데이터를 기반으로 학습하고, 연산하고, 결과를 출력하는 시스템이기 때문이죠. 데이터의 품질과 신뢰성은 AI 시스템의 성능과 직결됩니다. AI가 초래하는 수많은 실수와 오류 또한 많은 부분이 데이터에서 기인합니다. 데이터에 대한 집중적인 탐구가 필요한 배경이 여기에 있습니다.
AI 분야에서 '데이터'는 너무도 중요한 주제이기 때문에, 좀 더 자세히 들여다볼 가치가 있습니다. 특히 AI를 예측기계라는 관점에서 볼 때, 데이터는 크게 세 가지로 구분할 수 있습니다.
▶트레이닝 데이터(Training Data) : AI 모델이 학습하는 기초 데이터
▶입력 데이터(Input Data) : 실제 사용 환경에서 시스템에 입력되는 데이터
▶피드백 데이터(Feedback Data) : 시스템의 성능을 평가하고 개선하는데 사용되는 데이터
오늘은 셋 중에서 트레이닝 데이터를 먼저 살펴볼까 합니다. 트레이닝 데이터는 AI의 '기초 체력'을 결정짓는 핵심 요소로, 시스템의 성능과 신뢰성에 지대한 영향을 미칩니다.
AI에 뭔가를 물어봤을 때, AI가 대답을 내놓으려면 가장 먼저 학습(Training)을 해야 합니다. 위에서 언급했다시피, AI는 주어진 데이터를 기반으로 학습하고 그 결과물을 출력하는 것이기 때문이죠. 그런 점에서 트레이닝 데이터는, 마치 학생이 맨 처음 보고 공부하는 교과서와 비슷합니다.
예를 들어, 개와 고양이 사진 중에서 무엇이 개와 고양이인지 알아맞히는 AI 모델을 만든다고 해보죠. 일단 트레이닝 데이터가 필요합니다. 사진마다 정답 라벨이 달린 수천장의 고양이 사진, 수천장의 개 사진을 준비합니다. 즉 1000개의 사진은 ‘고양이’라는 정답을, 나머지 1000개의 사진은 ‘개’라는 정답을 갖고 있습니다. AI에 2000장의 이미지를 주면, AI는 “고양이는 이런 특징이 있구나”, “개는 이런 특징이 있구나”하고 패턴을 읽어냅니다.
2000장의 사진으로 학습한 AI는 가끔 틀릴 수도 있습니다. 그래서 2000장, 3000장의 개·고양이 이미지 데이터를 더 주고 학습량을 늘립니다. 그렇게 학습량이 늘어날수록 AI는 개와 이미지를 더 잘 구별할 수 있게 되고, 정확도도 높아지죠. 그러다 보면 어느 순간 완전히 새로운 이미지가 들어와도 개인지, 고양이인지 맞힐 수 있게 됩니다.
이미지가 아닌 텍스트도 트레이닝 데이터가 될 수 있습니다. 스팸 메일과 정상 메일을 구별해내는 AI 모델을 만든다고 가정해보죠. 여기서도 마찬가지로, ‘스팸’ 라벨이 붙은 1000개의 이메일, ‘정상’ 라벨이 붙은 1000개의 이메일 샘플이 있습니다. 스팸 이메일에는 ‘큰돈을 벌 수 있다’는 식의 광고성 멘트, 출처가 확인되지 않은 링크(URL), 송금 요구 문구(계좌번호) 등이 포함되어 있을 겁니다.
AI 모델은 수천개의 이메일을 보면서 이렇게 배웁니다. “아, 스팸 이메일에는 ‘무료’, ‘일확천금’, ‘바로 전화주세요!’, ‘하루 만에 수익률 500%’, ‘평생 무료!’ 등과 같은 단어가 들어있는 경우가 많구나”. 이렇게 AI 모델은 스팸과 정상 메일을 구별하게 되고, 저런 단어가 들어가 있는 이메일을 쓰레기통으로 보낼 수 있게 되죠.
트레이닝 데이터는 AI의 성능, 결과값에 직접적인 영향을 미칩니다. 트레이닝 데이터의 품질이 좋고 다양할수록, 그 AI 모델의 성능과 신뢰성도 높아집니다. 반대로 말하면, 바로 트레이닝 데이터 때문에 치명적인 오류가 발생하기도 합니다.
코로나19가 한창이던 2020년 12월, 미국 최고의 의료시설 중 하나인 스탠퍼드 대학병원이 발칵 뒤집어진 일이 있었습니다.
스탠퍼드 메디컬센터는 화이자 백신 5000회 접종분을 수령한 뒤 백신 우선 접종 대상자를 내부 알고리즘에 따라 선정했습니다. 선정 결과가 어땠을까요. 백신과의 전쟁 최전선에서 싸우던 레지던트들과 간호사들이 명단에서 대거 빠졌습니다. 너무도 황당한 결과였죠.
1300명 의료진 중 백신을 맞은 사람은 7명에 불과했습니다. 코로나 환자 치료를 전담해온 전공의들은 항의 시위가 벌어지는 건 당연했습니다.
원인을 분석해보니 트레이닝 데이터가 문제였습니다. 레지던트와 간호사의 나이, 업무영역, 환자 접촉 빈도 등만을 기계적으로 고려했기 때문입니다. 실제로는 레지던트와 간호사들이 환자들과 가장 많이 접촉하는 의료진임에도 불구하고, 데이터로만 판단해 발생한 심각한 오류였죠.
영국에서는 여권 사진 검증 시스템이 인종차별 논란을 불러일으켰습니다. 흑인의 여권 사진에만 유독 부적절, 오류라 판독하는 경우가 많았기 때문입니다. 심지어 “눈을 뜨고 있어야 합니다”라는 메시지도 보냈습니다.
이는 알고리즘이 다양한 인종의 얼굴 특징을 제대로 학습하지 못한 결과였습니다. 학습에 사용된 사진의 대부분이 백인 얼굴의 데이터였던 겁니다.
같은 해 뉴질랜드에서도 비슷한 일이 있었습니다. 호주 멜버른에서 유학 중이던 뉴질랜드계 아시아인 20대 남성 리처드 리는 여권 갱신을 위해 뉴질랜드 여권 관리국의 시스템에 개인정보를 입력했습니다. 요청받은 정보를 모두 꼼꼼히 정확히 입력하고 제출했는데, 연신 오류가 발생했다며 접수가 되질 않았습니다. 오류 메시지를 살펴본 그는 허탈한 웃음을 감출 수 없었습니다. “제출된 사진은 눈을 감고 있어서 여권 사진 기준에 적합하지 않습니다.”
뉴질랜드 여권 담당국은 “흰 눈동자가 많이 보이지 않아 판독 시스템이 오류를 일으켰던 것 같다”고 해명했지만, 인종차별 논란으로 홍역을 치러야 했죠.
이후 리처드 리는 언론 인터뷰에서 “인종차별을 당했다고 생각하지 않는다”며 대범하게(?) 웃어넘겼다고 합니다. 그는 “그건 단지 로봇이었어요. 기분도 나쁘지 않아요. 저는 원래 눈이 작았고, 얼굴 인식 기술이 아직 정교하지 않았던 것이라 생각합니다”라고 말했습니다.
위와 같은 사례들은 트레이닝 데이터의 중요성과 함께 잊지 말아야 할 교훈을 줍니다.
데이터의 양 자체도 중요하지만, 트레이닝 데이터는 실제 세계의 다양성을 반영해야 한다는 겁니다. 특정 인종, 성별, 연령, 패턴 등이 과다대표되거나 과소대표되지 않도록 항상 주의해야 한다는 것입니다. 데이터를 많이 수집하는 것에만 그쳐선 안 됩니다. 수집 과정에서 의도치 않게 발생할 수 있는 편향과 오차를 항상 의식해야 합니다. 다양한 이해관계자가 참여하는 데이터 검증 프로세스를 구축할 수 있겠죠. 또한 정기적인 데이터 품질 평가 및 편향성 검사를 실시하는 방법도 적극 고려해볼 수 있습니다.
트레이닝 데이터의 문제는 단순히 기술적인 이슈에만 그치지 않습니다. 사회적 책임과 윤리적 고려가 필요한 복합적인 과제이자, 기업의 명운을 흔드는 리스크가 될 수도 있습니다. 트레이닝 데이터 수집 단계부터 신중하고 체계적인 접근이 필요한 이유입니다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>