전 세계 GPU를 한 번에 쓸 수 있다면…구글의 야심 [테크토크]

임주형 기자

입력 2026.05.02 07:10

02분 03초 소요

구글 딥마인드의 디커플드 딜로코 기술
전 세계 데이터센터 하나처럼 취급해
구글 컴퓨터 내결함성 노하우 고도화

편집자주AI, 반도체, 통신, 바이오에 이르기까지 우리 생활에 꼭 필요하지만 너무나 생소한 기술 이야기를 쉽게 풀어 전해 드립니다.

인공지능(AI) 개발의 최대 난제는 데이터센터입니다. 빅테크들은 경쟁사보다 많은 컴퓨터 칩을 확보하기 위해 데이터센터에 투자하고 있지요. 하지만 만약 전 세계에 퍼진 수많은 데이터센터를 한데 모아 AI를 훈련할 수 있다면, 테크 기업들을 괴롭히는 칩 병목 문제도 크게 개선될 겁니다. 구글의 첨단 AI 개발 연구소 '딥마인드'가 공개한 '디커플드 딜로코(DiLoCo)' 기술이 주목받는 이유입니다.

구글 딥마인드의 차세대 AI 훈련 기술 '디커플드 딜로코'

디커플드 딜로코의 원리를 그림으로 표현한 이미지. 전 세계에 퍼진 AI 데이터센터를 하나의 컴퓨터처럼 취급해 '지구 데이터센터'를 구현할 수 있다. 구글 딥마인드

디커플드 딜로코는 딥마인드가 지난달 24일(현지시간) 자사 홈페이지 및 논문 초안 플랫폼 악시브(Arxiv)에 공개한 기술입니다. '비동기화(디커플드·Decoupled)'된 '분산 저통신(Distributed Low-Communication)' AI 훈련이라는 뜻입니다. 생소한 컴퓨터 과학 용어로 가득하지만, 하나씩 풀어 쓰면 쉽게 이해할 수 있습니다.

비동기화는 AI용 컴퓨터 칩 사이 연결이 느슨하다는 뜻입니다. 현재 AI 데이터센터에 탑재되는 GPU 수만장은 칩렛(Chiplet·다양한 반도체를 고속 인터페이스로 접합하는 후공정 기술), 광케이블 등을 통해 초고속 데이터 송수신이 가능하며, 이 때문에 마치 하나의 거대한 컴퓨터 덩어리처럼 다룰 수 있지요. 이를 '동기화'라고 합니다. 딥마인드는 고도의 동기화 기술 없이도 수만장의 AI 칩을 하나처럼 취급할 수 있게 됐다는 뜻입니다.

분산 저통신은 멀리 떨어진, 느린 속도의 통신망을 뜻합니다. 딥마인드는 디커플드 딜로코를 통해 평범한 인터넷 통신 속도 수준인 초당 2~5기가바이트(GB) 만으로 북미 대륙에 퍼진 4개 데이터센터를 하나로 묶는 데 성공했습니다.

전 세계에 퍼진 컴퓨터 칩 한 번에 사용

즉 디커플드 딜로코는 비싼 최첨단 기술 없이도 멀리 떨어진 AI용 그래픽처리유닛(GPU), 텐서처리유닛(TPU) 등을 동시 통제할 수 있는 기술입니다. 이를 통해 전 세계에 퍼진 데이터센터 어디서든 컴퓨터를 빌려와 AI 훈련 및 추론에 사용할 수 있습니다. 사실상 '지구 단위 데이터센터'를 구현할 잠재력을 갖춘 기술인 셈입니다.

디커플드 딜로코는 기존 AI 훈련의 한계를 뛰어넘은 기술입니다. AI 훈련은 칩과 메모리 사이의 데이터 교환이 생명이기에, 동기화 수준이 떨어지면 AI 성능이 급격히 저하하고, 심할 경우 아예 모델이 망가질 수도 있기 때문입니다.

GPU 묶음 잘게 쪼개 대응하는 내결함성 기술

GPU 슬라이스로 나뉜 AI 훈련(위)과 섬 단위로 나뉜 AI 훈련의 차이. 오류 빈도는 동일해도 정지해야 하는 GPU 개수(붉은색으로 표시됨)에서 차이가 나기 때문에 전체 훈련 성능, 훈련 시간 등에서 큰 차이가 벌어진다. 구글 딥마인드

딥마인드가 이런 한계를 극복할 수 있었던 비결은 '내결함성'이라고 알려진 컴퓨터 운영 기술에 있습니다. 내결함성은 컴퓨터 네트워크의 구성 요소 일부가 망가져도 중단 없이 시스템을 유지할 수 있는 모든 수단을 뜻합니다. 예를 들어 데이터센터 내 일부 장치가 파손될 경우, 즉각 오류를 차단하고 예비 시스템을 가동하는 절차도 내결함성입니다.

AI 데이터센터도 내결함성이 필수적입니다. 수만장의 GPU가 동시에 작동하다 보면 분명 오작동하는 부품이 나올 수 있고, 이런 부품을 즉각 감지해 차단해야 오류가 전체 시스템으로 퍼지는 것을 막을 수 있습니다. 지금껏 빅테크들은 GPU 수만장을 다시 수백~수천장 묶음인 '슬라이스'로 나눠 내결함성을 확보했는데, 디커플드 딜로코는 슬라이스를 더욱 잘게 쪼개 '섬'이라는 새로운 단위를 만들었습니다. 이전에는 문제가 생긴 GPU 슬라이스를 통째로 멈춰 대응했다면, 이제는 섬 단위로 멈춰 피해를 최소화할 수 있습니다.

딥마인드는 "슬라이스가 아닌 섬 단위로 하드웨어를 분리하면 오류 발생 빈도는 동일해도 오류의 영향은 줄어든다"며 "덕분에 작업은 거의 중단 없이 진행될 수 있으며, 데이터센터 간 대역폭(통신 속도)을 획기적으로 줄여 멀리 떨어진 위치에서도 AI 훈련을 진행할 수 있다"고 설명합니다.

대규모 분산 훈련으로 칩 비용 절약

구글 데이터센터. 구글

데이터센터의 위치에 관계없이 모든 GPU를 AI 작업에 사용할 수 있다면, 칩 구매에 드는 비용을 크게 절약할 수 있습니다. 거리, 물류 상의 이유로 쉬고 있던 컴퓨터 칩도 모조리 훈련에 투입할 수 있기 때문입니다.

꼭 봐야 할 주요 뉴스

"2030년까지 비트코인 10배" '돈나무 언니' 캐시 ...

디커플드 딜로코의 장점은 이뿐만이 아닙니다. 칩 사이의 동기화 수준이 낮기 때문에, 서로 다른 세대의 칩도 혼합해 사용할 수 있습니다. 예를 들어 딥마인드는 디커플드 딜로코 덕분에 5세대 TPU와 6세대 TPU를 섞어 AI 모델 훈련에 투입했습니다. 딥마인드는 "차세대 하드웨어가 모든 데이터센터에서 동시에 출시되는 게 아니"라며 "여러 세대의 칩을 함께 사용하면, 물리적인 물류 병목 현상을 방지하며 구세대 하드웨어조차도 AI 훈련 속도를 유의미하게 향상할 수 있다"고 강조했습니다.

임주형 기자 skepped@asiae.co.kr

View English Article