구글 텐서 처리 장치(TPU)와 엔비디아 GPU가 치열하게 경쟁하는 고성능 컴퓨팅 환경이 시작된다  | image: AI 생성 이미지
구글 텐서 처리 장치(TPU)와 엔비디아 GPU가 치열하게 경쟁하는 고성능 컴퓨팅 환경이 시작된다  | image: AI 생성 이미지

최근 고성능 컴퓨팅 시장에서 조용한 혁명이 일어나고 있다. 구글이 자체 설계한 AI 가속기, '텐서 처리 장치(TPU, Tensor Processing Unit)'가 엔비디아의 아성인 GPU 시장을 뒤흔들고 있기 때문이다. 업계에서 엔비디아의 가장 충성도 높은 고객으로 분류되던 메타 플랫폼스가 2027년부터 자체 데이터센터에 구글 TPU를 도입하는 방안을 논의했다는 '디 인포메이션(The Information)'의 보도는 이 경쟁 구도를 극명하게 드러낸다. 이 보도로 엔비디아의 주가는 화요일(현지 시간) 소폭 하락하는 등 시장의 민감한 반응을 이끌어냈다.

고성능 컴퓨팅 시장의 지각 변동: 구글의 도발

이에 엔비디아는 X(구 트위터)를 통해 "구글의 성공에 기쁘며, 여전히 구글에 칩을 공급하고 있다"는 겉으로는 축하하는 듯한 입장을 내놓았다. 하지만 "엔비디아는 업계보다 한 세대 앞서 있으며, 모든 AI 모델을 구동하고 어떤 컴퓨팅 환경에서도 작동하는 유일한 플랫폼"이라며 TPU를 특정 AI 프레임워크에 맞춰진 'ASIC'으로 평가절하하는 메시지를 덧붙였다. 이는 엔비디아가 구글 TPU의 급부상을 단순한 내부 경쟁이 아닌 시장의 잠재적 위협으로 인식하고 AI 가속기 시장의 패권을 수성하려는 의지를 강력히 내비친 것으로 해석된다.

엔비디아 블랙웰 위협하는 TPU '아이언우드'의 확장성

구글의 7세대 TPU인 코드명 '아이언우드(Ironwood)'는 이미 엔비디아의 '블랙웰(Blackwell)' 가속기와 견줄 만한 성능을 보여준다. 더욱 주목할 부분은 확장성이다. 엔비디아가 72개 GPU 랙을 최대로 하는 반면, 구글 TPU는 256개부터 최대 9,216개의 칩을 포함하는 대규모 포드(Pod) 구성이 가능하다. 이는 클라우드 환경에서 대규모 언어 모델(LLM)을 훈련시키는 데 엄청난 이점으로 작용한다. 구글은 공식 성명을 통해 "자체 개발 TPU와 엔비디아 GPU 모두에 대한 수요가 가속화되고 있으며, 수년 동안 그래왔듯 두 기술을 모두 지원할 것"이라고 밝히며 시장의 이원화에 대한 자신감을 드러냈다.

PyTorch 통합 및 클라우드 판매라는 난제

물론 메타가 구글 TPU를 도입하려면 몇 가지 기술적 난제를 해결해야 한다. 첫째, TPU는 역사적으로 구글 클라우드를 통해서만 임대되었는데, 메타가 직접 칩을 구매하려면 구글이 판매 방침을 바꿔야 한다. 둘째, TPU의 연결 구조가 다르다. 메타가 익숙한 엔비디아·AMD 기반 클러스터는 패킷 스위치를 사용하지만, TPU는 광학 회로 스위치(OCS) 기술을 사용하여 대규모 토로이드 메시(Toroidal Meshes) 형태로 연결된다. 이는 프로그래밍 모델까지 바꿔야 할 수 있는 근본적인 변화를 요구한다.

가장 큰 문제는 메타가 개발한 딥러닝 라이브러리인 PyTorch와의 호환성이다. PyTorch가 TPU에서 작동하려면 'PyTorch/XLA'라는 변환 계층을 사용해야 한다. 메타가 이 문제를 해결할 기술력을 갖추고 있지만, 모델 훈련이 아닌 '추론(Inference)'만을 목적으로 한다면 굳이 복잡한 자체 통합 대신 구글 클라우드를 통해 TPU를 임대하는 것이 더 합리적인 선택이다. 메타의 라마(Llama) 모델이 구글 TPU에서도 잘 작동해야 기업들의 채택이 늘어나기 때문에, 메타의 논의는 사실상 TPU 최적화에 초점을 맞추었을 가능성이 크다.

앤트로픽의 대규모 채택, AI 동맹 다변화의 상징

구글 TPU에 대한 관심은 경쟁사에서도 확인된다. 아마존 웹 서비스(AWS)의 '트레이니움(Trainium)'에 크게 의존했던 앤트로픽(Anthropic)은 최근 다각화 전략을 펼치고 있다. 앤트로픽은 지난 10월, 차세대 클로드(Claude) 모델 훈련 및 서비스 제공을 위해 최대 100만 개의 TPU를 사용할 계획이라고 발표했다. 트레이니움과 TPU 모두 클러스터에 메쉬 토폴로지를 사용하기 때문에 엔비디아 GPU에서 전환하는 것보다 비용 부담이 적다.

나아가 앤트로픽은 지난주 MS, 엔비디아와도 전략적 제휴를 맺었다. 최대 300억 달러(약 41조 2,500억 원) 상당의 애저(Azure) 컴퓨팅 용량을 구매하고, 1기가와트 규모의 추가 컴퓨팅 용량을 계약한 것이다. 이 과정에서 엔비디아와 MS는 각각 최대 100억 달러(약 13조 7,500억 원), 50억 달러(약 6조 8,750억 원)를 앤트로픽에 투자하기로 합의했다. 이처럼 거대 AI 가속기 플레이어들은 위험을 분산하고 서로 동맹을 맺으며 고성능 컴퓨팅 생태계를 복잡하게 만들어가고 있다.

구글 TPU의 등장은 엔비디아 독점 체제에 균열을 내며 AI 가속기 시장의 경쟁을 심화시킬 것이다. 특히 대규모 언어 모델(LLM) 추론 및 훈련 환경에서 TPU의 확장성은 매력적인 대안으로 작용하며, 메타나 앤트로픽 같은 거대 기업들의 다변화 전략은 고성능 컴퓨팅 시장의 혁신을 더욱 가속화할 것이다. 한국 시각으로 새벽까지 이어지는 치열한 글로벌 AI 가속기 경쟁은 결국 더 빠르고 효율적인 AI 서비스를 사용자들에게 제공하는 결과로 이어질 것이다.

저작권자 © 디지털포커스 무단전재 및 재배포, AI학습 및 활용 금지