엔비디아가 로봇 인공지능(AI) 연구의 가장 큰 난제로 꼽히는 학습 데이터 부족 문제를 합성데이터로 해결하겠다는 전략을 제시했다.
로봇 학습의 ‘데이터 격차’에 주목한 엔비디아
워싱턴에서 열린 GTC 2025 ‘Physical AI and Robotics Day’ 에서 엔비디아 연구진은 “로봇 분야에는 ‘빅데이터 격차(Big Data Gap)’가 존재한다”고 지적했다.
대형 언어 모델이 인터넷에서 수조 개의 데이터를 학습하는 반면, 로봇 모델은 수백만 시간 수준의 제한된 원격 조작 데이터(teleoperation data) 에 의존하고 있다. 이 데이터는 수집 과정이 복잡하고, 대부분 특정 작업에 한정되어 있어 범용 학습에 한계가 있다고 설명했다.
합성데이터로 만든 ‘로봇 데이터 피라미드’
엔비디아는 이번 행사에서 ‘로봇 데이터 피라미드(Data Pyramid for Robotics)’ 개념을 제시했다. 피라미드의 꼭대기에는 소량의 실세계(real-world) 데이터, 중앙에는 무한히 생성 가능한 시뮬레이션 기반 합성데이터(synthetic data), 하단에는 비정형 웹 데이터(unstructured web data) 가 위치한다.
연구진은 “합성데이터가 웹 규모의 데이터를 넘어서는 순간, 로봇이 모든 작업에 일반화 학습을 할 수 있게 된다”고 밝혔다. 엔비디아는 이를 위해 Isaac Sim 과 Cosmos 플랫폼을 활용해 로봇 학습 환경을 대규모로 시뮬레이션하고 있다. 이는 로봇 개발의 본질적 제약을 ‘데이터 부족’에서 ‘연산 자원 확보’ 문제로 전환하는 접근으로 평가된다.
전문가들은 엔비디아의 합성데이터 전략이 향후 범용 로봇 AI(Generalized Robotics) 개발의 핵심 열쇠가 될 것으로 보고 있다. 실제 물리 데이터를 수집하는 대신, 가상 환경에서 대규모 데이터를 생성해 훈련하는 방식은 비용과 시간을 모두 줄이며, 자율 로봇의 상용화를 앞당길 수 있다는 분석이 나온다.
