사진만 주면 노래하고 말하는 동영상으로 변환하는 인공지능 VASA-1

기사입력 2024.04.20 11:39

SNS 공유하기

fa tw

ka ks url

정지 이미지도 이제 노래하고 얘기한다!
놀라운 성능! 정지 이미지가 생생하게 움직임!
인공지능 기술의 발전 가능성과 악용 우려

마이크로소프 연구소 아시아 지부 연구팀이 얼굴 사진 한 장과 음성 클립만 있으면, 그 사람이 노래하거나 말하는 동영상을 만드는 인공지능 앱을 개발했다. 이렇게 만들어진 동영상은 실사 영상처럼 매우 사실적이며, 얼굴 표정과 머리 움직임까지 정확하게 재현한다. (논문에 나오는 모든 사실적인 사진들은 가상 인물이며 실제 존재하지 않습니다.)

사진 속 인물이 움직이고 노래 부르다!

연구팀은 이 새로운 인공지능 앱 VASA-1에 대한 설명 논문을 아카이브 서버에 게시했고, 연구 프로젝트 페이지에서는 실제 동영상 샘플도 볼 수 있다.

연구팀은 제공된 음악에 맞춰 정지 이미지를 움직이고, 노래하는 동영상을 만들고자 했다. 특히 얼굴 표정까지 사실적으로 표현하는 것이 중요했다. 그 결과 카메라로 찍은 사진, 만화, 그림 등 어떤 이미지든 정지 이미지를 말하거나 노래하는 매우 사실적인 동영상으로 변환하는 VASA-1 시스템을 개발하는 데 성공했다.

연구팀은 시스템의 효과를 입증하기 위해 테스트 결과 영상 몇 개를 공개했다. 영상 중 하나는 모나리자 만화가 랩 음악을 부르고, 다른 영상에서는 여성 사진이 노래하는 모습으로 변환되었으며, 또 다른 영상에서는 한 남자 그림이 연설하는 모습을 볼 수 있다.

모든 동영상에서 얼굴 표정은 말하는 내용에 따라 변화하며, 말하는 내용을 강조한다. 연구팀은 동영상이 매우 사실적이지만 자세히 보면 인공지능으로 만들어졌다는 것을 알 수 있는 몇몇 흔적을 확인할 수 있다고 언급했다.

인공지능 딥 러닝으로 사실적인 동영상 제작

연구팀은 다양한 얼굴 표정의 수천 장 이미지로 인공지능 앱을 훈련시켰다. 현재 시스템은 512 x 512 픽셀 해상도로 초당 45 프레임의 동영상을 제작할 수 있으며, 데스크탑용 엔비디아 RTX 4090 그래픽 카드를 사용하여 동영상을 만드는데 평균 2분이 소요된다.

연구팀은 VASA-1을 게임이나 시뮬레이션에 매우 사실적인 아바타를 제작하는 데 사용할 수 있다고 제안했다. 하지만 연구팀은 악용 가능성을 인식하고 있으며, 현재로서는 일반에게 시스템을 공개하지 않을 계획이다.

김수현

fa tw ba ka ks url