구글은 I/O 2024 개발자 컨퍼런스에서 인공지능 기술인 제미나이를 TalkBack 기능에 활용하여 시각 장애인을 위한 이미지 설명 기능을 강화한다고 발표했다. 이는 인공지능 기술을 통해 소프트웨어를 더 많은 사용자에게 제공하는 훌륭한 사례이다.
AI 기반 이미지 설명 기능 탑재
제미나이 나노는 구글의 대규모 언어 모델 기반 플랫폼의 가장 작은 버전으로, 기기 자체에서 작동하도록 설계되었다. 따라서 네트워크 연결 없이도 실행이 가능하다. 이 프로그램은 시각 장애인과 시력이 약한 사용자를 위해 대상물의 청각 설명을 생성하는 데 활용될 예정이다.
옷 스타일, 사진 내용까지 자세히 설명
위 이미지 팝업에서 TalkBack 은 옷을 "검은색과 흰색 깅엄 체크 무늬 드레스의 클로즈업. 드레스는 짧고, 칼라와 긴 소매가 있으며, 허리에는 큰 리본으로 묶여 있다"고 설명한다.
구글에 따르면, TalkBack 사용자는 하루에 약 90개 정도의 레이블링되지 않은 이미지를 접하게 된다. 대규모 언어 모델을 활용하면 시스템은 콘텐츠에 대한 통찰력을 제공할 수 있으며, 사용자가 수동으로 정보를 입력할 필요가 없어질 가능성도 있다.
시각 장애인의 삶을 변화시킬 혁신
이 기능은 올해 말 안드로이드 기기에 업데이트될 예정이다. 데모에서 보여준 성능이 실제로 구현된다면, 시각 장애인과 시력이 약한 사용자들의 삶에 큰 변화를 가져올 것으로 기대된다.