클라우드 의존적인 거대 인공지능 모델의 한계를 극복하기 위해 마이크로소프트(Microsoft)가 새로운 인공지능 에이전트 모델 'Fara-7B'를 25일(한국 시간) 공개했다. 70억 개의 매개변수로 구성된 이 모델은 사용자의 기기에서 직접 구동되는 '컴퓨터 사용 에이전트(CUA)' 역할을 수행한다. 이 혁신적인 접근 방식은 대규모 클라우드 모델에 의존하지 않고도 복잡한 작업을 낮은 지연 시간과 강화된 데이터 보안 환경에서 처리할 수 있도록 설계됐다.
로컬 AI의 혁신: 픽셀 주권 확보와 기업 보안 강화
Fara-7B가 기존 모델들과 차별화되는 가장 큰 특징은 로컬 환경에서 실행되는 온디바이스 AI라는 점이다. 모델 크기가 작기 때문에 기업들은 민감한 내부 계정 관리나 기밀 회사 정보 처리를 정보 유출 우려 없이 자동화할 수 있다. 마이크로소프트는 이 로컬 실행 능력이 미국의 HIPAA(의료 정보) 및 GLBA(금융 정보) 등 엄격한 규제 산업의 데이터 보안 요구 사항을 충족하는 데 핵심적인 이점이라고 강조한다.
Fara-7B는 웹을 탐색할 때 인간과 동일하게 마우스와 키보드 같은 도구를 사용하는 방식으로 사용자 인터페이스(UI)를 인식한다. 즉, 브라우저가 스크린 리더에게 페이지를 설명하기 위해 사용하는 내부 코드 구조인 '접근성 트리'에 의존하지 않는다. 대신, 스크린샷을 통해 웹 페이지를 시각적으로 인지하고, 클릭, 입력, 스크롤 등 작업을 위한 특정 좌표를 예측한다. 마이크로소프트 리서치 관계자는 이 시각 기반 접근 방식이 스크린샷과 추론 과정이 기기 내에 머무르는 진정한 "픽셀 주권(Pixel Sovereignty)"을 창출한다고 설명했다.
GPT-4o 능가하는 효율성 및 안전 장치
Fara-7B의 성능은 그 크기를 뛰어넘는다. 웹 에이전트의 표준 벤치마크인 WebVoyager 테스트에서 Fara-7B는 73.5%의 작업 성공률을 달성했다. 이는 컴퓨터 사용 에이전트 역할을 수행하도록 지시받은 대규모 모델인 GPT-4o(65.1%)나 다른 로컬 모델인 UI-TARS-1.5-7B(66.4%)보다 우수한 결과다. 또한 Fara-7B는 비교 모델 대비 평균 41단계가 아닌 약 16단계 만에 작업을 완료하며 압도적인 효율성을 보여줬다.
마이크로소프트는 자율 에이전트로의 전환이 수반하는 위험(환각, 복잡한 지침 오류 등)을 완화하기 위한 안전 장치도 마련했다. Fara-7B는 메일 발송이나 금융 거래 등 되돌릴 수 없는 작업이 발생하기 전, 사용자의 개인 데이터 보안이나 명시적인 동의가 필요한 지점을 '중요 지점(Critical Points)'으로 인식하도록 훈련됐다. 모델은 이 지점에 도달하면 자동으로 일시 정지하고 사용자에게 승인을 요청하여, 인공지능 에이전트의 오작동을 막고 사용자 통제권을 확보한다.
전망
Fara-7B의 개발은 복잡한 다중 에이전트 시스템에서 생성된 성공적인 웹 탐색 데이터를 작은 모델로 압축하는 '지식 증류(Knowledge Distillation)' 기법을 통해 이루어졌다. 마이크로소프트는 향후 버전에서 모델을 무작정 키우기보다 실시간 샌드박스 환경에서 강화 학습(RL) 기법 등을 탐색하여 온디바이스 AI 에이전트를 더욱 '똑똑하고 안전하게' 만드는 데 집중할 계획이다. Fara-7B는 MIT 라이선스로 공개되어 초기 프로토타이핑에 활용될 수 있지만, 현재는 미션 크리티컬한 배포보다는 연구 및 검증 단계에 적합한 실험적 모델이다.
