Google, Gemini 3.5 Flash에 PC 조작 기능 통합

Google은 AI 모델 'Gemini 3.5 Flash'에 컴퓨터, 브라우저, 모바일 기기를 자율적으로 조작할 수 있는 'Computer Use' 기능을 직접 통합했다. PC 조작 평가 지표 'OSWorld' 벤치마크에서 78.4를 기록했으며, GPT-4.5와 동등 수준으로 평가된다. 개발자는 Gemini API를 통해 이 기능을 이용할 수 있으며, 소프트웨어 테스트 자동화 및 사무 업무 자동화 등에 활용될 것으로 예상된다.

Google은 AI 모델 'Gemini 3.5 Flash'에 'Computer Use(컴퓨터 조작)' 기능을 직접 내장했다고 발표했다. 이를 통해 해당 모델은 개인용 컴퓨터, 브라우저, 모바일 기기의 화면을 인식하면서 자율적으로 조작할 수 있게 되었다.

'Computer Use'란 AI가 인간을 대신해 컴퓨터를 조작하는 기능을 의미한다. 예를 들어 브라우저를 열어 양식에 입력하거나, 앱을 실행해 특정 조작을 연속적으로 수행하는 작업을 AI가 스스로 판단하며 실행할 수 있다. 지금까지 이러한 기능은 전용 소프트웨어나 복잡한 설정이 필요했지만, 이번에는 모델 자체에 그 능력이 내장된 형태가 되었다.

AI가 컴퓨터를 자율적으로 조작하는 방식은 최근 'AI 에이전트'로서 업계 전체에서 주목받는 분야다. OpenAI나 Anthropic 등 주요 AI 기업들이 각각 유사한 기능 개발을 진행 중이며, Google이 이번 기능을 모델에 직접 통합한 것은 그 경쟁 속에서의 한 수로 위치지어진다.

성능 측면에서는 PC 조작 작업의 평가 지표로 널리 사용되는 'OSWorld' 벤치마크에서 78.4점을 기록했다. 이 점수는 OpenAI의 GPT-4.5와 동등 수준에 있는 것으로 평가된다. OSWorld는 AI가 실제 운영체제 환경에서 얼마나 정확하게 조작할 수 있는지를 측정하는 벤치마크로, 높은 점수는 실무 상황에서의 신뢰성의 높음을 보여주는 지표가 된다.

개발자는 Google의 API(응용 프로그램 간 연결 인터페이스)인 'Gemini API'를 통해 이 기능을 이용할 수 있다. 예상되는 활용 용도로는 소프트웨어 테스트 자동화, 사무 업무 자동화 등이 꼽히고 있으며, 기업의 업무 효율화를 담당하는 도구 개발에 활용될 것으로 기대된다.

이 기능 통합이 가지는 의미는 단순한 성능 향상에 그치지 않는다. AI가 모델 단독으로 화면을 보고 조작까지 완결할 수 있게 됨으로써, 지금까지 인력이 필요했던 정형적인 PC 작업의 대부분을 AI 에이전트에 맡기는 환경이 갖춰지고 있다고 할 수 있다. 개발자가 손쉽게 에이전트를 구축할 수 있게 되면, 기업 시스템으로의 조직도 가속화될 가능성이 있다.

향후의 주목점은 실제 업무 환경에서 얼마나 안정적으로 작동하는지다. 벤치마크 상의 수치와 실제 운영에서의 신뢰성이 반드시 일치하지는 않기 때문에, 다양한 조건에서의 검증이 중요해진다. Gemini API를 통한 제공 형식은 많은 개발자가 시험하기 쉬운 환경을 마련했다는 점에서 보급으로의 발판이 될 수 있다.

#생성AI#AIエージェント#Gemini#Google#업무자동화#ComputerUse#LLM

AI issue 편집부

댓글을 작성하려면 로그인하세요