무슨 일이야

구글 딥마인드가 개발한 '제미나이 로보틱스'가 적용된 로봇이 인간 명령에 따라 종이접기를 하는 모습. 딥마인드 유튜브 캡처
이게 왜 중요해
또 다른 영상에서 로봇은 색종이를 내려다보며 “나는 주황색 사각형으로 오리가미 여우를 접을 수 있어”라고 말하기도 했다. 시연자가 “한번 해보라”하자 로봇은 종이를 접으며 “오리가미가 일본어로 접는다는 뜻의 오리(おり)와 종이라는 뜻의 가미(がみ)라는 걸 알고 있니?”라고 말하기도 했다. 로봇은 장난감 농구대를 앞에 놓고 “농구공을 집어서 슬램 덩크해”라는 명령에 바로 덩크를 하기도 했다. 구글 딥마인드 엔지니어 카니슈카 라오는 “농구와 관련된 것을 전혀 본 적이 없는 로봇이지만, AI 모델을 통해 농구 골대의 형태와 '덩크슛'의 개념을 이해하고 이를 물리적 세계에서 구현한 것"이라고 설명했다. 그밖에 로봇은 지퍼백 닫기, 콘센트 꽂기, 주사위 숫자 맞춰 배치하기 등 세밀한 조작을 필요로 하는 과제를 수행했다.
딥마인드 측은 “로봇용 AI 모델이 도움이 되려면 다양한 상황에 적응하는 ‘범용성’, 지시나 주변 환경 변화를 빠르게 이해하고 대응하는 ‘상호작용성’, 사람이 손과 손가락으로 할 수 있는 일을 하는 ‘숙련도’ 등 세 가지 성능이 필요하다”며 “제미나이 로보틱스는 세 가지 축 모두에서 상당한 진전을 보였다”고 밝혔다. 딥마인드가 공개한 기술보고서에 따르면 오픈AI의 챗GPT 4o, 앤스로픽의 클로드 3.5소넷 등 최신 시각-언어-행동 모델(VLM)과 비교한 추적(pointing) 성능 벤치마크 테스트에서 제미나이 로보틱스가 대부분 월등히 앞서는 결과를 보였다.
피지컬 AI 시대 열린다

젠슨 황 엔비디아 최고경영자(CEO)가 세계 최대 IT(정보기술)·가전 전시회 'CES 2025' 개막을 하루 앞둔 1월 6일(현지시간) 미국 네바다주 라스베이거스 만달레이베이 컨벤션센터에서 기조연설을 하고 있다. 뉴스1
마이크로소프트(MS)도 지난달 논문을 통해 ‘마그마(Magma)’라는 VLA 모델을 발표했고, 허깅페이스와 피지컬 인텔리전스도 자연어 명령을 로봇의 자율 행동으로 변환하는 VLA 모델 ‘파이제로(Pi0)’를 오픈 소스로 출시했다. 김기응 카이스트 김재철AI대학원 교수는 “피지컬 AI 등장으로 로봇 기술이 비약적으로 발전한 것만큼은 확실하다”며 “마지막 허들로 안정성에 대한 의문만 해소한다면 이제 상용화가 가능한 수준”이라고 말했다.
중국은 구신지능 발전
백서인 한양대 중국지역통상학과 교수는 “중국 로봇 기업 유비테크가 최근 딥시크 R1 모델을 얹은 자사 로봇 워커를 세계 최초 ‘팀 단위’로 전기차 기업 지커의 생산 라인에 투입했다”며 “이미 중국에선 휴머노이드 로봇의 소프트웨어 개발-하드웨어 개발-산업화까지의 공급망이 자체적으로 형성되고 있고, 정부의 지원 아래 기술 발전 및 산업화 속도가 더욱 가속화할 것으로 보인다”고 말했다.