'o3'는 지난 9월 오픈AI가 출시한 추론 모델 'o1'(오원)의 업그레이드 버전이다. 오픈AI는 소형 모델인 'o3 미니'도 함께 선보였다.
모델명은 'o2'는 건너뛰었다. 오픈AI는 "영국 통신 브랜드 'O2'에 대한 존중의 차원에서 이같이 결정했다"고 설명했다.
샘 올트먼 최고경영자(CEO)는 "내년 1월 말 'o3 미니'를 먼저 출시하고 곧이어 'o3'를 내놓을 예정"이라고 말했다. 일부 연구원들에게는 이날부터 미리보기 형태로 제공된다.
추론 능력에 초점을 둔 'o3'는 'o1'과 마찬가지로 응답하기 전에 먼저 생각하도록 훈련됐다. 작업을 추론하고 계획할 수 있으며, 오랜 기간에 걸친 작업을 해나가는 데 있어 해결책을 찾는 데 도움이 된다고 오픈AI는 설명했다.
'o1'과 마찬가지로 'o3'도 응답하는 데 수초에서 수분가량 시간이 더 걸린다. 그러나 물리학·과학·수학과 같은 분야에서 더 신뢰할 수 있다고 오픈AI는 강조했다.
또 특정 조건에서는 'o3'가 범용인공지능(AGI)에 가까워졌다고 덧붙였다. 'o3'는 지시어를 받으면 응답 전 잠시 멈추고 관련 지시어를 고려해 자신의 추론을 설명한다. 이후 가장 정확하다고 생각되는 응답을 요약한다.
특히, 'o3'에서는 '추론 시간 조정'이 새롭게 도입됐다.
이용자는 연산 시간, 즉 'o3'의 사고 시간을 3단계로 구분해 설정할 수 있다. 연산 시간이 길수록 성능은 더 좋아진다.
오픈AI는 'o3'가 벤치마크(성능 측정)에서 다른 모델을 압도한다고 설명했다.
프로그래밍 작업에 초점을 맞춘 벤치마크(SWE-Bench Verified)에서는 'o1'보다 22.8%포인트 높은 성능을 보였다. 코딩 실력 측정 지표(Codeforces)에서는 2727점을 기록해 엔지니어 상위 99.2%에 해당하는 2400점을 크게 뛰어넘었다.
올해 미국 초청 수학 시험(AIME)에서는 단 한 문제만 틀려 96.7%의 점수를 기록했다. 대학원 수준의 생물학, 물리학, 화학 문제 테스트(GPQA Diamond)에서는 87.7%의 성과를 거뒀다고 오픈AI는 설명했다.
한편 최근 정보통신기술(ICT) 업계에 따르면 국내 AI 스타트업 마커AI가오픈AI의 AI 모델을 활용해 2025학년도 수능 국어 영역 시험을 치른 결과, 'o1-프리뷰' 모델이 1등급에 해당하는 원점수 97점을 받았다.
'o1-프리뷰'가 유일하게 틀린 문제는 국어 영역 8번 문제였다. 근대화에 대한 두 가지 비문학 지문을 읽고, 보기에서 주어진 사례에 대입해 논리적 사고를 평가하는 문제였다. 이 문제는 2025학년도 수능 국어 영역 가운데 오답률이 가장 높은 81.5%를 기록했다.
AI를 둘러싼 빅테크의 경쟁은 점점 치열해지고 있다. 구글은 이달 초 '제미나이 2.0'을 발표했다. 구글은 이전 모델보다 두 배 더 빠르며 "생각하고, 기억하고, 계획하고, 심지어 대신 조치를 취할 수 있다"고 설명했다. 페이스북 메타플랫폼도 내년 '라마 4'를 출시할 예정이다.