dcnews

"학습 데이터 부족" AI개발에 닥친 난관… 차세대 모델 개발 지연

[중앙일보] 입력 2024.12.23 05:47 수정 2024.12.23 08:59

기자: 이해준 기자

챗GPT의 차세대 모델 개발에 점점 더 많은 시간과 비용이 들어가고 있다. 학습할 데이터를 찾는 일이 점점 어려워지고 있다. AFP=연합뉴스

챗GPT 개발사 오픈AI의 차세대 주력 인공지능(AI) 모델 개발이 당초 목표보다 훨씬 늦어지고 있다. 학습할 데이터가 바닥나고 있는 게 주요한 골칫거리다.

22일(현지시간) 미 일간 월스트리트저널(WSJ)은 여러 소식통을 인용해 코드명 '오리온'(Orion)으로 알려진 오픈AI의 차세대 AI 모델 GPT-5 개발 일정이 지연되고 있으며 막대한 비용을 쓰고 있다고 보도했다.

오픈AI의 최대 투자사인 마이크로소프트(MS)는 올해 중반 새 모델 출시를 기대했지만 이뤄지지 않았다. 샘 올트먼 오픈AI 최고경영자(CEO)는 지난 20일 고급 추론 AI 모델 'o3'를 공개했지만, GPT-5라고 부를 만한 새 주력 모델이 언제 나올지에 대해서는 언급하지 않았다.

오픈AI는 지금까지 18개월이 넘는 개발 기간 중 방대한 양의 데이터를 처리하는 대규모 훈련을 최소 2차례 진행했다. 그러나 매번 새로운 문제가 발생했고 기대했던 결과를 얻지 못한 것으로 알려졌다.

새 모델은 기존의 GPT-4보다는 나은 성능을 보였지만, 여기에 투입된 막대한 비용을 정당화할 만큼의 충분한 성능 향상을 보여주지 못했다고 WSJ 소식통들은 말했다.

업계 추정치에 따르면 이 정도의 대규모 AI 훈련에는 6개월간 컴퓨팅 비용만으로 약 5억달러(약 7247억5000만원)가 소요된다.

이전 모델의 경우 오픈AI는 인터넷에서 수집한 뉴스 기사나 소셜미디어 게시물, 과학 논문 등 데이터를 AI 훈련에 사용했다. 그러나 더 똑똑한 새 모델을 개발하는 데 필요한 학습 데이터가 충분하지 않아 문제다.

오픈AI는 새로운 데이터를 직접 만들기로 하고, 소프트웨어 엔지니어나 수학자들을 고용해 새로운 소프트웨어 코드를 만들거나 복잡한 수학 문제를 풀도록 해 AI가 이를 학습하게 하는 방식을 시도하고 있다. 기존보다 시간이 훨씬 더 많이 걸리고 비용도 커진다. 게다가 경쟁업체에서 수백만달러를 제시하며 최고 연구원을 빼가려는 시도가 끊이지 않아 비용 부담을 한층 키우고 있다.

AI 모델의 성능 향상이 정체기를 맞은 것이 아니냐는 논쟁이 업계에서 뜨거워지고 있다.

오픈AI의 공동 창립자이자 수석과학자였다가 회사를 떠난 일리야 수츠케버는 지난 13일 한 강연에서 "컴퓨터 연산 능력은 향상하고 있지만, 데이터는 늘지 않고 있다"고 지적했다. 그는 AI 모델 훈련에 필요한 데이터를 유한한 자원인 화석연료에 비유하면서 "우리가 알고 있는 (생성형 AI 모델의) 사전 훈련은 의심할 여지 없이 끝날 것"이라고 우려했다.

이해준 기자 lee.hayjune@joongang.co.kr