
그래픽=김현서 kim.hyeonseo12@joongang.co.kr
문제는 AI 학습용 데이터를 어디서 구하느냐다. 챗GPT로 수억 명의 사용자를 확보한 오픈AI는 값비싼 명령어 학습 데이터(instruction tuning data)를 실시간으로 끌어 모으고 있다. 장두성 KT 융합기술원 기술담당 상무는 “AI 챗봇 사용자의 프롬프트(명령어) 입력과 그에 대한 피드백이 담긴 ‘명령어 학습 데이터’의 가치가 높다”라고 말했다. 이런 서비스 플랫폼이 없는 기업들은 갈수록 데이터 얻기가 어려워지고 있다. 이전과 달리 창작자는 저작권을, 개인은 프라이버시를, 데이터를 가진 기업은 제 값 받기를 주장하기 때문. 트위터를 인수한 일론 머스크 테슬라 최고경영자(CEO)는 지난달 “MS의 AI 학습에 트위터 데이터가 무단 사용됐다”며 소송을 예고했다.
AI 개발 업체들은 ‘공정 이용’(fair use)이라고 주장한다. 저작권법의 목적인 ‘문화의 향상 발전’이라는 목표에 부합한다면 형식적인 저작권 침해에 책임을 묻지 말아야 한다는 것. 일본·유럽연합 등은 저작권법에 유사한 면책 규정을 두고 있고, 한국도 AI 학습과 빅데이터 분석용 데이터 사용에 면책 조항을 두는 저작권법 개정안이 국회 계류 중이다.

로이터=연합뉴스
기업의 데이터 수요를 감안해 과학기술정보통신부는 지난 4월 ‘초거대AI 경쟁력 강화 방안’을 발표하며 “고품질 말뭉치와 한국어 응용말뭉치를 2027년까지 130종 구축하겠다”고 발표했다. 하지만 현장에선 더 과감한 조치가 필요하다는 반응이다. 전병곤 프렌들리AI 대표(서울대 컴퓨터공학과 교수)는 “말뭉치로는 부족하다”며 “한국어 출판물을 전부 데이터셋으로 만든다든지, 영어 백과사전을 한국어로 번역해서 쓸 수 있게 해 주는 등 대규모 데이터 구축이 필요하다”고 말했다.
국내외 기업 간 AI 경쟁이 치열해지면서 한국어 데이터에 장벽을 치자는 주장도 나온다. 정부가 구축하는 데이터를 외국 빅테크들이 사용하지 못 하게 해달라는 것이다. 하정우 네이버클라우드 AI 이노베이션센터장은 “해외 빅테크 기업이 한국어 데이터를 제약 없이 학습에 활용하는 것을 막아야 한다”며 “국내 데이터가 해외에도 공유되면 국내 AI 경쟁력은 약화될 것”이라고 말했다.

그래픽=김현서 kim.hyeonseo12@joongang.co.kr