텐센트·알리바바 AI, 처음으로 인간보다 높은 점수 받았다

지난 11월 29일, 홍콩 사우스차이나모닝포스트(SCMP)는 "텐센트(腾讯)와 알리바바의 AI 모델이 인간보다 중국어를 더 잘 이해한다"고 보도했다. 텐센트와 알리바바의 AI 모델이 자연어 처리(NLP) 측정 벤치마크에서 인간보다 더 높은 점수를 받은 것. 두 모델은 기계가 중국어 텍스트를 얼마나 잘 이해하고 응답할 수 있는지 평가하도록 설계된 중국어 이해 평가(Chinese Language Understanding Evaluation, 이하 CLUE)라는 테스트에 응시했다.

CLUE 공식 웹사이트의 순위(11월 28일 기준)에 따르면 텐센트의 AI 모델 훈위안(混元)이 86.918점으로 1위를 차지했으며 알리바바의 딥러닝을 이용한 언어모델링 시스템 앨리스마인드(AliceMind)가 86.685점으로 그 뒤를 이었다. 둘 다 86.678점을 받은 인간보다 순위가 높았다. 이어 중국 스마트폰 제조사 오포(Oppo)와 음식 배달 대기업 메이퇀(美団)의 AI 모델이 각각 4위와 5위에 올랐다.

3년 전 수십 명의 연구원이 CLUE 벤치마크를 설정한 이후, AI 모델이 사람보다 더 높은 점수를 획득한 것은 이번이 처음이다. 알리바바 클라우드(Alibaba Cloud)는 "순위 변동은 흔한 일이지만 최고 득점자가 인간을 능가한 적은 지금껏 없었다"고 말했다. 이어 "이 결과는 AI 모델의 중국어 이해가 새로운 수준에 도달했다"는 의미라고 덧붙였다.

위의 결과는 4차 산업혁명의 핵심기술인 자연어 처리(NLP) 영역에서 라이벌로 통하는 중국의 양대 IT 대기업의 인공지능(AI) 기술력이 크게 진보했다는 것으로 해석할 수 있다.
인공지능(AI)[사진 셔터스톡]

인공지능(AI)[사진 셔터스톡]

 
인간이 일상적으로 주고받는 대화, 즉 정형화되어 있지 않은 언어를 컴퓨터가 이해할 수 있도록 해석하고 분석하는 것을 자연어 처리라고 한다. 우리가 흔히 쓰는 음성 인식 기술, 챗봇, 전화 상담, 맞춤법 검사, 번역 서비스를 이용하며 불편함을 느끼지 않는다는 것은 자연어 처리 기술 발달한 결과다. 글로벌 리서치기관 스태티스타는 글로벌 NLP 관련 시장이 2025년 433억 달러(57조 1127억원)까지 커질 것으로 전망했다.

지난 6월, 중국의 인터넷 검색 거대 기업인 바이두(百度)의 인공지능(AI) 챗봇인 두샤오샤오(度晓晓)가 인터넷 속어를 잘못 사용했음에도 불구하고 중국의 대학 입학시험인 가오카오(高考)에서 대부분의 학생보다 높은 점수를 받은 작문을 써낸 바 있다. 두샤오샤오는 바이두의 브레인 7.0 기술을 기반으로 기계 번역, 음성 인식, 자연어 이해가 가능하다. 방대한 데이터 지식을 기반으로 언어 이해 및 생성 기능을 갖췄기에 가능한 결과였다.


그럼에도 불구하고 일부 연구원들은 AI 모델이 언어의 복잡성을 진정으로 이해하려면 아직 갈 길이 멀다는 의견이다. SCMP는 '지난해, 미국 앨라배마 주에 있는 오번대학(Auburn University) 과학자들과 미국 소프트웨어 회사 어도비(Adobe)가 공동으로 진행한 연구에서 특정 작업을 인간보다 잘 수행하는 AI 모델이 문장의 단어가 무작위로 섞였을 때 해석 능력이 크게 떨어지는 것을 발견했다'고 전했다.

아래 문장을 보자.

중국 탁구는 누구도 이길 수 없다(中國的乒乓球是誰也贏不了)
중국 축구는 누구도 이길 수 없다(中國的足球是誰也贏不了)

두 문장은 종목명을 제외하고는 같은 글자로 구성돼 있다. 그러나 중국인들은 이 두 문장을 함께 두고 각각 정반대의 의미로 해석한다. 중국 탁구는 세계 최강이고, 중국 축구는 세계에서 최약체라는 것. 이렇게 AI가 해독할 수 없는 영역이 분명하게 존재한다. 이러한 사회적 언어까지 수집하고 연구하는 데는 많은 자원과 시간이 소요될 것이 자명하다. 그뿐만 아니라 중국은 지역 방언이 복잡하고 다양해 자연어 처리 분야에서 해결해야 할 난제가 많다. 광둥어(廣東語)와 우어(吳語)를 비롯한 일부 방언은 표준어(普通話)와 발음이 달라 중국인끼리도 의사소통하기 어렵다. 이런 요소들이 모두 반영된 AI가 개발되는 날이 진정한 'AI 승리'의 날이 아닐까.  

차이나랩 임서영 에디터

태그