AI연구원이 창문 깨고 난동 부려... "CCTV 위한 연기였어요"

지난 13일 오후 서울 중구의 보안 기업 에스원 연구개발(R&D)센터에서 연구원들이 영상을 학습 시키기 위해 직접 촬영한 영상을 보고 있다. 박해리 기자

지난 13일 오후 서울 중구의 보안 기업 에스원 연구개발(R&D)센터에서 연구원들이 영상을 학습 시키기 위해 직접 촬영한 영상을 보고 있다. 박해리 기자

지난 13일 서울 중구의 보안 기업 에스원 연구개발(R&D)센터. 한쪽 벽면을 가득 채운 여러 대의 화면에는 창문을 깨는 사람, 물건을 던지는 사람, 택배 상자를 훔쳐 가는 사람, 주먹 다툼을 하는 사람의 모습이 쉼 없이 재생됐다. 그러나 화면을 지켜보는 이들의 표정은 태평했다. 영상 속 인물들은 모두 에스원의 인공지능(AI) 연구원들이고, 이 장면은 연구원들의 연기였기 때문이다.

연구원들이 열연을 펼친 목적은 ‘AI를 똑똑하게 만들기 위해서’다. 유튜브 등에 올려진 범죄 영상으로 AI를 학습하지만, 현실에서 벌어지는 범죄나 위험 상황은 보다 다양하기에 총 900여 개 시나리오대로 위험 영상을 직접 제작한 거다. 박재균 에스원 영상AI 연구원은 “코딩뿐 아니라 연기도 우리의 업무”이라며 “우리의 영상을 배운 AI는 이후 주변 환경이나 인물이 달라져도 위험 상황임을 인식한다”라고 말했다. 그야말로 ‘몸 바쳐’ AI를 가르치는 셈이다.

AI 영상 분석은 사진·이미지 분석보다 난이도가 높다. 예컨대 누군가 물건을 바닥에 뒀을 때, 이 한 장면만으로 물건을 잠시 내려놓은 것인지 ‘유기’한 것인지 판단하기 쉽지 않다는 것. 연속되는 앞뒤 맥락을 함께 고려해야 한다. 에스원은 보안 기업 중 유일하게 자체 R&D센터를 두고 이 같은 영상 알고리즘 개발을 비롯해 AI 폐쇄회로(CC)TV 등 AI 기술을 보안 솔루션에 접목하는 연구개발에 집중하고 있다.

생성 AI를 활용한 지능형 업무 자동화 시스템도 개발했다. 사람이 쓰러지거나 불이 났을 때, AI가 위험 상황임을 판단하고 매뉴얼에 따라 신고하는 등 자동 조치한다. 이동성 에스원 영상솔루션팀장(부사장)은 “대형 공장에는 CCTV가 수백 대 이상 설치돼 있는데, AI를 활용해 감시 인력의 피로도를 줄이고 사각지대 없이 관리할 수 있다”라고 말했다.

초거대 언어 모델(LLM)과 접목해 AI와 대화하며 영상을 검색하고, AI에게 설명을 들을 수도 있다. ‘지난주 A 구역에 누가 왔는지 찾아줘’라고 물으면 AI가 관련 구간만 추출해서 보여주고, ‘검은 옷을 입은 사람이 문을 열고 들어오고 있습니다’라고 영상을 설명해주는 식이다. 에스원은 챗 GPT·라마 등 모델을 활용한다고 밝혔다.


이 팀장은 “지금은 AI를 서버에 연동해 구현하지만, 앞으로 CCTV 카메라에 경량화 온디바이스 AI를 탑재하게 될 것”이라며 “카메라끼리 대화해 영상을 교환하는 등, CCTV가 더 똑똑해진다”라고 말했다. 시장조사업체 엑스트라폴레이트는 세계 AI CCTV 시장 규모가 지난해 266억 3000만 달러(약 36조2088억원)에서 오는 2031년 710억 8000만 달러(약 96조 6474억원)까지 성장할 것으로 전망했다.