AI 업은 보이스피싱 ‘창과 방패 전쟁’
경제+
“엄마, 나 좀 살려줘.” 지난해 10월, 한 중국인 부모에게 20초짜리 영상이 도착했다. 제주도로 놀러간다던 딸이 손발이 묶인 채 울고 있었다. 부모는 제주에 있는 중국영사관에 연락했고, 신고받은 제주경찰청은 멀쩡하게 관광 중인 딸을 찾아냈다. 딸을 납치했다며 우리 돈 8억원을 요구한 이들은 보이스피싱 조직. 딥페이크(AI 이미지 합성)와 딥보이스(AI 음성 합성) 기술로 누구라도 속을 법한 고품질 범죄용 영상을 만들어냈다. 요즘 보이스피싱은 가족·친구 등 주변 사람 목소리로 위장해 더 치밀하게 생활 밀착형으로 다가온다. 근간에는 AI의 진화가 있다. AI와 결합해 악질이 된 보이스피싱과 이들을 잡기 위한 AI 기술, 범죄 대응 최전선에 있는 전문가들이 조언하는 대응법까지 집중 취재했다.
딥보이스·딥페이크를 활용한 보이스피싱 범죄는 전 세계적으로 빠르게 늘고 있다. 글로벌 사이버 보안 기업 크라우드스트라이크에 따르면 딥보이스 기반 범죄는 지난해 상반기 49건에서 하반기 266건으로 5배 이상 급증했다. 박남인 국립과학수사연구원(국과수) 디지털과 실장은 “국내에선 아직 딥보이스 기반 범죄 피해 사례가 많지 않지만, 진화는 시간 문제”라고 말했다. “요즘 보이스피싱 조직들은 IT 회사인 것처럼 꾸며 교수들을 초빙해 음성 합성 기술 등 강의를 듣기도 하고, 개발자들을 고용하기도 한다”며 “기술을 활용한 범죄는 향후 더 고도화될 것”으로 전망했다.
보이스피싱은 통상 범죄조직이 중국 등 해외에 거점을 두고 시나리오(대본)를 만들어 콜센터를 운영하듯 전화를 돌린다. 박 실장은 “초기엔 조선족 연변 사투리가 섞인 말투가 많았다. 점차 학습효과가 생기자 이제는 한국인 대상으로 일자리를 소개해준답시고 꼬셔서 보이스피싱 범죄에 가담케 한다”고 말했다. 속을 만한 자연스러움이 범죄 성공 여부를 가르는 중요한 요소인 것. 단 5초의 샘플만 있어도 특정 목소리를 유사하게 복사·생성할 수 있는 AI 기술의 발전에 범죄조직이 관심을 가질 수밖에 없는 이유다. LG유플러스의 스피치기술TF 박진영 선임은 “평균 4~5초, 한 문장 정도 목소리만 있어도 합성이 가능하다. 다만, 그 한 문장이 화났을 때 목소리라면 그런 특정 톤만 카피가 가능하기 때문에, 실제 보이스피싱 범죄 조직이 작업할 때는 50~100문장 정도로, 즉 3분가량 통화하면 다양한 톤으로 작업하기 충분하다”고 말했다.
생성 AI의 생명은 학습, 그리고 학습의 핵심은 풍부한 데이터다. 내 목소리를 처음 듣는 AI 모델은 어떻게 특정 목소리를 생성할까. ‘제로샷 TTS(텍스트 투 스피치)’ 기술 때문이다. 텍스트를 음성으로 변환하는 TTS에 학습하지 않은 대상에 대해 추론 혹은 생성이 가능한 능력을 뜻하는 ‘제로샷’이 붙은 것. 음성을 미리 학습하지 않았더라도, 단 몇 초의 샘플에서 화자의 음색·억양·발음 등 개인화된 음성 특징을 추출해 그 사람의 목소리처럼 들리도록 생성할 수 있다.

그래픽=주이안
KT와 LG유플러스는 보이스피싱 탐지 서비스를 운영 중이다. 국과수가 보유한 2만 5000건의 실제 보이스피싱 범죄 음성을 AI가 텍스트로 바꾸고, 개인정보가 가명 처리된 버전으로 시나리오 데이터를 넘겨받는다. 이를 각사가 자체 개발한 AI 모델에 학습시켜 통화 중 문맥 감지를 통해 보이스피싱 가능성을 파악한다. KT는 지난 1월부터 안심통화 앱 ‘후후’에, LG유플러스는 지난해 11월 자사 AI 에이전트 ‘익시오’에 이 기능을 탑재했다. KT에 따르면, 해당 서비스의 탐지 정확도는 90.3%다. 보이스피싱으로 탐지되면 통화 중 1차로 ‘주의’, 2차로 ‘경고’의 알림음과 진동을 주는데, 해당 알림을 받은 통화가 실제 보이스피싱이었던 경우가 90%를 넘었다는 의미다. 역으로 잘못 탐지한 경우는 9.7%에 달했다. 이수민 KT 고객인식개선팀 차장은 “주로 요금 체납과 관련된 통화 내용이 보이스피싱으로 오탐됐다. 용어·시나리오를 좀 더 학습시켜 AI 엔진을 고도화할 것”이라고 밝혔다.
◆차곡차곡 쌓인 ‘그놈 목소리’=국과수는 2015년부터 금감원에 신고가 들어온 보이스피싱 음성 데이터베이스(DB)를 구축해 왔다. 이를 기반으로 2023년 행안부와 협업해 ‘보이스피싱 음성 분석 모델’을 개발했다. 딥러닝 알고리즘을 기반으로 AI가 성문(목소리 지문) 정보, 피치 정보 등 음성 특징들을 분석한다. 보이스피싱 의심 음성과 DB 속 범죄자의 음성을 대조해 특정할 수 있다. 이를 통해 범죄자 검거는 물론 보이스피싱 사건 간의 연관성이나 여죄 등의 수사도 가능해졌다.
KT와 LG유플러스도 보이스피싱 범죄자를 찾는 작업에 참여하고 있다. KT는 지난해 10월 과학기술정보통신부의 ‘ICT 규제샌드박스’에서 국과수와 같이 실증특례 승인을 받았고, LG유플러스는 최근 실증특례 신청을 냈다. 생체 정보인 성문은 민감정보에 해당해서 법적으로는 통신사에 전달할 수 없지만, 보이스피싱에 대응한다는 차원에서 실증특례를 받으면 예외적으로 해당 제재에서 벗어날 수 있다. 딥보이스 대응 기술도 상용화를 앞두고 있다. AI가 음성의 주파수, 노이즈 특징을 학습해 진짜 사람의 목소리인지 AI·기계가 만들어낸 목소리인지를 구분하는 기술이다. KT는 올 6월, LG유플러스는 연내에 상용화할 계획이다.
◆AI 보이스피싱 파훼법=보이스피싱의 종착지는 금융사다. 피해자가 은행에 가서 현금을 뽑든, 계좌이체를 하든 금융 피해로 이어지는 행위를 유도하기 때문이다. 이에 금융사들은 FDS(이상거래탐지시스템)를 운영하는데, 최근에는 통신사와 협업을 강화했다. 지난해 9월 IBK기업은행이 SK텔레콤과 보이스피싱 피해예방 협약을 맺은 것이 대표적이다. IBK기업은행은 소액 거래만 하던 고객이 갑자기 고액 대출을 받더니 다른 곳으로 송금하는 식의 이상 거래를 할 때, 의심스러운 번호와 통화했는지 여부를 통신사로부터 공유받을 수 있다.
개인의 대처도 중요하다. 흔히 보이스피싱은 “끊지 마세요” 혹은 “저희 학자금 대출 담당자를 연결해 드릴게요” 식으로 피해자를 고립시켜서 거래를 유도한다. 타인이 보내주는 전화번호나 링크를 믿어서는 안 된다. 후후 플랫폼기획팀 고승태 과장은 “혹여 낯선 링크를 눌러 나도 모르게 APK(앱 설치 패키지 파일)가 설치되면 원격 제어 앱이 심어질 수 있고, 휴대전화를 원격으로 휘젓고 다니며 데이터를 악용할 수 있다”면서 “휴대전화에 ID·비밀번호 등 민감한 정보를 저장하는 것도 지양해야 한다”고 말했다. “통신사 상관없이 앱만 깔면 사용 가능한 후후에서 하루에 한 번씩 악성앱 검사를 하는 것도 도움이 된다”고 조언했다.
혁신의 최전선에서 비즈니스의 미래를 봅니다. 첨단 산업의 '미래검증 보고서' 더중플에서 더 빨리 확인하세요.

https://www.joongang.co.kr/article/25331123
은행 인증서도 털린 거 아냐? 유심 해킹, 이건 꼭 확인해라
https://www.joongang.co.kr/article/25333816
“적자 심하다” “좋아하잖아” 토스가 만보기 포기 못한 이유
https://www.joongang.co.kr/article/25335315
알아서 척척 앱도 만들어준다, 개발자 뒤집은 ‘바이브 코딩’
https://www.joongang.co.kr/article/25334130
인싸다? 방구석 중독자였다…‘숏폼 떡상’ 그들의 업계 비밀
https://www.joongang.co.kr/article/25332984