*본 기사는 포춘코리아(Fortune Korea)에서 확인하실 수 있습니다.
지난 1월, 마이크로소프트 연구원들은 텍스트-음성 변환(TTS) 변환 AI 도구 ‘발리(VALL-E)’를 시연했다. 3초 분량이었지만, 실제 사람의 목소리를 거의 비슷하게 따라했다. 연구원들은 “음성식별을 속이거나 특정인을 사칭하는 등 오용될 가능성이 있다”며 해당 프로그램 코드를 공유하지 않았다.
그러나 음성복제 AI 도구는 이미 보이스피싱에 쓰이고 있다.
워싱턴포스트는 5일(현지시간) AI를 활용한 보이스피싱에 당해 수천 달러를 잃은 캐나다인 부부 사례를 보도했다.
이 부부는 한 ‘변호사’로부터 한 통의 전화를 받았다. 스스로 변호사라고 소개한 이는 부부의 아들이 교통사고를 내 미국인 외교관을 사망에 이르게 했고, 현재 교도소에 수감된 상태라고 말했다. 그러면서 소송비용으로 돈이 필요하다고 덧붙였다.
보이스피싱 조직원은 ‘아들’에게 전화기를 넘겼다. ‘아들’은 부부에게 “사랑하고 감사하며, 돈이 필요하다”고 호소했다. 이후 실제 아들인 벤자민 퍼킨 씨는 인터뷰에서 “부모님이 진짜 나와 대화했다고 믿을 만큼 비슷한 목소리였다”고 말했다.
부모는 비트코인 단말기를 통해 약 1만5000달러를 보이스피싱 조직에 보냈다. 퍼킨 씨는 “돈이 사라졌다”며 “보험도 없다, 돌려받을 길이 없다”고 하소연했다.
디지털 포렌식 전문가인 하니 패리드(Hany Farid) UC버클리 교수(전자공학 및 컴퓨터 사이언스 전공)는 “불과 1년 전만해도 사람 목소리를 복제하려면 많은 분량의 음성 데이터가 필요했다”며 “이젠 당신이 SNS에 30초 분량의 목소리만 올려도, 충분히 복제할 수 있다”고 말했다.
TTS 변환 AI 도구를 제공하는 업체는 일레븐랩스(Elevenlabs)는 지난 1월30일 자사 트위터 계정에서 “음성복제 오용 사례가 늘고 있다”고 밝혔다. 다음날 이 업체는 무료 버전 서비스를 종료한다고 발표했다. 그러면서 “거의 모든 악의적인 콘텐츠는 무료 익명 계정에 의해 만들어졌다”며 “(카드 인증이) 그들이 다시 생각하도록 유도할 것”이라고 덧붙였다.