생성형 인공지능이 발달하면서 학교 숙제를 작성해줄 수 있는 단계에 도달했습니다. 교육자들은 학생들이 공부하는 대신 손쉽게 기술로 과제를 해결할까 봐 걱정합니다. 여러 AI 기술 감지 도구가 등장하기까지 오랜 기간이 걸리지 않았습니다. 이들은 챗GPT 같은 대규모 언어 모델(LLM)로 제작한 글과 일반 인간이 쓴 내용을 정확하게 구분할 수 있다고 주장합니다. 하지만 패턴스(Patterns) 저널에 10일(현지시간) 발표된 논문은 감지 기술이 오히려 혼란만 더해 줄 수 있다고 지적했습니다. 연구진은 AI 탐지가 편향되어 있으며 영어 외 언어에서 부정확하다고 밝혔습니다.
논문의 주 저자인 제임스 조우 스탠퍼드 대학교 연구원은 영어 시험 토플(TOEFL) 시험 과제로 AI를 평가했습니다. 비영어권 학생이 작성한 시험 작문 91개를 수집해 AI 검출 프로그램 7개에 입력했습니다. 그 결과 절반 이상을 기계가 작성한 것으로 잘못 분류했습니다. 반면 영어권에 살던 원어민 글로 실험하자 거의 완벽하게 감지해냈습니다.
연구진은 논문에서 "AI가 생성한 자료는 쉽게 탐지를 피하지만, 사람이 만든 글이 자주 오분류된다면 이런 탐지기는 과연 얼마나 효과적인가?"라고 질문했습니다.
텍스트 난해성에서 문제가 발생했습니다. 글에 일상적이지 않은 단어가 포함된 수준을 의미합니다. 챗GPT 같은 AI 프로그램은 평범한 사람처럼 보이기 위해 단어 난해도를 낮추도록 설계되었습니다. AI 탐지 도구는 난해하지 않은 글을 AI가 써 내린 것으로 오해합니다. 표준적인 문장과 단어를 사용하는 사람에게 불리한 상황입니다.
저우는 "일반적인 영어 단어를 사용하면 감지기가 난해성 점수를 낮게 매겨 AI가 생성한 것으로 표시될 가능성이 크다"며 "복잡하고 멋진 단어를 이용하면 알고리즘이 사람이 쓴 글로 분류할 확률이 높다"고 강조했습니다.
연구진은 다음 실험에서 동일한 91개 에세이를 챗GPT에 투입했습니다. 글쓰기 표현을 더 화려하게 편집하기 위해서였습니다. 결과물을 7개 검출 프로그램에 입력하자 상당수를 사람이 작성한 글로 판단했습니다.
따라서 현시점에서 검출 도구가 AI 작성 콘텐츠를 명확히 식별할 수 없습니다. 저우는 "지금은 탐지기를 너무 신뢰할 수 없으며, 엄격한 평가와 상당한 개선 없이 이런 기술을 믿기에는 학생들이 감수해야 할 위험이 너무 크다"고 결론지었습니다.
※이 기사는 popsci.com 원문을 바탕으로 작성됐으며, 번역은 파퓰러사이언스코리아 소속 기자가 도왔습니다.
/ 글 Andrew Paul 기자 & 육지훈 기자