튜링 테스트(Turing Test)는 인공지능(AI)이 얼마나 인간 수준에 가까워졌는지를 가려내는, 그러니까 AI가 얼마나 우수한지를 측정하는 실험이다. 아직까지 '완벽하게' AI가 인간으로 간주된 예는 없었다.
최근 이탈리아 기술 연구원(Italian Institute of Technology: IIT) 연구원들이 비언어(non-verbal) 튜링 테스트를 이용해 인간-로봇의 상호작용을 연구한 결과가 27일(현지시간) <사이언스 로보틱스(Science Robotics)> 저널에 실렸다고 파퓰러사이언스가 전했다. 연구 결과, AI는 형태와 색 맞추기 상호작용 게임 등에서 반응 시간을 바꾸는 등 사람처럼 행동함으로써 사람들에게 자신의 진짜 정체를 숨겼다.
대개의 튜링 테스트에선 질의자가 있고 AI와 인간이 답을 한다. 질의자는 두 플레이어를 볼 수 없지만 질문을 하거나 상호작용을 통해 둘 중 누가 인간이고 누가 AI인지 판단해 대화할 수 있다. AI가 튜링 테스트를 통과한다는 것은 그러니까 인간인 질의자가 인간이 답한 것인지, AI가 답한 것인지를 구별할 수 없었다는 얘기다.
이번 실험에서 인간과 AI 둘 다 스크린에서 색깔 있는 모양을 관찰해야 했다. 인간과 AI로 구성된 각각의 팀 가운데 한 쪽은 화면에 빨간색 정사각형이 나타날 때만 버튼을 누르는 작업을 수행할 수 있었고, 다른 팀은 녹색 정사각형이 나타날 때에만 버튼을 누르게 돼 있었다. 이 과정에서 AI는 인간 동료가 반응하는 시간을 고려했고 모양을 보는 것과 버튼을 누르는 것 사이의 반응 시간을 무작위로 변경한 것이 확인됐다. 실험에서 인간 참가자들은 공동 행동 과제를 하는 중 버튼을 누르는 시간을 고려해 자신이 AI와 인간 중 누구와 상호작용하고 있는지를 판단해야 했다. 이들은 50% 이상 AI와 인간을 잘못 가려냈다.
AI가 튜링 테스트를 통과한 것은 이번이 처음은 아니다.
지난 2014년 영국 레딩 대학교(University of Reading)가 주최한 행사에서 '유진 굿츠먼'(Eugene Goostman)이란 챗봇이 런던 왕립학회 심사위원 33%에게 '13세 소년'으로 인식된 적이 있다. 지난달 알파벳 자회사인 딥마인드(DeepMind)가 개발한 AI 중 하나가 이 테스트를 통과하기도 했다.
파퓰러사이언스는 그러나 "많은 과학자들은 튜링 테스트를 통과하는 것이 중요한 이정표가 될 수는 있지만 테스트 설계의 내재적 결함들 때문에 기계가 실제로 (인간처럼) 생각을 하고 있는지 여부를 측정하는데 사용될 수는 없다는 입장을 갖고 있다"고 지적했다.