챗GPT 같은 대규모 언어 모델(LLM) 인공지능은 인간처럼 답변하는 능력을 갖추게 되었습니다. 챗봇이 얼마나 똑똑한지 궁금해하는 사람들이 늘어나고 있습니다. UCLA 심리학자들은 최근 자연 인간 행동 저널(Nature human behavior)에 GPT-3 챗봇이 일반 대학생보다 더 나은 추론 능력을 보였다고 보고했습니다.
UCLA 연구진은 GPT-3의 역량을 표준화된 시험으로 측정해 학부생 40명의 성적과 비교했습니다. AI에 제공한 문제들은 풀이 방식은 기존에 학습한 문제와 유사한 형태였습니다. 또한 인간의 추론 능력을 알아내도록 제작되었습니다. 예로 들어 한 유형의 단어 관계를 제시하고 이와 유사한 단어 쌍을 선택하도록 요구했습니다. 또 다른 문제는 단편소설 한 구절을 분석하는 과제였습니다.
GTP-3는 SAT 시험에서 대학 학부생 40명보다 나은 성적을 받았습니다. 시험지 속 문제의 80%를 정확히 해결했습니다. 반면 실험에 참여한 인간은 평균적으로 시험 문제의 60%를 풀어냈습니다. 레이븐 프로그래시브 매트릭스(Raven's Progressive Matrices) 같은 다른 논리적 추론 평가에서도 마찬가지로 우수한 결과물을 보여주었습니다.
루홍징 UCLA 심리학 교수는 "놀랍게도 GPT-3는 인간처럼 잘했을 뿐만 아니라 유사한 실수도 저질렀다"고 감탄했습니다.
챗봇은 이전에도 시험을 잘 치는 능력이 알려져 있었습니다. 과거 연구에서 AP 시험(대학 과정 시험), LSAT(미 로스쿨 입학시험), MCAT(미 의대 입학시험) 등을 응시한 챗봇이 합격점을 받은 기록이 있습니다. 사진 자료도 인식할 수 있는 최신 GPT-4 모델은 더 뛰어난 성능을 자랑합니다.
작년 구글 연구원은 인공지능의 논리적 추론 능력을 개선하기도 했습니다. 복잡한 문제를 작은 단계로 나누는 방식을 사용했습니다.
기술이 발전하면서 다양한 AI가 기계 지능을 측정하는 튜링 테스트 등을 쉽게 통과하고 있습니다. 과거에 보기 힘들었던 광경입니다. 하지만 놀라운 성취에도 불구하고 AI 들은 완벽하지 않습니다. 개선해야 할 취약점들이 있습니다. 새로운 평가 기준이 필요하다는 목소리들이 나오는 배경입니다.
UC 리버사이드 대학교 연구진은 최근 구글과 오픈AI 인공지능이 가진 맹점을 발표했습니다. 의료 관련 질문을 받았을 때 답변으로 불완전한 정보를 제공했습니다. 올해 초 스탠퍼드 대학교와 버클리대학교 연구진은 챗 GPT가 코드를 생성하거나 수학 문제를 푸는 과제에서 점점 더 엉성해지고 있다고 지적했습니다.
능력이 특정 분야에 한정되었다는 비판도 있습니다. 시각 정보로 풀어내는 퍼즐이나 현실 세계 물리학을 이해하는 작업에서 여전히 어려움을 겪는 중입니다. 구글은 인공지능을 카메라 달린 로봇 조작 업무로 훈련해 극복하려고 노력하고 있습니다.
인공지능 챗봇들의 인지 과정이 인간과 유사한지 아닌지는 알기 어렵습니다. 시험을 잘 치는 AI도 사람처럼 똑똑하지는 않습니다. 지능이 가진 한계를 정확히 파악하기 어렵습니다. 소프트웨어 구조와 학습 데이터가 외부에 공개되어 있지 않기 때문입니다.
※이 기사는 popsci.com 원문을 바탕으로 작성됐으며, 번역은 파퓰러사이언스코리아 소속 기자가 도왔습니다.
/ 글 CHARLOTTE HU 기자 & 육지훈 기자