상단영역

UPDATED. 2024-04-28 15:00 (일)

본문영역

챗GPT가 전 세계 7000여 종의 언어를 말살시킬 수 있다

대규모언어모델, 사용자 많은 언어 자료 위주로 학습
학습한 언어로 된 자료 대량 생산...소수어 설 곳 잃어
언어 소멸은 사고와 존재의 다양성 감소로 이어져

  • 기자명 신희승 기자
  • 입력 2023.04.20 16:55
글씨크기
오픈AI가 챗GPT의 기반 모델 GPT-3.5를 개선한 GPT-4를 발표했다. [이미지 출처=오픈AI 홈페이지]  
챗GPT와 같은 대규모언어모델 기반 AI가 늘면서 이들이 학습하지 않은 대부분의 언어가 급격히 감소할 것이라는 전망이 나왔다. [이미지 출처=오픈AI 홈페이지]  

전 세계 7000여 종의 언어 대부분이 챗GPT와 같은 대규모언어모델 인공지능 때문에 빠르게 사라질 수 있다. 미국 노스웨스턴대학교 이중언어 및 언어심리학 연구소장 비오리카 마리안은 언어 소멸에 따라 인간 사고방식의 다양성도 크게 위축될 수 있다고 주장한다. 다음은 마리안 소장이 19일(현지시간) 워싱턴포스트에 기고한 글을 요약한 것이다.


대규모언어모델(LLMs)을 사용하는 인공지능(AI)이 확산함에 따라 많은 언어가 사라질 수 있습니다. 그리고 그것은 인간 사고의 다양성과 창의성 위축으로 이어질 것입니다.

왜 그런 일이 일어날까요? 이유와 대책에 대해 알아봅시다.

대규모언어모델은 글과 대화를 생성할 때 ‘확률’에 의존합니다. 예를 들어 ‘베이컨’이라는 단어 뒤에는 ‘달걀’이라는 단어가 나올 확률이 높습니다. 베이컨 앞에는 ‘아침 식사’나 ‘커피’ 같은 단어가 나올 확률이 높겠지요?

아침 식사로 미슐랭 식당의 특별한 메뉴들을 섭렵하는 사람이 아니라면 대규모언어모델의 아침 식사 메뉴 추측이 맞을 확률이 매우 큽니다.

AI 대규모언어모델은 굉장히 많은 자료로 학습합니다. 책, 잡지, 신문, 온라인 콘텐츠가 모두 학습 자료입니다. 자료가 많을수록 더 정확하게 추측할 수 있고 생산하는 글의 질도 좋아집니다. 하지만 수천 개에 달하는 언어 중 어떤 언어로 된 자료로 학습하느냐에 따라 AI가 생성하는 결과물이 달라지게 됩니다.

대규모언어모델은 주로 영어, 만다린어, 러시아어, 독일어, 일본어 등 사용 인구가 많은 20개 언어 자료를 학습합니다. 그리고 이 언어들로 된 자료를 무수히 생성하기도 합니다. 이러한 방식은 침입종 생물처럼 주도적인 언어가 다른 언어를 축출하는 결과로 이어질 수 있습니다.

이미 세계화, 이민, 문화 동질화 현상으로 인해 하와이어, 케추아어(잉카어), 포타와토미어(미 인디언 원주민어) 등이 소멸 직전입니다. 매년 9개의 언어가 사라지는 가운데 대규모언어모델이 언어 소멸을 가속화하는 것입니다.

언어 소멸은 단순한 문제가 아닙니다. 새로운 세대가 사용하는 언어가 축소되면 사고와 존재의 다양성이 무너집니다.

언어는 인간의 사고를 규정합니다. 언어는 정보를 인식하고 처리하고 구조조화하는 강력한 방식입니다. 우리는 언어를 통해 세상을 인식하고 기억하며 결정을 내리고 감정을 느끼며 미래를 직관합니다.

서로 다른 언어를 사용하는 사람들은 눈동자의 변화와 뇌 활동도 다르다는 사실을 알고 계셨나요? 언어가 다르면 환경에서 주목하는 대상도 다르고 세상에 대한 기억과 해석도 달라집니다. 그래서 여러 언어를 사용하는 사람들은 각 언어별로 활성화되는 각각의 신경망을 가지고 있습니다.

우리가 인식하는 현실은 경험의 산물입니다. 감각 기관을 통해 받아들인 자극을 지식 및 경험과 결합해 인식하는 것입니다. 즉 언어는 우리가 우주를 보는 프리즘이라고 할 수 있습니다.

우리가 현실을 바라보는 방식이 수학, 논리학, 인공어 등의 상징 체계에 한정된다면 우리의 사고방식도 그정도로 축소됩니다.

이 같은 일을 막으려면 최소한 AI를 공공 이익에 맞도록 개발하고 이용해야 합니다. 또 AI 확산이 인간 사고에 미치는 영향을 평가할 충분한 시간을 찾기 위해 가능한 한 다양하고 많은 언어가 사용되도록 노력해야 합니다.

언어의 다양성이 사고의 다양성을 뒷받침하는 강력한 기반이기 때문입니다.


마리안 소장이 말한 것처럼 대규모언어모델 기반 AI가 특정한 소수의 언어로만 정보를 제공하고 생산한다면 그외 언어 사용자는 급격히 감소할 수밖에 없다.

만약 세상에 단 2마리의 토끼만 남는다면 어떤 일이 벌어질까? 이들이 교배하여 자손을 늘릴 수는 있겠지만 유전적 다양성 부재로 병에 걸리거나 건강하지 못하게 될 가능성이 크다.

언어도 마찬가지다. 모든 사람이 같은 방식으로 사고한다면 난관에 봉착했을 때 해결책을 찾기도 어려울 것이다. 한번 잃어버린 언어를 되찾는 것은 불가능에 가깝다. 더 늦기 전에 남은 언어를 지키기 위해 노력해야 한다.

저작권자 © 파퓰러사이언스 무단전재 및 재배포 금지
이 기사를 공유합니다

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

당신만 안 본 뉴스

하단영역

매체정보

  • 서울특별시 서대문구 경기대로 15 (엘림넷 빌딩) 1층
  • 대표전화 : 02-6261-6148
  • 팩스 : 02-6261-6150
  • 발행·편집인 : 김형섭
  • 법인명 : (주)에이치엠지퍼블리싱
  • 제호 : 파퓰러사이언스
  • 등록번호 : 서울중 라 00673
  • 등록일 : 2000-01-06
  • 발행일 : 2017-11-13
  • 청소년보호책임자 : 박노경
  • 대표 : 이훈, 김형섭
  • 사업자등록번호 : 201-86-19372
  • 통신판매업신고번호 : 2021-서울종로-1734
ND소프트