상단영역

UPDATED. 2024-04-27 19:00 (토)

본문영역

사람 말 알아듣는 로봇, 구글의 인공지능 RT-2로 구현

구글, 자회사 딥마인드와 인공지능 RT-2 개발
자연어를 이해하고 움직이는 로봇 제어 AI

  • 기자명 CHARLOTTE HU 기자 & 육지훈 기자
  • 입력 2023.08.01 20:04
  • 수정 2024.04.23 16:51
글씨크기
RT-2 시스템으로 구동되고 있는 로봇 [사진=구글 딥마인드]
RT-2 시스템으로 구동되고 있는 로봇 [사진=구글 딥마인드]

구글은 자회사인 AI 연구소 딥마인드와 함께 사람과 로봇을 이어주는 일종의 번역 시스템을 만들었습니다. 'RT-2'이라고 이름 붙은 기술을 최초의 시각-언어-행동 모델(first-of-its-kind vision-language-action model)이라고 설명했습니다. 인터넷 속 지식을 로봇이 이해하고 대응할 수 있도록 도와준다고 밝혔습니다.

RT-2를 설치한 로봇은 여러 국가 국기, 축구공, 농구공, 테일러 스위프트 같은 팝 아이콘, 레드불 캔 등 다양한 물건을 스스로 인식하고 구분했습니다. 빈센트 반후케 구글 딥마인드 로봇 담당자는 "세상의 일반적 업무들을 수행할 수 있는 로봇은 다양한 환경에서 복잡하고 추상적이며 이전에 본 적 없는 작업을 처리할 수 있어야 하므로 유용한 로봇을 추구하는 과정은 항상 엄청난 노력을 해야 했다"고 강조했습니다. 이어 "챗봇과 달리 로봇은 현실 세계와 자기 능력을 연결해야 한다"며 "맥락에서 사과를 인식하거나, 빨간 공과 구분하며, 어떻게 생겼는지 이해하고, 가장 중요하게도 사과를 집는 방법을 알아낼 수 있어야 한다"고 덧붙였습니다.

그동안 로봇을 훈련하기 위해서 어려운 과정을 거쳐야 했습니다. 정교한 지침과 명령을 설정하고 관련 자료 수십억 개가 입력할 필요가 있었습니다. 로봇에 쓰레기를 버리라고 요청할 때도 일일이 세부 사항을 지시해야 합니다. 인식한 물체가 쓰레기인지 쓰레기통인지 쓰레기를 버리기 위해 구체적으로 어떤 행동을 취해야 하는지 알려줘야 했습니다.

RT-2는 RT-1 기능과 VLM 기술이 적용된 로봇이다. 사람의 자연어 명령과 시각 이미지에 반응할 수 있다. [사진=구글 딥마인드]
RT-2는 RT-1 기능과 VLM 기술이 적용된 로봇이다. 사람의 자연어 명령과 시각 이미지에 반응할 수 있다. [사진=구글 딥마인드]

지난 몇 년 동안 구글은 사람과 개가 배우듯이 로봇을 학습시키는 방법을 모색해왔습니다. 작년에 구글이 시연한 로봇은 사람이 말한 자연어로 컴퓨터 코드를 작성할 수 있었습니다. 구글의 또 다른 자회사 에브리데이 로봇은 사용자의 질문에 위키피디아 데이터와 소셜미디어에서 정보를 수집하는 세이캔(SayCan)으로 응답할 수 있는지 시도했습니다.

RT-2는 RT-1 모델을 기반으로 개선한 모델입니다. RT-1은 기계가 기본적인 추론으로 사용자 명령을 해석하는 기술이었습니다. RT-2는 이에 더해 상징을 이해하고 인식 능력을 향상하게 시켰습니다. 기본적으로 시각 언어 모델(VLM)의 처리 작업을 사용합니다. 주변 세계를 카메라로 인식할 수 있는 기술입니다. VLM으로 로봇을 통제하려면 여기에 동작 출력 기능도 더해져야 합니다. 로봇이 수행할 수 있는 다양한 동작이 프로그램에 토큰으로 입력됩니다. VLM은 질문을 들었을 때 대응하기 위해 적절한 동작 토큰을 선택할 수 있습니다.

딥마인드는 음료수를 마시고 싶다는 말에 따라 RT-2 기반 로봇이 에너지 드링크를 가져다줄 수 있다고 주장했습니다. 구글은 RT-2로 기계가 사람에게 맞춘 업무 환경에서 여러 일을 수행할 수 있기를 기대합니다. 

※이 기사는 popsci.com 원문을 바탕으로 작성됐으며, 번역은 파퓰러사이언스코리아 소속 기자가 도왔습니다.

/ 글 CHARLOTTE HU 기자 & 육지훈 기자 

저작권자 © 파퓰러사이언스 무단전재 및 재배포 금지
이 기사를 공유합니다

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

당신만 안 본 뉴스

하단영역

매체정보

  • 서울특별시 서대문구 경기대로 15 (엘림넷 빌딩) 1층
  • 대표전화 : 02-6261-6148
  • 팩스 : 02-6261-6150
  • 발행·편집인 : 김형섭
  • 법인명 : (주)에이치엠지퍼블리싱
  • 제호 : 파퓰러사이언스
  • 등록번호 : 서울중 라 00673
  • 등록일 : 2000-01-06
  • 발행일 : 2017-11-13
  • 청소년보호책임자 : 박노경
  • 대표 : 이훈, 김형섭
  • 사업자등록번호 : 201-86-19372
  • 통신판매업신고번호 : 2021-서울종로-1734
ND소프트