이 AI는 인간이 본 그림을 뇌파 정보를 통해 재생성한다

오사카대 연구팀이 인간의 뇌 활동 정보를 바탕으로 인간이 본 이미지를 재생성하는 AI를 개발했다. [이미지 출처=클립아트코리아] 이미지는 기사 및 보도와 직접적 관련이 없음.

생성형 인공지능(AI) 프로그램은 텍스트 입력으로부터 놀라울 정도로 상세한 시각적 이미지를 구축하는 데 능숙해지고 있다. 그런데 오사카 대학의 연구원들은 여기에서 한걸음 더 나아갔다. 연구팀은 눈앞의 이미지를 보면서 생성되는 인간의 뇌 활동 정보로부터 정확한 고해상도 이미지를 재구성하기 위해 AI를 활용했다.

최근 사이언스 등 여러 매체가 주목한 오사카 프론티어 생명과학대학원 연구팀의 연구는 인기 있는 이미지 생성형 AI 프로그램인 스테이블 디퓨전을 활용해 뇌 활동을 시각적 표현으로 변환하는 방법을 자세히 설명했다. 이전에도 유사한 사고-컴퓨터 이미지 실험은 많았지만 스테이블 디퓨전을 이용한 실험은 이번이 처음이다. 또한 연구자들은 영상 특징과 문장으로 기술된 의미적 특징을 모두 명시적으로 사용했다. 추가적인 시스템 학습을 위해 기능적 자기공명영상(fMRI) 스캔을 통해 실험 참가자들이 그림을 볼 때 감지된 뇌 패턴 정보를 수집했다. 그리고 그 정보에 수천 장의 사진 텍스트 설명을 연결했다.

뇌내 혈류량은 뇌에서 활성화되는 영역이 어디인가에 따라 달라진다. 예를 들어 사람의 측두엽으로 이동하는 혈액은 물체, 사람, 주변 환경 등 이미지의 ‘내용’에 대한 정보를 해독하는 데 도움을 주며 후두엽은 원근감, 규모, 위치와 같은 차원적 특성을 처리한다. 따라서 이미지가 다르면 뇌 활동도 달라지게 된다.

이 연구에서는 4명의 실험 참가자가 1만 개 이상의 이미지를 여러 번 보고 생성한 기존 온라인 fMRI 스캔 데이터 세트에 이미지의 텍스트 설명과 키워드를 입력한 후 스테이블 디퓨전에 공급했다. 이를 통해 AI가 뇌 활동을 시각적 표현으로 변환하는 방법을 ‘학습’할 수 있었다.

실험 중 한 참가자가 시계탑 이미지를 봤다. 이때 fMRI에 등록된 두뇌 활동은 스테이블 디퓨전의 이전 키워드 훈련과 일치했으며 이 키워드는 기존의 텍스트-이미지 생성기에 입력되었다. 이후 후두엽의 구조와 원근 정보를 기반으로 시계탑을 더욱 세밀하게 재현하여 인상적인 최종 이미지를 완성했다. 이때 스테이블 디퓨전에 파인 튜닝(미세 조정) 없이 기존 프로그램을 그대로 사용했다는 점이 특징이다.

실험 참가자들이 본 이미지(위)와 AI가 재구성한 이미지(아래). [이미지 출처=오사카 프론티어 생명과학대학원]

연구팀은 이 기술이 사람의 마음을 읽는 ‘마인드 리딩’이 아니며 인간이 지각한 내용과 뇌 활동의 관계를 조사한 것이라 강조한다. 또한 이번 실험은 인간이 무언가를 경험(지각)하고 있을 때의 뇌 활동을 기반으로 했다면서 회상하거나 꿈을 꾸고 있을 때의 뇌 활동은 일반적으로 해독 정확도가 더 낮고 이번 연구에서 실험하지 않았다고 전했다.

연구팀은 현재로서는 스테이블 디퓨전의 이미지 생성이 4명의 이미지 데이터베이스로만 제한되어 있으며 추가적인 실험을 위해서는 AI 훈련을 위해 실험 참가자의 뇌 스캔을 더 해야 한다. 사람마다 뇌 형태가 다르기 때문이다. 하지만 사이언스는 이 획기적인 발전이 인지 신경과학과 같은 분야에 엄청난 가능성을 보여주며 언젠가는 다른 종들이 주변 환경을 어떻게 인지하는지 연구하는 데 도움이 될 수 있다고 지적했다.

(논문명: High-resolution image reconstruction with latent diffusion models from human brain activity)

※이 기사는 popsci.com 원문을 바탕으로 작성됐으며, 번역은 파퓰러사이언스코리아 소속 기자가 도왔습니다.

/글 ANDREW PAUL & 이가영 기자

상단영역

본문영역

이 AI는 인간이 본 그림을 뇌파 정보를 통해 재생성한다

오사카대 연구팀, 인간이 이미지를 볼 때 뇌 활동 정보 기반 이미지 재생성 위해 AI 활용
스테이블 디퓨전 이용 파인 튜닝 없이 이미지 재생성 성공

관련기사

개의 댓글

댓글 정렬

내 댓글 모음

본문영역

관련기사

연관검색어

내 댓글 모음