상단영역

UPDATED. 2024-04-29 02:55 (월)

본문영역

인터넷이 가장 좋아하는 생성형 AI에 대한 안내서

VALL-E는 가장 최근의 예일 뿐⋯DALL-E2, GPT-3 등에 대해 알아야 할 사항

  • 기자명 HARRY GUINNESS & 이가영 기자
  • 입력 2023.01.16 10:00
  • 수정 2024.04.23 15:57
글씨크기
최근 다양한 생성형 AI가 등장했다. [출처=Shutterstock]
최근 다양한 생성형 AI가 등장했다. [출처=Shutterstock]

생성형 AI계에 새로운 AI가 나타났다. 이것은 누군가가 짧게 말한 오디오 클립만 가지고 그 사람의 목소리를 흉내낼 수 있다. 만약 지금 당신이 이미지와 단어를 포함한 여러 가지 것들을 생성해 내는 이상한 AI가 많이 있는 것 같다고 느꼈다면, 그것은 틀리지 않았다. 이에 혼란을 느낄 수 있는 독자들을 위한 빠른 안내서를 준비했다. 다음은 지난 12개월 동안 떠오른 가장 눈에 띄는 AI 중 일부이다.

VALL-E

가장 최근에 등장한 발리(VALL-E)는 누군가의 3초짜리 목소리 샘플로부터 전체 목소리를 생성할 수 있는 마이크로소프트(MS) 연구원들의 새로운 AI이다. 7000명 이상의 화자로부터 6만 시간 이상의 영어 말하기에 대한 교육을 받았고 텍스트를 토큰이라고 불리는 더 작은 단위로 분해하는 토큰화 과정을 통해 샘플의 내용을 별개의 구성요소로 바꾸는 방식으로 작동한다. AI 신경망은 짧은 오디오 샘플을 기반으로 전체 모델을 만드는 데 필요한 다른 토큰이 어떤 소리를 낼지 추측한다. 이 상당히 놀라운 결과는 발리 웹사이트에서 확인할 수 있다.

MS는 발리와 같은 AI가 딥페이크 범죄에 쓰일 것을 우려하여 대중에 공개하지 않았다. MS는 이전에 달리(DALL-E)와 챗GPT(ChatGPT) 개발사인 오픈AI(OpenAI)에 투자한 적이 있으며 수십억 달러를 더 투자하기 위한 협의도 진행 중인 것으로 알려졌다. 그럼에도 불구하고 발리는 생성형 AI가 굉장히 작은 샘플을 가지고 할 수 있는 일들을 보여준다.

DALL-E 2

OpenAI의 이미지 생성형 AI DALL-E 2 [출처=Shutterstock]
OpenAI의 이미지 생성형 AI DALL-E 2 [출처=Shutterstock]

지난 4월 OpenAI의 달리 2가 발표된 이후 최근의 AI 열풍이 시작되었다고 볼 수 있다. 달리 2는 텍스트 입력으로부터 현실적인 것이든 완전히 비현실적인 것이든 관계없이 새로운 이미지를 ‘창작’할 수 있다. 게다가 아웃페인팅이라는 기법을 통해 기존 예술작품으로까지 경계를 넓힐 수 있다.

달리 2의 가장 좋은 점은 누구나 무료로 해 볼 수 있다는 것이다. 이용자는 첫 달에 50포인트를 받게 되며 이를 통해 한 번의 텍스트 입력에서 4개의 변형된 이미지를 생성할 수 있다. 그 이후에는 매달 15포인트를 무료로 받을 수 있다.

Stable Diffusion

OpenAI가 달리 2에 대한 접근을 통제하는 데 반해 스테빌리티 AI(Stability AI)는 그들의 이미지 생성기인 스테이블 디퓨전(Stable Diffusion)에 대해 다른 접근 방식을 취했다. 스테이블 디퓨전은 오픈소스로 개발되었고 누구든지 이것을 다운로드하여 합리적인 성능의 노트북으로 놀랍도록 사실적인 이미지와 풍부한 상상력이 발현된 예술 작품을 만들 수 있다.

오픈소스이기 때문에 다른 기업들도 스테이블 디퓨전을 활용한 생성형 AI 툴을 출시할 수 있었다. 그중 가장 유명한 것은 렌사(Lensa)의 매직 아바타(Magic Avatars)이다. 스마트폰 앱을 이용하여 조정된 스테이블 디퓨전 모델을 교육하는 데 사용하는 10~20장의 사진을 업로드하고 수십 개의 색다르고 예술적인 아바타를 생성할 수 있다.

Midjourney

또 하나의 유명한 이미지 생성 프로그램인 미드저니(Midjourney)는 아직 베타 버전이며 디스코드 채널을 통해서만 접근할 수 있다. 알고리즘은 최근 1년간 눈에 띄게 개선되었다. 필자의 개인적인 견해로는 현재 모델인 버전 4에서 작성한 이미지는 다른 인기 있는 이미지 생성기가 만들어낸 이미지와 비교했을 때 가장 자연주의적이고 매력적이라고 생각한다. 안타깝게도 디스코드를 통한 접근 방식은 스테이블 디퓨전이나 달리 2와 비교했을 때 진입 장벽이 된다.

GPT-3

OpenAI의 GenerativePre-TrainedTransformer3, 혹은 GPT-3 언어 모델은 실제로는 2020년에 출시되었지만 지난 몇 달 동안 누구나 사용할 수 있는 챗봇인 챗GPT가 출시되면서 화제가 되었다. 다양한 질문과 명령어에 대한 답변은 상당히 정확하며 인간이 작성한 글과 구별할 수 없는 경우가 많았다. 대학들은 앞으로 어떻게 표절을 탐지할 것인지(예를 들면 AI를 탐지하는 AI)에 대해 진지한 논의를 시작했다. 게다가 GPT-3은 재미있는 시도 쓸 수 있다.

챗GPT는 확실히 세계에서 가장 명백한 GPT-3의 사례이지만 다른 AI 도구에도 힘을 실어준다. 파퓰러사이언스는 목록에 있는 모든 생성형 AI 중에서 앞으로 가장 많이 거론될 것이 챗GPT라고 예상한다.

Codex

OpenAI의 GPT-3는 바보 같은 노래와 짧은 에세이를 쓰는 데 능할 뿐만 아니라 프로그래머들의 코드 작성을 도울 능력도 있다. 코덱스(Codex)라는 모델은 자연어 명령은 물론이고 자바스크립트와 파이썬을 포함한 12개의 언어로 코드를 생성할 수 있다. 데모 페이지에서는 코드가 한 줄도 작성되지 않은 상태에서 브라우저 게임이 만들어지는 짧은 영상을 볼 수 있다. 이는 상당히 인상적이다. 그리고 이미 사람들은 코덱스를 사용하고 있다. 깃허브 코파일럿(GitHub Copilot)은 코덱스를 통해 자동으로 코드의 청크를 제안하는데 이것은 강력한 자동완성 기능과 같다.

 

※이 기사는 popsci.com 원문을 바탕으로 작성됐으며, 번역은 파퓰러사이언스코리아 소속 기자가 도왔습니다. 

/글 HARRY GUINNESS & 이가영 기자

저작권자 © 파퓰러사이언스 무단전재 및 재배포 금지
이 기사를 공유합니다

관련기사

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

당신만 안 본 뉴스

하단영역

매체정보

  • 서울특별시 서대문구 경기대로 15 (엘림넷 빌딩) 1층
  • 대표전화 : 02-6261-6148
  • 팩스 : 02-6261-6150
  • 발행·편집인 : 김형섭
  • 법인명 : (주)에이치엠지퍼블리싱
  • 제호 : 파퓰러사이언스
  • 등록번호 : 서울중 라 00673
  • 등록일 : 2000-01-06
  • 발행일 : 2017-11-13
  • 청소년보호책임자 : 박노경
  • 대표 : 이훈, 김형섭
  • 사업자등록번호 : 201-86-19372
  • 통신판매업신고번호 : 2021-서울종로-1734
ND소프트