구글이 최근 텍스트-이미지 확산 모델인 ‘Imagen’을 발표했다. Imagen은 텍스트를 입력하면 인공지능(AI)이 텍스트에 가장 적합한 이미지를 찾아내 명령대로 이미지를 만들어 내는 것이다.
예를 들어 ’모자 쓴 고양이‘라는 텍스트를 입력하면 여러 가지 이미지를 생성한다.
어떤 상상도 이미지로 바로 구현되기 때문에 신기하면서도 재미를 주는 모델이다.
구글에 앞서 DALL-E와 DALL-E 2라는 모델이 먼저 공개됐다.
Imagen과 DALL-E 2는 모두 사전에 훈련된 방대한 언어 모델의 신경망을 가지고 있으며 Imagen은 생성된 이미지가 실제 이미지와 보다 유사한 사실적인 이미지를 만드는 데 주력했다.
구글 연구원들의 자체 분석 결과 Imagen은 다른 모델들보다 우수한 결과를 내는 것으로 나타났다.
하지만 DALL-E 2와 마찬가지로 구글은 Imagen을 대중에게 제공하지 않을 방침이다.
무한한 창의성의 잠재력을 갖고 있지만 윤리적, 도덕적, 사회적, 문화적으로 많은 문제와 혼란을 불러올 소지가 크기 때문이다.
구글이 제시한 샘플 이미지에 사람은 포함되지 않았는데 자칫 인종이나 성차별적인 형태로 비춰질 수 있다는 우려가 작용했다.
한 연구원은 “괴롭힘이나 가짜 뉴스를 포함해 악의적인 목적으로 활용될 수 있으며 사회적, 문화적 차별과 편견에 대한 많은 우려를 불러 일으킨다”고 설명했다.
구글 연구원들은 이미 이 프로그램이 서구적인 편견과 관점을 보여주고 있음을 알았다.
구글이 사용가능한 훈련된 데이터세트에 대해 자체 조사한 결과 이 프로그램이 편향을 보인다는 것을 발견한 것이다.
한 연구원은 “조사는 이 데이터세트가 사회적 고정관념, 억압적인 관점, 소외된 그룹에 대한 경멸적이거나 유해한 것과 연관 짓는 경향이 있음을 드러냈다”고 말했다.
Imagen은 부정적인 결과를 제거하는 일은 방대하지만 꼭 필요한 작업이라는 점을 인식하고 있다.
구글은 ’데이터 훈련의 한계에 대한 우려가 Imagen을 대중에게 제공하지 않도록 한 이유‘라면서 ’우리는 치밀한 검토 없이 텍스트-이미지 확산 프로그램을 사용하는 것에 강력한 경고를 보낸다‘고 강조했다.