메타, 공정성 확보 위한 새로운 AI 학습 데이터 세트 발표

메타는 AI 공정성 개선을 위한 학습 자료 '일상대화 v2'를 공개했다. [이미지 출처=셔터스톡]

오픈AI와 구글 같은 기술 업계의 선두 주자들은 때로 논란이 되는 챗GPT, 바드와 같은 인공지능(AI) 시스템과 AI 통합 제품 출시를 이어가고 있다. 하지만 개인정보 보호에 관심을 갖는 많은 사람들과 기술 전문가들은 AI 시스템을 학습시키는 데 사용되는 방대한 데이터 세트에 대해 걱정한다. 데이터 수집 시 정보 제공자에게 동의를 구하거나 보상을 하지 않는 경우가 많으며 부정확한 정보가 포함되어 있고 알고리즘에 의해 강제되는 인종 및 사회·정치적 편견과 같은 문제를 해결하지 못했기 때문이다.

메타는 9일(현지시간) 이러한 문제를 완화하는 데 도움이 되기를 희망하며 2021년에 배포한 AI 시청각 훈련 데이터 세트 ‘일상대화(Casual conversations)’의 업데이트 버전인 ‘일상대화 v2’를 출시했다. 메타의 발표에 따르면 이 데이터는 일반에 공개된 11월의 문헌 검토를 토대로 다양한 지리적, 문화적, 종교적, 인종적, 신체적 특성을 가진 인간 주체에 대한 더 섬세한 분석을 제공한다.

메타에 의하면 일상대화 v2는 ”공정성을 측정하기 위한 보다 포괄적인 데이터 세트“이다. 브라질, 인도, 인도네시아, 멕시코, 베트남, 필리핀, 미국 7개국에서 5567명의 연구 참가자가 2만 6467개의 비디오 독백을 제공했고 이에 대한 보상을 받았다. 이 영상에서 추출한 데이터는 연령, 성별, 외모 등 본인 식별이 가능한 속성을 포함했다. 일상대화 지난 버전에는 4만 5000개 이상의 동영상이 포함되었지만 정보 제공자의 거주지가 미국으로 한정되었고 참가자도 3천 명가량이었다.

AI 기업들은 인종 차별, 성 차별, 기타 부정확한 응답을 제공하는 AI 제품 때문에 오랫동안 골머리를 앓아 왔다. 이러한 문제를 일으키는 AI 알고리즘의 편향성은 많은 기업의 장애물이 되고 있다. AI 알고리즘의 편향성 문제는 대부분 AI 학습 알고리즘이 어떻게 만들어지고 어떤 데이터를 학습했으며 개발자에게 어떻게 제공되었는지에 달려 있다. 개발자들은 일상대화 v2를 이용해 보다 포용적인 AI 모델을 만들 수 있다.

메타는 일상대화 v2를 중요한 진전이라고 선전하고 있지만 전문가들은 조심스럽게 낙관적인 입장을 취했다. 그들은 AI 기반 생태계에 뛰어드는 실리콘 밸리에 대한 지속적인 감시를 촉구하고 있다.

미국 노스웨스턴대학교 컴퓨터공학과 교수이나 학교의 기계 지능 안전증진센터 책임자인 크리스티안 해먼드는 파퓰러사이언스에 보낸 이메일에 ”이 분야는 거의 모든 것이 개선될 수 있는 분야“라고 썼다. 그는 특히 과거의 개인정보 보호 논란을 고려할 때 메타의 개선된 데이터 세트가 ”확실한 진전“이라고 생각하며 사용자 동의와 연구 참가자의 노동 보상에 중점을 둔 것이 특히 중요하다고 본다는 의견을 밝혔다.

그는 ”하지만 개선이 완전한 해결책은 아니다. 단지 한 걸음 나아간 것일 뿐“이라고 경고한다. 해먼드의 큰 의문은 연구자들이 일상대화 v2를 제작할 때 참가자를 어떻게 모집했는지에 관한 것이다. 그는 ”성별과 인종 다양성을 확보하는 것은 좋지만 소득과 사회적 지위의 영향, 인종의 더 세분화된 측면도 고려해야 한다.“라면서 ”메타가 독자적으로 선택한 집단에 의해 편향성이 생길 수 있다.“라고 덧붙였다.

메타 AI 커뮤니케이션팀의 니샤 데오는 참가자 선정 방법에 대한 파퓰러사이언스의 질문에 이메일로 ”참여자 모집을 위해 외부 공급업체를 고용했다.“라면서 ”해당 지역의 데이터 수집에 대한 시장 가치를 염두에 두고“ 보상률을 결정했다고 답했다. 그러나 보상률에 대한 구체적인 수치는 밝힐 수 없다고 말했다.

그렇지만 데오는 메타가 기존 데이터 세트 개선의 모든 단계에서 ”책임감 있는 매커니즘“을 의도적으로 통합했다고 전했다. 여기에는 홍콩과학기술대학교의 학술 파트너와 협력한 문헌 검토, 주석 작성자를 위한 포괄적인 가이드라인이 포함된다. 그는 ”책임감 있는 AI는 윤리적 고려와 시민권을 염두에 두고 구축했으며 AI 포괄성 증진을 위한 노력으로 일반에 공개(오픈 소싱)하고 있다.“라고 말했다.

해먼드와 같은 우려를 하는 사람들에게 일상대화 v2의 개선점은 환영할 만한 일이지만 세계 최대 기술 기업들이 AI 경쟁에 뛰어든 것처럼 보이는 현 상황에서는 더 많은 작업이 필요하다. 그는 ”모두가 이것이 완전한 해결책이 아니라는 점을 이해해야 한다. 단지 첫 단계일 뿐이다.“라고 말하며 ”우리는 눈에 보이는 단계에 너무 집중해서 동의 없이 데이터를 수집하지 않도록 조직에게 요구하는 일을 멈추지 않도록 해야 한다.“라고 강조했다.

※이 기사는 popsci.com 원문을 바탕으로 작성됐으며, 번역은 파퓰러사이언스코리아 소속 기자가 도왔습니다.

/글 ANDREW PAUL & 이가영 기자

상단영역

본문영역

메타, 공정성 확보 위한 새로운 AI 학습 데이터 세트 발표

기존 데이터 세트보다 연령, 성별, 외모 등 다양화
윤리적 문제도 고려...데이터 제공자의 동의 얻고 보상도 제공

관련기사

개의 댓글

댓글 정렬

내 댓글 모음

본문영역

관련기사

연관검색어

내 댓글 모음