UPDATED. 2018-12-18 18:26 (화)

숫자는 보기보다 불공정하다
숫자는 보기보다 불공정하다
  • 정승호 기자
  • 승인 2018.01.26 09:45
  • 댓글 0
이 기사를 공유합니다

법원에서는 판결을 보조하기 위해 알고리즘을 사용하고 있다

 

인터넷에서 무작위로 마주치는 익명의 사람들에게 절대 맡겨서는 안 되는 것이 있다. 보트 이름 정하기, 의학 진단, 그리고 인구학적 데이터에 기반한 범죄자의 재범 가능성 예측 등이다.

그러나 <사이언스 어드밴시스>에 실린 최신 연구에 따르면, 우리는 이미 그런 위험한 일을 하고 있는지도 모른다.

대부분의 사람들이 행복한 삶을 살기 위해 무시하는 사실이기는 하지만, 알고리즘은 이미 우리 삶의 여러 측면을 지배하고 있다. 은행 융자, 음악 추천, 광고 등은 이미 인간의 판단이 아닌 수학 공식에 의해 선정된다. 이것 자체가 나쁘다는 것은 아니다. 대량의 데이터를 처리하고 이를 응축해 하나의 통계로 만드는 능력은 좋게 사용될 경우 대단한 것이다. 스포티파이가 매주 모든 구독자들에게 개인별로 음악을 추천해주는 것도 이 기능을 사용하기 때문이다. 물론 그렇다고 추천 음악이 내 취향에 맞지 않는다고 해도 큰 문제는 아니다. 그러나 5년 징역을 살 범죄자가 알고리즘이 재범 가능성을 높게 판단한 탓에 10년 징역을 살게 되는 것은 큰 문제다.

판사들은 기소된 범죄자에 관한 보고서에서 누범 횟수를 볼 때가 많다. 범죄 전력이 많은 사람은 가까운 미래에 또 범죄를 저지를 가능성이 높다. 누범 횟수는 피고가 받을 형량 결정에 영향을 미친다. 누범 횟수가 적어 또 다른 범죄를 저지를 확률이 낮은 사람은 사회에 위협이 덜 되므로 판사들은 이들에게 낮은 형량을 내리는 경우가 많다. 그리고 누범 횟수는 공정해 보이므로, 이 숫자는 매우 중시되는 경향이 있다.

미 전역의 법원에 팔린 알고리즘은 지난 2000년 이후부터 이러한 누범 횟수를 집계했다. 이 작업은 그리 큰 감독이나 반발 없이 진행되었다. <프로퍼블리카>가 특정 시스템이 흑인 피고인에게 불리한 결과를 내놓고 있다는 조사 결과를 발표할 때까지는 말이다. COMPAS라는 이름의 이 알고리즘은 재범 가능성이 있는 사람을 인종별로 정확히 골라낼 수 있었다. 그러나 실제로는 흑인의 경우 잘못 골라내는 확률이 두 배나 높았다. COMPAS는 재범을 하지 않은 사람을 고위험군으로 분류하는 경우가 다른 알고리즘의 거의 두 배였다. 그리고 많은 범죄를 저지른 백인 피의자를 저위험군으로 잘못 분류하는 경우가 가장 많은 알고리즘이기도 했다. 이 시스템은 흑인 피의자는 실제보다 더 나쁘게 여기면서, 백인 피의자에게는 의심의 혜택을 주고 있었던 것이다.

이는 알고리즘이 계산에서 배제해야 할 시스템적 인종주의의 전형적 사례다. <프로퍼블리카>의 기사를 읽은 줄리아 드레셀도 같은 생각을 했다. 그래서 그녀는 자신이 재학 중이던 다트머스 대학의 컴퓨터공학 교수인 해니 패리드를 찾아갔다. 컴퓨터 공학자인 이들은 자신들이 이런 상황을 바꾸기 위해 뭔가 할 수 있으리라고 생각했다. 알고리즘을 수리하는 것까지 포함해서다. 그래서 이들은 연구하고 또 연구했지만 언제나 한계에 봉착했다.

패리드는 뭘 해봐도 언제나 정확도는 55%에 머물렀다. 흔치 않은 일이었다. 데이터의 복잡성을 높이면 더 높은 정확성을 기대할 수 있다. 그러나 줄리아가 뭘 해도 항상 결과는 똑같았다.”고 말했다. 같은 문제를 해결하려고 했던 그 외의 다른 4개 팀도 동일한 결론에 봉착했다. 완벽히 공정한 알고리즘을 만든다는 것은 수학적으로 불가능하다는 것이 그 결론이었다.

문제는 알고리즘에 있던 것이 아니라 데이터에 있었던 것이다.

때문에 이들은 다른 접근법을 택했다. 드레셀은 알고리즘이 인간의 예측보다 원래 우월하다는 숨은 전제가 있음을 알아냈다. 그러나 예전의 어떤 연구에서도 그 전제를 입증한 적이 없었다. 그래서 우리는 이렇게 자문했다. 인간은 예측할 때 무엇을 기준치로 삼는가?”라고 말한다. 이 팀은 인간의 예측 정확성도 이 알고리즘과 크게 다르지 않을 거라고 예상했다. 사실 인간의 예측 정확성은 65%였다.

그래서 드레셀과 패리드는 연구자들이 어디에서나 쓰는 온라인 도구를 찾았다. 과학자들은 <메카니컬 터크>라는 이상한 이름의 이 아마존 서비스를 통해 조사와 실험을 설정하고 피험자들에게 돈을 지불한다. 무작위로 선발된 대규모 인원들을 상대로 이런 연구를 하기 쉬운 방법이었다.

COMPAS 알고리즘은 예측을 내리기 위해 총 137가지까지의 특징을 사용한다. 반면 드레셀과 패리드가 선정한 무작위 인원들이 봐야 할 특징은 7가지 뿐이었다. 성별, 연령, 죄목, 범죄 정도, 성인이 된 후의 범죄 전력, 미성년자 당시의 중범죄 전력, 미성년자 당시의 경범죄 전력이다. 이러한 요인들에만 기반하고, 데이터 해석 방식에 대한 지침을 전혀 주지 않은 채로 462명의 인원들에게 피고인이 앞으로 2년 내에 또 범죄를 저지를 가능성을 질문했다. 그러자 COMPAS 알고리즘과 거의 같은 정확성과 편견을 보였다.

또한 연구자들은 137가지 특징이 아니라 2가지 특징, 즉 연령과 예전의 범죄 전력 횟수만 보게 해도 거의 같은 예측력이 나온다는 사실을 알았다. 이 두 가지는 범죄자의 재범 여부에 가장 큰 영향을 미치는 요소다. 정확히 말하면, 범죄자가 재범을 저지른 다음에 체포되어 또 유죄 판결을 받을지에 대해 큰 영향을 미치는 요소다.

누범률을 보면 한 사람의 재범 가능성을 직접 측정할 수 있을 것 같다. 그러나 알고 보면 그 사람이 법을 어긴 횟수를 알 방법은 전혀 없다. 그저 그가 체포된 횟수, 유죄 판결을 받은 횟수만 알 수 있을 뿐이다. 여기가 인간의 체계적 편견에 의해 데이터가 무력화되는 지점이다.

패리드는 인종을 알고리즘에 넣지 않겠다고 말하는 것은 쉽다. 그러나 인종을 대체할 것은 얼마든지 있다.” 드렉셀에 따르면, 유죄 판결율도 그 중 하나라고 한다. “미 전국적으로 볼 때, 흑인은 전과가 있을 확률이 높다. 그리고 이러한 차이는 거짓 음양 오차율을 낳을 가능성이 크다.” 동일한 죄를 저지른 백인과 흑인을 비교할 때, 흑인이 더 많이 체포되어 유죄 판결을 받고 투옥되었을 확률이 높다는 것이다.

한 가지 사례를 들자. 두 명의 범죄자가 있다. 한 명은 흑인이고 다른 한 명은 백인이다. 같은 죄를 저질러 그것 때문에 감옥에 가게 되었다. 두 사람 모두 1년 후에 석방되었다. 그리고 석방된 지 몇 달 후에 또다른 범죄를 저질렀다. 합리적으로 정의하면 둘 다 재범을 한 것이다. 그러나 현실에서는 흑인이 체포되어 재판에 회부되어 유죄 판결을 받을 가능성이 더 높다. COMPAS와 인터넷 상의 인간 피험자들에게 입력된 데이터 세트 자체가 흑인에게 불리하게 편향되어 있었기 때문에, COMPAS와 인간 모두 편향된 예측을 하게 된 것이다.

알고리즘에 편향이 있다고 해서 쓸모 없다는 뜻은 아니다. 그러나 드레셀과 패리드, 그 외에 그 분야에 있는 많은 사람들은 알고리즘을 너무 신뢰하면 위험하다고 지적한다.

패리드는 말한다. “우리가 걱정하는 것은 COMPAS같은 복잡하고 멋져 보이는 블랙박스가 있을 때 판사들이 그 블랙박스를 전적으로 믿어 버리는 것이다. 그건 인터넷에서 만난 12명이 다 똑같이 말했으니까 이건 틀림 없어.’ 하는 거나 똑같다. 우리는 여러 상업 주체가 법원에 충분히 분석되지 않은 알고리즘을 판매하는 현실을 우려해야 한다. 법무부의 누군가가 이런 알고리즘을 베팅 절차에 밀어넣는 데 관여하고 있을지도 모른다. 그럴만한 이유는 충분하다.”

누범을 예측하는 데 사법 전문가의 경험을 사용하는 것도 해결책이 될 것이다. 이들은 인터넷 상의 일반인이나 COMPAS보다 더 뛰어난 식견을 지니고 있다. 전문가들이 문제 있는 데이터세트의 수리에 참여한다면, 이런 알고리즘들도 충분히 유용하게 쓰일 수 있다는 것이 드레셀과 패리드의 생각이다. 이들은 알고리즘을 제작하는 회사들이 자사 제품에 대해 투명하게 밝히고, 법원에 그 한계와 편향에 대해 알려야 한다고 생각한다. 판단을 데이터 압축 컴퓨터에 맡기면 인종에 대한 인간의 잠재적 편향에서 벗어날 수 있다고 보는 것은 논리적인 생각이지만, 현실은 그렇게 되어주지 않았다. 알고리즘은 인간이 오랫동안 저질렀던 시스템적 실수를 강화할 뿐이며, 그 결과를 공정함이라는 허식으로 포장할 뿐이다.

인간은 앞으로도 영원히 피의자의 재범 여부를 정확히 예측할 수 없을지도 모른다. 당연한 소리지만 쉽게 잊혀진다. 패리드는 미래 예측은 정말로 어렵다.”고 말한다. 그리고 복잡한 데이터를 알고리즘에 입력한다고 해서 그 예측의 정확도가 올라가는 것도 아니다. 더구나 그 점은 처음부터 눈에 잘 띄던 부분도 아니었다. 패리드는 그것이 현실이라면 그렇게 예측하기 힘든 것에 기반해 타인의 생명에 영향을 미치는 결정을 하는 것을 신중하게 재고해 봐야 한다.”고 말한다.

By Sara Chodosh

 

정승호 기자 saint096@naver.com

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.