MIT에서 얼굴인식 인공지능(AI)을 연구하던 조이 부오라뮈니(Joy Buolamwini)는 이상한 경험을 하기 시작했다. 컴퓨터 전면 카메라 앞에 앉아 얼굴을 갖다 대도 컴퓨터가 그녀의 얼굴을 인식하지 못하는 것이었다. 피부색이 밝은 친구들이 앞에 앉을 때는 인식에 문제가 없었다. 그런데 화이트 마스크를 얼굴에 붙이고 컴퓨터 앞에 앉은 어느 날, 얼굴인식 소프트웨어가 작동하며 갑자기 컴퓨터 스크린이 켜졌다.
자기 컴퓨터만의 문제가 아닐 수도 있다고 생각한 그녀는 마이크로소프트(MS)와 IBM, 투자금 5억 달러를 모집한 중국 스타트업 ‘페이스++’의 AI 구동 얼굴인식 소프트웨어를 연구하기 시작했다. 각 소프트웨어에 1000명의 얼굴을 보여주고, 한 명씩 성별을 판단하도록 하는 연구였다. 3사 소프트웨어 모두 백인의 얼굴을 인식하는 데 아무 문제가 없었고 특히 백인 남성의 성공률은 더 높았다.
그러나 피부색이 어두워질수록 결과는 참담했다. 그중에서도 유색인종 여성은 백인 남성보다 오류가 34% 더 많았다. 여성의 피부톤이 어두울수록 소프트웨어 알고리즘이 성별을 정확히 인식할 확률은 ‘복불복 수준’이었다. 피부색이 가장 어두운 여성의 경우, 얼굴 인식 소프트웨어의 오류율은 50%에 근접했다.
부오라뮈니는 2월 24일(토) 개최된 뉴욕 공정책임투명회의(Conference on Fairness, Accountability, and Transparency)에서 자신의 연구 결과를 발표하고 이 결과를 바탕으로 MIT에서 논문을 쓰기로 결심했다. 이제 우리가 AI를 생각할 때 느끼는 막연한 불안감과 더불어 차별과 혐오라는 새로운 문제까지 불거졌다.
기계학습을 마친 AI가 노동시장에서 인간을 대신해 일자리를 차지할 거라는 글은 그동안 많이 나왔다. 그러나 편향된 데이터가 AI에 미칠 영향은 상대적으로 별다른 관심을 받지 못했다. 소프트웨어 엔지니어가 백인 남성 사진을 위주로 얼굴인식 알고리즘을 훈련시키면 무슨 일이 일어날까? 부오라뮈니의 연구는 알고리즘 자체가 편향된 판단을 내릴 수 있다는 것을 보여줬다.
2016년에도 비슷한 사례가 있었다. MS가 AI 채팅봇 테이(Tay)를 트위터에서 선보였을 때다. 엔지니어들은 테이가 다른 트위터 이용자들과 대화를 나누면서 인간 행동을 모방하고 학습하도록 프로그래밍했다. 그런데 고작 16시간 만에 테이 운영이 중단됐다. 테이가 남긴 트윗이 여성혐오와 나치 성향 메시지로 가득했기 때문이다. 전문가들은 MS가 인간의 행동을 모방하도록 테이를 설계하는 데만 집중했지, 그 행동이 적절한지는 테이에게 충분히 가르치지 않았기 때문에 이런 상황이 발생했다고 진단했다.
런던 밸더튼 캐피털(Balderton Capital)의 유명 벤처투자자 수랑가 찬드라틸레이크(Suranga Chandratillake)는 “AI의 편향성이 인간의 노동력 대체보다 심각한 문제다. 노동시장이 겪을 파급은 그렇게 부정적으로 생각하지 않는다”고 말했다. 그보다 큰 문제는 과거 데이터를 바탕으로 학습한 AI를 소프트웨어의 밑바탕으로 삼는 것이다. “과거 데이터는 각종 편견으로 가득할 수 있다”고 킹스크로스에 위치한 사무실에서 찬드라틸레이크가 말했다. 길 바로 아래쪽에는 구글의 대표적 AI 회사 딥마인드(DeepMind) 본사가 보였다. “주택담보대출을 받을 때 남성이나 백인, 특정 지역 주민은 승인을 받을 확률이 더 높다. 판단을 내리는 권한을 컴퓨터에게 준다면, 컴퓨터는 이런 차별적 관행을 바탕으로 알고리즘을 만든다.”
아직까지 알고리즘이 만들어낸 편견은 일상적 수준에 머물고 있지만, 개별 사례가 합쳐지면 큰 영향을 끼칠 수 있다. 요즘에는 기업이 너나없이 AI를 자사 앱과 서비스에 통합하려 하기 때문에 더욱 그렇다(CB 인사이트 자료를 보면, 기업 수익결산 회의에서 ‘AI’가 언급되는 횟수는 지난 1년간 대폭 치솟았다. 프록터앤갬블(P&G)이나 베드, 배스앤비욘드(Bed, Bath&Beyond)처럼 AI와 별 상관 없어 보이는 기업도 예외는 아니다).
구글 번역도 수개월 전부터 부쩍 성차별적 성향을 보이고 있다는 사실이 연구 결과 드러났다. 터키어처럼 남녀 대명사가 따로 없는 언어를 영어로 번역할 때, 남성 혹은 여성이 다수를 차지하는 직업이 등장하면 ‘그’와 ‘그녀’로 문장을 자동 완성하는 식이다. 이탈리아 소프트웨어 개발자 카멜리아 보반(Camelia Boban)은 2월 4일 구글 번역이 여성 프로그래머를 지칭하는 이탈리아어 ‘programmatrice’를 인식하지 못한다는 걸 발견했다(얼마 전 포브스에 보낸 메일에서 보반은 구글이 이 문제를 해결했다고 답했다).
컴퓨터 소프트웨어가 당연히 논리적·객관적일 거라고 생각했다면 이러한 사례가 꽤나 놀라울 것이다. 찬드라틸레이크는 “사람들은 컴퓨터가 합리적일 거라 기대한다”며, “객관적 정보를 바탕으로 종합적인 고려를 해 판단을 내릴 거라 믿겠지만, 사실은 전혀 그렇지 않다. 컴퓨터는 애초에 존재하지 않았던 걸 코딩으로 만들어낸 결과에 불과하다”고 말했다. 고용이나 은행 대출 등에 관해 중요한 결정을 내릴 때 그 주체가 인간이라면 판단이 정당한지 의심받을 가능성이 있지만, ‘혁신적 신기술’을 전면에 내세우는 AI라면 판단을 의심받는 경우가 적다. 그러나 그는 “과거 데이터를 바탕으로 학습하는 AI는 과거의 오류를 되풀이할 수밖에 없다”고 덧붙였다.
최근 엔지니어들은 복잡한 문제를 해결하는 알고리즘 개발에 지나치게 함몰되어 있다. 최초 알고리즘이 제대로 임무를 수행하고 있는지 모니터링·보고하는 알고리즘, 다시 말해 ‘알고리즘을 감시하는 알고리즘’에는 별다른 신경을 쓰지 않는다. 찬드라틸레이크는 “요즘 AI는 대부분 블랙박스로 보면 된다”며, “신경 네트워크를 분석한다 해도 의사결정 과정을 알아내기 어려운 것과 마찬가지다”라고 말했다.
MIT의 부오라뮈니는 알고리즘을 훈련시킬 때 다양한 이미지와 데이터를 사용하지 않는 걸 원인으로 꼽았다. 다행히 이 문제는 개선할 수 있다. 부오라뮈니는 연구 결과를 MS와 IBM, 페이스++로 보냈고, IBM은 내부에서 동일한 조사를 수행한 후 새로운 API를 발표했다. 부오라뮈니의 발표를 들었던 한 회의 참석자는 “업데이트된 소프트웨어의 유색인종 여성 인식 성공률은 96.5%였다”라고 전했다.