책소개
- 독일 슈피겔 베스트셀러
- 독일 아마존 베스트셀러
넷플릭스 영화 추천에서부터 포털의 뉴스 순위, 신용도 평가,
대입 전형, 기업 입사지원자 선발, 재범 및 테러 위험 예측까지
인공지능 시대, 누가 미래의 주도권을 잡을 것인가?
데이터가 만드는 세상, 알고리즘 바로 알기
알고리즘 윤리가 연일 화두로 떠오르고 있다. “머릿속까지 들여다보는 알고리즘, 인간을 마음대로 조종할 수도” “알고리즘, 미국을 무너뜨리다” “뜬금없는 유튜브 알고리즘에 피로감” “광고 퍼붓는 알고리즘, 노리는 건 결국 당신 지갑” “검색창에 CEO 치면 주로 남자, 알고리즘의 편향성 막아야” “알고리즘에 지배당한 인생, 자유의지대로 살고 있나?” “허점 드러난 AI 알고리즘… 포털 뉴스, 택시앱 이어 챗봇까지 논란” 등등 2021년 새해 주요 언론사 헤드라인을 장식한 기사 제목들만 봐도 그렇다. AI 알고리즘 기반 온라인 서비스의 사회적 영향력이 증대함에 따라 여론의 양극화, 확증편향, 차별 등 역기능에 대한 우려가 현실로 나타나고 있는 것이다.
독일 카이저슬라우테른 공과대학 사회정보학 교수이자 독일연방의회 인공지능조사위원회 위원인 카트리나 츠바이크의 신간 『무자비한 알고리즘―왜 인공지능에도 윤리가 필요할까』는 알고리즘, 빅데이터, 컴퓨터지능, 머신러닝 등 정보기술에 관한 총체적이고 통합적인 시각에 기초해 알고리즘의 기술적 토대를 설명함과 동시에 알고리즘의 투명성과 인공지능의 사회적 책임을 촉구하는 책이다. 저자는 책에서 흔히 가치중립적이라고 생각하는 기계 규칙인 ‘머신러닝 알고리즘’이 실제로는 많은 수작업을 요하며 인간이 변수를 조절할 수 있다는 점, 정확하고 객관적이라 생각한 데이터가 실은 충분하지 않고 오류나 차별이 끼어드는 경우가 그간 얼마나 많았었는지를 상세히 보여준다. 특히 인간과 관련된 알고리즘 기반 의사결정 시스템이 막대한 손해잠재력을 지니고 있다는 점을 지적하며 사용자의 개입과 감시가 필요하다고 역설한다.
책에는 최신의 과학 기술 원리와 용어 등이 등장하지만, 저자는 신입생을 대상으로 강의하듯 대중의 눈높이에 맞춰 알고리즘이란 무엇인지, 어떻게 작동하는지, 어떤 이유로 우려를 불러일으키는지 설명한다. 일상에 밀착된 예시, 흥미로운 비유와 유머를 적절히 동원해 친절하게 설명할 뿐 아니라 인공지능을 의인화한 캐릭터 카이가 등장하는 아기자기한 삽화가 곁들여져 독자의 이해를 돕는다.
목차
들어가는 말
1부 도구상자 :
인공지능 시스템은 어떻게 만들어지는가
1장 판단력이 떨어지는 로봇 재판관
2장 자연과학의 팩트 공장
2부 정보학의 작은 ABC :
알고리즘, 빅데이터, 컴퓨터지능은 서로 어떻게 연결되는가
3장 알고리즘, 컴퓨터를 위한 행동지침
4장 빅데이터와 데이터마이닝
5장 컴퓨터지능
6장 머신러닝 vs 인간(2:0)
7장 기계실에서 본 것들
3부 기계와 더불어 더 나은 미래로 가는 길 :
왜, 인공지능 윤리인가
8장 알고리즘과 차별, 그리고 이데올로기
9장 어떻게 감독할 수 있을까
10장 기계가 인간을 판단하는 걸 누가 원할까
11장 강한 인공지능은 필요할까
맺음말
감사의 말
주
저자
카타리나 츠바이크 (지은이), 유영미 (옮긴이)
출판사리뷰
책은 세 부분으로 구성된다. 1부는 자연과학적인 인식 방법들을 제시하고, 인공지능 시스템을 만들기 위한 도구상자를 안내한다. 2부에서는 ‘정보학의 ABC’, 즉 알고리즘Algorithm, 빅데이터Big Data, 컴퓨터지능Computer intelligence 그리고 이것들이 서로 어떻게 연관되는지를 살핀다. 이어 3부에서는 어떤 부분에 인간이 개입해 윤리를 고려해야 할지, 그리고 이 과정을 어떻게 바람직하게 진행할 수 있을지를 다룬다.
뉴스 추천, 상품 추천 광고, 내비게이션, 검색어 자동완성, 번역기, 암 진단 시스템, 자율주행자동차…… 인공지능은 이제 우리 일상에 깊숙이 들어와 우리 인간들에 대해, 인간들과 더불어, 인간들을 위해 결정을 내리고 있다. 이쯤에서 책은 우리에게 질문을 던진다. 과연 기계가 인간에 대해 인간보다 더 나은 선택과 판단을 할 수 있을까? 또 우리는 그것을 원할까? 거대 소셜미디어 기업에 나를 ‘데이터 덩어리’로 바치고 싶지 않다면, 특정 이념단체나 권력기관에 선동되어 꼭두각시 인형처럼 움직이고 싶지 않다면, 그리고 기계에 나에 대한 판단을 온전히 맡기지 싶지 않다면 이 책의 일독을 권한다. 인간이 더 인간다워질 때, 인공지능과의 공존도 가능해질 수 있는 법이다.
우리 삶과 사회 깊숙이 침투한 알고리즘의 빛과 그림자
데이터에서 결정을 도출하는 원리를 파헤치다
학부에서 자연과학을 전공한 저자는 생물학 실험실에서의 개인적 경험을 예로 들며 알고리즘의 맹점을 지적한다. 자연과학에서는 ‘가설’을 세운 후 여러 번의 검증을 거쳐 실험에서 반박할 수 없는 결과가 나와야만 ‘이론’이 정립되고, 이 이론의 예측이 통제된 반복실험이나 자연에서 옳은 것으로 입증되어야만 ‘팩트’로 받아들여진다. 하지만 머신러닝에서는 원인을 탐구해 인과관계를 밝히는 대신 중요한 사건과 상관관계가 있는 행동양식이나 특성 등을 확인하는 데 주력하며, 데이터에서 얻은 결과를 곧장 미래 행동을 예측하는 데 활용한다. 가령 자동차보험요율 평가 시스템은 운전자의 나이와 무사고 경력을 살펴 사고위험을 예측함으로써 등급을 산정하고, 미국의 재범 가능성 예측 알고리즘은 범죄자의 신상정보와 인격적 특성을 토대로 재범 위험을 수치화한다.
그 결과는 종종 오류로 이어질 수 있으므로, 예측이 훌륭한지 아닌지를 측정하기 위해서는 품질 평가를 위한 척도가 필요하다. 방대한 빅데이터에서 패턴을 찾아내는 머신러닝 알고리즘은 이 품질 척도를 도구로 스스로 최적화한다. 그런데 이 품질 척도의 선택에는 언제나 도덕적 숙고가 들어간다. 즉 어떤 오류를 더 중대하게 보는지가 관건이다. 이 책은 우선 알고리즘, 최적화와 운영화, 수학적 모델링 같은 생소한 개념들을 설명하면서 기계학습 과정의 많은 단계에서 인간이 개입해 결정해야 하는 조절변수가 있음을 상기시킨다.
목적지로 가는 최단 경로 찾기, 넷플릭스의 영화 추천, 입사지원자 심사, 이미지 인식…
일상적인 예시들로 쉽게 설명하는 알고리즘
간단히 말하자면 알고리즘은 그저 수학 문제를 풀기 위해 정해진 ‘행동지침’이다. 그런데 실제로 많은 머신러닝 방법은 해답이 맞는지를 점검할 수 있는 고전적 알고리즘이 아니라, 시행착오를 통해 답을 찾아가는 ‘휴리스틱heuristic’으로서 답이 맞는지를 점검할 수 없다. 문제는 결과로 나온 해답이 맞는지 확인할 실측자료가 없고 어느 알고리즘의 결과가 어느 정도 이성적으로 보이는 한, 우리 인간들은 그 결과를 설명하는 이야기를 지어낼 수 있다는 것이다. 저자는 넷플릭스 영화 추천 시스템을 예로 들어 실제 사용자들이 매긴 별점 평가와 비교해 알고리즘이 엉뚱한 예측을 하더라도 우리가 그럴듯한 설명을 할 수 있음을 보여준다.
물론 영화 추천 시스템의 오류는 사용자에게 별다른 피해를 유발하지 않는다. 그러나 이런 시스템이 입사지원자 선발 과정의 서류심사에서 면접을 진행할 사람을 가려낼 때 쓰인다면? 만약 알고리즘이 IT 기업에서 성공한 직원들의 데이터 특성을 ‘남성’이라고 판단한다면, 그런 특성에 착안해 계속 여성 지원자들을 배제함으로써 차별을 공고히 할 수 있다. 더 큰 문제는 성공잠재력이 낮다고 평가되어 기회를 박탈당한 지원자들은 일을 잘 감당할 수 있었음을 증명할 길이 없고 따라서 품질 척도에 피드백을 제공할 수 없다는 것이다. 재범 예측 시스템이나 신용도 평가에서 위험도가 높다고 평가된 이들도 마찬가지다.
이처럼 피드백이 일방적이라는 문제 말고도 데이터 자체에 우연한 특성이 개입되어 노이즈가 생기는 경우도 있고, 데이터가 너무 적거나, 데이터 자체에 차별이 내재하는 경우도 있다. 데이터 수집과정 자체는 윤리적인가 하는 질문도 뒤따른다. 저자는 틴더와 페이스북이 이미지를 수집하는 방식, 정확도와 양성예측도에 숨겨진 함정, 위험값과 문턱값이라는 수치의 자의성, 사회?문화에 따라 상이한 윤리적 기준 등 우리가 알고리즘을 활용하기 전에 생각해볼 주제들에 대해 짚어나간다.
기술은 그 자체로 선하지도, 악하지도……
기술을 사용하는 인간이 곧 문제이자 해결방안
“윤리가 컴퓨터에 들어오는 것은 오직 당신과 나, 우리를 통해서만 가능하다”
알고리즘에 윤리적 고려가 필요한 경우는 무엇보다 인간들의 과거 행동에 대한 데이터를 토대로 학습하여 다른 인간의 미래 행동을 추론하고 사회적 자원에의 접근을 결정하는 시스템들이다. 물론 이러한 유형의 시스템이라도 위험도는 천차만별이다. 저자는 시스템을 효율적으로 감시하기 위한 등급을 고안한다. 그 기준은 시스템의 결정으로 인한 ‘손해잠재력’과 그 결정에 의문의 제기하고 변화시킬 수 있는 ‘항의 가능성’이다.
예를 들어 상품 추천 시스템의 개별적 오류는 무시할 수 있는 수준이다. 오류가 있는 입사지원자 평가 시스템을 쓰면 채용 기회를 잃는 개인뿐 아니라 그런 개인을 경제적으로 도와야 하는 국가와 부적합한 지원자를 채용하게 되는 회사도 손해를 입지만, 국가나 고용주 측의 손해는 개인들이 당하는 손해를 합친 것보다 크지 않다. 한편 콘텐츠를 제안하는 뉴스피드나 유튜브에서 음모론이나 가짜 뉴스를 배포한다면 사회 전체가 상당한 손해를 입을 수 있다. 하지만 적어도 다른 공급자와 경쟁하면서 시스템이 개선될 여지가 있다. 그에 비해 국가가 운영하는 감시소프트웨어는 무고한 개인에게 잘못된 낙인을 찍거나 반대로 범죄자들을 인식하지 못해 사회에 손해를 끼칠 수 있을 뿐 아니라, 중요한 민주주의적 기본권을 침해함으로써 사회 전반에 막대한 손해를 입힐 수 있고, 독점적으로 운영되므로 항의 가능성도 낮다. 이런 식으로 등급을 나누면, 완벽하지 못한 얼굴인식 기술에 의존하는 자율살상무기, 데이터가 너무 적은 테러리스트 확인 알고리즘, 국가가 국민을 광범위하게 감시 통제하는 중국 시민점수 등은 리스크가 가장 높은 시스템으로 분류된다.
일련의 논의를 통해 저자는 등급에 따라 투명성과 이해가능성을 높여 시스템을 감시하는 방안을 제안하며, 성공적으로 머신러닝을 할 수 있는 조건이 결여되어 있을 때, 또는 시스템을 투입함으로 인해 전 사회가 입을 수 있는 손해잠재력이 너무 클 때는 활용을 금지해야 한다고까지 단언한다. 끝으로 저자는 “자신이 영향을 미칠 수 있는 범주 내에서 무엇이 좋은 결정일지 고민해보아야 어느 정도로 기계의 뒷받침을 받을지도 결정할 수 있는 것이다. 윤리가 컴퓨터에 들어오는 것은 오직 당신과 나, 우리를 통해서만 가능하기 때문이다”라고 강조한다.