06. 확률·통계적 사고

기저율 고려 (base rate)

어떤 사건이 전체 모집단에서 원래 얼마나 자주 일어나는지를 가리키는 바탕 빈도가 기저율이다. 눈앞의 개별 단서가 아무리 그럴듯해도, 판단은 이 바탕 빈도를 먼저 깔고 그 위에서 조정해야 한다. 기저율을 빼먹고 인상만으로 결론을 내리는 흔한 실수를 기저율 무시라 부른다.

밤이다. 한 도시에서 택시 한 대가 사람을 치고 달아났다. 목격자가 한 명 있다. 그는 법정에서 또렷이 말한다. 그 택시, 초록색이었습니다. 판사는 신중한 사람이라, 목격자를 그날 밤과 똑같은 어둠 속에 세워 놓고 시험을 해 본다. 초록 택시를 초록으로, 파랑 택시를 파랑으로 맞히는 비율이 열 번에 여덟 번. 꽤 믿을 만하다. 자, 너에게 묻겠다. 저 택시가 정말 초록일 확률은 얼마쯤일까. 대부분의 사람은 망설임 없이 답한다. 한 80퍼센트쯤 되겠죠. 목격자가 80퍼센트 정확하다니까.

그런데 판사는 결정적인 사실 하나를 더 알고 있었다. 이 도시를 굴러다니는 택시의 85퍼센트는 파랑이고, 초록은 겨우 15퍼센트라는 것. 이 한 줄을 손에 쥐는 순간, 80퍼센트라는 네 직감은 무너진다. 직접 세어 보자. 택시 100대 중 초록은 15대. 목격자는 이 중 여덟 할을 맞히니 12대를 옳게 초록이라 부른다. 한편 파랑 85대 중 두 할은 틀려서 파랑인데도 초록이라 우긴다. 17대다. 그러니 그가 초록이라 외친 택시는 도합 29대인데, 그중 진짜 초록은 12대뿐이다. 12 나누기 29, 약 41퍼센트. 목격자가 초록이라 똑똑히 증언했는데도, 그 차가 초록일 가능성은 절반에 못 미친다. 파랑일 가능성이 오히려 더 크다. 어디서 어긋난 걸까. 너는 목격자의 정확도라는 눈앞의 또렷한 숫자에 사로잡혀, 애초에 초록 택시 자체가 드물다는 바탕 빈도를 통째로 까먹은 것이다. 이 바탕 빈도가 바로 기저율이고, 그걸 빼먹는 이 실수에 두 사람의 심리학자가 이름을 붙였다.

1970년대 초, 대니얼 카너먼과 아모스 트버스키라는 두 이스라엘 출신 학자가 사람들의 머릿속을 집요하게 들여다보고 있었다. 저 택시 문제도 트버스키와 카너먼이 1972년 무렵 실제로 사람들에게 던진 것이다. 결과는 한결같았다. 사람들은 41이 아니라 80 언저리를 답했다. 두 사람은 다른 문제도 냈다. 어떤 남자의 성격을 짤막하게 묘사해 주고는, 이 사람은 변호사 70명과 공학자 30명이 섞인 무리에서 뽑혔다고 분명히 일러 줬다. 그런데도 묘사가 공학자 느낌이 나면, 사람들은 70 대 30이라는 그 명백한 비율을 깡그리 무시하고 공학자라 우겼다. 톰이라는 가상의 대학원생 이야기에서도 똑같았다. 사람들은 어떤 학과에 학생이 원래 몇 명이나 있는지는 거들떠보지도 않고, 묘사가 풍기는 인상만으로 전공을 점쳤다. 카너먼과 트버스키는 이 버릇을 대표성 어림짐작이라 불렀다. 눈앞의 사례가 어떤 전형을 닮았느냐에 홀려, 그 전형이 세상에 원래 얼마나 흔한지를 잊는 마음의 습관 말이다.

여기서 너는 의문이 들 거다. 기저율이라는 개념 자체야 통계학에 늘 있던 건데, 새삼스레 이름까지 붙일 일인가. 맞다. 두 사람이 발명한 건 개념이 아니라 발견이다. 그들이 들춰낸 건 멀쩡한 사람들이, 심지어 통계를 배운 의사들조차, 이 빤한 숫자를 체계적으로 빼먹는다는 사실이었다. 그래서 이 사고법은 의학에서 가장 매섭게 쓰이게 됐다. 천 명 중 한 명꼴로 걸리는 희귀병이 있다 치자. 99퍼센트 정확한 검사에서 양성이 나왔다면, 너는 덜컥 가슴이 내려앉겠지. 하지만 워낙 드문 병이라, 양성으로 뜬 사람 대다수는 실은 멀쩡한데 1퍼센트의 오류에 걸린 사람들이다. 진짜 환자일 확률은 흔히 절반도 안 된다. 기저율을 모르면 멀쩡한 사람에게 사형선고를 내리는 셈이다. 이 깨달음은 거듭 다듬어져, 카너먼이 2002년 노벨 경제학상을 받는 행동경제학의 주춧돌이 됐다. 트버스키는 1996년에 먼저 세상을 떠나 그 상을 함께 받지 못했다.

이 사고법은 기계 속으로도 깊이 들어갔다. 네 메일함의 스팸 거르개를 떠올려 봐라. 그건 어떤 단어가 들었느냐만 보는 게 아니라, 애초에 들어오는 메일 중 스팸이 원래 몇 할이냐는 기저율부터 깔고 시작한다. 의료 인공지능도, 추천 알고리즘도 마찬가지다. 다만 이걸 기계에 제대로 앉히려면 생각의 윗단추를 한 번 고쳐 끼워야 했다. 양성이 떴다는 그 한 장면에만 매달리지 말고, 세상 전체의 바탕 빈도를 먼저 사전 확률로 세워 두고 거기에 새 단서를 곱해 가는 사고 틀로 갈아타야 했다는 뜻이다.

그러니 너가 어떤 또렷한 단서 하나에 마음이 확 쏠리거든, 잠깐 멈춰서 이렇게 물어라. 그래서 이런 일이 원래 얼마나 자주 일어나는데. 그 바탕 빈도부터 깔고, 눈앞의 단서는 그 위에 얹는 무게로만 다뤄라. 드문 일은 단서가 아무리 그럴듯해도 여전히 드물다. 그게 두 심리학자가 택시 한 대로 너에게 가르치려 한 전부다.