06. 확률·통계적 사고

표본 사고 (sampling)

전체를 다 조사할 수 없을 때, 그 일부인 표본만 살펴 전체의 성질을 미루어 짐작하는 사고법. 핵심은 표본이 얼마나 크냐가 아니라 전체를 얼마나 닮았느냐, 즉 대표성에 있으며, 한쪽으로 치우친 표본은 아무리 양이 많아도 전체를 잘못 그려 낸다.

너, 솥에서 끓는 국 간을 본다고 해보자. 국자로 한 숟갈 떠서 입에 댄다. 그 한 입이면 솥 전체가 짠지 싱거운지 다 안다. 굳이 솥째 들이켜지 않아도 된다. 그런데 한 가지 조건이 있다. 떠 내기 전에 국을 한 번 휘저어야 한다. 안 젓고 위에 뜬 기름만 떠서 맛보면 솥 전체가 짜다고 착각한다. 너는 지금, 평생 이 짓을 하며 산다. 친구 몇을 보고 그 학교 분위기를 짐작하고, 리뷰 몇 줄 읽고 식당을 점치고, 며칠 매출로 이 장사가 될지 안 될지를 가늠한다. 작은 한 숟갈로 큰 솥을 읽는 일. 오늘 이야기는 그 한 숟갈을 잘못 떠서 나라 전체가 비웃음거리가 된 어느 잡지사의 몰락에 관한 거다.

1936년 미국, 대통령 선거를 앞두고 있었다. 그 무렵 선거 예측의 황제는 리터러리 다이제스트라는 잡지였다. 앞선 선거들을 줄줄이 맞혀 온 터라 누구도 그 권위를 의심하지 않았다. 그해 이 잡지는 역사상 최대 규모의 여론조사를 벌인다. 무려 천만 장의 모의 투표용지를 우편으로 뿌렸고, 그중 이백사십만 장이 회신돼 돌아왔다. 이백사십만. 상상도 안 되는 표본이었다. 그 거대한 데이터가 가리킨 답은 명확했다. 공화당의 랜던이 현직 루스벨트를 57 대 43으로 누른다. 잡지는 자신만만하게 인쇄했다.

뚜껑이 열리자 정반대였다. 루스벨트가 약 62퍼센트로 압승했다. 그것도 마흔여덟 개 주 가운데 메인과 버몬트 단 두 곳만 빼고 전부 쓸어 담은, 미국 역사에 남는 대승이었다. 이백사십만 명에게 물어 놓고 어떻게 이렇게 틀릴 수가 있나. 망신을 당한 잡지는 얼마 못 가 문을 닫았다. 바로 여기에, 양으로는 절대 메울 수 없는 함정이 있다. 잡지가 투표용지를 뿌린 명단의 출처가 문제였다. 전화 가입자 명부, 자동차 등록부, 사교클럽 회원록. 1930년대 대공황의 한복판에서 전화와 자동차를 가지고 클럽을 드나들던 이들은 누구였겠나. 잘사는 사람들, 그래서 공화당으로 기운 사람들이었다. 솥을 젓지 않고 위에 뜬 기름만 떠낸 격이다. 게다가 굳이 우표 붙여 답장을 보낸 이들은 현직에 불만이 많은 쪽으로 또 한 번 쏠렸다. 표본의 크기가 이백사십만이어도, 그 표본이 전체 유권자를 닮지 않았으면 숫자는 거짓을 더 크고 또렷하게 그릴 뿐이다.

같은 선거에서, 조지 갤럽이라는 무명의 젊은이가 고작 오만 명 남짓을 골라 묻고는 결과를 1.4퍼센트 오차로 맞혔다. 천만 대 오만의 싸움에서 작은 쪽이 이긴 것이다. 비결은 양이 아니라 닮음이었다. 그는 전체 유권자의 성별, 지역, 소득 비율을 미리 헤아려 그 비율 그대로 표본을 떠냈다. 솥을 먼저 휘저은 셈이다. 이 사건이 사람들의 머릿속 단추 하나를 갈아 끼웠다. 많이 모으면 진실에 가까워진다는 믿음에서, 골고루 모으지 않으면 아무리 많아도 헛것이라는 깨달음으로.

사실 이 깨달음에 수학의 골격을 세운 사람은 따로 있었다. 폴란드 태생의 통계학자 예지 네이만이다. 그가 1934년 영국 왕립통계학회 앞에서 읽은 한 논문이 오늘날 우리가 말하는 표본 추출의 출발점이 되었다. 그전까지 학자들은 전체를 잘 대변할 것 같은 표본을 사람 손으로 골라 담는 방식과, 차라리 운에 맡겨 무작위로 뽑되 집단별 비율만 맞추는 방식을 두고 다투고 있었다. 네이만은 후자의 손을 들며, 무작위로 떠낸 표본이라야 그 어림이 진짜 값에서 얼마나 빗나갈 수 있는지까지 숫자로 잴 수 있음을 보였다. 사람이 좋은 표본이라 믿고 고르는 순간, 자기도 모르는 편향이 손끝에 묻어 들어간다는 것 — 그래서 차라리 제비뽑기에 맡기라는 것이다. 표본을 떠내는 행위에 비로소 이론의 척추가 들어선 순간이었다.

그렇게 자리 잡은 이 사고법조차 한 번 더 호되게 매를 맞고 자란다. 그 영민한 갤럽마저 1948년 선거에서 호되게 틀려, 듀이가 트루먼을 이긴다고 장담했다가 트루먼의 승리에 코를 납작 떼였다. 원인은 또 표본이었다. 조사원이 정해진 비율에 맞춰 응답자를 자기 재량으로 골라 채우다 보니, 그 손길에 미세한 쏠림이 스몄던 것이다. 이 실패가 업계를 다시 한번 밀어붙여, 사람의 재량을 빼고 순수하게 운에 맡겨 뽑는 무작위 추출로 갈아타게 만들었다. 한 숟갈을 더 정직하게 뜨는 법을, 사람들은 이렇게 실패를 통해 거듭 배웠다.

여기서 한 갈래가 컴퓨터로 흘러든다. 다만 결이 뜻밖이다. 처음엔 세상을 떠 보려고 표본을 쓰더니, 기계 앞에서는 풀 수 없는 계산을 떠 보려고 표본을 쓰기 시작했다. 2차 대전 직후 로스앨러모스에서 울람과 폰 노이만은, 너무 복잡해 정면으로는 도저히 못 푸는 문제를 만나자 차라리 수많은 무작위 시도를 던져 그 결과의 평균으로 답을 어림했다. 도박의 도시 이름을 따 몬테카를로라 부른 이 방법이, 손으로 못 푸는 적분과 물리를 컴퓨터가 표본으로 더듬게 했다. 더 나아가 오늘날 기계학습은 산더미 같은 데이터를 한 번에 다 못 보니, 매번 작은 표본만 떠서 조금씩 배워 나간다. 1979년 브래들리 에프런이 내놓은 부트스트랩이라는 영리한 수법은 아예 한 줌의 데이터를 제 안에서 수천 번 다시 떠내 전체의 불확실성을 가늠한다. 여기서 생각의 윗단추가 한 번 더 갈렸다. 계산이란 빠짐없이 다 따져 보는 일이라는 오랜 관념을, 계산이란 똑똑하게 떠낸 표본으로 충분히 좋게 어림하는 일이라는 관점이 밀어낸 것이다. 솥을 다 마시려 들지 말고 잘 저어 한 숟갈만 떠라는 그 부엌의 지혜가, 기계 지능의 살림법으로 들어앉았다.

그러니 너가 어떤 숫자나 후기, 사례 몇 개를 손에 쥐고 전체를 단정하고 싶어지는 순간을 만나거든, 양부터 세지 말고 이렇게 물어라. 이 한 숟갈은 어느 자리에서 떠 온 것이며, 솥은 과연 저어졌는가. 표본이 작아서 틀리는 일보다, 표본이 한쪽에서만 떠올려져 틀리는 일이 훨씬 더 자주, 더 크게 너를 속인다.