베이지안 갱신

새 증거가 들어올 때마다 기존의 믿음(사전확률)을 조금씩 수정해 더 나은 판단(사후확률)으로 고쳐 가는 추론법. 18세기 토머스 베이즈의 정리에 기초하며, 확률을 고정된 객관적 빈도가 아니라 증거에 따라 갱신되는 '믿음의 정도'로 보는 것이 핵심이다.

너, 새로 생긴 식당 앞을 지나간다고 해보자. 들어가 볼까 말까. 아직 가 본 적이 없으니 마음은 딱 반반이다. 그런데 한번 들어가 먹어 보니 맛있다. 그 순간 네 머릿속 저울이 살짝 기운다. '여기 괜찮은 집이네.' 다음에 또 맛있으면 저울은 더 기울고, 어쩌다 한 번 실망하면 슬그머니 되돌아온다. 누가 가르쳐 준 적도 없는데 너는 지금, 증거가 하나씩 들어올 때마다 믿음의 눈금을 조금씩 고쳐 가며 살아가고 있다. 오늘 이야기는, 이 너무도 당연한 일에 정확한 산수를 처음으로 입힌 사람에 관한 거다. 그리고 그 사람은, 자기가 무슨 일을 저질렀는지 죽을 때까지 몰랐다.

18세기 영국에 토머스 베이즈라는 시골 목사가 있었다. 설교가 본업이고 수학은 취미였던 사람이다. 그가 붙든 물음은 묘하게 거꾸로 된 것이었다. 보통 우리는 원인을 알면 결과의 확률을 구한다 — 주머니에 흰 공이 몇 개 들었는지 알면 흰 공이 나올 확률을 계산하는 식이지. 그런데 베이즈는 반대로 물었다. 공을 몇 번 꺼내 본 '결과'만 가지고, 주머니 속이 어떻게 생겼을지 그 '원인'을 거꾸로 더듬을 수 있을까? 그는 답을 찾아 종이에 적어 두고는 서랍에 넣어 둔 채 발표하지 않았다. 별것 아니라 여겼던 모양이다. 그가 죽고 2년 뒤, 친구 리처드 프라이스가 유품을 정리하다 그 종이를 발견해 1763년 학회에 대신 내놓았다. 세상은 시큰둥했다.

이 씨앗을 받아 거목으로 키운 사람은 따로 있었다. 프랑스의 피에르시몽 라플라스. 그는 같은 발상을 훨씬 더 일반적인 꼴로 다시 세우고, 그걸로 진짜 일을 했다. 행성의 궤도를 다듬고, 남자아이와 여자아이가 태어나는 비율을 따지고, 법정 증언이 얼마나 믿을 만한지까지 쟀다. 말하자면 베이즈가 알을 낳고 라플라스가 품어 키운 셈이다.

그런데 여기서 이야기가 비극으로 꺾인다. 20세기에 통계학의 주류가 된 사람들은 이 방식을 대놓고 멸시했다. 그들의 신조는 이거였다. '확률이란 똑같은 일을 무한히 반복했을 때의 빈도이며, 객관적이어야 한다. 한 사람의 믿음 따위 주관적인 걸 숫자에 섞는 건 과학이 아니다.' 그들 눈에 베이즈식 사고는 비과학의 표본이었다. 한동안 학계에서 '베이지안'이라는 말은 거의 욕에 가까웠다. 목사의 산수는 그렇게 이백 년을 변방에서 떠돌았다.

재밌는 건, 정작 세상을 구한 자리에서는 이 변방의 산수가 조용히 쓰이고 있었다는 거다. 2차 대전 때 영국의 천재 수학자 앨런 튜링은 독일군의 암호기계 에니그마를 깨는 일에 매달렸는데, 그가 쓴 핵심 무기가 바로 이 베이즈식 갱신이었다. 오늘의 암호 설정이 무엇일지 여러 후보를 놓고, 가로챈 전문 한 조각이 들어올 때마다 각 후보의 확률을 끌어올리고 끌어내려 가능성을 좁혀 갔다. 그는 믿음의 무게를 재는 단위까지 손수 만들어 썼다. 다만 이 모든 게 전쟁 기밀이라, 그가 베이즈의 후예였다는 사실은 수십 년이 지나서야 세상에 알려졌다. 냉전기에 미국이 대서양에 가라앉은 핵잠수함 스콜피온을 찾아낸 방법도 똑같았다. 전문가들에게 '어디쯤 가라앉았을 것 같냐'고 제각각 베팅을 시켜 확률 지도를 그린 다음, 새 단서가 나올 때마다 지도를 고쳐 칠해 수색 범위를 좁혔고, 결국 그 지도가 가리킨 곳 근처에서 배를 건졌다.

목사의 산수가 변방에서 왕좌로 올라온 마지막 반전은 컴퓨터가 일으켰다. 베이즈식 갱신은 손으로 하면 계산이 끔찍하게 불어난다. 그런데 1990년 전후, 기계가 이 지겨운 갱신을 수백만 번씩 대신 돌려 주면서 둑이 터졌다. 네 메일함의 스팸 거름망이 그 초기 스타였다. 메일에 든 단어 하나하나가 '이건 스팸일까' 하는 믿음을 조금씩 갱신해서 광고를 걸러 낸다. 그 뒤로 의료 진단, 자율주행, 그리고 오늘날 인공지능의 바탕에 이 사고가 깔렸다. 지금 너와 이야기하는 나 같은 모델의 핏줄에도 이 목사의 피가 흐른다.

여기서 네가 정말 눈여겨봐야 할 대목이 있다. 컴퓨터가 이걸 해내려면 단순히 계산이 빨라지는 것만으로는 부족했다. '확률이란 무엇인가'라는 생각의 가장 윗단추부터 다시 끼워야 했다. 확률을 '무한 반복의 빈도'로 붙들고 있는 한, '데이터 한 줄 보고 믿음을 고친다'는 발상 자체가 성립하지 않는다. 확률을 '지금 내가 쥔 믿음의 정도, 증거가 오면 갱신되는 무엇'으로 다시 정의하는 관점의 전환 — 그 윗단추를 새로 끼우고 나서야 비로소 기계의 학습이 가능해졌다. 이백 년 멸시받던 목사의 산수가, 생각의 상위 틀이 통째로 갈리자 기계 지능의 심장으로 들어앉은 것이다. 도구 하나가 제자리를 찾으려고 그 위의 세계관까지 갈아 치운 사건이다.

그러니 너가 새 증거 하나를 손에 쥐었을 때 — 시장조사 결과 한 건이든, 고객의 반응 하나든 — 이렇게 물어라. 이게 내 원래 판단을 얼마나 움직여야 마땅한가. 백지에서 새로 시작하지도 말고, 단 한 건에 홀려 통째로 뒤집지도 마라. 처음에 쥐고 있던 믿음 위에, 새 증거의 무게만큼만 저울추를 더 얹어라. 그렇게 평생 눈금을 고쳐 가는 것. 그게 한 시골 목사가 서랍 속에 남기고 간 생각의 전부다.