상관-인과 구분 (correlation vs causation)
두 가지가 나란히 함께 움직인다고 해서 하나가 다른 하나의 원인이라고 단정할 수 없다는 원칙. 둘이 같이 변하는 것(상관)과 하나가 다른 하나를 일으키는 것(인과)은 전혀 다른 사건이며, 보이지 않는 제3의 원인이나 우연이 둘을 함께 흔들고 있을 수 있다는 것이 핵심이다.
너, 어느 여름 도시의 통계를 하나 받았다고 해보자. 아이스크림이 많이 팔린 날일수록 물에 빠져 죽는 사람도 많더라는 거다. 숫자는 거짓말을 안 한다. 두 곡선이 손을 잡은 듯 똑같이 오르내린다. 그럼 너는 시청에 이렇게 보고할 텐가 — 아이스크림 판매를 금지하면 익사자가 준다고. 어딘가 우스꽝스럽다는 건 너도 안다. 그런데 그 우스꽝스러움이 정확히 어디서 오는지 한 문장으로 짚어 보라면, 의외로 말문이 막힌다. 답은 둘 다를 뒤에서 밀고 있는 세 번째 손님, 바로 더위다. 더우니까 아이스크림도 팔리고, 더우니까 사람들이 물로 뛰어든다. 두 곡선은 서로 손잡은 게 아니라 같은 바람에 함께 흔들린 깃발이었다. 오늘 이야기는, 이 함정의 정체를 처음으로 숫자에 새겨 넣은 사람들과, 그 함정에 빠져 인류의 목숨을 가지고 도박을 건 한 천재에 관한 거다.
이 함정에 처음으로 수학의 자를 댄 사람은 19세기 말 영국의 프랜시스 골턴이었다. 그는 부모의 키와 자식의 키가 얼마나 닮는지를 재다가, 두 양이 함께 움직이는 정도를 숫자 하나로 잡아내는 길을 열었다. 그 길을 이어받아 '상관계수'라는 정밀한 도구로 벼려 낸 사람이 그의 제자 칼 피어슨이다. 1890년대의 일이다. 그런데 여기서 이야기가 묘하게 비틀린다. 피어슨은 이 도구가 너무 강력한 나머지, 한술 더 떠 이렇게 선언해 버렸다. 과학이 손에 쥘 수 있는 건 오직 상관뿐이며, '원인'이라는 말 자체가 미신에 가까운 헛것이라고. 그가 보기에 세상에 실재하는 건 함께 변하는 양들의 그물뿐이고, 인과란 그 위에 인간이 멋대로 덧칠한 그림자였다. 상관과 인과를 구분하라는 경고가, 그 구분을 발명한 사람의 손에서 '인과란 아예 없다'는 극단으로 굳어 버린 셈이다.
바로 이 지점에서 한 젊은 유전학자가 반기를 들었다. 미국의 슈얼 라이트다. 1920년 무렵, 그는 기니피그의 털 색과 뼈 치수가 대를 이어 어떻게 전해지는지 들여다보다가, 단순한 상관의 그물만으로는 도무지 답이 안 나온다는 걸 절감했다. 무엇이 무엇을 일으키는지, 그 화살표의 방향이 필요했던 것이다. 그래서 그는 변수들 사이에 인과의 화살표를 그려 넣고 그 화살의 세기를 데이터로 되짚는 방법을 손수 만들어 냈다. 경로분석이라 불리는 이 기법은, 피어슨이 과학에서 추방한 '원인'이라는 단어를 데이터의 뒷문으로 다시 들여온 사건이었다. 상관밖에 못 본다던 통계학에, 인과를 더듬는 첫 연장이 쥐어진 것이다.
이 구분이 단지 학자들의 자존심 싸움이 아니라 사람 목숨이 걸린 문제임을 똑똑히 보여준 무대가 1950년대에 열린다. 담배와 폐암이었다. 영국의 리처드 돌과 오스틴 브래드퍼드 힐은 흡연자에게서 폐암이 압도적으로 많이 나타난다는 강력한 상관을 차곡차곡 쌓아 올렸다. 그런데 이 흐름에 정면으로 맞선 거인이 있었으니, 20세기 통계학을 거의 혼자 세웠다 할 로널드 피셔였다. 그의 반론은 놀랍게도 바로 오늘의 이 원칙이었다. 둘이 함께 간다고 하나가 원인은 아니다 — 어쩌면 어떤 타고난 체질, 즉 사람을 담배에 끌리게 하는 동시에 폐암에도 취약하게 만드는 제3의 유전적 요인이 둘 다를 뒤에서 흔드는 것일 수도 있지 않냐는 거였다. 아이스크림과 익사 사이의 '더위'를 찾던 바로 그 논법이다. 형식만 놓고 보면 피셔는 완벽하게 옳은 질문을 던졌다. 다만 이번엔 숨은 더위가 없었다. 담배 그 자체가 범인이었다. 피셔는 끝내 흡연을 옹호하다 세상을 떠났고, 상관-인과 구분이라는 날카로운 칼이 진실을 베는 대신 진실을 가리는 방패로도 쓰일 수 있음을 그의 생애가 증언하고 만다. 힐은 이 혼란을 끝내려, 단순한 상관을 인과로 승격시키려면 어떤 조건들을 따져야 하는지 1965년에 아홉 가지 잣대로 정리해 내놓았다.
목숨을 건 이 다툼이 마침내 정밀한 계산의 영역으로 옮겨 온 건 컴퓨터 시대에 들어서다. 이스라엘 출신의 학자 유데아 펄은 라이트의 화살표를 거대한 그림으로 키워, 변수들의 인과 관계를 도식으로 그리고 그 위에서 '만약 이 변수를 인위적으로 건드린다면'이라는 개입을 계산으로 흉내 내는 체계를 세웠다. 2011년 그 공로로 컴퓨터과학의 최고 영예인 튜링상까지 받는다. 그런데 여기서 네가 정말 눈여겨봐야 할 대목이 있다. 펄이 거듭 외친 건, 오늘날의 기계학습이 아무리 똑똑해 보여도 사실은 거대한 상관 계산기에 머물러 있다는 진단이었다. 데이터에서 함께 움직이는 무늬를 기막히게 찾아내지만, '무엇이 무엇을 일으키는가'라는 사다리의 윗단으로는 스스로 올라서지 못한다는 것이다. 기계가 진짜로 원인을 다루려면 데이터를 더 많이 먹이는 것만으로는 안 되고, '상관이 곧 정보의 전부'라던 생각의 윗단추부터 새로 끼워 인과라는 별도의 언어를 따로 장착해야 했다. 한낱 여름날의 우스개로 시작한 이 구분이, 기계 지능이 다음 층계로 오르려면 반드시 통과해야 할 관문으로 올라선 셈이다.
그러니 너가 두 숫자가 사이좋게 함께 오르내리는 그래프를 손에 쥐었을 때, 곧장 '그럼 이걸 누르면 저게 따라 내려가겠군' 하고 무릎을 치지 마라. 먼저 멈춰서 이렇게 물어라. 이 둘을 동시에 뒤에서 흔드는 세 번째 손님은 없는가, 혹시 화살표가 내 생각과 거꾸로 꽂힌 건 아닌가, 아니면 그저 우연이 빚은 헛무늬는 아닌가. 그 세 질문을 통과하고도 살아남은 연결만, 비로소 원인이라 불러 줘라.