Claude Code 소스코드 유출 이후 (ft. 사이오닉 고석현 대표)
노정석 · 최승준 · 고석현
Claude Code 소스 유출·2시간 만의 AI 재작성·OpenClaw. AI 네이티브 세대의 저작권 인식과 클린룸 논쟁, 자가당착의 밈. 소스 코드 가치가 0으로 수렴하는 시대의 하네스 엔지니어링과 PMF.
EP 93: Claude Code 소스코드 유출 이후
생각 덩어리
만우절 하루 앞두고 만우절 같은 일 — sourcemap과 CI/CD
3월 31일에 만우절을 하루 앞두고 만우절 같은 일이 생겼어요. Claude Code 소스 코드가 통째로 유출되는 그런 사건이 있었죠.
Claude Code 같은 경우는 자바스크립트, 정확히는 TypeScript 계열의 언어다 보니까 컴파일할 때 있던 맵이 있다고 하면 소스 코드를 완벽하게 복구할 수 있었고 흔히 말하는 CI/CD 배포와 어떤 통합 과정에서 같이 포함됐다는 게 상당히 큰일인 거죠.
대형 사고예요. 그리고 Anthropic 입장에서는 정말 뼈아픈 그런 일인데 회사 가치에 큰 영향을 미치는 굉장히 큰 사고가 아닐 수가 없습니다.
유출된 IP 활용은 정당한가 — 도덕과 합법의 두 축
이거는 직원의 실수로 회사의 어떤 코어 IP가 유출된 거고 그걸 적극적으로 활용해서 퍼뜨리고 재이용하는 거는 도덕적인 문제가 있는 거 아니냐라는 것들은 지적이 맞아요.
이런 아젠다에서 가장 큰 축은 일단 정당하냐, 그리고 합법적이냐, 두 개로 나뉠 것 같습니다. 하나는 도덕적인 문제일 것 같아요. 그리고 하나는 정말 법에 대한 문제일 것 같습니다.
어떤 회사의 핵심 IP가 유출되었고 이걸 통해서 어떤 이득을 취하는 게 정당하냐, 사실 그건 그 누구도 정당하지 않다라고 이야기할 것 같아요.
AI 딸깍의 시대 — 카피라이트 개념이 희미해진 세대
저희가 승준 님이나 저나 이런 AI 팟캐스트를 진행하면서 우리가 모두 이 AI 딸깍이 시대에 들어가고 있는데 ... 모델이 너무 우수하잖아요. 결과물만 보이면 사실은 그 스펙이 보이지 않더라도, 그건 어느 정도 완성된 것과 같다
AI를 극강으로 쓰시는 AI 네이티브들을 보시면, 이분들은 카피라이트에 대한 개념이 굉장히 희미하세요. 왜냐하면 AI가 그런 것들을 그냥 딸깍딸깍 다 복사해 주고, 남이 만들어 놓은 IP에서 레버리지를 강하게 만들어 주는 도구거든요.
어떤 사이트에, 타기팅하는 사이트가 있으면 그 사이트에서 소위 주스만 추출해서 재조합해서 어떤 새로운 서비스로 만드는 부분들이 이분들의 그냥 어떤 새로운 ... 일반적인 페이로드가 되는 거죠.
화이트워싱과 50보 100보
요새는 또 화이트워싱이라고 그래요. 다 그런 식으로 AI로 다시 재구축해서 라이선스를 한번 갈아끼우든, 그런 시도들이 있잖아요.
이게 다 AI가 딸깍딸깍 해주는 것 때문에 누가 5분 먼저 했냐, 누가 3시간 먼저 했냐, 50보 100보의 문제 같은 것들이 지금 생겨나고 있거든요.
DMCA 광범위 대응과 철회 — 재작성본은 빠졌다
npm이라는 패키지 저장소에, 실수죠. 실수를 통해서 공개가 되었던 게 GitHub로 이동을 하였고, 제가 기억하기로 한 8천 개 정도 다발적으로 복제가 되어서, Anthropic이 굉장히 빠르게 조치를 취하면서 DMCA ... 한국 시간 새벽 4시, 5시 사이에 대부분의 저장소가 삭제가 되었습니다.
자사의 저장소가 삭제되거나, 아무런 관련이 없는 저장소도 이름이 같은 것만 삭제가 되거나 ... 너무 지나치게 광범위한 대응이 있었기 때문에 거기에 대한 피해를 예방하고자 일부에 대해서 ... DMCA라는 삭제 철회를 했고
우리는 이 코드를 다른 AI 모델을 사용해서 Python과 Rust로 재구축을 했다. 사실 그러면 외부에서 단순히 볼 때 저작권을 침해했다고 할 수 있는, 전통적인 법에서요, 같은 코드 구문이 전혀 없는 겁니다. ... 그 DMCA 삭제 요청에서 이 저장소는 그 이후로 빠졌어요.
2시간 만의 리라이트, 그리고 스타의 문법
50만 줄에 해당하는 엄청난 코드베이스이고, 이런 것들이 거의 2시간 만에 완전히 다 포팅이 되어서 공개가 되었다는 게 상당히 저는 좀 놀라운 부분이었고
스타의 문법이 지금 바뀐 거 아니에요? 코딩의 품질보다는 지금 바이럴한 부분에 지금 스타 가중치가 갔다.
지금 이 프로젝트보다 스타 낮은 유명 프로젝트가 굉장히 많습니다. 예를 들면 Kubernetes, Node.js, Go, Rust ... 근데 지금 저희 문제라고 생각하는 이 Claude Code가 이 모든 repo보다 스타가 많아요. 근데 사람들이 이걸 돌려봤을까, 이걸 정말 코드가 아니라 스타가 먼저 붙는, 다른 문법으로 쓰이지 않았을까
그 코드는 밈이었다 — 동작하지 않는 정크
본인은 이걸 밈이라고 생각한다. 왜 그렇게 생각하냐 하니까, 실제로 코드는 거의 동작하지 않았다. 그냥 개념도가 있는 약간의 정크였다고 이야기를 하더라고요.
그럼에도 사람들이 이걸 거의 돌려보지 않고, 여기에 대한 의미만 가지고서 그냥 스타를 눌렀으며
메타 하네스와 극한의 토큰 소모
이분들은 이 위에 굉장히 적극적으로 다시 메타 하네스 레이어를 쌓으셨거든요. 이걸 더 어떻게 스케일을 낼 것이냐 해서 극단적인 토큰 소모를 처음에 보여주셨고, 그다음에 그 극단적인 토큰 소모가 자리를 잡으면서 ... UltraWork라든지 Ralph loop라든지 심지어 Autoresearch
Oh-My-Opencode를 예찬 님이 그냥 Oh-My-Claude-Code로 그대로 그냥 다시 쓰신 거거든요. 근데 원저자인 연규 님이랑 또 예찬 님은 그게 그냥 재밌고, 서로 친하고, 서로 주고받아요. 근데 여기서도 이미 저작권이 다 무너져 있거든요.
한 땀 한 땀 세대 vs AI 네이티브 — 근원적으로 다른 시각
저희 세대라고 표현합시다. 코딩을 한 땀 한 땀 하면서 이거에 뭔가 동질감을 느끼던 그런 사람들이 느끼는 것과 이제 AI를 처음 입문해서 10대 후반, 20대 초반의 AI 네이티브들이 근원적으로 다른 시각을 보이는 지점인 것 같아요.
이들은 처음 접한 코딩이나 에이전트 코딩이라는 AI라는 도구 자체가 저작권 따위는 그냥 다 무시해버리고 전부 딸깍딸깍 만들어주는 그런 기계였거든요.
Anthropic의 코드는 정말 AI가 쓴 코드였다
Anthropic이 처음에 이야기했던, Anthropic의 대부분의 코드는 AI로 쓰여진다, 그게 정말 사실이었던 겁니다. 그러니까 사람이 짰다고 전혀 볼 수 없는 코드들이었고
human interpretability가 훨씬 더 좋은 코드를 사실 저희는 좋은 코드라고 불렀던 것 같습니다. 근데 그런 건 전혀 고려되어 있지 않고 그냥 모델에 넣기 좋은 코드, 그리고 모델이 짰을 법한 문법으로 짜인 코드가 정말 적나라하게 50만 줄이 있었고
이런 코드를 사람이 직접 포팅한다면 얼마나 걸렸을까요? 저는 막 수십, 수백 명의 프로젝트 팀이 몇 개월은 기본이고 수년을 했을 수도 있겠다
캐시를 태우는 예술 — Anthropic의 진짜 자산
이 Claude Code가 내부에서 집중하고 있는 부분 중 하나는 굉장히 토큰 소모량, 그리고 돈에 대한 부분이 많은 것 같습니다.
이 프롬프트라고 하는 입력이죠. 하네스의 결과물을 잘 정렬해서 최대한 예쁘게, 기존과 같은 그 순서 캐시라고 하겠습니다. 캐시를 태우는 부분인 거예요. ... 내부 GPU 사용량을 떨어뜨리기 위한 토큰 사용량을 최대한 캐싱하기 위한 많은 고민들이 있는 것 같고, 근데 사실 이것도 저는 되게 Anthropic의 주요 자산이지 않을까
모델은 CPU, 하네스는 OS
이제는 모델과 하네스는 마치 CPU와 오퍼레이팅 시스템과 같은 그런 개념으로 이젠 같이 따라다녀요. 모델이 이제 semantic CPU인 거고, 하네스는 그거를 어떻게 처리해야 되는지에 대한 운영 체제인 거고, 또 이 운영 체제 위에서 다른 하네스를 더 쓰면 이제 회사들의 비즈니스 로직이 되는 거고
커뮤니티에서 먼저 생기고 Anthropic이 흡수한다
Anthropic 입장에서, Claude Code 입장에서도 이미 그들이 만들어야 되는 많은 혁신들의 원형들이 커뮤니티에서 먼저 다 생겨요. Ralph loop 생겼지, 그다음에 오픈 코드에서 팀 하는 거 생겼지
Claude Cowork도 어떻게 보면 지금 그 Peter가 만든 OpenClaw에 있는 장점들을 빼가는 거잖아요. 그러니까 아이디어라는 일종의 그런 유전자 덩어리가 있다면 ... AI가 그 아이디어라는 유전자를 먹어서 자기네 안에 구현해낼 거죠.
클린룸은 성립하지 않는다 — 코드를 봤다고 이미 써 있다
클린룸은 어떤 코드나 대상의 내부를 전혀 모른 상태에서 동작하는 방식을 ... 블랙박스로 두는 거죠. 외부에서 분석해서 그대로 동일한 동작을 하도록 만드는 일입니다.
이 OpenClaw, 지금 뭐 Claw Code였죠. 이게 원본이 되었던 Claude Code의 타입스크립트 버전이 공개되었기 때문에 내가 이걸 안 봤다는 주장을 하고 그걸 증명할 수 없다면 클린룸일 가능성은 되게 낮을 것 같아요.
그 레포에 보면 코드를 봤다고 써 있습니다. 그리고 여기에 대해서 우리 코드도 아니며, Anthropic가 허락도 받지 않았고, 심지어 코드를 보고 재작성한 것이라고 쓰여 있는 거죠.
Anthropic의 자가당착 — 밈의 진짜 의미
여태까지 어떤 OpenAI도 아마 전 그런 걸로 알고 있고, Anthropic과 AI 업계의 일관적인 주장은, AI로 재작성되고 해석된 것은 추론과 그런 학습에 의한 것이기 때문에 이거는 저작권 문제가 없는 것이야. 일단 이게 메인의 담론이었거든요.
근데 그 Anthropic 당사자 ... 자사의 코드가 유출되었을 때는 이걸 뭐 DMCA를 통해서 전부 삭제 요청을 하였고, 그런데 그중에서 또 이렇게 AI를 통한 리라이팅된 것에 대해서는 삭제 요청이 빠져 있던 거죠.
여태까지 이런 방식의 재작성을 저작권 침해가 아니다라고 주장했던 Anthropic이 ... 동작하지 않는 코드에 대해서 도리어 DMCA를 주장할 것이냐. ... 자가당착인 거죠. 어떻게 보면.
유튜브 선례 — 법이 아니라 세상이 바뀌면서 넘어간다
좋게 얘기하면 거인의 어깨에 올라탄 사례들이 굉장히 많았고요. 나쁘게 얘기하면 남의 IP 위에서 굉장히 회색지대의 어떤 사업을 만들고 빨리 고잉 빅 패스트 하면 기득권자가 되고 그러면 기득권자가 된 상태에서 다시 세상을 정의롭게 만든 케이스는 굉장히 많아요.
유튜브는 그야말로 그냥 불법 영화 공유 사이트였어요. 남의 IP 위에서 모든 회원들을 모았고 그런데 이제는 완전히 다른 컨셉을 하잖아요. 근데 그 법적인 부분들을 따지면서 넘어갔다기보다는요. 세상이 그냥 바뀌면서 넘어갔어요.
소스 코드 가치가 0에 수렴한다
코드를 보고 작성했냐, 아니면 뒤에서 돌고 있는 어떤 워킹 프로토타입이나 그냥 UX가 잡혀 있는 제품을 보고 그렇게 복제했냐, 굉장히 작은 차이거든요. 그만큼 저희가 사실 소스 코드라는 것의 가치도 많이 낮아진 거죠.
코드 자체의 가치가 정말 낮아지고 있지 않을까. ... 정말 코드의 가치가 흔히 0이라고 하는데, 0을 뭐 완전히 0으로 만들 수는 없겠지만 훨씬 더 0으로 빨리 근접하지 않을까
2028년에 슈퍼 인텔리전스가 모든 일을 처리하는 그런 세상에, 그 시점에서 이걸 생각해 보면요. 이건 너무 당연한 일들이에요. Claude Code의 소스 코드가 유출되지 않았더라도 Claude Code랑 티키타카하는 슈퍼 인텔리전스가 붙으면 하루 만에 만들어지는 일들이 되는 거죠.
일부러 유출하는 시대 — 강력한 지식재산권 확보 수단
만약에 이게 적합하다면 저는 기업이 일부러 자기 코드를 유출하고 이 아이디어는 우리가 코드가 유출돼서 유감이지만 다른 곳은 사용하지 않았으면 좋겠어. 엄청나게 강력한 또 지식재산권을 확보하는 수단이 될 수도 있지 않나.
OpenAI가 Codex를 오픈 소스로 유지하는 이유이기도 할 거예요. ... Claude Code가 그런 식으로 약간 알파 버전처럼 신기능을 막 흡수해 주면 사실 Codex는 그걸 오히려 또 뒤따라가면서 거기에서 굉장히 정제된 핵심 기능들만 깔끔하게 가져가는 형태로 ... 그냥 어떻게 보면 다 공생이에요.
가시성 문제 — 드러내면 지탄, 숨기면 좋은 제품
공통적으로 모두 공감하고 동의하시는 게 있어요. 앞으로 나오는 모든 하네스와 오픈 소스들이 갑자기 굉장히 좋아질 것이다.
오히려 드러내고 이야기를 하면 굉장히 안 좋은 일이라고 여겨질 거고요. 뭐 드러내지 않고 하는 실제적으로 그런 빌더들은 실제로 제품이 좋아지겠죠.
우수한 유전자가 시장에 배포됐는데 다 주워서 자기 거에 넣어야
공급망 공격과 관리 안 되는 코드의 비대칭
매우 인기 있는 라이브러리도 있는데, 그 라이브러리의 코드 자체에 악성 어떤 걸 심는다든지, 아니면 그 라이브러리가 의존하고 있는 더 하위 단의 라이브러리들 ... maintainer가 없거나, 혹은 조금만 기여를 하는 것만으로 maintainer의 권한을 취득할 수 있는 것들도 굉장히 많은 민주적인 시스템이다 보니까
AI를 통해서 코딩하다 보니까 제대로 된 개발자라면 lock down을 해 놓거나 뭐 그랬을 텐데, 그냥 딸깍딸깍 돌리다가 그런 취약 있는 라이브러리 그냥 써가지고 제로데이에 노출되고
너무 많은 코드들, 관리가 안 되는 코드들, 작동하지만 꼼꼼하게 못 보는 그런 것들에 대한 어떤 생성 대비 관리가 안 되는 그런 비대칭적인 거에 대한 신호들이 타임라인에 꽤 나오고 있단 말이죠.
이메일이 스팸으로 뒤덮인 것처럼
이메일이 소수의 어떤 선각자들만 쓸 때는 굉장히 깔끔한 수단이었는데, 이 모두가 들러붙고 상업적인 가치를 하면서 갖기 시작하면서 지금 사실 여러분 Gmail이나 네이버 메일 열어보세요. 90%는 스팸인 거죠. 그런 일들이 이제 이 코드 스페이스에서도 일어난다고 봐야 되죠.
그럼 더더욱 브랜드가 중요하거나 또 그런 것들을 사업 모델로 하는 그런 것들이 생길 겁니다.
제로데이가 실시간으로 찾아지는 시대 — 죄수의 딜레마
사람의 지적 능력과 엄청난 시간으로 찾아지던 보안 취약점이 거의 자동으로 실시간 찾아지더라. 그러니까 이래서 저희는 더 많은 보안 문제를 겪고 있지 않나
이게 죄수의 딜레마 같은 거라서 이 변화의 방향은 멈출 수가 없을 거예요. 나는 가만히 있더라도, 그럼 행동하는 사람이 나를 밟고 이익을 얻을 텐데 그게 서로에게 다 똑같은 영향을 미치는 순간 모두가 다 그 방향을 향해서 달리는 게 가장 합리적인 방법이거든.
인간의 취향과 선호만 남는다 — 디스토피아인가 유토피아인가
인간의 취향과 선호만 남지 않을까요? 사람이 더 근원적으로 좋아하는 제품, 근원적으로 좋아하는 형태, 이런 것들만 남고 나머지는 다 AI가 해버리지 않을까. ... 저는 디스토피아로 생각합니다.
디스토피아일 수도 있고, 아니면 유토피아일 수도 있죠. ... 무한의 computation이 된 시대가 와서 ... 현실이 아닌 이상적인 가상 현실 속에서 지금의 생활과 똑같은 걸 한다고 하면 그거는 유토피아일까요? 디스토피아일까요?
제가 디스토피아라고 말한 건 제가 근원적으로 약간 무언가를 만들고 싶다라는 빌더라는 바이어스가 있어서 그럴 것 같아요. 근데 그 시대에 정말 태어난 사람들이라면 이건 원래 당연한 거야, 원래 세상은 이런 거야라고 생각할 수 있는 거죠.
하네스 엔지니어링 — 코드 중요하지 않고 고객 경험이 전부
Claude Code의 내부 구현을 보면 정말 극한까지 제품을 깎은, SaaS라고 치면 정말 유저의 사용성을 10년 연구한, 20년 연구한 그런 느낌들이 되게 많이 들고 있고 코드 중요하지 않고, 코드 구조 중요하지 않고, 고객이 어떻게 느끼느냐, 이거 실제 사용하는 사용자가 어떤 느낌을 받느냐, 어떤 성과를 얻느냐에 끝까지 집중했다는 느낌을 받습니다.
근데 이게 AI 회사였다는 거죠. ... 결국 어떤 모델이 중요하지 않고 어떤 하네스가 중요하지 않고, 고객이 원하는 일, 내가 하고 싶은 도메인을 할 수 있는 일을 할 수 있게 최적의 비용으로 최적의 접근 방식으로 설계할 수 있는 팀이 다음 회사를 가져갈 수밖에 없고
굉장히 긴 시간 동안 코드를 짜면서 일을 했던 사람이고 이게 굉장히 어색하고 심지어는 불쾌하기도 한데 너무나 자명한 미래로 간다
생산적 마찰 — 떠밀려 간다는 느낌
쫓는 느낌도 있을 수 있지만 저는 떠밀려 간다는 느낌도 요새 많이 받거든요.
생산적인 마찰 그런 것들은 좀 쥐고 있어야 되는 거 아니에요? 빌더 맥락에서 내가 이거를 좋아했고 의미를, 가치를 부여했고 했던 것들은 그냥 매끄럽게만 갈 게 아니라 나한테 선택권이 있다. 그 말도 존중해 줄 필요가 있다
이 사건이 보여주고 있는 본질은 앞으로는 이런 일이 매우 비일비재할 것이다. ... 더 이상 이슈가 안 될 것이다.