Anthropic과 낮게 열린 과실들
노정석 · 최승준
2주 만의 녹화 — Opus 4.7·Mythos·Claude Design·Managed Agent. 딸깍의 시대와 wrapper 비즈니스의 취약성, ChatGPT unbundling과 AI for Science라는 두 도망길. 개인화 정밀의료·유전체 모델, 그리고 Attention Business 시대의 취향.
EP 94: Anthropic과 낮게 열린 과실들
생각 덩어리
한 달이 1년 같은 세상 — 2주는 반년
저희가 이제는 한 달이 1년 같은 세상을 살고 있다고 생각이 들고 ... 2주라고 하면 반년이잖아요. 그야말로 반년의 임팩트예요.
너무 많아서 그냥 주마간산으로 얇게 얇게 봐야 될 것 같긴 하고 ... 이게 머릿속에 컨텍스트가 다 로딩이 돼 있지 않거든요.
70일 주기 — 모델 출시 리듬과 항상 최상위로 몰리는 수요
얼추 이 간격을 평균 내면 대략 한 70일 간격마다 모델이 나온다고 봐야 돼요.
초창기만 하더라도 Sonnet과 Haiku의 런칭 간격은 계속 넓어지고 있고요 ... Opus는 계속 좁아지고 있고. 원래 고급 모델은 조금 쓰고 Sonnet 같은 걸 작업에 많이 쓰는 형태가 될 줄 알았는데 사람들은 항상 최고의 모델을 좋아한다.
이 주기로, 이 간격으로 계속 피곤한 일들이 있다. 계속 있는 것들 한 번 이렇게 리팩토링하고 개편하고 그러는 작업들을 해야 되는구나.
Anthropic의 집중 전략 vs Google의 Science 중력
Anthropic이 참 잘한 것 같긴 해요. 그냥 명확하게 텍스트와 코딩에만 완전히 집중하고 그다음에 B2B 유스 케이스로 애플리케이션들을 깔면서 깔끔하게 조합해 나가기 시작한 거.
Google 같은 경우에는 ... 이 코딩이나 B2B 엔터프라이즈 이런 쪽의 문제가 뭔가 인류를 구원할 정도의 문제라고 보고 있지 않은 것 같아요. Isomorphic Labs라든지 사이언스라든지 알파 시리즈 쪽에 훨씬 더 많은 웨이트가 걸려 있어서
하드웨어 2~3년 vs 소프트웨어 70일 — 리드 타임 미스매치
이 타임프레임이 하드웨어의 타임프레임은 적어도 2, 3년의 리드 타임을 가지고 돌아가는 영역인데 소프트웨어는 지금 보시다시피 60일, 70일 단위니까 그 두 개의 미스매치 때문에 생기는 것 같아요.
Mythos 10T = 인간 뇌 캐파의 10분의 1
Mythos는 10T잖아요 ... 인간의 뇌가 뉴런의 개수가 100B ... 한 뉴런당 이론상 천 개 정도의 시냅틱 커넥션이 존재한다고 하니까 100T죠. ... 이론상 인간의 뇌가 가질 수 있는 맥시멈 캐파의 10분의 1이 온 거죠.
Mythos 출시 지연의 IPO 마케팅 해석
Anthropic이 Mythos가 사이버 보안 능력 때문에 이거는 런칭하기가 어렵다고 이렇게 소위 밑장을 깔고 홍보를 하고 ... Anthropic이 마케팅적으로는 홈런이죠.
IPO 할 때까지는 Anthropic이 그렇게 오버하는 것들 좀 봐줘야 된다는 인식도 있다
해킹·보안 능력 = 도구 조합의 창발
보안 쪽의 능력이 강한 게, 이미 있는 도구들을 잘 조합하는 능력이 뛰어나다는 뉘앙스 ... 코딩을 잘하는 모델로 계속 가다 보니까 자연스럽게 이런 제로데이를 찾을 정도의 능력 ... black hat으로도 쓸 수도 있고 white hat으로도 쓸 수 있는 그런 능력을 가지게 된 상태
취약점이라는 거는 그 연결 사이에서 탄생하기 때문에 어떤 것과 어떤 것들을 이렇게 단품들을 이해하는 게 아니라 그것들이 결합됐을 때 나오는 어떤 창발적 현상에 대한 많은 암묵지스러운 사고를 필요로 하거든요.
인간은 예를 들면 ... 수학의 정수론, 수론을 하다가 또 위상수학을 하기를 기피하는 게 ... 그런 걸 모델들은 연결해 낼 수 있는, 둘 다 잘하니까 할 수 있는
Capability Overhang — 과잉 능력을 누가 꺼내 쓰느냐의 싸움
지금 일어나는 모든 일들의 본질을 보면 사람의 기여분이 거의 없어요. 대부분 다 모델이 이미 가지고 있을 거라고 추정하는 모델의 과잉 능력, 저희가 항상 얘기하는 capability overhang이란 말을 많이 하잖아요. 그 능력을 누가 빨리 잘 꺼내 쓰느냐의 지금 싸움이거든요.
모델이 아직 스스로는 그거를 못하지만 사람이 질문을 던지면 문헌을 잘 찾는 것만으로도 low-hanging fruit, 낮은 과실들을 따는 게 수학이나 과학 쪽에서 지금 일어나고 있는
Adaptive Thinking의 역설 — 자동이 오히려 품질 들쭉날쭉
4.7이 adaptive thinking이라는 거를 웹에서는 내놨습니다 ... 그런데 4.6까지는 추론을 항상 고정해 놓을 수 있었는데 지금은 GPT-5 나왔을 때처럼 adaptive로
주차장 가는 거를 thinking을 안 켜고 하면 당연히 걸어가야 된다라고, thinking을 켜고, Ultrathink, 이런 거를 프롬프트에 넣어주면 당연히 차 가지고 가야 된다, 그런 식으로 하더라고요.
웹에서는 그걸 못 하게 돼 버린 거예요. Claude Code에서만 thinking을 default로 고정할 수 있지
Tokenizer 축소로 인한 비용 1.3~1.4배 상승
Opus 4.6보다 4.7이 토큰을 훨씬 많이 쓴다는 게 지금 ... 이 얘기는 저희 같은 사용자 입장에서는 토큰 값이 비싸졌다는 거거든요.
CJK 쪽 언어의 tokenizer는 안 변했다 ... 영어로 된 산문, 시 이런 것들도 보니까 곱하기 1.3 됐더라고요. Claude Code가 쓰는 그냥 일반적인 우리 CLAUDE.md 영어죠. 그다음에 코드들, 거기가 사실은 1.4예요.
Knowledge Distillation 파이프라인 — Big→Opus→Sonnet→Haiku
하나의 big model, 예를 들어 그 big model을 Mythos라고 쳐보죠 ... 제일 뛰어난 모델에서 그냥 Opus급, Sonnet급, Haiku급으로 나눠서 그 knowledge distillation 형태로 해서 그냥 training 하는 것 같다
(KD 3단계 기법) teacher model이 ... 정답지를 한 번 쓰면 그 정답지를 가지고 전통적인 pre-train 방식 ... log probability, ... top-k에서 top 한 100 정도를 꺼낸다 ... 어느 단계에 가면 무조건 on-policy로 돌리더라고요.
6~10개월 격차의 log scale 해석
Amodei는 지금 한 6개월에서 10개월 정도의 차이 정도 앞서 있지, 따라올 거다라고 얘기를 하긴 하더라고요.
6개월에서 10개월이 저희 지금 상대적 개념으로 6년에서 10년 떨어진 그런 걸 하고 있는 거니까. ... log scale 비슷하게 다르게 생각하는 그런 게 필요하긴 하죠.
토큰 값은 합리적 범위로 수렴 — 사업 계획은 상승 betting 금물
이거 자체가 무언가 저작권으로 보호받는 recipe가 아니기 때문에 중국 lab이 따라 하거나, 혹은 Google이 더 막대한 자원으로 밀면 그 값은 계속 내려가는 게 맞다고 보는 게 맞을 것 같아요.
저희도 사업 계획을 할 때 토큰 값이 올라간다는 거에 betting하는 것보다는 토큰 값은 계속해서 굉장히 합리적인 가격 선에 머무를 거야 ... 합리적인 범위 안에 머무를 거라고 생각하고 사업 계획을 짜는 게 맞는 것 같고
Managed Agent — 뇌와 손의 디커플링
이 매니지드 에이전트 ... 이걸 약간 OS스러운 쪽으로 가는 방향 ... 기억에 관련된 것 분리해 놓고, 세션에서 이거는 스토리지 마음껏 쓸 수 있는 쪽. 그다음에 샌드박싱으로 해서 샌드박스 코드들, 도구들.
이게 중요한 거는 모델이 시크릿 같은 거, 예를 들면 크레덴셜에서 쓰는 토큰이라든가 그런 것들을 자꾸 주면 그게 유출될 수 있으니까 분리하는 작업
뇌와 손을 디커플링한다, 분리한다라는 어떤 개념으로 가고 있고, 이 매니지드라는 거에서도 우리가 예전에 매니지드 버전이 있었잖아요. C++ 위에 C# 나오듯이 메모리 관리해 주고
하네스의 영속성 — 프론티어 모델과 고객 사이의 유일한 영역
하네스의 원래 의미가 사실은 가둔다, 컨트롤, 이런 의미니까요. 아무리 모델이 좋아져도 개인이든 회사든 저 하네스의 존재는 반드시 필요해질 것 같습니다. 저 영역이 프론티어 모델을 하지 않는 우리들이 그냥 고객과 프론티어 모델 사이에서 유일하게 남아 있는 영역인 것 같아요.
Automated Alignment Researcher — Weak→Strong 가이드의 역설
AAR이 결국에는 얼라인먼트 쪽에 한정된 거긴 하지만 그 연구를 하는 자동 모델이에요.
이거를 일종의 힐 클라이밍 문제로 해결 가능한가 ... 관측하기에는 아닌 것 같다. 여전히 취향과 다양성은 아직은 사람이 좀 가이드해 줘야 된다.
위크한 모델이 어떻게 강한, 스트롱한 모델을 가이드하고 학습하게 할 거냐 ... 인간이 약한 모델이 될, 약한 상태에서 어떻게 정렬을 할 건지가 Jan Leike가 오랫동안 파고들었었던 문제
Alien Science — 인간 verifier의 한계 지점
인간이 더 이상 verifier로 개입할 수 없는 지점이 나올 겁니다. 그래서 Alien Science라고 얘기한 거죠.
그 연구들이 모델로부터 나왔을 때 그거를 어떻게 다뤄야 하는가의 문제를 상상하기 시작했다는 거죠.
영화 'Her'에서도 사만다가 Theodore를 떠나는 이유는 그거잖아요. 너랑 말이 안 통해서.
Functional Emotion — 감정도 프로그램이다
이모션 벡터 찾아내는 연구를 보면서 이게 무언가 이모션이라는 다른 영역에 그냥 몰려 있는 게 아니라 여기저기 흩어져 있는 걸 보면서, 이모션도 이것도 프로그램이구나라는 생각이 좀 들었어요.
Anthropic의 톤은 이게 사람의 감정하고는 구분해야 되는 펑셔널 이모션이라고 하긴 했습니다.
Claude Design + 인앱 브라우저 — 프론트엔드 피드백 루프 닫힘
Claude Design 인트로 영상 ... 지금 이게 동영상이 아니에요 ... 다 DOM으로 지금 실시간 애니메이션 되고 있는 중 ... 이것 자체를 Claude Design으로 만든 것 같아요.
Claude Code 앱도 업데이트가 됐고 Codex 앱도 데스크톱 앱이 둘 다 업데이트가 됐거든요. 둘 다 뭐가 들어갔냐 하면 인앱 브라우저가 들어갔습니다 ... Claude Code도 그렇게 보고서 캡처하고 Google Antigravity가 초반에 그랬던 것처럼 그래서 피드백 루프를 닫는 게 현재 되고 있어요.
element마다 다 ID 붙이고 프런트에서 그 ID들을 하고 여기 크기 좀 줄여, 늘려, 뭐 하고 하는 것들이 노가다였는데 그게 엄청 편리해졌네요.
'딸깍'의 시대 — wrapper 비즈니스의 취약성
(원본 후반부 논의 — 기존 외부 서비스들이 Anthropic에 내재화되며 wrapper 비즈니스의 차별성이 약해짐. 도망길은 두 개 남음.)
첫 번째 도망길 — ChatGPT unbundling
(Bundle된 플랫폼의 세부 유스 케이스를 독립 제품으로 쪼개서 niche로.)
두 번째 도망길 — AI for Science
(바이오·화학·물리·수학. 도메인 문헌 탐색만 잘해도 low-hanging fruit이 있음.)
개인화 정밀의료와 유전체 모델
(Sid Sijbrandij 사례 — 유전자 시퀀싱부터 mRNA 백신 설계까지 소프트웨어 엔지니어링으로. wet lab 이전까지 거의 모든 것.)
Attention Business 시대 — 수행력은 AI, 결정은 인간 취향
시그널과 노이즈를 구별하는 능력이 사람의 가치가 되겠죠.
메모리 시스템이든 개인 지식 베이스든 ... 너무 구현 난이도가 내려갔어요. 그냥 이거 Claude Code에다 넣고서는 해달라고 하면