AI FrontierEP 94

Anthropic과 낮게 열린 과실들

노정석 · 최승준

2주 만의 녹화 — Opus 4.7·Mythos·Claude Design·Managed Agent. 딸깍의 시대와 wrapper 비즈니스의 취약성, ChatGPT unbundling과 AI for Science라는 두 도망길. 개인화 정밀의료·유전체 모델, 그리고 Attention Business 시대의 취향.

EP 94: Anthropic과 낮게 열린 과실들

생각 덩어리

한 달이 1년 같은 세상 — 2주는 반년

저희가 이제는 한 달이 1년 같은 세상을 살고 있다고 생각이 들고 ... 2주라고 하면 반년이잖아요. 그야말로 반년의 임팩트예요.

너무 많아서 그냥 주마간산으로 얇게 얇게 봐야 될 것 같긴 하고 ... 이게 머릿속에 컨텍스트가 다 로딩이 돼 있지 않거든요.

70일 주기 — 모델 출시 리듬과 항상 최상위로 몰리는 수요

얼추 이 간격을 평균 내면 대략 한 70일 간격마다 모델이 나온다고 봐야 돼요.

초창기만 하더라도 Sonnet과 Haiku의 런칭 간격은 계속 넓어지고 있고요 ... Opus는 계속 좁아지고 있고. 원래 고급 모델은 조금 쓰고 Sonnet 같은 걸 작업에 많이 쓰는 형태가 될 줄 알았는데 사람들은 항상 최고의 모델을 좋아한다.

이 주기로, 이 간격으로 계속 피곤한 일들이 있다. 계속 있는 것들 한 번 이렇게 리팩토링하고 개편하고 그러는 작업들을 해야 되는구나.

Anthropic의 집중 전략 vs Google의 Science 중력

Anthropic이 참 잘한 것 같긴 해요. 그냥 명확하게 텍스트와 코딩에만 완전히 집중하고 그다음에 B2B 유스 케이스로 애플리케이션들을 깔면서 깔끔하게 조합해 나가기 시작한 거.

Google 같은 경우에는 ... 이 코딩이나 B2B 엔터프라이즈 이런 쪽의 문제가 뭔가 인류를 구원할 정도의 문제라고 보고 있지 않은 것 같아요. Isomorphic Labs라든지 사이언스라든지 알파 시리즈 쪽에 훨씬 더 많은 웨이트가 걸려 있어서

하드웨어 2~3년 vs 소프트웨어 70일 — 리드 타임 미스매치

이 타임프레임이 하드웨어의 타임프레임은 적어도 2, 3년의 리드 타임을 가지고 돌아가는 영역인데 소프트웨어는 지금 보시다시피 60일, 70일 단위니까 그 두 개의 미스매치 때문에 생기는 것 같아요.

Mythos 10T = 인간 뇌 캐파의 10분의 1

Mythos는 10T잖아요 ... 인간의 뇌가 뉴런의 개수가 100B ... 한 뉴런당 이론상 천 개 정도의 시냅틱 커넥션이 존재한다고 하니까 100T죠. ... 이론상 인간의 뇌가 가질 수 있는 맥시멈 캐파의 10분의 1이 온 거죠.

Mythos 출시 지연의 IPO 마케팅 해석

Anthropic이 Mythos가 사이버 보안 능력 때문에 이거는 런칭하기가 어렵다고 이렇게 소위 밑장을 깔고 홍보를 하고 ... Anthropic이 마케팅적으로는 홈런이죠.

IPO 할 때까지는 Anthropic이 그렇게 오버하는 것들 좀 봐줘야 된다는 인식도 있다

해킹·보안 능력 = 도구 조합의 창발

보안 쪽의 능력이 강한 게, 이미 있는 도구들을 잘 조합하는 능력이 뛰어나다는 뉘앙스 ... 코딩을 잘하는 모델로 계속 가다 보니까 자연스럽게 이런 제로데이를 찾을 정도의 능력 ... black hat으로도 쓸 수도 있고 white hat으로도 쓸 수 있는 그런 능력을 가지게 된 상태

취약점이라는 거는 그 연결 사이에서 탄생하기 때문에 어떤 것과 어떤 것들을 이렇게 단품들을 이해하는 게 아니라 그것들이 결합됐을 때 나오는 어떤 창발적 현상에 대한 많은 암묵지스러운 사고를 필요로 하거든요.

인간은 예를 들면 ... 수학의 정수론, 수론을 하다가 또 위상수학을 하기를 기피하는 게 ... 그런 걸 모델들은 연결해 낼 수 있는, 둘 다 잘하니까 할 수 있는

Capability Overhang — 과잉 능력을 누가 꺼내 쓰느냐의 싸움

지금 일어나는 모든 일들의 본질을 보면 사람의 기여분이 거의 없어요. 대부분 다 모델이 이미 가지고 있을 거라고 추정하는 모델의 과잉 능력, 저희가 항상 얘기하는 capability overhang이란 말을 많이 하잖아요. 그 능력을 누가 빨리 잘 꺼내 쓰느냐의 지금 싸움이거든요.

모델이 아직 스스로는 그거를 못하지만 사람이 질문을 던지면 문헌을 잘 찾는 것만으로도 low-hanging fruit, 낮은 과실들을 따는 게 수학이나 과학 쪽에서 지금 일어나고 있는

Adaptive Thinking의 역설 — 자동이 오히려 품질 들쭉날쭉

4.7이 adaptive thinking이라는 거를 웹에서는 내놨습니다 ... 그런데 4.6까지는 추론을 항상 고정해 놓을 수 있었는데 지금은 GPT-5 나왔을 때처럼 adaptive로

주차장 가는 거를 thinking을 안 켜고 하면 당연히 걸어가야 된다라고, thinking을 켜고, Ultrathink, 이런 거를 프롬프트에 넣어주면 당연히 차 가지고 가야 된다, 그런 식으로 하더라고요.

웹에서는 그걸 못 하게 돼 버린 거예요. Claude Code에서만 thinking을 default로 고정할 수 있지

Tokenizer 축소로 인한 비용 1.3~1.4배 상승

Opus 4.6보다 4.7이 토큰을 훨씬 많이 쓴다는 게 지금 ... 이 얘기는 저희 같은 사용자 입장에서는 토큰 값이 비싸졌다는 거거든요.

CJK 쪽 언어의 tokenizer는 안 변했다 ... 영어로 된 산문, 시 이런 것들도 보니까 곱하기 1.3 됐더라고요. Claude Code가 쓰는 그냥 일반적인 우리 CLAUDE.md 영어죠. 그다음에 코드들, 거기가 사실은 1.4예요.

Knowledge Distillation 파이프라인 — Big→Opus→Sonnet→Haiku

하나의 big model, 예를 들어 그 big model을 Mythos라고 쳐보죠 ... 제일 뛰어난 모델에서 그냥 Opus급, Sonnet급, Haiku급으로 나눠서 그 knowledge distillation 형태로 해서 그냥 training 하는 것 같다

(KD 3단계 기법) teacher model이 ... 정답지를 한 번 쓰면 그 정답지를 가지고 전통적인 pre-train 방식 ... log probability, ... top-k에서 top 한 100 정도를 꺼낸다 ... 어느 단계에 가면 무조건 on-policy로 돌리더라고요.

6~10개월 격차의 log scale 해석

Amodei는 지금 한 6개월에서 10개월 정도의 차이 정도 앞서 있지, 따라올 거다라고 얘기를 하긴 하더라고요.

6개월에서 10개월이 저희 지금 상대적 개념으로 6년에서 10년 떨어진 그런 걸 하고 있는 거니까. ... log scale 비슷하게 다르게 생각하는 그런 게 필요하긴 하죠.

토큰 값은 합리적 범위로 수렴 — 사업 계획은 상승 betting 금물

이거 자체가 무언가 저작권으로 보호받는 recipe가 아니기 때문에 중국 lab이 따라 하거나, 혹은 Google이 더 막대한 자원으로 밀면 그 값은 계속 내려가는 게 맞다고 보는 게 맞을 것 같아요.

저희도 사업 계획을 할 때 토큰 값이 올라간다는 거에 betting하는 것보다는 토큰 값은 계속해서 굉장히 합리적인 가격 선에 머무를 거야 ... 합리적인 범위 안에 머무를 거라고 생각하고 사업 계획을 짜는 게 맞는 것 같고

Managed Agent — 뇌와 손의 디커플링

이 매니지드 에이전트 ... 이걸 약간 OS스러운 쪽으로 가는 방향 ... 기억에 관련된 것 분리해 놓고, 세션에서 이거는 스토리지 마음껏 쓸 수 있는 쪽. 그다음에 샌드박싱으로 해서 샌드박스 코드들, 도구들.

이게 중요한 거는 모델이 시크릿 같은 거, 예를 들면 크레덴셜에서 쓰는 토큰이라든가 그런 것들을 자꾸 주면 그게 유출될 수 있으니까 분리하는 작업

뇌와 손을 디커플링한다, 분리한다라는 어떤 개념으로 가고 있고, 이 매니지드라는 거에서도 우리가 예전에 매니지드 버전이 있었잖아요. C++ 위에 C# 나오듯이 메모리 관리해 주고

하네스의 영속성 — 프론티어 모델과 고객 사이의 유일한 영역

하네스의 원래 의미가 사실은 가둔다, 컨트롤, 이런 의미니까요. 아무리 모델이 좋아져도 개인이든 회사든 저 하네스의 존재는 반드시 필요해질 것 같습니다. 저 영역이 프론티어 모델을 하지 않는 우리들이 그냥 고객과 프론티어 모델 사이에서 유일하게 남아 있는 영역인 것 같아요.

Automated Alignment Researcher — Weak→Strong 가이드의 역설

AAR이 결국에는 얼라인먼트 쪽에 한정된 거긴 하지만 그 연구를 하는 자동 모델이에요.

이거를 일종의 힐 클라이밍 문제로 해결 가능한가 ... 관측하기에는 아닌 것 같다. 여전히 취향과 다양성은 아직은 사람이 좀 가이드해 줘야 된다.

위크한 모델이 어떻게 강한, 스트롱한 모델을 가이드하고 학습하게 할 거냐 ... 인간이 약한 모델이 될, 약한 상태에서 어떻게 정렬을 할 건지가 Jan Leike가 오랫동안 파고들었었던 문제

Alien Science — 인간 verifier의 한계 지점

인간이 더 이상 verifier로 개입할 수 없는 지점이 나올 겁니다. 그래서 Alien Science라고 얘기한 거죠.

그 연구들이 모델로부터 나왔을 때 그거를 어떻게 다뤄야 하는가의 문제를 상상하기 시작했다는 거죠.

영화 'Her'에서도 사만다가 Theodore를 떠나는 이유는 그거잖아요. 너랑 말이 안 통해서.

Functional Emotion — 감정도 프로그램이다

이모션 벡터 찾아내는 연구를 보면서 이게 무언가 이모션이라는 다른 영역에 그냥 몰려 있는 게 아니라 여기저기 흩어져 있는 걸 보면서, 이모션도 이것도 프로그램이구나라는 생각이 좀 들었어요.

Anthropic의 톤은 이게 사람의 감정하고는 구분해야 되는 펑셔널 이모션이라고 하긴 했습니다.

Claude Design + 인앱 브라우저 — 프론트엔드 피드백 루프 닫힘

Claude Design 인트로 영상 ... 지금 이게 동영상이 아니에요 ... 다 DOM으로 지금 실시간 애니메이션 되고 있는 중 ... 이것 자체를 Claude Design으로 만든 것 같아요.

Claude Code 앱도 업데이트가 됐고 Codex 앱도 데스크톱 앱이 둘 다 업데이트가 됐거든요. 둘 다 뭐가 들어갔냐 하면 인앱 브라우저가 들어갔습니다 ... Claude Code도 그렇게 보고서 캡처하고 Google Antigravity가 초반에 그랬던 것처럼 그래서 피드백 루프를 닫는 게 현재 되고 있어요.

element마다 다 ID 붙이고 프런트에서 그 ID들을 하고 여기 크기 좀 줄여, 늘려, 뭐 하고 하는 것들이 노가다였는데 그게 엄청 편리해졌네요.

'딸깍'의 시대 — wrapper 비즈니스의 취약성

(원본 후반부 논의 — 기존 외부 서비스들이 Anthropic에 내재화되며 wrapper 비즈니스의 차별성이 약해짐. 도망길은 두 개 남음.)

첫 번째 도망길 — ChatGPT unbundling

(Bundle된 플랫폼의 세부 유스 케이스를 독립 제품으로 쪼개서 niche로.)

두 번째 도망길 — AI for Science

(바이오·화학·물리·수학. 도메인 문헌 탐색만 잘해도 low-hanging fruit이 있음.)

개인화 정밀의료와 유전체 모델

(Sid Sijbrandij 사례 — 유전자 시퀀싱부터 mRNA 백신 설계까지 소프트웨어 엔지니어링으로. wet lab 이전까지 거의 모든 것.)

Attention Business 시대 — 수행력은 AI, 결정은 인간 취향

시그널과 노이즈를 구별하는 능력이 사람의 가치가 되겠죠.

메모리 시스템이든 개인 지식 베이스든 ... 너무 구현 난이도가 내려갔어요. 그냥 이거 Claude Code에다 넣고서는 해달라고 하면

YouTube 원본 →원본 사이트 →