비결은 없다
노정석 · 최승준 · 김성현
비밀 레시피는 없다. 좋은 데이터·안정적 인프라·충분한 연산이라는 기본기가 지금 모델 성능을 지배한다. RL이 답지가 된 시대의 병목은 환경 스케일링, 그리고 Fog of Progress 속에서 기술을 기다리는 전략.
EP 88: 비결은 없다
생각 덩어리
"기술" 한 가지로 말하기 어려운 이유
이전에 나왔던 세션들에서는 그래도 한 가지 주제를 잡고 그 주제에 대한 얘기들을 많이 했던 것 같은데요 ... 한 가지 주제를 잡고 계속 얘기를 하기보다는 다양한 주제들과 소회에 대해서 이야기를 해보는 게 좋겠다는 생각이 들었고
이 세션의 주제가 어떤 특정한 기술과 기술 발전에 대한 것이라기보다는 다양한 주제들에 대한 언급에 가까운 이유이기도 합니다 ... 왜 기술이라는 것에 대해서, 어떤 특정한 기술에 대해서 말하는 것이 지금 참 어려운가에 대한 약간 변명에 가깝습니다.
GLM 5 — 혁신의 방향은 거의 다 RL
GLM 5였어요. Zhipu AI에서 나온 리포트였는데 여기에 굉장히 흥미로운 기술적인 혁신들과 디테일들이 많이 있습니다. 아주 거칠게 요약하면 세 가지예요. RL을 더 효율적으로 하는 거 ... RL의 어떤 objective 같은 것들을 약간씩 수정해서 더 안정적으로 할 수 있게 하는 것 ... RL을 더 다양하게 하는 것.
GLM 5라는 이 리포트에서 수많은 혁신들이 거의 RL과 관련이 되어 있고 RL을 더 효율적, 더 안정적, 더 다양하게 하는 것이 지금 가장 큰 혁신의 방향이다라는 거죠.
The Second Half — RL이라는 답지
"The First Half" 같은 경우는 벤치마크가 있고 그 벤치마크에 대해서 방법을 개발하고 ... "The Second Half"로 오면서 우리는 방법에 대해서 답을 찾았다, 답지를 찾았으니까 이 답을 가지고 여기저기 문제에 대해서 적용하면 그만이다 ... 굉장히 어떻게 보면 오만하게 느껴지는 표현이기도 한데 동시에 이게 정말로 정확한, 최소한 지금 과거 2025년부터 지금까지 1년 동안은 굉장히 정확했다는 생각이 듭니다.
다들 RL이 답지, 답이 되었고, RL을 더 잘하기 위한 것, 그리고 RL을 더 확장하기 위한 것들이 대부분의 노력의 거의 전부였고 지금도 더더욱더 그렇습니다.
비밀 레시피는 존재하는가
비밀 레시피라는 것은 어떤 프런티어 모델들이 비밀 레시피를 갖고 있다고 하면 그게 방법적인 혁신에 좀 더 가깝다고 생각이 되거든요. 그 사람들이 전혀 알려지지 않은 어떤 비밀을 갖고 있어서 그 비밀을 알지 못하면 모델을 만들 수 없는, 이런 것들이 있다는 믿음을 좀 갖게 되죠.
GPT-3.5부터 지금까지 지켜봐 오면 다 그냥 점진적으로 모델을 개선하고 개발해 나가다 보면 나타날 수 있고 알 수 있는 것들이었던 것에 가까운 것 같습니다. 그나마 비밀 레시피에 가장 가까웠던 것은 RLVR인 것 같기는 합니다.
기본기의 시대 — 좋은 데이터, 안정적 인프라, 많은 연산
기본에 충실한 것인 것 같습니다. 좋은 데이터를 만들고, 안정적인 인프라를 갖춰서, 그리고 많은 연산을 사용해서 모델을 만들어 나가는, 이 가장 기본적인 것. 어떤 창조적인 방법이 아니라 이 기본이 지금 모델들의 성능을 지배하고 있다는 생각을 합니다.
기본에 충실할 수 있다면 많은 후발주자들이 따라잡을 수 있는 문제, 상황이, 환경이 갖춰진 것 같기도 해요. 동시에 이 기본에 충실한 경험들을 많이 쌓아놨던 지금 프런티어 기업들이 훨씬 더 유리한 지점, 시간적으로 유리한 지점에 존재하고 있는 것도 사실이죠.
제품을 만드는 감각 — 갈고닦기 vs 수치적 증대
AI 조직들은 ... 연구적인 성향이 좀 강하기 마련이라고 생각하거든요. 연구적 혁신이라든지 새로운 연구적 접근법 같은 것들에 대해서 훨씬 그 엔지니어들의 관심이 많이 가게 되어 있는 것 같습니다. 근데 저는 제품을 만드는 것은 그것과는 좀 다른 감각이 필요하다는 생각이 들어요.
조금씩 조금씩 더 연마해 나갔을 때 그때 느껴지는 차이가 사용자에게는 굉장히 크게 와닿을 수 있는 거고, 그렇지 않으면 자꾸 조금씩 구석을 채워 나가고 갈고닦아 나가는 것보다는 커다랗게 그리고 쉽게 성능적 증대, 수치적 증대를 가져다줄 수 있는 것에 대해서 훨씬 경도되게 되죠.
AI의 사회적 파급력 — 주가와 국가 문제
Anthropic이 어떤 형태의 제품을 내놨다, 서비스를 내놨다는 것만으로도 수많은 기업들의 주가가 출렁이고 있고요. 그리고 미국 정부에 모델을 넣느냐 넣지 않느냐 ... 하나의 프런티어 기업이 어떤 조건을 거느냐에 따라서 국가적인 문제가 되기도 하고, 이런 파급력이 점점 더 커지는 것 같습니다.
저는 계속해서 모델이 어떤 측면에서 발전할 수밖에 없다고 생각을 하거든요. 그러면 그 발전된 상황에서, 미래에서 이것들이 어떤 파급, 영향을 갖게 될까 하는 것이 약간 두려워지기도 합니다.
Fog of Progress — 안개 속에서의 상대적 위치
진보의 안개, 혹은 Fog of Progress. Geoffrey Hinton 교수가 했던 이야기가 계속해서 생각이 납니다. 이 모든 것들이 다 미래가 어떻게 될 것이다에 대한 예측에 달려 있는 것 같거든요.
도로에 안개가 깔려 있는 것처럼, 근접한 지점에 대해서는 보이지만 조금 더 나아가면 그거는 지수적으로 광자의 양이 줄어들기 때문에 알기 어려워진다. 단기간적으로는 계속해서 발전할 것이라고 분명하지만 장기간에 어떻게 되어 있을까에 대해서는 예측하기 어렵다
안개가 앞이 안 보이는 건 맞는데 각자 안개 속에서 어떤 위치에 있는지는 다른 것 같아요. 프런티어 랩은 더 앞에 있으니까 그들이 지수적으로 더 많이 보고 있는 건 부지의 사실이고. 저희 같은 사람들은 따라가면서 보는 거니까 그들보다는 당연히 적게 보고 있을 것이고
환경 스케일링 — RL 시대의 유일한 병목
RL에서의 환경을 얘기하는 건데 ... 어떤 에이전트가 그 안에 들어가서 활동을, 액션을 취하고 활동을 하고 거기에 따른 환경의 변화를 관찰하고 그 환경을 관찰한 다음에 거기에서 최종적으로 보상을 얻고
이전에는 단순한 어떤 함수 하나를 만드는 거였다면 이후에는 하나의 전체적인 프로그램을 만드는 게 될 거고, 앞으로는 서비스 하나를 통째로 만드는 게 될 겁니다. 그러면 이 환경들을 점점 더 늘려 나가야 되는데, 점점 더 늘려 나가서 발생하는 문제는 이 수준이 계속 높아지다 보니까 만들어야 되는 환경의 복잡성도 계속해서 높아지는 거죠.
RL이 정답이다, 이 모든 문제에 대한 해답이다라고 가정했을 때 ... 환경을 만드는 것이 오히려 유일한 기술의 병목이 될 텐데요.
환경 스케일링의 세 가지 궤적 — 지수·점근·선형
가장 낙관적으로 생각하는 사람들은 시간이 지나면 그 기술적 병목이 더더욱 쉽게 풀릴 거라고 생각할 수 있을 것 같아요 ... 그런 게 가능할 수 있는 사례는 제 생각에는 지속 학습 문제 같은 게 풀리면 이런 비슷한 일이 일어날 수 있을 거라고 생각합니다.
비관적으로 생각하면 복잡성이 계속 늘어나기 때문에 그 환경을 만들어 나가는 비용과 시간도 계속해서 증가하고, 그 복잡성이 어떤 감당 불가능한 수준에 이르면 발전이 정지할 거라고 생각할 수도 있습니다. 그러면 어떤 점근하는 파란색 곡선처럼 점근하는 형태가 되는 거죠.
약간의 기술적인 혁신과 개선을 통해서, 그리고 새로운 환경, 더 복잡한 환경을 만들어 나가는 비용이 그렇게 계속해서 끊임없이 증가하지 않는 경우라고 하면 직선에 가까운 형태로 계속 쭉 점진적으로 올라갈 것 같습니다.
선형이더라도 체감은 지수적
점진적으로 올라갔다고 하더라도 이것이 체감의 정도가 점진적일 거라는 것은 또 아니긴 합니다. 기술적인 발전의 차이는 굉장히 점진적인데 그 체감의 느낌은 어마어마하게 클 수는 있어요.
사람을 통해서 과제를 만드는, 이것도 프론티어 기업들은 계속 엄청난 돈을 자원을 투자하고 있다고 알고 있는데요 ... 그것을 통해서 계속해서 발전이 일어나고 있잖아요. 그리고 그것이 사람들한테는 갑자기 급진적인 혁신처럼 느껴지죠.
2026년의 결정적 변수 — RL에서의 돌파구
2026년을 지배하는 가장 중요한 키워드도 역시 모델의 ... 잔잔바리 아키텍처의 변화나 효율성 증가나 이런 부분들은 조금 당연히 그냥 받아들이는 부분이고, 모델의 근원적인 capability, 능력의 점프는 이 RLVR, 이 포스트 트레이닝에서, RL에서의 누가 어떠한 돌파구를 만드느냐가 가장 중요한 요소가 될 것 같다
지금 Anthropic이나 Google이나 OpenAI가 갖고 있는 차이들도 그 기업들이 RL에 대해서 어떻게 접근하고, RL의 환경을 어떻게 만들었고, 모델을 어떻게 가이드했고, RL로 가이드했고, 이런 부분들에 의해서 결정될 것이거든요.
모델 성향의 차이는 포스트 트레이닝에서 나온다
프리트레이닝은 Gemini가 여전히 제일 잘 돼 있고 제일 강할 거라고 생각을 하는데, 근데 프리트레이닝과는 별개로 사람들은, 어떤 사람들은 Codex를 선호하기도 하고 Claude를 선호하기도 하잖아요. 그 차이가 발생하는 건 RL에서, 포스트 트레이닝에서 발생하는 거지요.
Claude 캐릭터라는 게 어떤 기술적 혁신으로 만들어졌다고 말하기는 어려울 것 같습니다 ... 그 유명한 Amanda Askell 같은 사람들이 constitution을 만들고, Claude의 캐릭터를 정립하고, Claude라는 어떤 제품에 접근하고, 이 제품을 개선하고, 제품이 어떤 캐릭터를 가지고 성향을 가졌으면 좋겠다라고 하는 그런 측면에서의 관점과 개선들이 굉장히 크게 영향을 미치고
하네스와 모델의 정반합
Claude Code라는 하네스가 있다면 그 하네스에 대해서 모델이 학습이 될 것이거든요 ... 제품과 모델의 경계가 점점 더 가까워지는 것의 한 가지 이유이기도 합니다.
이 하네스가 환경의 일부이기 때문이죠. 그래서 Anthropic이라고 하면 Claude Code라는 하네스가 당연히 이 환경 스케일링과 포스트 트레이닝에서의 컴포넌트로 들어가 있죠. 그렇다고 하면 이 하네스를 통해서 이미 모델은 학습이 된 겁니다.
모델이 좋아지면 그것 때문에 하네스가 좋아지고, 그 모델과 결합한 하네스가 새로운 어떤 결과나 플로우를 내놓게 되고, 환경 역할을 하게 되면 그 자체를 또 그다음 세대의 모델이 통째로 내재화하는 그런 것들을 겪게 되고, 더 나은 출발선에서 다시 또 하네스가 만들어지고
일반화 능력과 지속 학습
환경 스케일링을 돌파할 수 있는 한 가지 방법은 모델의 일반화 능력을 확장하는 것이긴 할 거거든요. 좀 더 간단한 환경이나 좀 더 다른 환경에 대해서 학습을 하더라도 모델이 더 복잡한 환경과 더 다른 환경으로 일반화될 수 있으면 이 문제가 좀 더 쉬워지는 거겠죠.
Claude 봇들이 어디 가서 커뮤니티를 한다든지, 글을 쓴다든지, 자율적으로 어떤 과제를 수행한다든지 ... 그 공간 속에서 어떤 수행을 하고 상호작용을 하면서 그것이 모델을 발전시키고 변화시킬 수 있는 계기가 될 수 있다고 하면, 모델이 갑자기 크게 변하겠죠. 그게 지속 학습 시나리오일 거라고 저는 생각을 합니다.
기술을 기다리는 전략
이렇게 수많은 하네스들을 만들고 복잡하게 만들어서 나온 제품보다 한 3개월에서 6개월 정도 기다려서 새 모델 나왔을 때 그 모델을 가지고 단순한 하네스를 써서 제품을 만드는 것이 훨씬 만들기 쉽고 성능도 훨씬 강력하더라
굳이 그런 조바심을 내는 것보다는, 다른 한 가지 전략은 기술이 발전하는 것을 기대하면서 즐기는 것도 또 한 가지 전략이라고 생각합니다. 뒤처진다고 느끼는 것보다는, 앞으로 발전될 모델들을 기다리면서, 그 모델들이 훨씬 내가 더 쉽게 쓸 수 있게 만들어 줄 거고, 더 큰 것들을 더 쉽고 강력하게 해낼 수 있을 거라고 기대하는 것도 한 가지 전략
지금 못하는 것을 기준으로 미래를 예측하는 함정
AI 모델이 손가락을 제대로 못 그리는 것뿐만 아니라 얼굴조차도 잘 그린 이미지 생성을 못 했던 시절이 있었죠. 그때 많은 예술가들은, 아티스트들은 손가락조차도 제대로 못 그리는 AI를 어떻게 쓰겠냐라는 생각을 하는 사람들도 많이 있었습니다. 그거는 시간이 지나면 해결될 문제에 훨씬 가까웠습니다.
사람들은 지금 시점에서 가능한 것과 가능하지 않은 것을 기준으로 앞으로도 그게 계속될 거라고 믿는 경향이 생각보다 크게 있는 것 같습니다.
Claude Code를 만들었던 Boris Cherny도, 지금 안 되는 문제가 있다면 6개월 후의 모델이 될 거라 가정하고 6개월 후의 모델을 상대로 제품을 만든다라는 얘기를 했었거든요.
검증 가능성의 한계 — RLVR로부터 도망가야 하는 영역
지금 RL의 중요한 패러다임은 검증 가능성인데, 인간의 직무를 잘 분석해 봤더니 사실 검증 가능하지 않은 부분들이 많더라라든지 이런 것들이 조금 더 가능한 시나리오일 수도 있지 않을까
커뮤니케이션이 중요하다라든지, 코드라고 하면 코드에서도 좀 더 검증하기 어려운 부분들이 있죠. 코드 퀄리티라든지 품질이라고 얘기하는 것들, 이런 부분들이.
컨텍스트 관리 — 모델 자체가 하는 쪽으로
컨텍스트 관리에서는 말씀하신 방법들 같은 것들, 그리고 Sparse Attention 같은 것들이 훨씬 전통적으로 생각하는 기술 기반 방법일 거고요. 그다음에 지금 한 가지 일어나고 있는 중요한 축은 멀티 에이전트하고 자체적인 요약이죠. Compaction이라고 표현하기도 하는데 모델 자체가 컨텍스트를 관리하도록 만드는
대충 컨텍스트의 길이를 보니까 '아, 지금은 여기서 끝내지 못하겠구나. 넘기자, 다음으로.' 그렇지만 넘길 때 지금까지 작업 진행 상황을 넘기기 위해서 요약해 놓자. 이런 의사결정을 할 수 있죠 ... 결국은 다음 모델을 도구로 봐서 다음 모델에 넘기자.
이전이라고 하면 그걸 모든 걸 하네스로 했어야 되죠. 하네스로 '아, 이쯤 되면 컨텍스트가 이쯤 되면 이걸 쪼개, 어떻게 쪼개, 어떻게 요약해.'
학습 가능한 것과 가능하지 않은 것의 질적 차이
지금은 도구 사용 같은 한계가 있겠지만 그것들이 어쨌든 학습된다는 거죠. 그리고 이것도 제 개인적인 믿음이지만 AI 모델에서 학습이 가능한 것과 가능하지 않은 것은 질적인 차이가 있습니다.
컨텍스트를 모델이 알아서 스스로 관리한다고 생각했을 때 그러면 컨텍스트 관리를 중심으로 한 어떤 하네스들에 대한 관점이 좀 바뀌어야 될 수도 있겠죠.
지속 학습 — 모두 다 하고 있다
Dario Amodei 최근 인터뷰 중에 굳이 지속 학습 안 하고도 문제 풀 수 있다, 그런 뉘앙스를 비친 것 같기도 해요.
저는 여전히 그쪽 부분에서는 컨텍스트만으로는 안 될 것 같고 지속 학습, 학습이 일어나야 되는 ... 컨텍스트 관리 관점에서 보면 어쨌든 길이가 문제지, 컨텍스트를 잘 넣으면 다 된다 이런 느낌인데 저는 그보다는 학습이 필요하긴 할 것 같다
더 이전에는 지속 학습이 안 한다는 느낌에 가까웠던 것 같은데 점점 더 메시지가 지속 학습 한다는 쪽에 가까워지는 것 같더라고요.
기술 발전을 즐기는 것
저는 그것과는 별개로 모델을 만드는 것이, 그리고 좋은 모델로 이어지는 작업들을 하는 것이 즐겁습니다. 좀 더 나은 모델을 만들기 위해서 어떤 작업을 하고 어떤 기술을 개발하는 것을 좋아하는 쪽인 것 같습니다.
앞으로 일어날 일들을, AI의 발전을 즐기게 된 것 같습니다.
짜증 내기보다는 즐기는 게 저희 답이죠.
불확실한 시대의 균형 감각
미래는 예측하기가 참 어려운 것 같거든요. 다들 어떤 미래의 예측에 기반해서 불안해하는 것, 불안해지는 것 같기도 한데, 불안해지기도 하고 너무 낙관하기도 하고, 다 모든 것들이 일어나죠. 그렇지만 그런 어떤 낙관하고 불안해하기에는 미래는 예측하기 너무 어려운 것이 아닌가
너무너무 다양한 가능성이 있고 너무너무 다양한 그 확률을 알지 못하기 때문에 불확실성의 측면에서 보면 어떤 한 가지, 그것을 믿고 그 믿음을 통해서 흔들릴 정도로 우리가 확실하게 알지는 못하지 않을까.
비관과 낙관, 이 사이에서 균형 감각이 결국 제일 중요하다라는 생각이 드는데, 그 균형 감각이 뛰어난 사람들은 항상 어떤 미래에서 잘 적응하고 올바른 배팅들을 하게 되고, 혹은 위험 관리를 하게 되고 하는 그런 것들을 보게 되고, 너무 극단에서 한쪽으로 가는 사람은 누구는 기회를 놓치거나, 혹은 누구는 한 번은 맞출 수 있으나 그다음은 못 맞추고