AI FrontierEP 892026-03-15 · 44:03

딸깍과 덜컹

노정석 · 최승준 · 김유진

GPT-5.4 출시 직후. 수많은 '딸깍' 간증 뒤에 있는 실체 — 하네스·스캐폴딩·위임·스킬 형성의 딜레마, 시니어 개발자들의 전향, 누군가 성공했다면 될 일이라는 규칙, 그리고 모델도 풀지 못하는 '덜컹' 구간에서 문제를 정의하는 능력.

EP 89: 딸깍과 덜컹

생각 덩어리

딸깍의 시대, 그리고 그 뒤의 덜컹

이번 주에 저희가 기다리던 GPT-5.4가 나왔고요. Claude도 새로운 기능들이 발표가 됐고, 사방에서 딸깍딸깍 "나 이거 만들었어, 이거 만들었어"라고 하는 간증기를 보고 있죠. 오늘 GPT-5.4와 그 딸깍, 그리고 그 수많은 딸깍 뒤에 존재하는 실체, 저희가 덜컹이라고 승준님이 표현을 해주셨는데, 그런 부분들에 대해서 한번 알아보도록 하겠습니다.

유튜브는 폐쇄적이다 — 에이전트가 읽을 수 있는 자막 사이트

늘 아쉬운 점이 유튜브 그 자체가 폐쇄적이기 때문에, Claude나 ChatGPT 같은 경우에는 자막을 다 공들여서 구성해 놓아도 에이전트들이 그거를 읽지 못한다라는 문제가 있었어요. 그래서 Claude랑 열심히 딸깍딸깍을 해서 만든 게 이 AI 프론티어 사이트입니다.

GPT-5.4 — Computer Use와 CoT 중 후속 질문

이 영상 하나는 Computer Use 에이전트 쪽이어서 요새 OpenAI, GPT-5.4 나오고서는 뭘 만들었다 뭘 만들었다 하는 것들이 공유되는 것들이 다 이거 관련인 거. 어떤 게임이라든가 3D 장면 같은 것들을 잘 만들 때 피드백 루프가 형성되는 거, 그다음에 대화하다가 중간에 방향을 트는, 그래서 후속 질문을 할 수 있게 되는, CoT 중에 후속 질문을 할 수 있는 기능이 좋았고요.

RL 환경 스케일링 — 표준 인간보다 훨씬 잘한다

Computer Use 에이전트 같은 경우에도 그 아래 환경 학습을 정말 잘 해낸 거죠. 저걸 pretrain에서 배웠을 리는 없고, 그 환경에서 어떤 때 어떤 액션을 해야 되는지에 대해서 굉장히 많은 시행착오를 겪으며 RL을 돌려서 높은 품질을 내게 된 것 같습니다.

실생활에서 쓰는 업무는 표준적인 인간보다는 훨씬 잘한다라는 부분은 너무 자연스럽게 받아들여야 되는 그런 순간이 왔습니다.

일 단위 릴리즈 — 시작해라와 결과만 주면 딸깍

시작해라와 어떤 결과를 내야 된다라는 것만 해주면, 그 결과를 내기 위해서 필요한 거의 대부분의 지식들을 모델이 가지고 있어서, 그야말로 정말 딸깍이 일어나는 것 같습니다. 많은 부분에서.

주 단위 릴리즈도 아니고 일 단위 릴리즈를 한 느낌이고, Claude Code 쪽에 그래서 좀 정신없기도 합니다.

Three.js Quake 포팅 — "1시간 뒤"

Three.js를 만든 Ricardo Cabello라고 ... Claude하고 함께 고전 게임이 됐죠, Quake나 Descent 이런 것들을 포팅한 거. 소스가 공개돼 있기 때문에 그걸 포팅하고 에셋 같은 거를 붙여서 라이브로 돌아가는 Quake 같은 거를 거의 동작하는 수준으로 포팅을 하셨더라고요.

포스팅 시작 자체가 재밌어요. "오케이 Claude, Quake를 Three.js로 포팅할 수 있어?" 그리고 1시간 뒤 이렇게 돼 있죠.

nanochat 자기 개선 루프 — 시켜 놓고 바라봤다

Andrej Karpathy의 며칠 전 포스팅이 ... GPT-2를 몇 달 전에 3시간 정도였는데, 지금은 2시간에 학습시킬 수 있다. 8개 H100 파드를 가지고 2시간 안에 GPT-2 레벨은 끝난다.

nanochat을 AI 에이전트들이 자동으로 반복 개선하도록 만들어 둬서 post-AGI의 기분을 즐기려 한다라는 농담 같은 걸 한 게 있습니다. 12시간 동안 110번의 변경이 이루어졌고, 그게 loss를 얼마큼 줄여, 그런 얘기들을 한 게 있어서 ... 자기 개선 루프라는 거죠.

하네스 엔지니어링 — 같은 실수를 다시는 하지 않게 만든다

하네스 엔지니어링이라는 용어의 출처가 이분 블로그였거든요. ... 에이전트가 실수를 하는 것을 발견할 때마다 시간을 들여 그 실수를 다시는 하지 않게 만드는 해결책을 설계한다. 엔지니어링한다는 개념으로 하네스 엔지니어링 해서 크게 두 가지를 얘기했는데, 프롬프팅이라는 것하고 실제 프로그래밍 도구를 통해서 에이전트가 나쁜 짓을 하는 거를 볼 때마다 다시는 그 짓을 못하게 하는 쪽으로 노력을 하고 있고, 에이전트가 좋은 거를 하고 있는지를 스스로 검증할 수 있게 하도록 어떤 하네스를 제공하고 있다라는 얘기를 하고 있습니다.

하네스는 말의 안장 — 증강하면서 동시에 조인다

증강하는 도구이긴 하지만 동시에 말의 안장이나 마구같이 딱 조이는 그런 느낌이 뉘앙스가 강한 것 같아요. 하네스라는.

Alloy를 활용을 해서 end-to-end 테스트랑 자연어 설명이 붙어 있는 실행 가능한 명세서 ... 이렇게 모델이 어떤 정확한 일을 할 수 있게 하는 그런 어떤 검증 도구들, lint 이상의 것인 것 같아요. 그런 도구들을 만들어서 하네스 엔지니어링을 하고 계신 느낌을.

딸깍 될 일과 안 될 일을 감각하기

요즘 제가 좀 더 생각해 볼 지점이 딸깍 될 일과 안 될 일을 어떻게 감각할 수 있을까. 그래서 보통 이렇게 작은 step으로 만들어서 될 일이 있고, 그 방법으로도 안 되는 일이 있다라는 느낌을 좀 받긴 하거든요. 그래서 모든 어떤 풀어야 되는 문제들이 정확하게 테스트 만들고 검증하는 방법으로 과연 다 될까. 상당수가 되긴 할 건데, 안 되는 일이 있다면 어떤 일이, 그런 것들에 대해서 좀 생각을 해보게 됐고.

한 사람이 AI 에이전트들을 매니징하는 패턴

정규 님이 40일간 100만 라인의 코드 베이스를 혼자서 작업하셨다고 하셨죠.

김민태 님 ... 시니어 개발자가 AI와 6개월간 25만 라인의 시스템을 만들며 발견한 것들이라는 블로그 ... 규영 님도 ... 3주간 4만 LOC 정도 AI 혼자서 작업하면서 이 정도 규모의 코드베이스는 한 사람이 혼자서 AI 에이전트들하고 매니징하는 패턴들이 발견이 되고 있는 것 같아요.

누군가 이미 성공했다면 될 일이다

어떤 인물이 뭔가를 딸깍 만들었다. 그런데 인물의 역량도 중요하지만, 사실 그게 가능했던 거는 모델과 하네스의 영향이 있기 때문에 가능한 것 같다. 그러면 "야 나두", 즉 성공 케이스는 "나두, 나두"가 된다. 어떤 인물이 뭔가를 만들었다는 것 자체가 굉장히 큰 힌트라는 거죠.

그게 됐다라는 결과만 있고 그 결과물에 대해 코드 베이스가 있으면 사실은 설계서를 입수한 거나 마찬가지고, 마지막으로 돌아가는 use만 봐도 그걸 모델에 넣으면 모델이 그걸 decompose해서 계획을 세워주고 어떻게 만들면 되겠다.

누가 이미 성공한 일이라면 될 일이다, 누군가 이미 성공한 일이면 이미 된 일이므로 될 가능성이 매우 높은 일인 것 같다라는 소회가 좀 있었고요.

Donald Knuth 88세 — 미해결 난제를 AI로 풀다

Donald Knuth라고 그 The Art of Computer Programming이라는 일생의 저작을 쓰고 계신 분이 2026년 현재 88세인데 ... 미해결 조합론 문제를 해결하는 과정을 논문으로 공개를 하고 ... 이게 안 될 거라 AI를 안 쓰는 쪽이었다가 되는 걸 보고서는 초고수가 그걸 해내는 그런 얘기들을 좀 살펴볼 수 있습니다.

본인이 난제로 가지고 있었던 문제인데 AI의 도움을 얻어서 풀어낸 거죠. 누가 어떤 분이 트위터에서 봤는데 이 Donald Knuth의 문제를 그대로 가지고 가서 GPT-5.4 Thinking에 넣었더니 정답을 다 풀었다고 하더라고요. 검색하지 말고 풀으라고 그랬더니.

Kent Beck — 90% 스킬은 가치 하락, 남은 10%는 천 배

Kent Beck, Extreme Programming이라든가 소프트웨어 디자인 패턴 쪽에서 유명한 ... 2023년에는 이렇게 얘기했었거든요. reluctant하니까 ... ChatGPT 좀 써봤다가 내 skill의 90%가 사라지는 거야 라고 한 거를 23년에 올렸다가 잘 쓰는 쪽으로 해서 지금은 굉장히 신난다.

내가 가지고 있는 90%의 skill은 가치가 떨어졌지만 그다음에 remaining, 남아 있는 10%의 값어치는 천 배가 뛰었다. 단순히 코딩하는 기술이 아닌 다른 어떠한, 저희가 요새는 이걸 도메인 암묵지 이렇게 요약해서 부르고 있었는데 이 부분에 대한 가치는 훨씬 뛰었다.

하네스는 조인다, 스캐폴딩은 올라가게 한다

2026년 현재 아직은 통하는 생각 방식이 하네스로 될 일과 스캐폴딩으로 될 일이 있다고 생각을 좀 하게 됐는데요. 스캐폴딩은 도움 계단을 주는 거잖아요. 하네스는 아까 조이는 쪽이고 스캐폴딩은 교육학 쪽에서도 많이 쓰이는 용어인데 비계 설정이라든가 나중에 치울 거긴 하지만 학습자가 스스로 올라갈 수 있게 도와주는 어떤 상황이나 환경 같은 거를 설정하는 거를 말하기도 하거든요.

그냥 물으면 절대 못 한다. 어떤 문제가 있을 때 GPT-5에게 그대로 던지면 답이 안 나온다. 너무 어렵다. 그래서 GPT-5 주변에 스캐폴딩을 구축한 것이다 ... 어떤 에이전트는 아이디어를 제안하는 에이전트, 실행하는 에이전트, 검증하는 에이전트, 서로 다른 결과를 병합하는 에이전트 등을 주면서 ... 워밍업시켜 가지고 자기가 알고 있었던 해법을, 알고 있는 문제를 풀게 한 뒤에 그 해법을 실제로 더 도전적인 문제를 풀어야 되는 컨텍스트에 넣어준 다음에 일반화한 문제를 공격해 보는 거를 하게 해라 했더니 그 과정에서 나온 CoT라든가 결과물이 놀라운 것이 나왔다.

위임의 딜레마 — Anthropic의 skill 형성 논문

나의 AI 도입 여정에 중요한 점은 나는 다른 일을 한다는 방식이 널리 알려진 Anthropic의 skill 형성 논문을 어느 정도 상쇄한다고 생각한다는 것입니다. Anthropic의 skill 형성 논문이 뭐냐 하면 에이전트에 위임한 작업에 대해서는 인간의 skill이 형성되지 않는 대신에 내가 계속 수동으로 하는 작업에서는 자연스럽게 skill이 계속 형성된다.

위임하되 잃지 않으려면, 퇴화하지 않으려면 또는 다른 역량을 개발하려면 어떻게 할 수 있을까. Kent Beck처럼 자기의 남은 10%가 여전히 천 배가 된다고 생각하는 사람들도 있을 수 있지만 보통의 사람들은 위임하다 보면 잃어버릴 수 있죠. 그게 좀 고민이 되는 부분.

소프트웨어 엔지니어는 러다이트 당사자

소프트웨어 엔지니어링이라는 게 어떻게 보면 지난 한 20~30년간 황금기를 구가했잖아요. 코로나 때는 6주짜리 부트캠프만 하더라도 회사에서 15만 불, 20만 불 이렇게 연봉을 받고 취직되고 그런 시대가 막 끝났잖아요. ... 근데 그게 우리가 어떻게 보면 러다이트 운동의 당사자이기 때문에 그 부분에 대해서 과하게 호들갑을 떨고 있는 게 아닌가라는 생각이 저도 이제는 하게 되고

다음 레벨은 다른 도메인 — 논문을 찬찬히 읽어낸다

물리학 논문이라든지 생물학 논문이라든지 화학 논문 혹은 변호사들이 쓴 법전 문서 이런 걸 보면 와닿지 않거든요. 그리고 그거는 그 안에서의 어떤 skill이 아니면 접근이 안 됐었는데, 모델의 도움을 가지고 그 도메인에 가는 게 전혀 이상하지 않은 그런 세상이 됐거든요.

예전 같았으면 제가 감히 무슨 말인지 한 문장도 못 알아들었을 그런 것들을 찬찬히 읽어내고 다 가르쳐 주고 그것들의 함의를 하고, 심지어 GPT-5.4에 넣으니까 이 논문 이상이 앞으로 만들어 낼 거는 이거 될 거야. 나도 증거가 없지만 거의 90%의 확률로 이렇게 될 것 같아라고 얘기를 하는데 ... 지금은 어떤 노벨상을 노리는 그런 생명공학자가 했어야 될 이야기를 얘가 ... 또 다른 도메인들로 계속 어떤 탐험의 경계가 넓어지는 거 아닌가

하네스 논쟁은 곧 끝난다 — 한 단계 아래 레이어로

아 이제는 우리도 Claude Code랑 Codex랑 이 하네스가 어떤 일을 할 수 있고 어떤 한계가 있고 이런 얘기는 이제는 접어야 되는 시기가 오는 것 같다. 이건 그냥 되는 게임이야. 인캡슐레이션 돼서 아래 레이어로 그냥 내려갈 거고 우리는 다음 레벨로 올라가서 거기서의 게임을 다시 생각해 봐야 되는 거고

올해를 시작하면서 이 하네스 논쟁은 곧 끝날 거고 모델은 AGI에 곧 도달할 테니 이 다음 레이어에는 다음 도메인인 사이언스나 이런 쪽으로 좀 더 우리도 가보자라는 얘기를 했던 기억이 납니다.

상향 평준화 — 산업사의 패턴 반복

항상 이렇게 고도 성장기가 생기는 것처럼 보이지만 끝나고 나면 항상 서너 개 회사가 다 끝내거든요. 어쩌면 소프트웨어 엔지니어링이라는 이 영역도 저희도 끊임없이 아 그래도 도망갈 도메인이 있을 거야, 뭐가 있을 거야라고 얘기했는데 그 막강한 generality를 가진 모델이 밀고 오면서 우리가 그 specific하다는 그런 영역들도 하나씩 다 steamroll 시키는 걸 보고 있잖아요. Donald Knuth처럼 난 알고리즘은 완전 특화돼 있어라고 하는 사람도 이제 할 일이 없잖아요.

될 것 같은 일은 하지 마라

어제 정규 님이 그 얘기하시지 않았었나요? 그 단톡방에서. 될 것 같은 일은 하지 마라. 왜냐하면 가치가 없는 일이니까.

될 일과 안 될 일과 조금 노력해서 될 일 같은 것들에 대한 감이 있어야 된다니까요.

논문 투 딸깍 — PoC는 되지만 깍은 어려운

GPT-5.4 나온 김에 "논문 투 딸깍"이 과연 될까 실험해 봤습니다. 되지 않았지만 얼추 비슷하게 나왔습니다.

지금 "따알"까지 갔고 아직 "깍"이 안 나온 거죠.

어떤 PoC 정도는 보여주는 능력을 아주 간단한 프롬프트에서는 된 거고 근데 딸깍 됐던 부분들이 있었습니다.

덜컹 구간 — 인간에겐 쉬운데 수학에겐 어려운

논문에서는 이거를 보간해가지고 잇는 게 관건인 거거든요. ... 거기서부터가 덜컹이었어요. 그래도 이 가장 그 끝단의 이음새 빼고는 복원하는 거는 쉬웠어요. 근데 이 부분이 인간이 보기에는 너무 쉬운 부분인데 수학으로 생각해야 될 거는 사실은 많은 부분이.

바운더리 엣지 같은 것들이 이런 식으로 나와서 이거를 연결 부위들을 잇는 것들이 생각보다 자명하지 않은. 그거에 관련된 수학이랑 알고리즘을 탐색하는 것들이 주간 한도를 다 쓰면서 안 돼서 다른 모델들도 쓰고 하고 있었죠.

나는 가설만, 실험은 AI가

UI 붙이고 이거 자체는 딸깍이 돼서 너무 좋긴 했습니다. 이걸 제가 예전에 하려고 했으면 이거 자체를 구현하는 데만도 시간을 많이 썼는데 어떤 perturbation을 시키거나 vertex 수 조절, 이런 것들이 순식간에 되니까 나는 그냥 가설만 세우고 실험을 하는 거는 AI가 하는 거예요.

저는 생각을 못했는데 모델이랑 얘기를 하다가 동적 계획이라는 거를 쓴다는 거예요. 그런데 동적 계획이라는 DP라는 알고리즘을 이렇게 쓸 생각은 저는 못 했거든요. 그런데 모델이 하자는 대로 따라가 봤더니 ... 메쉬에서 이런 걸 하는 거는 좀 드문 편이더라고요.

모델들은 반대했지만 제 직관을 밀어붙인 게 있거든요.

Ralph loop vs 세이브포인트 전략

Ralph loop죠. 저 시점에서 될 때까지 해 봐라고 토큰을 무한히 넣으면 언젠가는 되겠죠.

근데 저의 관점은 좀 다릅니다. 왜냐하면 스캐폴딩을 어떻게 하느냐에 따라서 좀 달라지는 구간인 게, 이게 왜 그러냐 하면 그래픽스 쪽에서 TDD를 하기가 좀 어렵다는 평이 ... 시각적으로 볼 때는 자명한데, vertex merge check 이런 거로는 통과하지만 품질이 안 좋은 것들이 있을 수 있기 때문에. ... 그 구간에서 Ralph loop를 돌려버리면 토큰을 낭비할 가능성이 큰.

특정 문제를 만나면 그거를 세이브 포인트 만들어 놓고서는 거기에서 다양한 가설을 세우고 우선 탐색한 다음에, 가설에서 성공하면 괜찮지만 안 되면 백워드로 올라가서 하는 거죠.

딸깍, 덜컹, 그리고 덜컥

딸깍과 덜컹, 그리고 덜컥. 덜컹은 안 되는 구간, 근데 그러다가 덜컥 될 수 있다는 거. 근데 그거가 약간 믿음의 문제이기는 한데, AI와 내가 하다 보면 그게 될 것 같다라는 그 느낌이 어떻게 있는지는 잘 모르겠어요. 근데 그 느낌을 가지면 밀어붙이면 될 것 같긴 하거든요.

문제를 정의하는 능력 — 10%의 암묵지가 투입되는 지점

방금 승준님이 말씀해 주신 구간에 저희가 항상 하던 얘기들이 다 들어있어요. 처음에 뭘 해야 되겠다라고 하는 문제의 정의. 그리고 어떤 문제가 어떤 난제에 부딪혔을 때, 거기에 사람의 인사이트를 가져와서 human in the loop로 해가지고, 소위 90%가 아닌 10%의 승준님만의 필드 날리지, 암묵지가 투입되는 거고. 그리고 이걸 될 때까지 의지를 가지고 밀어붙이면 언젠가는 될 거고

결국은 problem인 것 같아요. Problem. 그래서 문제를 잘 포착하고, 그다음 문제를 잘 돌려볼 수 있고, 그리고 그 문제 해결 과정을 잘 가이드할 수 있는 그런 능력을 가진 사람. 그런 게 사람이 가져야 되는 덕목인 것 같다

토큰이 끊기면 미물 인간으로 돌아온다 — 사회적 브라운아웃

weekly 토큰을 자기가 갖고 있는 그 구독에서 다 써버려 가지고, 그게 딱 끝나는 순간 자기는 한낱 미물 인간으로 돌아온다고. 그럼 할 일이 없기 때문에, 할 수 있는 일이 하나도 없기 때문에 잠을 자는 것만이 내가 할 수 있는 일이다

저희도 지금 모든 일들이 다 GPT와 Claude 옆에 끼고 있잖아요. 솔직히 그게 없으면 이젠 하루의 대부분의 업무가 걔와 같이 하는 거로 돼 있거든요. 그게 없으면 Andrej Karpathy가 얘기했던 것처럼 이게 사회 전체가 브라운아웃이 되는 거죠. 약간 전기가 떨어진 듯한.

위임할수록 강화해야 하는 인간의 덕목

그럼에도 불구하고 좀 이런 거를 AI에게 위임을 하면서 오히려 획득해야 되는 거나 강화해야 되는 요소들이 있는 것 같긴 해요. 예를 들면 끈기라든가, 가설을 세워보거나, 약간 쉬는 것도 좋은 일이죠. 왜냐하면 머리가 맑아야지 좋은 가설들을 떠올릴 수 있는 거.

YouTube 원본 →원본 사이트 →