AI FrontierEP 922026-03-29 · 1:06:30

루프를 닫아라

노정석 · 최승준

Karpathy가 말하는 manifest의 시대와 오토 리서치의 한계. verifiable하면 모델에게 맡기고 non-verifiable에서는 다 drift한다. Terence Tao의 semi-formal 언어, 바닐라 하네스 철학, 싫어함이라는 강력한 시그널, OKR로 업무를 verifiable하게 만들기, GAN에서 영감받은 Anthropic의 멀티 에이전트 하네스.

EP 92: 루프를 닫아라

생각 덩어리

딸깍 되는 일 vs 딸깍 후보의 일

일단 딸깍 되는 일은 쉬운 일인 것 같습니다. 뭐든지 쉽게 되고 있으니까요. 그런데 딸깍으로 만든 것이 자신에겐 가치 있을 수 있지만, 다른 사람에게도 가치 있을지는 모르는 일이라는 생각을 요새 하게 됩니다.

Andrej도 ephemeral software라는 용어를 쓰더라고요. 복리를 굴리기도 쉽지 않고 재미있게 만들어지기는 하지만 덧없을 수 있다. 그러므로 딸깍 되지 않는 일에 도전해야 하는데, 딸깍되지 않는 일이 앞으로도 딸깍 안 되리라는 보장은 없으니까 어떤 것은 시간이 지나면 딸깍 될 수 있는 딸깍 후보의 일이라는 생각을 해봤습니다.

소거법으로 남은, 앞으로도 딸깍되지 않을 일은 무엇일까. 안 되는 일이고 안 될 일이지만 그래도 가치는 생산하는 일이 혹시 있을까

어디로 도망갈 것인가 — 끊임없이 리셋되는 출발선

당장 할 수 있는 일이지만 남도 다 할 수 있는 일이라면 상대적 가치는 굉장히 떨어지기 때문에, 나만 할 수 있는 일, 그리고 시간의 상대적 우위를 오랫동안 지킬 수 있는 일, 그런 일들에 대한 질문이 요새 굉장히 많습니다.

두 달 먼저 갔다는 정도지 뒤에서 따라오는 사람들이 캐치업하기가 너무 쉬워요. ... 뒤로 갈수록 더 유리해지죠. 모델이나 하네스의 성능이 더 높아지기 때문에 ... 더 좋은 도구를 가지고 전쟁에 뛰어드니까, 앞 사람들이 지난 6개월 동안 팔아왔던 것들이 아무 의미가 없어지는 출발선이 끊임없이 리셋되는 것을 저희가 목격하고 있기 때문에

manifest의 시대 — AI에게 의지를 발현시킨다

Sarah Guo가 express my will, AI에게 나의 의지를 표현하는 행위를 하고 있는 것 같다고 했습니다. 요새 나머지는 AI가 알아서 해주니까라고 하니까, 그 express my will이라는 표현을 Andrej가 manifest라는 것으로 살짝 바꿔주죠.

현현, 발현. 그래서 의지를 가지고서 뭔가를 실제로 이렇게 나타나게 하는 그런 쪽인 것 같습니다.

여기 보면 재미있는 표현이 초반에 AI psychosis라는 표현이 나옵니다. ... AI와 강박적인 관계, 집착적인 관계, 계속 시켜야 되고 쿼터가 남아 있으면 불안함이 생기는 그런 것을 이야기하더라고요.

Karpathy의 코딩 습관이 12월에 뒤집혔다

지금 12월 이후로는 코드 한 번 타이핑한 적이 없다고 합니다. 예전에는 10월 정도에 80대 20으로 얘기했다가 지금 20대 80으로 바뀌었다고 하면서, 달라진 요즘의 모습을 고백했고요.

재미있는 게 Peter 워너비가 됐어요. OpenClaw 만든 Peter Steinberger, 나도 Peter같이 되고 싶다.

verifiable하면 모델에게 맡기면 된다 — 오토 리서치의 본질

목표가 명확히 되고 그 목표에 대한 결과물의 evaluation을 확실하게 할 수만 있다면, 그 중간에 있는 것이 문서든 연구든 GitHub 레포든 모델이든 어떤 형태로든 LLM을 투입해서 토큰을 투입해서 최적화, optimize 할 수 있다는 것이죠.

이건 목표가 loss 값을 떨어뜨린다는 명확한 목표가 있으니까, 측정 가능한 verifiable한 evaluation이 있으면 그다음에 모델에게 맡기면 됩니다. 알아서 논문 찾아오고 알아서 자기가 알고 있는 것을 이렇게 고쳐보고 저렇게 고쳐보고, 양의 피드백 음의 피드백을 다 받아들이면서 되는 것들은 강화하고 아닌 것들은 버리면서 끊임없이 최적의 해를 찾아서 나아가는 것이 오토 리서치의 핵심인 거죠.

Andrej Karpathy 스스로가 만들어 놓고서 놀란 것이, 자기가 20년 동안 이런 일을 했는데 자신이 빼먹은 것들을 모델이 잡아냈다는 점입니다.

검증하기 어려운 것에서는 다 drift한다

검증 가능한 영역에서는 너무 잘 작동하지만 검증하기 어려운 것에서는 다 drift한다, 표류한다는 표현을 썼습니다.

그런 것의 대표적인 예가 농담입니다. 농담을 시키면 최신의 모델도 3~4년 전 모델이 하는 정도의 농담을 벗어나지 못합니다. Andrej Karpathy가 생각하기에 이것은 현재 RL이 커버하지 않는 영역인 것 같다는 것이죠.

jagged라는 표현을 굉장히 많이 하죠. 어떤 건 정말 슈퍼 천재인데 어떤 건 형편없는 바보.

microgpt — 에이전트로는 도달하지 못하는 20년의 압축

microgpt 같은 코드를 만드는 것은 에이전트를 돌려서는 거기까지 도달하지 못하고, 이것은 자신만 할 수 있었던 20년의 압축 경험의 결과라는 것이죠.

에이전트에게 알려주기만 하면, 코드와 MD 파일로 알려주면 그것을 좀 더 쉽게 다뤄주는 콘텐츠는 얼마든지 AI가 생산할 수 있기 때문에 굳이 자신이 할 일은 아닌 것 같고, 자신이 할 일은 정말 비트를 깎아서 이런 200줄짜리의 미학적인 것을 만들어내는 것이 아닌가

교육의 미래 — 사람이 아니라 에이전트에게 가르친다

교육의 미래가 사람에게 가르치는 것에서 에이전트에게 가르치는 것으로 바뀌고, 에이전트가 할 수 있게 되면 사람들을 가르치는 것은 그때그때 인터랙티브 콘텐츠 같은 것으로 만들어질 수 있다

한 계층 위로 올라간 어젠다

모델 자체를 예전으로 이야기하면 CPU 같은 하나의 엔진으로 만들고 있다는 점입니다. ... 매니페스트와 연결된 말인데 이제 한 계층 위로 올라간 느낌이에요.

모델의 성능이 뭐가 좋다, 벤치마크가 어떻게 좋다가 아니라, 이것을 가지고 어떤 문제를 추가적으로 풀 수 있을 것이고 우리의 일들을 어떻게 바꿀 것이고 교육을 어떻게 바꿀 것이고 하는 애플리케이션 영역, 한 층 높은 영역으로 어젠다가 다 스위칭했습니다.

에이전트가 못하는 것이 당신의 일이다

에이전트가 못하는 것이 이제 당신의 일이다. 에이전트가 할 수 있는 것은 아마 당신보다 더 잘하거나 곧 그렇게 될 것이다. 그래서 실제로 시간을 어디에 쓸지 전략적이어야 한다.

1~2주일에 될 만한 일이면 딸깍하지 마라. 왜냐하면 사방에서 딸깍거려서 리얼타임으로 만들었을 테니까요. 그러면 6개월 있다 될 일들을 해야 된다는 이야기인데, 그러한 주제를 세팅하는 능력, 지금 현재의 맥락을 읽고 주제를 명확하게 세팅할 수 있는 능력이 중요합니다.

똑똑한 사람들은 지금 사이언스로 도망가고 있다

그 똑똑한 분들이 지금 도망가고 있는 영역을 보면, Periodic Labs가 하는 것 같은 재료 공학이나 새로운 소재를 찾는 일, 혹은 AlphaGenomics나 AlphaFold 같은 것들 때문에 생명공학 자체가 완전히 소프트웨어화되고 있거든요. 더 이상 비커에 물을 넣거나 실험을 하지 않아도 되는 소위 wet lab, 젖은 랩이라고 부르는 것들이 필요 없는 소프트웨어 환경으로 급격하게 가고 있고, 그쪽으로 다들 도망가고 있는 것 같아요.

그런데 그런 쪽은 아주 깊은 도메인 knowledge를 필요로 합니다. 적어도 박사 과정에 준하는 정도의 도메인 knowledge를 필요로 하기 때문에

인식론적 지옥과 판단력의 혼합

이 인식론적 지옥에서 살아남는 이유는 우리가 명확히 말할 수도 없고 강화학습 루프에 코드화할 수도 없을 만큼 제대로 이해하지 못하는 판단력과 휴리스틱의 혼합이라고 합니다.

처음에 케플러 이야기부터 합니다. ... 초기에 locally incentive가 있는 것은 긴 궤도에서는 오히려 맞지 않을 수 있다는 뉘앙스로 빗나가는 것들을 이야기합니다.

Paul Erdős 문제가 풀린 뒤 찾아온 plateau

한동안은 계속 풀리다가 쉬운 문제들, low-hanging fruit들은 다 얻어내고, AI를 활용해서 search space를 탐색할 수 있는 것들이 확 추수된 다음에는 현재 다시 plateau에 접어들었습니다.

그런데 참 재미있는 것이 ... Paul Erdős의 문제 같은 것들도 만약 3년 전에 GPT-3.0이 풀었다면 정말 경천동지할 일이고 이건 AGI다라고 했을 겁니다.

march of nines — 9의 행진

Andrej Karpathy도 march of nines, 9의 행진이라는 이야기를 하면서, 90까지는 문제가 있지만 99부터는 쓸 만하다, 그러나 끊임없이 99.9, 99.99, 99.999가 되는 형태로 나아가게 된다는 이야기를 했었는데, 섹터에 따라 다르지만 굉장히 많은 부분에서 이미 99의 영역에 도달한 것들이 많이 있잖아요. 그런데 뒤에 9가 몇 개 더 안 붙었다고 안 된다고 이야기하는 것은 조금 가혹하지 않나

high temperature LLM — 의외성의 leverage

high temperature LLM이라는 비유를 하면서, 그 당시로는 생각하지 못하는 temperature가 높은 의외의 생각을 하는 것들이 LLM이 잘할 수 있는 영역이고 우리가 그것을 통해서 leverage를 얻을 수 있다는 함의를 끌어냅니다.

Terence Tao의 semi-formal 언어

실제로 수학자들이 고민하고 협업하는 암묵지적인 것을 Lean 같은 완전한 formal 언어가 아니라 반형식 언어로 어떻게 만들 수 있을까 하는 프론티어의 고민을 했다고 저는 느꼈거든요.

회사로 치면 조직의 문화와 비슷한 것일 수도 있고, 수학자들이 협업하는 방식이라든가 생각하는 방식을 어떻게 semi-formal하게 만들 수 있는가

LLM 덕분에 다들 이 층위가 레이어가 다 올라가고 있어요. 다 더 abstract 레이어로 끊임없이 다 밀려나고 있습니다.

비효율과 serendipity — 연구만 하는 환경이 과학자를 망친다

프린스턴 고등연구소라고 해서 뉴저지에 있는 연구소입니다. ... 산만함이 없는 훌륭한 곳이다, 거기서 오로지 연구만 하면 된다, 처음 몇 주는 훌륭한데 시간이 지나면 영감이 고갈된다는 이야기를 했습니다.

Richard Feynman도 똑같은 이야기를 했다고요. 연구만 할 수 있는 상황은 과학자를 망치는 지름길이라는 뉘앙스 ... Richard Hamming이라는 컴퓨터 과학 쪽에 유명하신 분도 똑같은 이야기를 했습니다. 고등과학연구소가 많은 위대한 과학자들을 망쳐 놓았다고요.

의외의 것들, 노이즈 같아 보이는 일련의 것들도 사실은 인간에게 매우 도움이 되는 경험일 수 있다

vibe 대학원생으로서의 Claude

vibe 대학원생이 무엇이냐 하면, 아직은 동료 과학자가 아니라 대학원생이라는 것입니다. 그 대학원생을 어떻게 매니징해서 실제로 논문을 공동 저작하고 출판했는가에 대한 굉장히 자세하고 흥미로운 이야기입니다.

Claude가 실수하는 것들, Claude가 맞춰주는 것을 좋아하는 것, 해냈다고 거짓말하는 것, 그런 것들을 다 어떻게 지도했는지 그 과정을 이야기합니다. ... 결과물은 혼자 했으면 3~4개월 걸렸을 일을 10일에서 2주 정도 사이에 논문을 출판할 수 있었다는 이야기인데, 딸깍으로 되는 것이 아니라 굉장히 지도가 필요했다는 결론

Claude가 잘하는 것이 지치지 않는 반복, 불평 없음. ... 기초는 다 알고 있음, 그림 잘 그림, 문헌 종합 잘함. ... 못하는 것은, 규약이 비표준적일 경우 잘 알려져 있는 것이 아니면 자꾸 기본값으로 돌아간다고 합니다. 끝까지 밀어붙이는 것도 부족 ... 방향을 읽는 것, 미감이 부족하다는 점, 압박을 견디는 것이 안 된다는 점

억 단위 토큰이 정상은 아니다 — 바닐라 하네스 철학

억 단위 토큰을 쓴 것이 잘한 것만은 아니라는 점입니다. 사실 저것이 정상이거든요. 3천만 토큰 안에서 성과가 강하게 나올 수 있도록 가이드하고 목표 설정을 잘 하는 것이 저는 좀 더 의미 있는 방향성이라는 생각이 듭니다.

저희 팀에도 굉장히 잘하는 엔지니어가 한 명 있는데, 이 친구는 순정주의자거든요. 덕지덕지 하네스를 많이 붙이지 않습니다.

Claude Code는 밖에 있는 좋은 것들을 일단 집어넣고 나중에 정리하는 느낌이라면, Codex는 제가 Codex를 더 좋아하는 이유이기도 한데 굳이 필요 없는 클러터들은 다 걷어내 주고 본질만 바닐라에 잘 담아주는 느낌입니다.

너무 과하게 search problem으로 하는 것도 답은 아닙니다. ... 아마 인간의 가치와 AI의 가치가 극강으로 결합하는 영역일 것이라는 생각이 듭니다.

과학자와 엔지니어가 서로 침범한다

코딩에서 일어났던 일이 사이언스에서 일어나지 말라는 법은 없거든요. ... 생명공학 박사도 아니고 MD, 의사 자격증이 있는 사람도 아닌데 지금 biology의 최전선에서 엔지니어가 들어가서 그런 일들을 하는 것이 우리 눈앞에서 벌어지고 있는 것이고

이것이 경쟁은 아니지만, vice versa이니까 아까 사례는 JAX 같은 것을 모르는 과학자가 엔지니어링을 해서 도구를 만든 것이고, 침범이에요. 다 서로 상호 침범이거든요.

루프와 인수 조건으로 산문을 만들다

나름의 평가 체계를 만들어서 헌법을 쓰고 시 초안 같은 것을 작성한 다음에 스스로 호되게 평가하고, 인수 조건을 설정합니다. ATD(acceptance test driven)라는 개념이 있더라고요. 인수 조건을 설정한 다음에 그 인수 조건을 달성할 때까지 루프를 돌리는 방식으로 했거든요.

그 저장소에서 auto research 비슷하게 결과물도 계속 수정하고, 그것을 만드는 하네스, 메인이 되는 프롬프트조차도 재귀적으로 수정하게 했거든요. 인수 조건을 계속 escalate하는 방식으로 했을 때, 산문에서 재미있는 것들이 나오는 것을 관찰할 수 있었습니다.

자음 모음을 분해해서, 더 이상 이미지는 떠올리지 않지만 다른 감각이 환기되면서 사운드적으로 느끼는 것을 이야기로 썼거든요. 이건 뭐지 하면서 봤는데

같은 하네스로 농담은 실패했다

산문은 괜찮은데, 같은 메커니즘으로 농담을 쓰게 했거든요. 하나도 안 웃깁니다.

만약 농담 같은 것이 non-verifiable한 것이라면 non-verifiable한 것은 이 방식으로 안 되는 것인가가 궁금했던 것이에요.

현재 레짐이 프리 트레이닝으로 다 깔아놓고 미드 트레이닝으로 도메인 훈련을 시키고 포스트 트레이닝으로 RL+환경에 하네스까지 하는 것으로는 농담 같은 것들은 포착이 안 되는 쪽이라는 잠정 결론입니다.

싫어하는 것도 강력한 시그널이다

무엇을 좋아한다만이 취향이 아니라, 무엇을 싫어한다가 굉장히 강력한 취향이더라고요. 프롬프트에서 거절, 나는 어떤 이유로 그것을 채택하지 않는다는 것이 있을 때 확실히 글의 품질이 좋아졌어요.

그것도 피드백이니까요.

지금 이 인더스트리에 있는 사람들이 다 극 T들의 집합체인데 F의 영역들은 evaluation을 어떻게 해야 될지도 모르는 사람들이 거의 대부분일 거라서요. ... 이런 부분들이 사실 저희가 도망가기에 좋은 영역인 것이죠.

암묵지 리버스 엔지니어링 가설

암묵지에 관한 리버스 엔지니어링 가설입니다. 어떤 인물이 해낸 결과물이 있을 때, 그 결과물을 해내길 기대하는 최소한의 하네스와 인수 조건, 그리고 그것들을 스스로 들어 올리는 부트스트래핑 루프로 작동하는 저장소를 만든다는 것입니다.

저장소에는 결과물에 점근하는 과정이 부산물, MD 파일이든 코드든 커밋 히스토리든 남는다. 만약 그 부트스트래핑 루프가 인수 조건을 통과해서 결과물에 준하는 것을 만들었다면 그 수준의 다른 결과물이 생성되는지 커버리지를 넓히며 반복하면서 루프를 또다시 진행한다.

자신의 암묵지를 착즙하는 데 성공했고 복제 가능해졌다면 그때 자신의 가치는 무엇이 되는가. 당신 자신은 복제할 수 있는데 타인은 복제할 수 없는 조건이 있는가.

시간 가치와 에르메스 브랜드

결국은 이 모든 것이 타이밍 이슈로 점근될 것 같아요. 내가 빨리 한 것의 시간 가치가 얼마냐, 상대적인 시간 가치의 문제입니다.

남들이 이것을 딸깍해서 복사하는데, one 딸깍 away인지 three 딸깍s away인지가 중요한 것이죠.

가방은 모두가 만들 수 있어요. 그럼에도 불구하고 사람들이 에르메스 가방을 사는 이유는 무언가를 계속 해왔기 때문에 브랜드가 된 것이잖아요.

OKR로 모든 업무를 verifiable하게 만들기

암묵지의 영역 중에서 굉장히 중요한 능력이 되는 것이 모호한 영역들에서 무엇을 목표로 설정하는가의 능력인데, 아직은 LLM에게 물어봐도 잘 못하는 경우가 많거든요. ... 비즈니스적 판단이라든지 조금 더 글에 가깝고 사람에 가까운 영역에서는 metric을 잘 못 만듭니다. 그러면 그 metric들을 정의하는 것, 어디까지가 성공이고 어느 방향이 진보하는 것인가를 정하는 것이 사람의 능력인 것 같아요.

경영학에서 이야기하는 OKR이라는 것이 있거든요. 업무와 성과를 어떻게 규정할 것인가 하면 Objective and Key Results입니다. ... 최대한 감성적으로 쓰지 말고 다 숫자로 치환해서 쓰라고 합니다. 언제까지 무엇을 론칭한다고 하면 정확한 날짜가 있어야 되고, 기대되는 visual들이 다 describe 되어 있어야 되고

사람과 무슨 일을 할 때도 objective와 key results를 최대한 모델이 verifiable reward 형태로, scalar의 value 형태로 받아들일 수 있게 정의하는 것이 요새 저의 모든 업무가 되고 있거든요. 효과가 매우 좋습니다.

Chedex 자기 개선 루프 — 0이 될 때까지

0이 될 때까지 루프를 계속 두라고 하면, 어설프게 착즙해왔던 것들의 대략의 목적성이 뽑히고 나면 사실은 objective라는 상을 가져오는 것이잖아요. 그러면 스스로 recursive한 루프를 돌면서 모델의 능력에서 뽑아낸 우수성 때문에 스스로 진화합니다. 0이 될 때까지 그런 것들이 다 matching되어 제가 계산하는 metric 범위 안에 들어오면, 중간 산출물이나 코드를 한 번도 본 적이 없고 열어보지도 않지만 한 2시간 돌더라고요. 2시간 돌고 나면 그것을 배포하고 믿고 씁니다.

GAN에서 영감받은 Anthropic의 멀티 에이전트 하네스

GAN의 아이디어를 썼습니다. Generative Adversarial Network의 영감을 받아 에이전트 평가기와 에이전트로 이루어진 멀티 에이전트 구조인데, 이것도 Ralph loop입니다. 하고자 하는 바가 디자인 영역에서 주관적인 판단을 구체적으로 채점 가능한 항목으로 바꿔준 기준 집합을 개발해야겠다는 서론에 나오고, 이것도 결국 점수화시키는 것이죠.

모델이 좋아질수록 흥미로운 하네스 조합의 공간이 줄어드는 것이 아니다. 오히려 그 공간은 이동한다. 그리고 AI 엔지니어에게 흥미로운 일은 그다음에 새로운 조합을 계속 찾아내는 것이다.

drift의 기준점은 최신 프론티어 하네스의 최전선

drift라는 표현을 요새 많이 하잖아요. 우리가 목적하는 바와 벌어진 이격, 델타를 drift라고 표현하고 이것이 상당히 유행어가 되어 가고 있는데, 저는 그 drift의 기준점을 항상 최신의 프론티어 모델과 그 프론티어 모델에 정확하게 맞춰진 하네스의 최전선으로 잡습니다.

그것이 AI 시대에 우리가 모두 추구해야 하는 가치 지점이에요. 이런 경험을 계속하면서, 다음 도전의 영역은 여기고 본질은 여기고 여기에 더 집착해야 한다는 것이 조금 생기고 있는 것 같아요.

카피바라 — Opus 다음의 tier

다음 모델에 대한 것인데, 카피바라라는 것이 모델명이 아니라 정확하지는 않지만 Opus 다음의 tier라고 합니다.

소문에서는 내부 모델이 10T다, 그런 얘기가 있기는 합니다만 나와 봐야지 아는 ... Elon Musk가 다음 모델이라고 이야기한 것도 7T라고 했거든요. 10T이니까 서빙은 지금은 못 하는데, 또 하지 않을까요?

YouTube 원본 →원본 사이트 →