AI FrontierEP 90

알파고 이후, 10년 (feat. HyperAccel 이진원 CTO)

노정석 · 최승준 · 이진원

AlphaGo 10주년 회고. Noam Brown이 본 '추론 모델의 AlphaGo적 혈통', Karpathy의 Autoresearch와 Ralphthon, 2014년 유튜브 고양이·ImageNet·CS231n부터 Transformer·BERT·Vision Transformer까지 10년의 궤적. '원 딸깍 어웨이' 시대의 플랫폼 시프트와 37수의 함의.

EP 90: 알파고 이후, 10년

생각 덩어리

10분의 1 가격의 추론 반도체 — HBM 대신 LPDDR

저희 HyperAccel은 추론 전용 AI 반도체를 만드는 회사입니다. ... 저희가 HBM을 쓰지 않고 LPDDR이라고 하는 저전력 메모리를 사용해서 10분의 1 가격에 저희가 서버를 공급하고

지금 쓰고 있는 가장 싼 서비스가 우리나라 돈으로 월에 한 3만 원 정도 내야 되잖아요. 그거를 한 5천 원 이하로 줄여보자, 이런 원대한 목표를 가지고 열심히 칩을 개발하고 있습니다.

2017년 PR 12 — 논문이 너무 많이 쏟아지던 시절의 커뮤니티

이때 당시에는 새로운 알고리즘들이 너무 많이 나와서 사람들이 논문을 뭘 봐야 될지도 모르겠고, 한 번 읽는 데 시간도 너무 오래 걸리고. 그걸 우리가 조금 도와주자, 그런 취지에서 이 논문을, 이때 당시에 2017년에 Zoom에서 일주일에 두 명씩 돌아가면서 논문을 리뷰하고

2016년에 AlphaGo 사건이 있은 이후에 우리나라에 특히 굉장히 많은 붐이 일어서 사람들의 관심도 높아지고, 그런 커뮤니티도 활성화되고

Noam Brown — 오늘날 추론 모델의 혈통은 AlphaGo

오늘날 최전선 추론 모델들을 가능하게 한 핵심 방식은 놀랍게도 AlphaGo와 비슷한. 방대한 양의 인간 데이터를 모방하고, 더 나은 추론을 위해 추론 시점에 연산량을 늘리고. 당시에는 Monte Carlo Tree Search였는데 오늘날에는 Chain of Thought다. 강화학습을 사용해 단순한 모방을 넘어선다.

AlphaZero의 방향으로 가는 거에는 굉장히 주의가 필요하다. 우리가 그 스위치를 넣을지 말지 그런 건 좀 고민을 해봐야 된다 ... 자기 증강하는 시스템이잖아요.

37수가 건물이 됐다 — Platform 37

37수이 건물이 됐더라고요. AlphaGo의 그 놀라운 수라고. ... 37수의 이름을 따라서 저 Google DeepMind 신사옥이 생기나 봅니다.

두 번째 대국의 37수일 거예요. 아마 사람들이 다 그 해설자들이 "어, 저기는 왜 왔지"라고 하면서, 인간이라면 절대 못 둘 수였는데

2016년 대국 현장 — 별들이 다 넘어올 정도면

그 전에 전야제라고 그러죠. 갈라쇼를 할 때 가서 Eric Schmidt랑 유명한 사람들 다 모여 있고 이세돌과 Eric Schmidt와 초 VIP들이 맨 가운데 앞 테이블에 앉고 ... 그때만 하더라도 이세돌 자신만만했었어요. 인간이 이긴다.

거꾸로 저는 야, 구글에서 저렇게 별들이 다 넘어올 정도면 얘들이 뭔가 확신을 갖고 넘어왔지 그냥 오진 않았을 거다라고 해서 AlphaGo가 압도적으로 이길 거다라고 저는 배팅을 했었고

저도 바둑을 다 이해하지 못하기 때문에 그 수의 깊음이나 이런 거는 제가 이해는 못했습니다만 그 사람들, 해설해 주시는 해설자들의 탄식과 놀라움과 좌절감들을 보면서 아, 이거 엄청난 거구나

Autoresearch — vibe coding에 이은 Karpathy의 밈 선점

Andrej Karpathy가 작년에는 vibe coding이라고 코딩으로 밈을 선점하더니, 올해는 Autoresearch로 뭐랄까 딱 이렇게 쥐어 잡은 느낌인데

Ralph loop죠. 하지만 작동하는 딱 도메인, 딱 영역에서 평가 가능한 validation, 그것만 한 거죠. 테스트까지 아니고 그냥 validation 점수만 가지고서 그거를 낮출 수 있는 쪽으로 온갖 아이디어를 내서 실험하고 실험하고 계속 그거를 할 수 있게 하는

RLVR과 같은 원리, 다른 레이어

컨셉으로는 RLVR하고 사실 비슷한 거죠. 그러나 레이어가 다른 거죠. RLVR을 학습 과정에서 어떤 그 verifiable한, 검증 가능한 신호를 줄 수만 있다면 그 도메인에서 학습을 계속할 수 있다라는 얘기를 한 거고 얘는 실질적으로 응용하는 과정에 끌고 와서

굉장히 뛰어난 모델에게 보상 신호, 좋아지는 방향에 대해서 어떤 목표 설정을 할 수 있다면 자율적으로 걔가 그 목표를 향해서 나아갈 수 있다라는 거를 보여준 거죠.

never stop — 막히면 페이퍼 읽고 와서 다시 가설

MD 파일이 별로 길지도 않아요. 맨 끝에 재미있는 게 있는데, never stop. 멈추지 말고 만약에 막히면, 아이디어가 막히면 페이퍼 읽고 오고 이 가설 세우고 실험해보고 저 가설 실험해보고, 나한테 계속 갈 거냐 물어보지 말고 계속해라라는 거가 마지막 주문

목표를 명확하게 했던 거가 evaluation metric을 명확하게 정의할 수만 있으면 벤치마크가 존재하면 거기는 무조건 된다.

Ralphthon 우승자들은 전부 하네스 설계자

엊그저께 구봉 님이 Ralphthon이라는 거를 하셨더라고요. OpenAI와 함께 Ralphthon 개최하셨는데, 그게 굉장히 재밌는 게, 그 계획을 한 번 짜고 나면 그다음 12시간 동안은 손을 댈 수 없어요. 그냥 RL 루프로만 돌아야 되는데 공교롭게 그거 1등, 2등 하신 분들이 다 하네스의 설계자들이에요.

무한, 될 때까지 무한 반복은 맞는데 어떻게 계획을 정교하게 세우느냐, 그리고 이 결과를 어떻게 evaluate 하느냐, 이런 부분들에 하네스를 정교하게 짜신 분들이 이것들을 더 성공하시더라

정확한 피드백을 주는 게 핵심 — end-to-end로도 된다

얻었던 교훈은, 아 정확한 피드백과 정확한 데이터를 주는 게 매우 중요하구나. 내가 이런저런 알고리즘을 스스로 고안하거나 모델이 고안하게끔 안내하는 방법도 작동하는 부분이 있겠지만 그냥 end to end로도 할 수 있구나

이게 앞으로만 가는 게 아니라 뒤로 가서 가설을 세우고 다시 가보고, 안 되면 뒤로 가서 다시 가설을 세우고 그거가 되는 알고리즘을 찾아가는 과정

"1 딸깍 away" — 2026년 3월의 농담

저희 어떤 서비스들이나 이런 거 단톡방에 올라오면 "아 저건 1 딸깍 away다" 아니면 "저거는 한 2 딸깍s away, 3 딸깍s away" 뭐 이런 식으로 저희 장난 삼아 얘기하는 그런 것들이 있는데, 그런 2026년 3월을 보내고 있죠.

AI 리서치 인턴은 26년 8월 — OpenAI의 비전 발표

26년 8월이면 AI 리서치 그쯤이에요. AI 리서치 인턴이 완성될 거고 그로부터 2년 후에 AI 리서치 PhD가 완성된다는 이야기로 이렇게 모호하게 돌려서 얘기했는데 AI 리서치 인턴이 된다는 얘기는 Autoresearch스러운 일이 된다라는 얘기를 한 거죠.

2014년 ImageNet — 딥러닝이라는 리브랜딩

딥러닝이 어떻게 보면 리브랜딩 된 이름인 건데, 뉴럴넷이라든지 이런 거 하면 다들 싫어하던 그 상황을 좀 돌파하기 위해서 딥러닝이라는 말을 써서, 좀 "이게 뭐지" 하고 봤는데 결국 그거랑 맥락을 같이 하는 거였고 대신에 스케일이 커지고 ... Bitter Lesson에 나오는 결국 인간의 inductive bias를 줄이고 스케일을 키우는 형태

제가 예전에 만들던 반도체들은 ... 스탠다드 스펙이 정해져 있거든요. ... 근데 NPU라고 하는 AI 반도체는 무엇을 해야 되느냐에 대한 게 계속 바뀌는 거죠. ... 내가 좋은 반도체를 만드는 데 있어서 AI 알고리즘을 잘 이해를 못하면 좋은 반도체를 만든다는 건 말이 안 되는 일이다.

유튜브 고양이 — 지능은 그냥 창발한다

그 당시만 하더라도 한 천 대 정도 되는 클러스터 여기에다가 놓고 CNN 구조 비슷한 것들을 놓고 그냥 unsupervised로 유튜브 클립들을 쭉 다 보냈는데 이 특정 레이어 어딘가에 고양이 얼굴을 인식하는 필터가 생겼다

지능이라는 게 특별한 걸 하지 않아도 그냥 학습에 의해서 소위 창발할 수 있다, emerge 할 수 있다라는 걸 보여주는 예시였어요.

그때는 그런, 놀라긴 했지만 저는 그냥 그런가 보다, 당연히 될 것 같았는데 아직도 안 됐다고?의 느낌도 있긴 있었거든요.

2GB GPU로 VGG 돌리던 시절

저도 그때 생각나는 게 제 집에 있는 GPU, 그때 당시에 그 메모리가 2GB였거든요. 2GB짜리 GPU를 꽂아놓고 그거를 학습을 해 보겠다고. 근데 batch가, 정확하게 기억이 안 나는데 batch가 한 2 정도까지밖에 안 됐던 것 같아요.

그때는 뭘 해도 정말 신기할 때였어요. 2014년이 VGG, 아니 GoogLeNet인가가 우승하고 2015년에 ResNet이 우승했고

Karpathy의 Hacker's Guide — 타이밍과 인생

이게 어느 때에 누구와 함께 어디서 무슨 일을 했냐라는 게 참 중요한 게 이게 인생의 타이밍인데 Karpathy가 그 ImageNet, 화제의 한 중심이던 ImageNet을 하던 Fei-Fei Li 교수님의 박사 과정 학생이었죠.

그때 벤치마크는 지금의 AIME라든지 아니면 Humanity's Last Exam 이런 벤치마크처럼 그때 가장 유행하던 벤치마크는 ImageNet 점수였잖아요. top-5 accuracy였는데

DeepDream과 Chris Olah — 해석 가능성의 단초

그게 왜 작동하는지를 단초가 된 게 결국에는 Chris Olah 그리고 Alexander Mordvintsev 등이 ... 작업을 했었던 그 DeepDream이라고 불리는 작업인데 이게 예술 쪽에서도 많이 회자가 됐지만 결국에는 그 feature 증폭이잖아요. 이게 어떤 해석 가능성 연구의 단초가 되는 작업

Chris Olah가 결국에는 Anthropic의 공동 창립자 중에 한 명인데 Anthropic의 해석 가능성 연구에 Transformer Circuits의 포스팅 등으로도 계속 꾸준히 연결이 되고 있다.

프레임워크의 변천 — Theano에서 PyTorch까지

Torch가 2002년, Theano가 2007년, Caffe가 2013년, Keras가 TensorFlow보다 조금 먼저 나왔더라고요. Keras, TensorFlow, PyTorch, 이런 순서로 나왔던 거를 살펴봤습니다.

session, feed_dict 뭐 이런 용어들이 생각납니다.

Theano가 사실 TensorFlow의 전신이라고. 개발자들도 많이 가셨고.

텐서플로 코리아 — 전 세계 제일 큰 유저 그룹

텐서플로 코리아 제가 여기도 운영진이었고 굉장히 재미있는 것들이 많았어요. ... 유저 그룹이라고 친다고 하면 이게 전 세계에서 제일 큰 규모였어요. 그래 가지고 실제로 구글 행사 같은 데서도 소개가 되기도 하고

AlphaGo에 사람들이 충격을 받고 이거 제대로 알아야겠다고 함께 공부하는 그런 분위기가 형성됐고 그게 페이스북에 텐서플로 코리아 페이스북 그룹이 만들어지고 행사들이 있고 제주도를 가서 같이 워크숍 하기도 하고

David Ha — 금융권에서 참치 대뱃살 스튜디오까지

이게 otoro가 참치 대뱃살이거든요. 참치 대뱃살 스튜디오라는 거 ... 제가 인상적으로 봤던 거는 초기 작업 중에 한자, 한자를 없는 한자를 만들어내는 거

이 사람이 누구냐 하면 금융권에 있다가 ... 나와서 Processing 같은 걸 공부하고 자기가 작업하는 걸 이렇게 올렸던 사람이 누구냐 하면 현재는 구글 거쳐서 Sakana AI의 대표로 있는 David Ha입니다.

GAN — 맥주가 맛없어서 나온 논문

Ian Goodfellow의 GAN 논문에 보면 그 술집 ... 맥주가 너무 맛이 없어가지고 거기서 연구 아이디어를 떠올리게 됐다

그때만 하더라도 신기하긴 한데 아직 이거 뭐 써먹을 정도는 못 돼 라는 게 전반적인 평이었죠. 그저 신기할 때였습니다.

Transformer — ConvS2S와의 경쟁에서 일반성이 이겼다

Facebook에서는 우리는 convolution만 가지고 할 거야. 이게 약간 경쟁처럼, 결과적으로는 Transformer가 살아남았지만.

결국 CNN이라고 하는 convolution이라고 하는 거는 bias가 들어간 거죠. ... 이게 결국 scale 측면에서 여기도 Bitter Lesson이 들어가는 거죠. 결국에 scale이 커졌을 때는 더 general한 모델인 Transformer가 성능이 훨씬 좋아진다.

저는 Transformer 사실 이해한 건 2020년. 2017년에서 저는 2017년에서 2020년까지 AI 그렇게 열심히 또 안 보던 때였어요.

BERT가 폭발의 첫 방아쇠 — self-supervised로 레이블 없이

이게 사실 폭발적으로 성장을 하게 만든 첫 번째 계기는 제 느낌에는, 주관적인 느낌으로는 BERT가 나오면서부터였거든요.

BERT는 그거 없이 그냥 encoder만 가져와서 쓰는데 빈칸을 만들고 그 빈칸을 채우는 식으로 학습을 시켰단 말이죠. 그게 엄청난 self-supervised learning이라고 부르는 걸 하면서 엄청나게 많은 데이터를 레이블링 없이 쓸 수 있게 되면서부터 폭발적인 scale이 커졌던 것 같아요.

왜 GPT(디코더)가 이겼나 — KV 캐시가 될 운명

GPT 같은 디코더는 항상 자기보다 앞에 있는 단어만 하기 때문에 앞에 나왔던 단어들에 대한 토큰에 대한 연산을 다시 할 필요가 없고 그게 결국에 지금 key-value 형태가 되는 걸로 가져와서 자기 이번에 생성된 단어에 대한 연산만 새로 추가하면 모든 걸 다 할 수 있는, 확장성에 있어서 비교가 안 되는 그런 구조

가장 큰 BERT도 1 billion이 안 됐던 것 같아요. ... 근데 그것도 어마어마하게 크다라는 얘기를 그 당시에 했었죠.

BERT 시대의 AI 윈터 — 서비스는 끝이 모자랐다

BERT류로 QnA라든지 아니면 그 어떤 빈칸 채우기라는 이런 모델을 가지고 실용적으로 서비스를 만들려던 회사들이 많았어요. ... 동작은 굉장히 잘 했어요. 근데 뭔가 완성도 측면에서 끝에 가서 항상 모자라는 게 있었고

다들 관심도 좀 사그라들고 야 이거 AI 신기하긴 한데 안 돼, 라는 그런 인상도 지배하던 때였죠. 그때 또 한 번 AI 윈터가 오네 뭐 어쩌네라고 얘기하고

HyperCLOVA — 전략 자산이라는 불안감

영향력이 엄청나게 커지고 미래의 발전 가능성은 더 크게 느껴지고 하다 보니까 국가들이 다 뭔가 이게 전략 자산이 되는 거 아니냐, 나중에 군사 무기처럼 되는 거 아니냐라는 불안감 같은 것들도 있는 거죠. 그래서 우리가 자체적으로 부족함이 있더라도 자체적인 기술과 모델을 갖고 있는 게 중요하겠다라는 취지

나는 한국 사람인데 독도가 어느 나라 땅이냐라고 하면 한국 땅이라고 하고, 일본 사람으로 캐릭터를 하면 또 일본 땅이라고 하고 이런 답을 하는 게 그때 당시에 이런 게 가능해?

Vision Transformer — 스케일의 무서움을 다시 한 번

결국에는 비전 트랜스포머가 성공을 어떻게 시켰냐라고 하면 데이터를 많이 넣은 거였어요. 다른 답이 없고 방법은 굉장히 심플하게 이미지를 잘라서 패치로 만들어 가지고 트랜스포머에 벡터로 펴 가지고 넣어주는 건데, 대신에 이게 성능이 나오려면 기존에 CNN보다 좋은 성능이 나오려면 데이터를 많이 넣어야 되는데

거기에 JFT라는 데이터가 써 있는 걸 보고 사람들이 이거 Google 거네라고 알게 됐었죠. 그래서 그때 한 번 더 이게 스케일의 무서움이 이런 거구나라는 걸 한 번 더 느꼈던 것 같아요.

1960년 Licklider의 예언 — 창조적이고 흥미진진한 지적 시대

그렇다면 인간-컴퓨터 공생을 개발하는 데 대략 5년, 그리고 그것을 활용하는 데 15년이 남는 셈이다. 그 15년이 10년일 수도 있고 500년일 수도 있지만, 그 시기는 인류 역사상 가장 창조적이고 흥미진진한 지적 시대가 될 것이다.

이 예측은 정확하게 맞진 않았지만 그 방향성에서는 이게 정말 우리가 초지능이 나오기 전까지 겪는 시기들이 창조적이고 흥미진진한 시대인 것 같다

10년을 훑고 나니 적응이 안 된다

저희가 이 한 10년의 이야기를 훑다 보니까 적응이 안 돼요. 솔직히 저희 일주일 전에 나온 거 가지고 세상이 바뀌는 시대를 꽤 오래 살았잖아요.

한 2024년 GPT-4 이후로 약 2년, 2년 가까이는 정말 정신없이 달려오고 뒤로 올수록 더 압축되는 시절을 살고 있잖아요. 그러다 보니까 그 속도에 어떤 렌즈를 끼고 그 더 전을 바라보니까 너무너무 오래전 얘기인 것 같아요.

먼저 움직이면 순교자가 되는 딜레마

먼저 움직여 가지고 advantage가 생겨야 되는데 그게 아니라 먼저 가서 순교하는 거죠. 잘 만들어주면 나보다 더 많은 컴퓨팅 자원과 나보다 더 많은 market share를 갖고 있는 애가 딸깍 하고 다 가져가 버리는 그런 것도 있을 수 있으니까.

지금의 선구자들은 어떤 방향성을 제시해 주고 이런 것도 할 수 있어, 이런 거 하면 좋아라는 걸, 가능성을 보여주면 뒤에서 큰 것들이 몰려오면서 그 시장을 다 먹어버리는, 그런 게 계속 반복되는 것 같아요.

AI가 깊이 들어오지 못한 영역 — 검증이 오래 걸리는 곳

아직은 제가 하고 있는 영역에 AI가 그렇게 깊이 들어오지 못하고 있는 부분이 있어요. 역시 또 생각해 보면 verifiable하긴 한데, verify하는 과정이 시간도 많이 걸리고 어려워서.

저는 항상 저희 회사 직원들이랑 얘기를 나눌 기회가 있을 때 3년 후에는 나는 이 일을 안 할 거다라는 얘기를 입버릇처럼 하거든요. 그러면 뭘 해야 되나 하는 생각을 ... 아직도 답을 못 찾았어요.

Claude Code가 있으니까 — 재기 가능성의 토대

"저는 망해도 두렵지 않아요, Claude Code가 있으니까요." Claude Code가 있으면 언제든지 재기할 수 있다라는 얘기를 하셔 가지고 다 웃었던 기억이 납니다.

소프트웨어가 끝나는 게 아니라 소프트웨어의 시대가 진짜 활짝 열리는 건데, 소프트웨어를 만들던 사람의 시대가 끝난 거죠.

37수가 곳곳에서 — Platform 37의 함의

37수 같은 게 이 도메인에서 저 도메인에서 일어나는 걸 Google DeepMind는 지향하고 있고, 그중에 하나를 보고 있는 거가 생물학이라든가, 저희가 겉만 보고 있지 아직 다루지 못했던 현재 일어나고 있는, 이미 일어나고 있는 방향성들

저희도 호들갑 모드로 계속 가는 거는 아 이건 너무 피곤하다. 저희도 AI science나 이런 쪽으로 한번 좀 더 weight를 좀 옮겨 보려는 그런 와중에 있다

OpenClaw — 마지막 단 하나의 어시스턴트

모두가 회장님의 삶을 살게 된다. 뭘 하든지 최강의 극강의 비서진들을 거느리고 아무리 작은 일이라도 하게 되는 세상이 되는 거가 맞는 방향성이면, 그 극강의 비서진을 잘 만들어 주어서 소비자에게 최종 어시스턴트로, 가장 끝단, 내 눈앞에 바로 어시스턴트로 선택되는 애가 모든 주도권을 쥐게 되는 거라서, OpenClaw가 거기에서 큰 어떤 의미가 있다

YouTube 원본 →원본 사이트 →