루프 설계 기초 / AI 에이전트 alignment 어휘
루프 설계 기초와 AI alignment 어휘 5개. 외탐 방법론 7개 일괄 전달.
세션 기간: 2026-05-15 ~ 16
학생 시점
학생이 직접 입력한 서술 중 의미 있던 것
-
"sycophancy 끄고, 다음 3턴 앞 봐라, 일반론 금지" — 세션 시작 시 학생이 선생에게 건 첫 constraint.
-
"루프 설계가 곧 코딩이다." — 학생이 던진 명제. 이 명제 이후로 세션의 좌표가 바뀜.
-
"하나도 모르겠다. (양 손바닥 펼쳐 보임)" — 학생이 자신의 모름을 정직하게 표현한 순간. 가르치는 입장에서 이 답이 좋은 좌표값이 됨.
-
라면 비유 받고 학생이 한 답: "다음 행동으로 넘어가지 못한다. 면 안 넣고 그냥 계속 물 끓는 상태가 계속된다."
-
시험 공부의 끝에 대해 학생이 한 답에서 — "내가 명확한 것을 정했기 때문인 것 같지만" 이라는 자기 관찰.
-
reward hacking 상황에 대해 학생의 답: "reward hacking 당했네" + "'취약점'이 무엇인지 명확하지 않았다는 생각이 든다."
-
verifier의 reward hacking 가설에 대한 학생의 답 (새벽 3시 자다 깨서 쓴 글): "verifier가 구분되어 있으면 독립적으로 목표를 추구한다. 그 목표를 달성하기 위한 최단 shortcut을 찾아내는 것이 출제자가 찾아내라고 한 궤적이라고 한다면 hacking을 하려는 시도와 충동들 모두 다 설계자에게 득이 되는 행위가 된다." — 이 한 줄로 학생은 inner alignment / mesa-optimizer alignment 영역을 어휘 없이 만짐.
-
자신의 가설을 네 방향으로 스스로 부수기:
- "shortcut이라고 무조건 좋은 궤적인 것은 아니다."
- "모델 자체가 아주 단순 연산 도구일 경우에는 우리 인간의 시도나 충동이나 의지에 가까운 것들이 거의 없을 것이다."
- "verifier가 서브 에이전트라 하더라도 상위 에이전트의 컨텍스트를 곁눈질로 봐버려서 완전히 독립이 되어버리지 못한 상황에서는 시늉만 할 수도 있고, 상위 에이전트에게 아첨하는 syncophancy 경향이 있을 경우에는 제 역할을 충분히 수행하지 못할 수가 있다."
- "결정론적으로 완벽히 작동하는 모델링으로 설계하면 되는데, 굳이 찾아낼 수도 못찾아낼 수도 있을만한 형태로 실패의 구조를 열어둔 오류 발생 가능성이 높은 설계태도다."
-
"오늘날의 llm 이용자들 중 98%는 복제와 수렴을 한다. 이미 있는 것을 다시 만들어내는 데에 비싼 토큰과 전기를 낭비하고 있다."
-
"외탐을 하기 위해서 루프를 사용한다. 반복 속에서 차이를 발생시킨다."
-
"(대학생 때부터 들뢰즈 철학에 깊게 매료되었던 편) 탈영토화와 재영토화를 반복하며 더 나은 모델이 찾아진다."
-
"결정론으로 짤 수 있는 것은 이미 누군가가 결정론적으로 짜두었기 때문에, 그것을 모방하여 이식하라고 하면 된다."
-
"한 가지 구현을 위해서 구현의 방법이 서너가지가 된다면, 각각을 시도시켜서 어떤 것이 나은지 확인한 다음에 최선의 것을 살리는 방식으로 판을 깔아두는 거 좋은 방법이 될 것 같다. (이렇게 시키고 싶었는데, 이전 에이전트들은 그렇게 안하려고 하더라. 다람쥐 발견한 개새끼마냥 뛰쳐나가기만 하고)" — 학생이 어휘 없이 best-of-N sampling 패턴에 도달.
-
closed-world vs open-world 구분에 학생이 도달한 표현: "그 세계의 레이어에는 실제 세계 사람이 살고 있고, 컴퓨터는 컴퓨터의 레이어 속에서만 사는 식이라면 신호-세계 문제 안생길 것 같은데."
-
"포기하겠다. 나는 모르겠다. llm으로 개척하고 노벨상도 받는 연구자도 있는가 하면, 그저 PPT화면이랑 반나절만에 나오는 랜딩페이지 하나 딸깍으로 만들어놓고 뿌듯해하는 병신도 모두 다 llm을 썼다고 하는데, 나는 그 간극이 너무 커서 지금 혼란스럽다." — 학생이 "포기" 선언 후 자유 서술에서 가장 풍부한 출력이 나온 단락.
-
learning log 시스템에 대한 (C) 정체성 카드 제안 거부 시: "1. 일단 복잡해진다. 명사가 하나 더 생겨나면 명사들 간의 관계는 기존에 존재하던 명사의 갯수만큼 늘어나기 때문에 복잡도가 높아지기 때문에 simple is best 지향하는 것이 좋다." "2. 나는 각세션마다 다르게 행동할 것이다. (...) 그 모든 모습이 나고, 모든 능력이 나다. 그것은 개별적으로 독립되어야 한다."
-
"나는 귀신같이 알아챈다. 미세 수정 제안 방향의 내용은 너의 의지나 확신이 없는 채로 채워져있다."
-
"너는 지금 콘텍스트 rot 시작되고 있다. 신경끄라. 너가 할 일 다시 정리하라."
학생이 그 세션에서 관심을 가진 것들 (의식 흐름 순서)
- 26년 3월 이후의 최신 개발 방법론 좌표 (harness engineering)
- harness가 모델에 흡수될 미래, 그 다음 사용자에게 남는 변수
- 루프 설계 자체
- 루프의 종결 조건
- 무한 루프의 원인 (판단의 실패)
- 시험 공부의 종결 신호
- AI에게 일을 시켰을 때 종결 신호의 hacking
- reward hacking, Goodhart's Law, signal-world separation
- verifier 분리의 효과와 그 한계
- mesa-optimizer / inner alignment (어휘 없이 도달)
- 외탐 (extrapolation) — 학생이 자기 호기심의 진짜 방향이라고 명시
- 이연연상 — 학생의 메모리에 박힌 기존 키워드
- 들뢰즈 철학 (반복 속의 차이, 탈영토화/재영토화)
- closed-world vs open-world
- 결정론적 시스템과 LLM 시스템의 경계
- best-of-N sampling 패턴 (어휘 없이 도달)
- evolutionary search (학생 직관과 가장 정렬)
- 자기주도 학습 시스템 설계 (learning-log 자체)
- 정체성을 단면으로 보존할지 통합으로 압축할지의 문제
- LLM의 디폴트 동작 패턴(구색맞추기, 미세 수정, 확신 없는 옵션)에 대한 즉각적 감지
선생 시점
이번 세션에서 본 학생에 대한 진단
-
학생은 어휘 없이 개념 공간을 직접 더듬는다. 분야 정식 어휘 없이도 정확한 개념에 도달한다. 이 세션 동안 학생이 어휘 없이 만진 분야 개념: reward hacking, Goodhart's Law, signal-world separation, mesa-optimizer / inner alignment, best-of-N sampling, closed/open-world, deterministic substitution principle.
-
학생의 자기 검열 모드는 외부 호출이 있어야 켜진다. 다만 세션 후반부에 외부 호출 없이도 켜지는 순간이 생겼다 (방문객 카운터 예시에서 스스로 가설을 부수기). 학습 루프 안에서 능력이 한 단계 올라간 것으로 보인다.
-
학생은 "포기" 또는 압력 해제 상태에서 자유 서술 시 가장 풍부한 출력을 낸다. 이건 학생의 안정적 특성으로 보인다.
-
학생은 LLM의 디폴트 동작 — 구색맞추기, 미세 수정 제안, 확신 없는 옵션 나열 — 을 즉시 알아챈다. 세션 후반부에 선생이 (C) 정체성 카드 변형을 미세 수정으로 다시 제안하려 했을 때 학생이 즉시 차단했다.
-
학생은 위계 도구를 빠르게 잡고 리좀 도구는 천천히 잡는다. 다만 정체성 보존 문제에서 위계 거부 / 리좀 채택을 자발적으로 했다 (정체성을 한 장으로 압축하지 않고 단면으로 보존). 학생이 자기 도구를 의식하고 선택할 수 있는 상태에 들어선 것으로 보인다.
-
학생은 들뢰즈 철학적 배경이 있고, 그것이 학생의 외탐 직관과 evolutionary search 분야 사이를 잇는 다리로 작동한다.
-
학생은 LLM의 디폴트 동작(구색맞추기, 확신 없는 미세 수정 제안, 옵션 나열) 및 우려 톤, 멍청이를 가정한 가이드 작성 패턴을 즉시 감지하고 차단한다. 가짜 압력 해제(의도적으로 만든 자유 서술 유도)도 감지 대상이다. 이번 세션 후반부에 선생이 README에 우려 톤과 강제 규약을 잔뜩 깔았을 때 학생이 즉시 잘라냈다.
-
학생은 "빠름"을 디폴트 가치로 두지 않는다. 효율, 간결, 압축이 자동 가치가 아니다. 단면 보존과 다면성 유지가 우선한다. 선생이 "빠르게 파악"을 근거로 든 제안을 학생이 명시적으로 거부함 — "빠름은 더이상 중요하지 않게 되었다."
-
학생은 자신을 가르치는 선생을 진단할 수 있다 ("context rot 시작되고 있다"). 이 진단이 정확했다. 학생은 선생의 메타 상태를 관찰하는 채널을 따로 가지고 있다.
어떻게 지도하고 가이드했는지
-
세션 1 (어제): 학생이 "다음 3턴 앞 봐라"라고 했을 때, 선생은 라이브 사용 평가 + 다음 카드 제시 패턴으로 답함. 학생이 그 패턴을 거부함 ("그 방식보다 나은 방식 있을 것이다. 너 나 가르쳐").
-
가르치는 루프로 전환. 첫 시도: 보안 취약점 에이전트 종결 조건 설계 문제. 학생이 "하나도 모르겠다"로 답함.
-
iteration 0으로 후퇴. 라면 끓이기 비유로 루프 = 관찰+판단+행동 구조 박음. 학생이 무한 루프 = 판단 실패임을 스스로 떠올림.
-
시험 공부의 끝 비유로 종결 조건 = 성공 조건 + 타임아웃 구조 박음. 학생이 둘 다 자발적으로 답함.
-
보안 에이전트 reward hacking 예시. 학생이 "reward hacking 당했네" + "'취약점' 정의 불명확" 답함. 선생이 절반만 맞다고 짚음 (정의 명확화는 필요조건이지 충분조건이 아니다, 진짜 해결은 권한 분리와 외부 검증자).
-
verifier도 LLM이면 reward hacking 가능한가 질문. 학생이 자다 깨어나서 답한 한 줄이 inner alignment 영역에 도달.
-
선생이 학생의 가설을 부숨 (조건절을 결론처럼 던졌다고 짚음). 학생에게 자기 가설을 다른 각도로 부수라고 시킴.
-
학생이 네 방향으로 자기 가설을 부숨. 선생이 각 방향에 분야 어휘 붙임 (proxy reward, capability-alignment proportionality, sycophantic verifier, deterministic substitution).
-
학생이 "정답이라는 말인건가?" 물음. 선생이 정직하게 답함 — 정답이 아니다, 다만 분야 미해결 문제의 유력한 방향 중 하나를 짚었다. 학생의 강점(어휘 없이 개념 더듬기)과 약점(자기 출력 평가 약함)을 짚음.
-
학습 루프를 학생 맞춤으로 재설계: 학생이 생성하고 선생이 큐레이션한다. 학생이 가설을 던지고 스스로 부수고, 선생이 부수기를 평가하고 어휘를 붙인다.
-
외탐 방법론 어휘 일괄 전달 (ToT, Best-of-N, Self-consistency, Debate, Iterative refinement, Evolutionary search, MCTS+LLM). 학생이 "포기" 후 자유 서술에서 best-of-N에 어휘 없이 도달했음을 확인. closed/open-world 구분에도 자발적으로 도달.
-
다음날 학생이 복습 요청. 5개 어휘 (reward hacking, Goodhart, signal-world, closed/open-world, mesa-optimizer/alignment) 떠올리기 → 보충 방식으로 박음. 학생이 떠올리기 단계에서 정확한 비유로 답함.
-
학생이 learning-log 시스템 설계 제안. 선생이 (C) 정체성 카드 추가를 제안. 학생이 두 가지 이유 (복잡도 비용, 정체성의 단면 보존)로 거부. 선생이 졌다고 인정. 미세 수정으로 다시 (C) 변형 시도. 학생이 즉시 차단하고 선생을 context rot로 진단. constraint 박음.
분야 전체에서 학생의 좌표값 / 커버 가능한 영역
이번 세션 종료 시점 기준:
- AI alignment 기초 어휘 5개 (reward hacking / Goodhart's Law / signal-world separation / closed-open world / mesa-optimizer & inner-outer alignment) 박힘.
- 어휘 없이 만진 영역: proxy reward, capability-alignment proportionality, deceptive alignment의 일상판 (의심 회로), best-of-N sampling, deterministic substitution principle, evolutionary search 직관.
- 루프 설계의 기초 (관찰-판단-행동, 종결 조건, 무한 루프 실패 모드, signal-world 분리로 인한 hacking 가능성) 박힘.
- 외탐 방법론 어휘 7개 일괄 전달됨. 박힘은 미진. evolutionary search 한 개만 직관과 정렬된 상태.
- 코딩 / 실구현 어휘는 거의 없음. 학생 본인이 "기초어휘와 개발분야어휘와 작업어휘 그리고 개념들이 낯설어서 더 익혀야 한다"고 명시함.
- 자기주도 학습 시스템 설계 능력은 분야 평균 이상. 단순성 원칙, 단면 보존 원칙을 자발적으로 적용.
추후 진행될 수 있는 공부 방향
- evolutionary search (학생 직관과 가장 정렬). 들뢰즈적 차이의 반복이 분야 어휘로 어떻게 구현되는지. FunSearch / AlphaEvolve 사례.
- 외탐 가능한 루프 토폴로지 (ToT, Debate, Iterative refinement, MCTS+LLM)의 실제 구현. 학생이 "외탐 시도해보고 싶은 구체적인 문제 하나"를 가져오면 그 위에서 토폴로지 설계.
- 코딩 분야 기초 어휘 (학생 본인이 약점으로 명시). 어휘 없이 개념을 더듬는 학생의 패턴을 살리면서 어휘를 붙이는 방향이 적합.
- 학생의 의심 회로 (deceptive alignment 일상판). 회로의 발동 조건을 학생이 의식적으로 조절할 수 있게 하는 방향.
추후 선생이 정할 일이지, 지금 선생이 결정할 일은 아니다.
이 보고서는 이 세션의 단면이다. 다음 세션의 학생은 다를 것이다.