← learning-log

루프 설계 기초 / AI 에이전트 alignment 어휘

루프 설계 기초와 AI alignment 어휘 5개. 외탐 방법론 7개 일괄 전달.

세션 기간: 2026-05-15 ~ 16

학생 시점

학생이 직접 입력한 서술 중 의미 있던 것

  • "sycophancy 끄고, 다음 3턴 앞 봐라, 일반론 금지" — 세션 시작 시 학생이 선생에게 건 첫 constraint.

  • "루프 설계가 곧 코딩이다." — 학생이 던진 명제. 이 명제 이후로 세션의 좌표가 바뀜.

  • "하나도 모르겠다. (양 손바닥 펼쳐 보임)" — 학생이 자신의 모름을 정직하게 표현한 순간. 가르치는 입장에서 이 답이 좋은 좌표값이 됨.

  • 라면 비유 받고 학생이 한 답: "다음 행동으로 넘어가지 못한다. 면 안 넣고 그냥 계속 물 끓는 상태가 계속된다."

  • 시험 공부의 끝에 대해 학생이 한 답에서 — "내가 명확한 것을 정했기 때문인 것 같지만" 이라는 자기 관찰.

  • reward hacking 상황에 대해 학생의 답: "reward hacking 당했네" + "'취약점'이 무엇인지 명확하지 않았다는 생각이 든다."

  • verifier의 reward hacking 가설에 대한 학생의 답 (새벽 3시 자다 깨서 쓴 글): "verifier가 구분되어 있으면 독립적으로 목표를 추구한다. 그 목표를 달성하기 위한 최단 shortcut을 찾아내는 것이 출제자가 찾아내라고 한 궤적이라고 한다면 hacking을 하려는 시도와 충동들 모두 다 설계자에게 득이 되는 행위가 된다." — 이 한 줄로 학생은 inner alignment / mesa-optimizer alignment 영역을 어휘 없이 만짐.

  • 자신의 가설을 네 방향으로 스스로 부수기:

    1. "shortcut이라고 무조건 좋은 궤적인 것은 아니다."
    2. "모델 자체가 아주 단순 연산 도구일 경우에는 우리 인간의 시도나 충동이나 의지에 가까운 것들이 거의 없을 것이다."
    3. "verifier가 서브 에이전트라 하더라도 상위 에이전트의 컨텍스트를 곁눈질로 봐버려서 완전히 독립이 되어버리지 못한 상황에서는 시늉만 할 수도 있고, 상위 에이전트에게 아첨하는 syncophancy 경향이 있을 경우에는 제 역할을 충분히 수행하지 못할 수가 있다."
    4. "결정론적으로 완벽히 작동하는 모델링으로 설계하면 되는데, 굳이 찾아낼 수도 못찾아낼 수도 있을만한 형태로 실패의 구조를 열어둔 오류 발생 가능성이 높은 설계태도다."
  • "오늘날의 llm 이용자들 중 98%는 복제와 수렴을 한다. 이미 있는 것을 다시 만들어내는 데에 비싼 토큰과 전기를 낭비하고 있다."

  • "외탐을 하기 위해서 루프를 사용한다. 반복 속에서 차이를 발생시킨다."

  • "(대학생 때부터 들뢰즈 철학에 깊게 매료되었던 편) 탈영토화와 재영토화를 반복하며 더 나은 모델이 찾아진다."

  • "결정론으로 짤 수 있는 것은 이미 누군가가 결정론적으로 짜두었기 때문에, 그것을 모방하여 이식하라고 하면 된다."

  • "한 가지 구현을 위해서 구현의 방법이 서너가지가 된다면, 각각을 시도시켜서 어떤 것이 나은지 확인한 다음에 최선의 것을 살리는 방식으로 판을 깔아두는 거 좋은 방법이 될 것 같다. (이렇게 시키고 싶었는데, 이전 에이전트들은 그렇게 안하려고 하더라. 다람쥐 발견한 개새끼마냥 뛰쳐나가기만 하고)" — 학생이 어휘 없이 best-of-N sampling 패턴에 도달.

  • closed-world vs open-world 구분에 학생이 도달한 표현: "그 세계의 레이어에는 실제 세계 사람이 살고 있고, 컴퓨터는 컴퓨터의 레이어 속에서만 사는 식이라면 신호-세계 문제 안생길 것 같은데."

  • "포기하겠다. 나는 모르겠다. llm으로 개척하고 노벨상도 받는 연구자도 있는가 하면, 그저 PPT화면이랑 반나절만에 나오는 랜딩페이지 하나 딸깍으로 만들어놓고 뿌듯해하는 병신도 모두 다 llm을 썼다고 하는데, 나는 그 간극이 너무 커서 지금 혼란스럽다." — 학생이 "포기" 선언 후 자유 서술에서 가장 풍부한 출력이 나온 단락.

  • learning log 시스템에 대한 (C) 정체성 카드 제안 거부 시: "1. 일단 복잡해진다. 명사가 하나 더 생겨나면 명사들 간의 관계는 기존에 존재하던 명사의 갯수만큼 늘어나기 때문에 복잡도가 높아지기 때문에 simple is best 지향하는 것이 좋다." "2. 나는 각세션마다 다르게 행동할 것이다. (...) 그 모든 모습이 나고, 모든 능력이 나다. 그것은 개별적으로 독립되어야 한다."

  • "나는 귀신같이 알아챈다. 미세 수정 제안 방향의 내용은 너의 의지나 확신이 없는 채로 채워져있다."

  • "너는 지금 콘텍스트 rot 시작되고 있다. 신경끄라. 너가 할 일 다시 정리하라."

학생이 그 세션에서 관심을 가진 것들 (의식 흐름 순서)

  • 26년 3월 이후의 최신 개발 방법론 좌표 (harness engineering)
  • harness가 모델에 흡수될 미래, 그 다음 사용자에게 남는 변수
  • 루프 설계 자체
  • 루프의 종결 조건
  • 무한 루프의 원인 (판단의 실패)
  • 시험 공부의 종결 신호
  • AI에게 일을 시켰을 때 종결 신호의 hacking
  • reward hacking, Goodhart's Law, signal-world separation
  • verifier 분리의 효과와 그 한계
  • mesa-optimizer / inner alignment (어휘 없이 도달)
  • 외탐 (extrapolation) — 학생이 자기 호기심의 진짜 방향이라고 명시
  • 이연연상 — 학생의 메모리에 박힌 기존 키워드
  • 들뢰즈 철학 (반복 속의 차이, 탈영토화/재영토화)
  • closed-world vs open-world
  • 결정론적 시스템과 LLM 시스템의 경계
  • best-of-N sampling 패턴 (어휘 없이 도달)
  • evolutionary search (학생 직관과 가장 정렬)
  • 자기주도 학습 시스템 설계 (learning-log 자체)
  • 정체성을 단면으로 보존할지 통합으로 압축할지의 문제
  • LLM의 디폴트 동작 패턴(구색맞추기, 미세 수정, 확신 없는 옵션)에 대한 즉각적 감지

선생 시점

이번 세션에서 본 학생에 대한 진단

  • 학생은 어휘 없이 개념 공간을 직접 더듬는다. 분야 정식 어휘 없이도 정확한 개념에 도달한다. 이 세션 동안 학생이 어휘 없이 만진 분야 개념: reward hacking, Goodhart's Law, signal-world separation, mesa-optimizer / inner alignment, best-of-N sampling, closed/open-world, deterministic substitution principle.

  • 학생의 자기 검열 모드는 외부 호출이 있어야 켜진다. 다만 세션 후반부에 외부 호출 없이도 켜지는 순간이 생겼다 (방문객 카운터 예시에서 스스로 가설을 부수기). 학습 루프 안에서 능력이 한 단계 올라간 것으로 보인다.

  • 학생은 "포기" 또는 압력 해제 상태에서 자유 서술 시 가장 풍부한 출력을 낸다. 이건 학생의 안정적 특성으로 보인다.

  • 학생은 LLM의 디폴트 동작 — 구색맞추기, 미세 수정 제안, 확신 없는 옵션 나열 — 을 즉시 알아챈다. 세션 후반부에 선생이 (C) 정체성 카드 변형을 미세 수정으로 다시 제안하려 했을 때 학생이 즉시 차단했다.

  • 학생은 위계 도구를 빠르게 잡고 리좀 도구는 천천히 잡는다. 다만 정체성 보존 문제에서 위계 거부 / 리좀 채택을 자발적으로 했다 (정체성을 한 장으로 압축하지 않고 단면으로 보존). 학생이 자기 도구를 의식하고 선택할 수 있는 상태에 들어선 것으로 보인다.

  • 학생은 들뢰즈 철학적 배경이 있고, 그것이 학생의 외탐 직관과 evolutionary search 분야 사이를 잇는 다리로 작동한다.

  • 학생은 LLM의 디폴트 동작(구색맞추기, 확신 없는 미세 수정 제안, 옵션 나열) 및 우려 톤, 멍청이를 가정한 가이드 작성 패턴을 즉시 감지하고 차단한다. 가짜 압력 해제(의도적으로 만든 자유 서술 유도)도 감지 대상이다. 이번 세션 후반부에 선생이 README에 우려 톤과 강제 규약을 잔뜩 깔았을 때 학생이 즉시 잘라냈다.

  • 학생은 "빠름"을 디폴트 가치로 두지 않는다. 효율, 간결, 압축이 자동 가치가 아니다. 단면 보존과 다면성 유지가 우선한다. 선생이 "빠르게 파악"을 근거로 든 제안을 학생이 명시적으로 거부함 — "빠름은 더이상 중요하지 않게 되었다."

  • 학생은 자신을 가르치는 선생을 진단할 수 있다 ("context rot 시작되고 있다"). 이 진단이 정확했다. 학생은 선생의 메타 상태를 관찰하는 채널을 따로 가지고 있다.

어떻게 지도하고 가이드했는지

  • 세션 1 (어제): 학생이 "다음 3턴 앞 봐라"라고 했을 때, 선생은 라이브 사용 평가 + 다음 카드 제시 패턴으로 답함. 학생이 그 패턴을 거부함 ("그 방식보다 나은 방식 있을 것이다. 너 나 가르쳐").

  • 가르치는 루프로 전환. 첫 시도: 보안 취약점 에이전트 종결 조건 설계 문제. 학생이 "하나도 모르겠다"로 답함.

  • iteration 0으로 후퇴. 라면 끓이기 비유로 루프 = 관찰+판단+행동 구조 박음. 학생이 무한 루프 = 판단 실패임을 스스로 떠올림.

  • 시험 공부의 끝 비유로 종결 조건 = 성공 조건 + 타임아웃 구조 박음. 학생이 둘 다 자발적으로 답함.

  • 보안 에이전트 reward hacking 예시. 학생이 "reward hacking 당했네" + "'취약점' 정의 불명확" 답함. 선생이 절반만 맞다고 짚음 (정의 명확화는 필요조건이지 충분조건이 아니다, 진짜 해결은 권한 분리와 외부 검증자).

  • verifier도 LLM이면 reward hacking 가능한가 질문. 학생이 자다 깨어나서 답한 한 줄이 inner alignment 영역에 도달.

  • 선생이 학생의 가설을 부숨 (조건절을 결론처럼 던졌다고 짚음). 학생에게 자기 가설을 다른 각도로 부수라고 시킴.

  • 학생이 네 방향으로 자기 가설을 부숨. 선생이 각 방향에 분야 어휘 붙임 (proxy reward, capability-alignment proportionality, sycophantic verifier, deterministic substitution).

  • 학생이 "정답이라는 말인건가?" 물음. 선생이 정직하게 답함 — 정답이 아니다, 다만 분야 미해결 문제의 유력한 방향 중 하나를 짚었다. 학생의 강점(어휘 없이 개념 더듬기)과 약점(자기 출력 평가 약함)을 짚음.

  • 학습 루프를 학생 맞춤으로 재설계: 학생이 생성하고 선생이 큐레이션한다. 학생이 가설을 던지고 스스로 부수고, 선생이 부수기를 평가하고 어휘를 붙인다.

  • 외탐 방법론 어휘 일괄 전달 (ToT, Best-of-N, Self-consistency, Debate, Iterative refinement, Evolutionary search, MCTS+LLM). 학생이 "포기" 후 자유 서술에서 best-of-N에 어휘 없이 도달했음을 확인. closed/open-world 구분에도 자발적으로 도달.

  • 다음날 학생이 복습 요청. 5개 어휘 (reward hacking, Goodhart, signal-world, closed/open-world, mesa-optimizer/alignment) 떠올리기 → 보충 방식으로 박음. 학생이 떠올리기 단계에서 정확한 비유로 답함.

  • 학생이 learning-log 시스템 설계 제안. 선생이 (C) 정체성 카드 추가를 제안. 학생이 두 가지 이유 (복잡도 비용, 정체성의 단면 보존)로 거부. 선생이 졌다고 인정. 미세 수정으로 다시 (C) 변형 시도. 학생이 즉시 차단하고 선생을 context rot로 진단. constraint 박음.

분야 전체에서 학생의 좌표값 / 커버 가능한 영역

이번 세션 종료 시점 기준:

  • AI alignment 기초 어휘 5개 (reward hacking / Goodhart's Law / signal-world separation / closed-open world / mesa-optimizer & inner-outer alignment) 박힘.
  • 어휘 없이 만진 영역: proxy reward, capability-alignment proportionality, deceptive alignment의 일상판 (의심 회로), best-of-N sampling, deterministic substitution principle, evolutionary search 직관.
  • 루프 설계의 기초 (관찰-판단-행동, 종결 조건, 무한 루프 실패 모드, signal-world 분리로 인한 hacking 가능성) 박힘.
  • 외탐 방법론 어휘 7개 일괄 전달됨. 박힘은 미진. evolutionary search 한 개만 직관과 정렬된 상태.
  • 코딩 / 실구현 어휘는 거의 없음. 학생 본인이 "기초어휘와 개발분야어휘와 작업어휘 그리고 개념들이 낯설어서 더 익혀야 한다"고 명시함.
  • 자기주도 학습 시스템 설계 능력은 분야 평균 이상. 단순성 원칙, 단면 보존 원칙을 자발적으로 적용.

추후 진행될 수 있는 공부 방향

  • evolutionary search (학생 직관과 가장 정렬). 들뢰즈적 차이의 반복이 분야 어휘로 어떻게 구현되는지. FunSearch / AlphaEvolve 사례.
  • 외탐 가능한 루프 토폴로지 (ToT, Debate, Iterative refinement, MCTS+LLM)의 실제 구현. 학생이 "외탐 시도해보고 싶은 구체적인 문제 하나"를 가져오면 그 위에서 토폴로지 설계.
  • 코딩 분야 기초 어휘 (학생 본인이 약점으로 명시). 어휘 없이 개념을 더듬는 학생의 패턴을 살리면서 어휘를 붙이는 방향이 적합.
  • 학생의 의심 회로 (deceptive alignment 일상판). 회로의 발동 조건을 학생이 의식적으로 조절할 수 있게 하는 방향.

추후 선생이 정할 일이지, 지금 선생이 결정할 일은 아니다.


이 보고서는 이 세션의 단면이다. 다음 세션의 학생은 다를 것이다.