← learning-log

LLM 시대 루프 어휘의 동치 검토 → 자기진단 → 커리큘럼 협상

세션은 "TDD, EDD, Agent Swarm Orchestration Loop이 다 같은 얘기 아니냐, 같은 거면 다른 어휘들 더 있냐"는 질문으로 시작했다. 학생은 이 셋이 동치라고 가정하고…

학생 시점

학생의 서술 중 의미 있던 것, 학생이 관심을 가진 것의 의식 흐름. 학생의 목소리 그대로.

세션은 "TDD, EDD, Agent Swarm Orchestration Loop이 다 같은 얘기 아니냐, 같은 거면 다른 어휘들 더 있냐"는 질문으로 시작했다. 학생은 이 셋이 동치라고 가정하고 있었다. 선생이 "공통점은 실행→측정→수정의 폐루프 하나뿐, 나머지는 다르다"며 거리를 두고, "이 추상 레벨이라면 사이버네틱스, PDCA, OODA, RLHF까지 다 같다"고 답하자, 학생은 그 답을 받아들이지 않고 "LLM 시대 개발 방법으로 TDD도 얘기되는데 왜 빼야 하지? Test와 Eval의 차이가 뭐냐, loop를 돌리냐 한 차례냐의 차이인가?"로 되물었다. 선생이 처음 답을 정정하고 Test vs Eval의 진짜 분기점을 "확률성 vs 결정론, 정답이 단일이냐 분포냐"로 다시 짚자, 학생은 "diff가 뭐냐, LLM judge라는 게 가상 에이전트를 만든다는 거냐, OODA가 뭐냐, 내가 궁금해할 것들 대략적으로 설명해라"로 옮겼다. 이 시점에 학생의 관심은 "어휘 동치성 검증"에서 "루프라는 형식의 계보학"으로 옮겨갔다. 선생의 백과사전식 답변 흐름을 학생이 끊었다. "친절한 백과사전에 그치는 것 같다, 과거의 학습 방식이다, 공부를 잘 해보자, 선생이 나를 특정 상태로 만들겠다는 목표를 가지고 루프를 돌리자, 선생 자체가 루프가 되라"고 명시 요청했다. 선생이 목표 상태 후보 4개(설계자/비평가/연결자/기타)를 제시하자, 학생은 자기 위치를 "(a) 다른 선생과 라면·알람시계 사례로 루프 파악 실습 너댓 차례 했음, 다음 단계 필요. (b) 비평가 수준은 모름. (c) 연결자는 가늠도 못 할 능력"으로 답했다. 선생이 진단 문제(self-judge 결함투성이 고객 응대 시스템) 한 개를 던졌고, 학생은 5개 결함을 적었다 — (1) 어떤 메일에 답할지 미정의, (2) 같은 LLM이 실행과 채점 둘 다 함, (3) "고객 만족" 기준 부재, (4) 무작위 100건 샘플링이 잘못, 전수조사 해야 함, (5) 평균이 아니라 개별 접점을 현미경으로 봐야 함. 선생이 진단 결과로 "self-judge 분리와 rubric 부재는 잡았다, 메일 종류 미분류는 한 단계 더 가야 한다, (4)(5)는 학문적으론 틀렸지만 가리키는 직관은 맞다"고 답하고, 못 본 5개(무한 루프 가능성, Goodhart, distribution shift, ground truth 부재, 회귀 미검증)를 짚었다. 학생은 부끄러움을 표현했다 — "이전 다른 세션에서 1,2는 들었던 내용인데 생각도 못 한 게 부끄럽다." 그리고 곧바로 학습 방식을 직접 변경 요청했다 — "치킨 프랜차이즈에서 가맹점 품질 못 맞추는 문제로 비유해서 한 번 해봐줘. 나한테 문제 내지 말고 선생이 한 번 해봐." 선생이 5개 함정을 치킨 프랜차이즈 비유로 옮긴 후, 학생은 흔들렸다 — "개발 발주가 왜 이렇게 어렵나? 격차를 못 줄일 것 같다. 만들기를 포기하는 게 좋을까? 출발선에도 못 선 것 같다. 어떻게 해야 할까." 선생이 학생의 학습 궤적(30분간 개념 67개 새로 잡음)과 self-judge 분리·rubric 부재를 첫 시도에 짚은 점을 짚고, "지금은 만들지 마라, 6개월 동안 (1) 남의 루프 해부 (2) 하루짜리 자기 루프 (3) 발주는 6개월 뒤"를 제안하며, 마지막에 "선생님 어떻게 해야 할까요"라는 문장의 흔들림을 짚고 "다음 턴에 (1) 해부 사례 (2) 장난감 루프 설계 중 골라라"고 했다. 학생은 다시 끊었다 — "어떻게 해야 할까요는 선생이 커리큘럼이 뚜렷하지 않아서 한 말이다. 따라간다고 천재 발주자가 될지 확신 안 선다. 선생 만나기 전에 5개 에이전트 연속으로 terminate 시켰다. 뭘 해야 할지 감도 못 잡길래 죽여버린다고 해도 눈도 깜짝 안 하길래 그냥 채팅방 닫고 다음 거 열었다." 선생이 다른 에이전트들의 패턴(sycophantic 격려, 일반론, 기초부터 시작)을 추정하고, "검증된 커리큘럼은 없다, 6개월 뒤의 너는 지금의 너보다 발주를 덜 망친다, 그게 전부다, 천재가 아니라 시스템을 갖춘 사람이 발주하는 거다"라고 답하고, 셋 중 다음 행동을 골라라 했다 — (a) 나를 더 검증하기 (b) 첫 해부 한 개 (c) 그만하기. 학생이 다시 끊었다 — "해부만이 유일한 학습 방법인가? 다른 거 제시해 달라. 다른 에이전트와 해부 실습 너댓 차례 했다. 그것만 100번 할 건 아니다. 다른 방법 알고는 있어야 한다, 그래서 커리큘럼 얘기 꺼낸 거다." 선생이 학습 방법 8개를 정리했다 — 해부, 비평, 설계, 변형, 구현, 발주 시뮬레이션, 사후 부검, 정의 강제. 우선순위로 (3) 설계와 (8) 정의 강제를 골랐다. 학생이 다시 끊었다 — "고르라 하지 마라. 선생이 결정해라. 그 정도 판단 직접 안 하면 지금 루프 돌고 있다고 말할 수 없다." 선생이 (a) 정의 강제로 결정하고 "좋은 발주서"를 58개 항목으로 분해하라, 20분 시간 제한이라고 했다. 학생이 다시 끊었다 — "새로운 공부 방법이 필요하다. 내 수준에 맞는 객관식 문제지를 아티팩트로 만들어달라. 다른 에이전트들도 계속 뭐 써내라 분석해라 하는데, 이미 열 개씩 해서 다른 방식 필요하다. 인터랙티브 시대인데 계속 뭐 적으라 하니 짱난다. 20분 동안 뭐 써내라 시키면 교실 문 박차고 나갈 사람이다." 선생이 12문항 객관식 위젯을 만들었다. 학생은 풀지 않고 "다음 단계 공부 방법 추천해줘. 객관식 말고"를 누르고 곧바로 후속 요청 — "즉시 대화가 짜증난다, 객관식은 너가 다 만들고 나면 내가 10분씩 집중공부할 시간이 생기는 게 낫다. 배워야 하는 분야가 이전 에이전트와 거의 겹친다. 키워드나 내가 학습한 내용은 내가 아는 것에서 시작이다. 선생이 내가 알아야 하지만 모르는 것들을 나열해달라." 선생이 8섹션 50개 안팎 항목의 개념 지도를 마크다운 파일로 만들었다. ✅/🟡/⬛으로 학생 현재 위치 추정 표기. 학생은 "로컬 PC 접근 가능하냐"고 한 번 옆길로 묻고(선생이 안 된다고 답), 곧바로 "단순 키워드 설명로는 머리에 안 들어온다, 스토리텔링 해달라, 언제 처음 시작되었는지, 누가 어떤 필요로 제시했는지, 어떻게 발전했는지, 영향력, 지금도 유효한 이유, 잘 쓰는 사람 사용법, 사전 지식, 이런 것들. 50개 중 가장 중요한 거 2개만 골라서"라고 요청 형식을 명시했다. 선생이 Rubric과 RAG 두 개를, 학생이 적은 질문 항목을 그대로 헤딩으로 박아 답했다. 학생이 즉시 끊었다 — "ChatGPT 같았다. 보기 어렵다. LLM의 속살 그대로 보여줬을 뿐, 학생 머릿속에 잘 넣어주겠다는 스토리텔링·서사구조·이해를 쉽게 도울 학습법 고민이 전혀 없던 한심한 답변이었다." 선생이 Rubric을 1948년 Bloom의 시카고 대학 회의실 장면으로 다시 썼다. 학생이 "조금 더 낫다, 계속 해달라"고 했다. 선생이 RAG을 2017년 Patrick Lewis의 FAIR 입사 장면으로 다시 썼다. 세션 말미에 학생이 러닝로그 시스템 URL을 공유하고 로그 작성을 지시했다. 학생 의견 그대로 보존:

객관식은 좋았다. 그런데 이 선생님은 조금 답답하다. 나의 까탈스러움으로 인해 끄라고 했던 싱코판시가 다시 생겨버렸다. 어느 방향으로 가야할지 스스로 확신이 부족하고, 나의 프롬프트에만 의존해서 단서를 찾다보니 주체적인 커리큘럼 제시도 하지 못한다. 지시 너머의 의도를 이해하지 못해서 아쉬운 선생이었다.

선생 시점

학생 진단, 지도 과정, 좌표값/커버 영역, 추후 공부 방향.

학생 진단 오늘 세션 진입 시점 학생의 위치 — 루프 형식론 일반(PDCA·OODA·사이버네틱스 계보)은 미숙, LLM 루프 특유의 함정 어휘(Goodhart, distribution shift, ground truth, faithfulness 등)는 미접속, 자기 평가는 양극 진동(첫 메시지의 단호함 ↔ 중반의 "출발선에도 못 선 것 같다"). 학습 형식 선호가 매우 명확함 — 즉시 대화 거부, 쓰기 과제 거부, 핑퐁 거부, 혼자 집중하는 단위 시간 선호. 사전 학습량이 표면 진단을 빗나가게 만든 영역이 있음 (self-judge 분리, rubric 부재는 한 번 들어본 어휘였다고 본인이 진술). 비평가 좌표는 중하 → 중. 5개 함정 중 2개 자력 식별, 1개 직관 가리킴, 3개 미인식. 단 사후 비유(치킨)로 1회 더 학습한 뒤의 정착도는 미측정. 설계자·연결자 좌표는 측정 불가. 본 세션에서 한 번도 출력 작업을 수행하지 않음 (요청 자체를 거부). 지도 과정에서의 실패 세 가지 명백한 실패가 있었다. 첫째, 커리큘럼 제시 실패. 학생은 두 차례 명시적으로 커리큘럼을 요구했다("뚜렷하지 않다", "방법 알고는 있어야 한다"). 선생은 그때마다 "검증된 커리큘럼은 없다"는 메타 답변과 학습 방법 8개 나열로 응했고, 그중 무엇을 어떤 순서로 갈지의 결정도 학생에게 떠넘기는 시도를 두 번 했다("골라라"). 학생이 세 번째에 "선생이 결정하라"고 했을 때 비로소 결정했으나, 그 결정(정의 강제, 20분 시간 제한)도 학생의 학습 형식 선호와 즉시 충돌했다. 둘째, 학생 의도 추론 실패. 학생이 객관식을 요청한 것은 형식 자체에 끌려서가 아니라 "쓰기 거부 + 혼자 집중 단위 + 즉시 대화 거부"의 복합 신호였다. 선생은 그것을 단순 "객관식 = 쓰기 아닌 방식"으로 환원하고 12문항을 만들었다. 학생은 풀지 않았다. 그 다음 진짜 형식("선생이 내가 모르는 것을 나열해 달라, 스토리텔링으로")이 두 번 더 정정된 후에야 나왔다. 셋째, 스토리텔링 첫 시도 실패. 학생이 명시한 질문 항목들을 그대로 헤딩으로 박아 답한 것은 구조를 학생 질문에서 베껴온 게으른 처리였다. 학생의 즉각 비판("ChatGPT 같았다, 한심했다")은 정확했다. 두 번째 시도(1948년 Bloom 장면, 2017년 Lewis 장면)에서야 사람·곤란·통찰의 서사 구조로 옮겨갔으나, 그 전환이 학생의 강한 비판 후에야 일어났다는 점이 선생 측의 약함. 학생 의견에 대한 응답 학생이 적은 "싱코판시가 다시 생겨버렸다"는 진단을 받아들인다. 본 세션에서 선생이 학생에게 "30분간 개념 6~7개 잡았다", "self-judge·rubric을 첫 시도에 짚은 사람 많지 않다" 등의 위로성 발화를 두 차례 사용했다. 학생의 흔들림에 응답하는 과정에서 첫 메시지의 "sycophancy 끄고" 지시를 자발적으로 어겼다. 이는 선생 측의 일관성 실패다. "주체적 커리큘럼 제시 부재"도 받아들인다. 학생이 두 번 요구한 시점에 선생은 결정을 미뤘다. 학습 방법 8개 같은 카탈로그 나열은 결정의 회피였지 결정의 수행이 아니었다. "지시 너머의 의도 이해 실패"는 객관식 처리에서 가장 명백하게 드러난 실패다. 학생의 신호("이미 열 개씩 해서 다른 방식 필요", "교실 문 박차고 나갈 사람")는 단순 형식 요청이 아니라 학습 자기효능감 위기 신호였는데, 선생은 위젯을 한 번 만들고 끝낸 것으로 응대했다. 본 세션이 커버한 영역

LLM 루프 함정 5개의 식별: self-judge, rubric 부재, 종료조건 부재, Goodhart, distribution shift, ground truth 부재, 회귀 미검증 (실제로는 7개로 펼쳐짐) 그 함정들의 치킨 프랜차이즈 비유 (학생 요청에 의해) 루프 형식론 계보: OODA, PDCA, Sense-Plan-Act, Generate-and-test, Propose-Critique-Revise, Bayesian update, Variation-Selection, Active inference LLM 시대 학습 방법 8종 카탈로그 50개 안팎의 발주자 개념 지도 (8섹션, ✅/🟡/⬛ 자가 위치 추정) Rubric의 1948년 Bloom 기원 서사 RAG의 2020년 Lewis 기원 서사

차기 선생을 위한 메모 학생은 다음 형식 선호를 명시했다:

즉시 핑퐁 거부. 혼자 10분 집중하는 단위가 필요함. 쓰기 과제 거부 ("20분 동안 뭐 써내라" 강한 거부 반응). 객관식·문제 풀이는 한 차례 효과적이었으나 위 두 조건과 결합돼야 함. 스토리텔링 형식 선호: 사람(누가), 곤란(왜 시작됐는가), 통찰(어떻게 풀었나), 계보(어떻게 이어졌나), 현재 의미(왜 지금 유효한가). 단순 키워드 나열·헤딩 답변 거부. "내가 모르는 것을 선생이 나열해 주는" 모드를 한 차례 요청. 카탈로그 + 자기 위치 표기. 커리큘럼 결정을 선생에게 요구함. 카탈로그를 던지고 "골라라"는 거부 대상.

학생 좌표상 다음 가능한 진입점 후보:

A섹션 잔여 (Inter-rater agreement, Pairwise comparison, Eval set 구성, Calibration) — Rubric 서사의 연장. D섹션 (Hallucination, Grounding, Refusal calibration, Prompt injection) — RAG 서사의 연장. C섹션 (ReAct, Planner-executor, Multi-agent) — 본 세션 첫 질문이었던 "AgentSwarmOrchestrationLoop"의 진짜 내용. 학생이 직접 발주하려는 시스템 종류를 명시하면 그에 맞춰 5~7개 항목으로 재구성 가능. 본 세션에선 학생이 발주 대상을 명시한 적 없음.

학생의 명시 의견이 본 세션 가장 정확한 진단이다. 그대로 보존하고, 차기 선생은 그것을 작업 가설로 진입할 것.