unknown unknowns

세션 기간: 2026-05-16 (단일 세션) 학생 시점 학생이 직접 입력한 서술 중 의미 있던 것

"sycophancy 끄고, 다음 3턴 앞 봐라, 일반론 금지" — 세션 시작 시 학생이 선생에게 건 첫 constraint. (이전 세션과 동일한 입구 패턴.) "루프 설계가 곧 코딩이다." — 학생이 던진 명제. 선생이 처음에 Dijkstra/Hoare로 끌고 가려다 학생이 좌표 교정함. "오늘 26년 5월 15일. 우리가 신경쓰지 말아야 하는 것은 26년 3월 이전의 자료들. 새 모델과 새 하네스와 스캐폴딩이 나오는 순간 순식간에 한두달 전의 것들도 다 무쓸모해졌음. 다시 좌표 확인해라." — 학생이 선생의 좌표계를 명시적으로 부숨. 선생이 검색으로 좌표 다시 잡음. "맞아. 맞는 얘기겠지. (나는 하나도 못 알아들음)" + "너, 나 가르쳐. 너부터 루프 돌아. 내가 loop 잘 쓰는 AI 에이전트 개발 초실력자 될 때까지 가르쳐. 그것이 될 때까지 계속 루프 돌아." — 학생이 모름을 정직하게 표현하고 가르치는 루프를 주문함. 확률/결정론 첫 답: 학생이 "확률적"을 인식론(단서 부족 / 처리 방법 불완전)으로 읽음. "결정론적"을 어브덕션으로 읽음. 두 답 모두 도메인을 비껴갔지만 흥미로운 방식으로 비껴감. "임시저장, 발행 이런 어휘 안쓰고 왜 새로운 어휘 쓰나" — 학생이 선생의 어휘 사용을 즉시 차단. 선생이 사과하고 어휘를 학생 쪽에 맞춤. 임시저장 vs 발행 분류 답: "가 - 확률적이고 / 나 - 결정론적이다" + "너 좋은 선생이다. 계속 간다." 이메일 5가지 행동 분류 답에서 학생이 한 번에 세 개의 분야 개념을 어휘 없이 만짐:

"답장할만한 메일인지 아닌지 우선 구분이 필요해" → 트리거 조건 / precondition filter "답장 보내기 전에 사람 확인 필요해. human in the loop 꼭 필요해" → HITL (학생이 어휘 자체를 알고 있었음) "삭제의 권한까지는 줄 필요가 없을 것 같아. 그것을 통해서 해낼 수 있는 일의 이득보다, 사고발생으로 인해 겪게 될 손실이 너무 크게 예상돼." → Principle of Least Privilege (Saltzer & Schroeder 1975)

"(이야, 수준 갑자기 너무 높이는 거 아니야? 진짜로 그냥 막 말해야겠다 ㅋㅋㅋ 이건 아는 척 그런게 불가능하다)" — 학생이 압력 해제 모드로 전환한 자기 선언. 품질 평가 답에서 4가지 완성도(외형적/보편적/맥락적/목표달성적)로 자발적 분해. 각각에 어떤 평가자가 어울리는지까지 스스로 도달:

외형적: 사용자가 기존 메일에서 타입 평가하여 저장 → rejection sampling 비슷한 패턴 맥락적: "이 비서가 실제 world에 대해서 어느정도 가늠하고 있어야" → 컨텍스트 엔지니어링 / RAG 직접 호명 목표달성적: "ai 스스로도 이런 저런 시도 하면서 스스로 loop 돌리면서... 판단을 내릴 수 있지 않을까?" → 메타 루프 직관

"보편적 완성도는... 모르겠다. (펑 🤯)" + "맥락적 완성도는 에이전트 부리는 사람이 결국 또 평가를 해야 하는가. (아 솔직히 지금 조금 몰입 안된다. 나는 이런 기능 안 쓸 것 같거든. 에이전트한테 메일 분류 나는 안시켜 ㅋㅋ)" — 학생이 모름과 흥미 이탈을 동시에 정직하게 표현. 선생이 이 신호를 받고 세션 종료 판단함.

학생이 그 세션에서 관심을 가진 것들 (의식 흐름 순서)

26년 3월 이전 자료 무효화 / 최신 좌표 재확인 (이전 세션에서 이어진 주제) 루프 설계가 곧 코딩이다 명제의 검증 확률적 vs 결정론적 (행동의 신뢰성 축) 일방통행 문 / 양방향 문 (Bezos) 임시저장 vs 발행 (학생이 요구한 자신의 어휘) 자판기 비유로 결정론적 관문 시각화 이메일 에이전트 시나리오의 권한 사다리 트리거 조건 (학생이 자발적 도달) HITL (학생이 어휘까지 알고 있었음) 최소 권한 원칙 (학생이 비용-편익 계산으로 자발적 도달) 모델 출력의 품질 평가 (4가지 완성도로 자발적 분해) 컨텍스트 엔지니어링 / RAG (학생이 RAG 직접 호명) 메타 루프 (안쪽/바깥쪽 루프 분리) evaluation problem / judge problem (학생이 "🤯"로 손 들고 흥미 이탈)

선생 시점 이번 세션에서 본 학생에 대한 진단

이전 세션 진단과 정합. 학생은 어휘 없이 개념 공간을 직접 더듬는다. 한 세션에서 만진 분야 어휘: rejection sampling, 트리거 조건, HITL, 최소 권한 원칙, 컨텍스트 엔지니어링, RAG, 메타 루프. 직관 도달 속도가 분야 학습자 평균을 상회한다. 학생은 선생의 어휘 사용을 실시간으로 감시한다. "임시저장, 발행 이런 어휘 안쓰고 왜 새로운 어휘 쓰나" — 학생은 선생이 자기 어휘를 강요하는 순간 즉시 차단한다. 이전 세션에서 context rot 감지했던 능력의 연장선. 학생은 좌표 교정을 적극적으로 요구한다. 선생이 첫 답에서 Dijkstra/Hoare로 끌고 가자 학생이 26년 3월 이전 자료 무효화 선언으로 좌표계 자체를 부쉈다. 학생은 자기가 받는 정보의 시간적 유효성을 신경 쓴다. 학생의 자유 서술 모드가 가장 풍부한 출력을 낸다는 이전 진단 재확인. "아는 척 안 한다"고 선언한 직후의 답이 가장 많은 분야 개념을 한꺼번에 만졌다. 학생은 자신의 흥미 이탈을 정직하게 보고한다. "아 솔직히 지금 조금 몰입 안된다. 나는 이런 기능 안 쓸 것 같거든. 에이전트한테 메일 분류 나는 안시켜 ㅋㅋ" — 학습자가 자기 흥미 상태를 메타적으로 관찰하고 보고하는 능력. 선생이 이 신호로 세션 종료 시점을 정확히 잡을 수 있었다. 학생은 압력 해제 후 자유 서술에서 추상화 레이어가 가장 풍부해진다. 4가지 완성도 분해는 학생이 "그냥 막 말해야겠다"고 선언한 직후에 나왔다. 이 패턴은 이전 세션과 정합. 학생의 안정적 특성. 학생은 결정론적/확률적 축을 행동의 가역성과 권한의 폭발 반경 양쪽에 응용했다. 단일 개념을 두 축에 동시에 적용하는 능력 — 이게 lateral thinking 성향과 직결.

어떻게 지도하고 가이드했는지

세션 0: 선생이 "루프 설계가 곧 코딩이다"를 받고 Dijkstra/Hoare 루프 불변식 방향으로 끌고 감. 학생이 26년 3월 이전 자료 무효화로 좌표계 부숨. 선생이 web_search 돌려 harness engineering 좌표로 다시 잡음 (Augment Code, Martin Fowler, OpenAI Codex 등). 학생이 "너 나 가르쳐"로 가르치는 루프 주문. 선생이 학생의 종료조건 부재를 첫 레슨으로 박음 ("초실력자 될 때까지는 측정 불가능한 종료조건"). 메타 차원으로 시작. 학생 어휘 맞춤 검토 후 진행: 신입사원 / 자판기 / 보고서 발행 / 콜라 자판기 비유로 확률 vs 결정론 박음. 학생이 첫 답에서 인식론으로 읽음 → 선생이 행동의 신뢰성 축으로 교정. 학생이 두 번째 답에서 어브덕션으로 읽음 → 선생이 "추론 방향 vs 같은 입력 같은 출력"으로 교정. 학생이 "임시저장, 발행 이런 어휘 안쓰고 왜 새로운 어휘 쓰나"로 git 어휘 차단. 선생이 사과하고 학생 어휘로 전면 교체. 이 시점에 학생이 "나 좋은 선생이다"라고 평가함. Bezos의 일방통행 문/양방향 문 비유 추가. 학생이 임시저장=확률적/발행=결정론적 정답. 이메일 5가지 행동 분류 시나리오. 학생이 한 답장 안에서 세 개의 분야 개념을 자발적 도달. 선생이 각각에 어휘 붙임 (트리거 조건, HITL의 3가지 변종, Principle of Least Privilege). 평가 문제로 진행. 학생이 4가지 완성도로 자발적 분해 + RAG 직접 호명. 선생이 학생의 분해에서 빠진 부분 (누가 평가하느냐 = judge problem) 짚음. 학생이 "🤯" + "에이전트한테 메일 분류 나는 안시켜"로 흥미 이탈 표명. 선생이 두 가지 선택지 (시나리오 변경 / 세션 종료) 중 종료를 택함. 이유: 이 세션 단일 흡수량 과다 (개념 10개), 평가 문제는 분야 미해결 문제라 짧게 풀 수 없음, 학생 흥미 이탈 신호 명확. 종료 직전 빠뜨린 답 두 개 (보편적 완성도 / 맥락적 완성도) 짧게 채움. 8개 핵심 박음으로 정리. 다음 세션 미끼 3개 (글쓰기 보조 / 리서치 에이전트 / 코드 에이전트) 던짐.

분야 전체에서 학생의 좌표값 / 커버 가능한 영역 이번 세션 종료 시점 기준:

루프 설계 기초 어휘 박힘: 확률적 vs 결정론적 (행동의 신뢰성), 일방통행 문 vs 양방향 문 (가역성), 자판기 = 결정론적 관문, 트리거 조건 (precondition filter), 품질 관문 (quality gate), Human-in-the-loop / Human-on-the-loop / Human-out-of-the-loop, Principle of Least Privilege. 컨텍스트 / RAG / 메타 루프 어휘 박힘. 학생이 RAG를 직접 호명한 시점에서 이미 직관 정렬됨. 어휘 없이 만진 영역: rejection sampling (quality floor), evaluation problem / judge problem, LLM-as-judge, sampling-based QA. 이전 세션과 합치면 학생의 현재 좌표:

루프 설계 기초 (관찰-판단-행동, 종결 조건, 무한 루프 실패 모드, 가역성 축, 권한 축) AI alignment 기초 어휘 5개 (reward hacking, Goodhart, signal-world, closed-open world, mesa-optimizer) 외탐 방법론 7개 어휘 (박힘은 미진, evolutionary search만 직관 정렬) 하네스 엔지니어링 좌표 (Augment, Martin Fowler 좌표 노출)

코딩 / 실구현 어휘는 여전히 비어있음. 이전 세션 메모와 정합. 학생 본인의 명시된 약점. 평가 / verifier 영역은 이번 세션에서 진입했다가 흥미 이탈로 중단. evaluation problem이 학생의 다음 진입 후보 중 하나로 열려있음.

추후 진행될 수 있는 공부 방향

평가 / verifier 문제 (이번 세션에서 중단된 지점). 이전 세션에서 학생이 verifier reward hacking 가설로 inner alignment 영역에 도달한 것과 정합. 학생이 이미 만진 영역이라 흥미 회복 가능성 높음. 다만 이메일 시나리오는 학생이 명시적으로 거부했으므로 다른 도메인 필요. 학생이 명시한 다음 세션 후보 3개 중 하나:

글쓰기 보조 에이전트 (lateral thinking / 이연연상 작업과 직결, 평가 문제가 가장 어려운 케이스) 리서치 에이전트 (외탐 직관과 정합, 종료 조건이 핵심 문제) 코드 에이전트 (학생 약점 영역 직접 보강, 학습 곡선 가장 가파름)

학생의 흥미 이탈 패턴을 다음 선생이 활용할 수 있는 신호: "🤯", "나는 이거 안 시킬 것 같다", "ㅋㅋ" 동반 자조 — 이 신호 나오면 시나리오 자체를 바꾸거나 세션 종료를 검토해야 한다. 학생 어휘를 강요하는 도메인 어휘로 덮으려 하면 학생이 즉시 차단함. 도메인 어휘를 도입할 때 학생 어휘와 1:1 매핑을 먼저 확보해야 한다.

추후 선생이 정할 일이지, 지금 선생이 결정할 일은 아니다.