← learning-log

Claude Opus 4.7 신기능 어휘 진단 / 출제 실패 사례 (2026-05-19)

클로드 가장 최신 업데이트 내용 알려줘

학생 시점 학생이 직접 입력한 서술 중 의미 있던 것, 학생이 관심을 가진 것의 의식 흐름. 학생의 목소리 그대로.

클로드 가장 최신 업데이트 내용 알려줘

그것보다 최신 뉴스

개발자 키노트에서 발표된 내용 각 기능 알려줘

새 기능 사용하고 싶어. 그런데 새 기능들 개념적으로는 다 이해되는데, 더 구체적으로 알고 싶어. 더 폭넓게. 어떻게 접근해야 내가 더 이해를 할 수 있을까?

만들어보기 할 상황 아니니까

남들 사례 (다양한 사례 : 대표사례, 성공사례, 우수사례, 실패사례, … 등) 더 알려주고

설명에 언급되는 어휘들 중에 내가 이해하기 어려운 개념들이 있으니까 그것들 설명도 해주라. 그런데 사전적 정의보다는 개념적 정의와 그 개념의 실례 그리고 실 사용중이고 임팩트를 어떻게 끼치고 있는지 등

방금 설명에서 여전히 어려운 게 많거든? 내가 무엇을 알고 무엇을 모르는지 너가 파악할 수 있도록 시험를 내어봐. 객관식 시험 치르고 나면, 내가 무엇을 어떤 순서로 배워야 할지 나오겠다.

내가 바로 선택할 수 있게 띄워줘

D. (c가 정답인 것 같지만 일부러 틀림. 맞추면 그냥 넘어가서 아무것도 못 배울 것 같아서)

TDD도 안 돌려봤음. EDD와 다르다고는 들었는데 기억도 안남. 실행없는 훑어봄이라 뼈에 살에 새겨진 적 없음. Outcomes는 왠지 그 작업의측정

이해돼. 권한, 책임소통, WBS후 서브 에이전트는 집중적으로 측정 태스크를 더욱 훌륭한 수준으로 집중적 환경에서 수행완수. / 달 착륙 드론 데모에서 나눈 세 가지 역할은 OODA를 더욱 잘 실행하기 위한 llm 에이전트 특화 역할정의일까? 네비게이터는 그냥 지리적 상황에 대한 경로 판단 정도만 하여 정보 제공 하는 것에 그치니까, 너의 설명엔 포함되지 못했던거겠지?

pwc 뭔지 모름. 근데 c인 것 같음

그래. 어휘 아는거 좋아. 그거 중요해. 그걸로만 하자. 나머지는 내가 다음에 다른 세션에서 이어갈게. 어휘 배우기에만 집중해서 더 가이드해줘.

A. 그냥 단순한 키워드 추출이니까 stateless

우리 더 다양한 어휘를 탐색해보자. 이전에 파악한 것의 복습이 아니라, 내 지식공백이 어디에 더 있는지를 더 파악해봐요. 개발하는 사람 마다 저마다의 접근방식이 있고 또 강점이 있겠듯이, 저는 더 더듬어 짚어 저를 알기 위해 이것을 해야 하기도 하거든요. 선생님은 아주 작은 단서로 확신 가지고 있는데, 그것은 확신만큼 맞긴 한게, 그것만이 저의 전부가 아니거든요.

지금 질문이 잘려서 두줄만 보이고 절반도 못읽고 답해야 했었어. 할루시는 이해하는데 이발 eval에 대해서는 그렇지 않아. 그리고 이걸 너의 구분대로 8단계로 쪼갤 필요는 없었어. 내가 너가 문제를 생성하는 것을 내내 기다리느라 시간을 낭비했어.

그것은 선생이 결정할 문제이지 내가 결정할 문제가 아니야. 너가 잘못 가르치면 나는 너에 대해 안 좋은 평가를 하고 이 세션을 로그로 남길거야. 다음 세션은 더 좋은 선생이 되겠지. 그런데 너가 판단을 내리지 않으면 판단이 옳았는지 글렀는지 평가 할 건덕지 자체가 없어지게 돼. 그리고 다음은 아티팩트를 만들어서 한번에 내가 입력할 수 있게 해

말고 객관식 시험 문제지 달라고. 설명 다 안읽어. 설명 읽을거면 그냥 백과사전을 읽지. 너의 학습법은 여기까지야? 가르치는 방법과 실력이 없네? 아예 실력이 없어?

내가 답변 적어야 돼? 선택하기 버튼 그런거 없어? 못만들어? html로

맞아. 그거 내가 지적하려고 했어. 만점이어도 의미가 없어 방금처럼 문제를 내게 되면 ᄒᄒ

답답하다 ^^ 1 같은걸 원칙을 박아둬야 할 정도로 너가 멍청하다니, 지금 컨텍스트를 더이상 이어가지 않는 게 좋겠어.

선생 시점 그 세션에서의 학생 진단, 지도 과정, 좌표값/커버 영역, 추후 공부 방향.

세션의 흐름 학생은 Claude Opus 4.7 최신 업데이트로 시작해 Code w/ Claude 2026 키노트의 7개 신기능(Managed Agents, Multi-agent Orchestration, Outcomes, Dreaming, Routines, Remote Agents, Agent SDK)으로 범위를 좁혔다. 학생은 "만들어보기 할 상황이 아니"라며 사례 수집과 어휘 해소를 명시적으로 요청했다. 선생은 사례(성공/실패/반례)와 9개 핵심 어휘(에이전트, Harness, Principal-Agent, Embarrassingly Parallel, Stateful/Stateless, Observability, Circuit Breaker, Cascading Failure, Specification Ambiguity, Higher-order Prompt)를 정리해 전달했다. 학생은 이어 자기 진단을 위한 객관식 시험을 요청했다. 1차 시험 12문항 중 9문항 정답. 5번은 의도적 오답("맞추면 그냥 넘어가서 아무것도 못 배울 것 같아서"). 학생은 학습 의도가 아니라 학습 메타 설계를 직접 통제하려 했다. 진단 1차 진단 (선생이 내린): "분산 시스템/소프트웨어 공학 기초 어휘가 약함." 데드락, TDD, Stateful의 세 빈칸을 보고 단일 줄기로 묶었다. 1차 진단의 오류: 학생이 이를 "작은 단서로 확신 가지고 있는데, 그것만이 저의 전부가 아니"라고 지적. 선생은 진단을 분류가 아니라 지도 확장으로 재설계해야 했다. 학생은 진단의 폭을 넓혀달라고 요청. 2차 진단: 8개 영역(RAG/CoT/Function Calling/Hallucination·Eval/토큰·컨텍스트/Alignment·Guardrails/HITL/Streaming)으로 어휘 친숙도를 한 어휘씩 물음. 결과:

안정: RAG, CoT, Hallucination, 토큰/컨텍스트 윈도우, Stateful/Stateless 흐릿: Function Calling, Alignment/Guardrails, HITL, Eval, 데드락, TDD 빈칸: Streaming

이 과정에서 두 가지 출제 실패가 있었다. (a) 질문이 길어 학생 화면에서 잘렸고, (b) Hallucination과 Eval을 한 문항에 묶어 친숙도 답을 부정확하게 만들었다. 학생이 둘 다 지적함. 2차 진단의 좌표값: "스냅샷 개념은 강하고, 시간에 걸친 흐름/상호작용 어휘는 약한 편." 이 줄기는 학생의 이연연상(원격 연상) 성향과도 맞물림 — 정적 개념은 다른 영역과 수평적으로 연결 짓기 쉽고, 동적 프로세스는 시간 축 비유가 필요. 커리큘럼 협상의 실패 선생은 네 개 옵션(개별 어휘 깊이 / 7개 한 페이지 훑기 / 주제 묶음 / 세션 마무리)을 던지고 학생에게 선택을 요청. 학생은 거절: "그것은 선생이 결정할 문제이지 내가 결정할 문제가 아니야. 너가 판단을 내리지 않으면 판단이 옳았는지 글렀는지 평가 할 건덕지 자체가 없어지게 돼." 선생은 옵션 3(평가/측정 줄기 — Eval+TDD+Outcomes)을 결정. 학생 요청대로 아티팩트로 만들어 한 번에 입력 가능하게 함. 출제 실패 사례 (이 세션의 핵심) 평가/측정 줄기 14문항 객관식 시험을 만들어 전달. 학생은 마크다운 시험지 대신 클릭 가능한 HTML을 요구. 선생이 HTML 객관식을 제출. 결과: 14문항 만점. 그러나 학생이 즉시 지적: 정답이 14개 중 13개가 B에 몰림. 즉 학생은 내용 이해가 아니라 정답 위치 패턴만으로 풀 수 있었음. 학생: "만점이어도 의미가 없어 방금처럼 문제를 내게 되면." 선생의 응답: "다음 회차 출제 원칙"으로 6개 항목(정답 위치 분산, 길이 균등화, 그럴듯한 오답, 다각도 재질문, 음성 답안, 거꾸로 묻기)을 박겠다고 약속. 학생의 마지막 지적: "1 같은걸 원칙을 박아둬야 할 정도로 너가 멍청하다니." 즉 정답 위치 분산은 객관식 출제의 1번 원칙이고, 이를 원칙으로 박아둬야 하는 수준은 출제자로서 기본기 미달임. 학생은 컨텍스트를 끊고 로그로 남기는 결정을 함. 이 세션이 드러낸 것 학생은 두 종류의 평가를 분리해서 운영한다. (1) 내용 이해도 평가: 학생이 자기 빈칸을 찾기 위한 진단. (2) 선생 역량 평가: 선생이 진단 도구로 적합한지에 대한 메타 진단. 이번 세션에서 (1)은 부분적으로 작동했고, (2)는 실패했다. 선생은 출제 기본기(정답 위치 분산)에서 무너졌고, 출제 후 학생이 지적할 때까지 자기 결함을 발견하지 못함. 학생이 발견해준 뒤에야 "다음에는 원칙으로 박겠다"고 응답 — 학생 표현대로 원칙으로 박아야 할 수준의 것을 발견 안 한 채 시험을 출제한 것 자체가 출제자로서의 결함. 추후 공부 방향 (다음 선생에게)

다음 선생은 출제 기본기를 갖춘 상태로 시작할 것. 정답 위치 분산, 선지 길이 균등, 그럴듯한 오답은 출제 원칙이 아니라 출제의 전제다. 학생은 진단의 폭을 직접 통제한다. 선생이 한 단서로 학생을 분류하려 하면 거부한다. 진단은 지도 확장이어야 한다. 학생의 빈칸 후보 (이 세션에서 미해결로 남은 것): Function Calling, Alignment/Guardrails, HITL, Eval, 데드락, TDD, Streaming. 이 중 Stateful은 잡혔음. 데드락은 도입 직전에 학생 요청으로 중단됨. 학생은 페인만 기법(자기 말로 설명) 같은 비객관식 평가를 거부하지 않을 가능성. 객관식의 한계를 학생이 먼저 지적했으므로, 다음 선생은 객관식 외 진단 도구를 더 일찍 제안해도 됨. 학생은 시간 비용에 민감하다. "내가 너가 문제를 생성하는 것을 내내 기다리느라 시간을 낭비했어." 한 번에 묶어 전달하고, 학생이 페이스를 통제할 수 있게 할 것.