unknown unknowns
고수 프롬프트 소스 맵 — 누수된 단서를 어디서 긁을 것인가
고수 10명 × 프롬프트 1,000개의 깨끗한 데이터셋은 어디에도 없다. 대신 공개된 5개 근접 소스(Willison · Huntley · awesome-*/cursor-rules · 라이브 코딩 · 보조)에서 누수된 단서를 짜맞추는 전략. 그리고 단일 프롬프트가 아닌 '프롬프트 → 반응 → 다음 프롬프트' 삼각형을 수집해야 리듬이 드러난다.
고수 프롬프트 소스 맵
없는 것부터 짚기
"고수 10명 × 프롬프트 1,000개 = 깨끗한 데이터셋 10,000건"은 공개된 어디에도 없다. 고수일수록 자기 프롬프트를 그대로 공개하지 않는다 — 영업비밀 · 취향 · 미공개 뉘앙스의 묶음이기 때문.
그러니 수집 전략은 "온전한 덩어리 긁기"가 아니라 **"누수된 단서들을 짜맞추기"**다.
근접치 — 실제로 긁어올 수 있는 것
1. Simon Willison — 블로그
- 원문: simonwillison.net
- 프롬프트를 verbatim 인용하는 거의 유일한 고수. 2007년부터의 10년치 아카이브.
- 스크랩하면 수백 개 단위 추출 가능.
- 이 아카이브에도 3편 등재: sw-lethal-trifecta · sw-using-llms-for-code · sw-year-in-llms-2025.
2. Geoff Huntley — 블로그 ("ralph loop" 창시자)
- 원문: ghuntley.com
- 전체 system prompt + 세션 로그를 통째로 공개하는 드문 타입.
- 그의 "agentic coding" 시리즈는 session-level 구조(외부 루프 · 자가 검증 · 도구 제약)까지 드러남.
3. GitHub 컬렉션 — awesome-cursor-rules, awesome-claude-md 류
- 수천 개 메타 프롬프트 (세션 시작 시 주입되는 규칙 뭉치).
- 단일 프롬프트보다 정보 밀도 높음. 한 파일이 "이 사람이 LLM을 어떻게 길들이는지"를 응축.
- 약점: 개개 세션 내의 샷 리듬은 드러나지 않음.
4. YouTube 라이브 코딩 — Karpathy · Primeagen · Theo (t3.gg) · Fireship
- 전사하면 프롬프트 순서·리듬까지 잡힘.
- 단일 프롬프트가 아닌 시퀀스가 드러나는 거의 유일한 공개 소스.
- 수집 비용 높음 (전사 · 편집 노이즈 · 잡담 필터링).
5. 보조 소스
- Aider / Cline / Continue Discord 공개 로그
- Every.to "How I use AI" 시리즈 (Dan Shipper)
- Latent Space 팟캐스트 — 이 아카이브에 2편 등재 (ls-harness-eng · ls-turbopuffer)
- Hamel Husain 에세이 — 이 아카이브에 2편 (hamel-evals · hamel-field-guide)
- Anthropic 공식 엔지니어링 블로그 — 3편 등재 (anth-building-effective-agents 외)
판단 (자기 메모)
10,000개 프롬프트 덩어리를 훑는 것보다 고수 3명 × 세션 10개를 샷 단위로 해부하는 쪽이 학습 곡선이 훨씬 가파르다.
개별 프롬프트가 스킬이 아니다. "프롬프트 → LLM 반응 → 다음 프롬프트"의 리듬과 시퀀스가 스킬이다.
즉 prompt[i]를 모으는 게 아니라 (prompt[i], response[i], prompt[i+1]) 삼각형을 모아야 한다.
삼각형이 있어야 다음이 드러난다:
- 궤도 수정 지점 — 언제 critique prompt로 방향을 틀었는가
- 컨텍스트 리셋 지점 — 언제 "이 세션 버려야겠다"고 판단했는가
- 정지 취향 — 어느 출력 품질에서 "됐다"고 결정했는가
- 품질 임계 — 어느 상태에서 다음 단계로 넘어갔는가
이 넷이 진짜 스킬의 축이라고 본다. llm driving skills 섹션도 이 축을 따라 쓰는 게 맞다.