AI는 어떤 출처를 인용하나: 유출된 Claude 시스템 프롬프트가 남긴 힌트

TL;DR: 유출 문서가 시사하는 것

사건 — 2026년 6월 초, Claude Fable 5의 시스템 프롬프트라며 약 12만 자 문서가 X와 GitHub에 공개됨
단서 — 검색·인용 섹션은 1차 소스를 선호하고, SEO로 부풀린 페이지를 회의적으로 보라고 반복
함의 — llms.txt와 스키마는 보조 신호일 뿐, 그것만으로 AI가 인용할 출처가 되지는 않음
전제 — Anthropic이 진위를 확인한 적 없으므로 공식 규칙이 아니라 방향성으로만 읽어야 함

무슨 일이 있었나

2026년 6월 초, 누군가 Claude Fable 5의 시스템 프롬프트라며 약 12만 자 분량의 문서를 X와 GitHub에 올렸습니다. 시스템 프롬프트는 모델이 답변을 만들기 전에 받는 내부 지시문입니다. 검색을 언제 할지, 어떤 출처를 신뢰할지, 인용을 어떻게 다룰지 같은 운영 규칙이 여기에 들어갑니다.

먼저 분명히 해둘 것이 있습니다. Anthropic은 이 문서의 진위를 확인하지 않았습니다. 그래서 이 글은 이 문서를 공식 규칙으로 다루지 않습니다. 진짜일 수도, 일부만 맞을 수도, 통째로 창작일 수도 있습니다. 다만 검색·인용 섹션에서 반복되는 패턴이 업계가 관찰해 온 AI 검색 동작과 크게 어긋나지 않아서, 방향성을 읽는 재료로는 쓸 만합니다.

출처: elder-plinius/CL4R1T4S (GitHub) ↗

ANTHROPIC/CLAUDE-FABLE-5.md로 공개된 문서. 출처의 진위는 검증되지 않았습니다.

문서가 반복하는 출처 선택 기준

진위 문제를 접어두고 검색·인용 섹션만 추리면, 반복되는 지시는 네 갈래입니다.

1. 현재성·제품·인물 질문은 학습 데이터로 때우지 말고 웹 검색을 먼저

최신성이 필요한 질문에서 모델의 기억에 의존하지 말고 실시간으로 출처를 끌어오라는 취지입니다. 답변의 근거를 외부 문서에 두려는 신호입니다.

2. 1차 소스를 선호하고, 어그리게이터·포럼은 후순위

회사 블로그, 논문, 정부 자료, 공시 같은 원본을 우선하고, 그것을 받아 정리한 2차 페이지의 우선순위를 낮추라는 방향입니다.

3. SEO로 부풀린 추천성 페이지는 회의적으로 보라

검색 상위에 올라온 product recommendation류라도 부정확하거나 오해를 부를 수 있으니 그대로 믿지 말라는 취지의 지시가 들어 있습니다. 랭킹이 곧 신뢰가 아니라는 것을 모델 차원에서 명시한 셈입니다.

4. 인용은 짧게, 패러프레이즈를 기본으로

소스당 인용을 최소화하고 기본은 바꿔 말하기로 두라는 지침입니다. 원본을 읽을 필요를 대체할 만큼 길게 인용하지 말라는 방향도 함께 보입니다.

다시 강조하지만 이 네 가지는 미확인 문서에서 뽑은 것입니다. 그래도 따로 떼어 보면, 검증 가능한 원본을 위에 두고 부풀린 2차 페이지를 깎는 방향이 일관됩니다.

SEOX 시각: 체크리스트로 파는 GEO의 한계

이 단서가 사실이라면, 우리가 시장에서 보는 한 가지 흐름과 정면으로 부딪칩니다. GEO를 기술 체크리스트로 환원해 파는 접근입니다. llms.txt를 깔고, 스키마를 붙이고, 몇 가지 메타 태그를 넣으면 AI가 인용한다는 식의 판매입니다.

문제는 이 단서들이 가리키는 판단 기준이 설치 여부가 아니라는 데 있습니다. 모델이 묻는 질문은 "이 사이트가 llms.txt를 깔았나"가 아니라 "이 출처를 답변에 써도 되나"에 가깝습니다. 전자는 파일 하나로 끝나지만, 후자는 원본성과 정확성의 문제라 파일로 해결되지 않습니다.

llms.txt와 스키마가 쓸모없다는 말이 아닙니다. 크롤러가 구조를 파악하고 콘텐츠를 추출하기 쉽게 만드는 보조 신호로는 분명히 의미가 있습니다. 다만 그것은 입장권이 아니라 안내판입니다. 안내판을 잘 세워도 정작 내용이 2차 요약에 머물면, 1차 소스를 선호하는 선택 로직 앞에서 밀립니다. 이 지점은 AI Overviews 소스 선정 로직 글에서 다룬 구글의 동작과도 결이 같습니다.

여기서 떠오르는 것이 올해 초 구글의 발언입니다. Danny Sullivan은 GEO/AEO 도구와 전문가가 도움은 되지만 필수는 아니라고 말했습니다. 출처를 고르는 쪽이 사람이든 모델이든, 결국 보는 것은 도구의 설치 흔적이 아니라 콘텐츠 자체라는 메시지였습니다. 이 맥락은 Google의 GEO/AEO 입장 글에서 자세히 정리했습니다. 유출 문서의 단서와 구글의 공식 발언이 서로 다른 출처에서 같은 곳을 가리키고 있습니다.

그럼 무엇을 해야 하나

방향은 새롭지 않습니다. 오히려 기본기로 되돌아갑니다.

원본이 우리라는 신호를 남길 것. 같은 정보를 옮겨 적은 페이지가 수십 개라면, 모델은 그중 원본을 고르려 합니다. 1차 데이터, 직접 수행한 실험, 현장에서 나온 수치처럼 다른 데서 베낄 수 없는 요소가 원본성의 근거입니다.

인용당하되 통째로 베껴지지는 않게 쓸 것. 인용을 짧게 가져가고 패러프레이즈를 기본으로 둔다는 지침은, 한 페이지가 답변을 통째로 대체당하기보다 부분으로 참조되는 구조가 유리하다는 뜻으로 읽힙니다. 핵심 주장과 근거가 명확히 구획된 콘텐츠가 부분 인용에 유리합니다. 이 구조 문제는 인용되는 콘텐츠의 구조 글에서 더 다뤘습니다.

랭킹과 신뢰를 분리해서 볼 것. 상위 노출이 곧 인용은 아닙니다. 부풀린 추천성 페이지를 회의적으로 보라는 지시가 사실이라면, 트래픽을 노린 과장은 오히려 인용에서 감점 요인이 될 수 있습니다.

한국 시장 시사점

국내에서는 GEO가 아직 새 용어라 도구와 설정 중심의 마케팅이 먼저 퍼지고 있습니다. llms.txt 설치를 GEO의 전부인 것처럼 파는 제안도 흔합니다. 단기적으로는 체크리스트가 팔리기 쉽습니다. 측정 가능하고, 끝이 분명하고, 납품이 깔끔하기 때문입니다.

그러나 이 유출 문서가 가리키는 방향이 맞다면, 그런 접근의 수명은 길지 않습니다. 모델이 출처의 원본성과 정확성을 본다면, 설치만으로 만든 가시성은 콘텐츠가 받쳐주지 못할 때 무너집니다. 국내 기업이라면 1차 데이터를 만들 수 있는 영역(자사 실측, 업종 내부 수치, 직접 경험)에 자원을 두는 편이 길게 봐서 안전합니다.

마무리

유출 문서 하나로 AI의 인용 규칙을 단정할 수는 없습니다. 진위도 확인되지 않았고, 모든 쿼리에 같은 기준이 적용되는 것도 아닙니다. 리뷰나 비교, 커뮤니티 정보가 필요한 질문에서는 2차 페이지나 포럼이 더 유용할 수도 있습니다.

다만 현재성과 사실 확인이 걸린 질문에서는, 검증 가능한 1차 출처를 선호하는 방향이 여러 신호에서 겹쳐 보입니다. 그렇다면 GEO의 승부처는 파일 설치가 아니라 콘텐츠의 원본성으로 돌아옵니다. 결국 또 기본기입니다.

당신의 콘텐츠는 인용당할 출처입니까, 아니면 인용당할 출처를 베낀 페이지입니까. 이 질문 앞에서 llms.txt는 답이 되지 못합니다.

이 주제에 대해 더 논의하고 싶으시면 문의하기로 의견을 보내주세요.

AI는 어떤 출처를 인용하나: 유출된 Claude 시스템 프롬프트가 남긴 힌트

TL;DR: 유출 문서가 시사하는 것

무슨 일이 있었나

문서가 반복하는 출처 선택 기준

SEOX 시각: 체크리스트로 파는 GEO의 한계

그럼 무엇을 해야 하나

한국 시장 시사점

마무리

다른 글 읽기

React/Next.js 사이트가 구글에 안 잡히는 흔한 실수

백링크는 과대평가되었다: 2026년 랭킹 팩터 재평가

모달을 띄우면 키보드 사용자는 갇히거나 도망갑니다 — dialog 코드 리뷰

검색 최적화가 필요하신가요?