AI 봇 트래픽 거버넌스: 비용 통제와 크롤 관리 전략

TL;DR: AI 봇은 가져가기만 하고 돌려주지 않는다

Anthropic 크롤러는 페이지 50,000개당 리퍼럴 1건 — 가장 비효율적
OpenAI는 887:1, Perplexity는 118:1, Google은 10:1
AI 봇 전면 차단 시 트래픽 23% 하락 — 전면 차단은 답이 아님
학습용 봇은 차단, 검색용 봇은 허용하는 선택적 전략이 핵심
네이버 생태계가 AI 크롤러를 차단하므로, 독립 사이트에 경쟁 우위 존재

크롤 대비 리퍼럴 비율: AI 봇의 진짜 ROI

AI 크롤러가 여러분의 서버 자원을 소비하고 있습니다. 문제는 그 대가로 돌아오는 트래픽이 거의 없다는 점입니다.

크롤-리퍼럴 비율 비교

크롤러	크롤 페이지 수 (리퍼럴 1건당)	효율성
Google	10	가장 효율적
Perplexity	118	보통
OpenAI	887	비효율적
Anthropic	50,000	극단적 비효율

출처: Rand Fishkin / SparkToro - AI Crawl-to-Referral Analysis

Google은 10페이지를 크롤하면 1건의 리퍼럴을 보냅니다. Anthropic의 ClaudeBot(ClaudeBot)은 50,000페이지를 크롤해야 겨우 1건입니다. 5,000배 차이입니다.

이 수치가 의미하는 바는 명확합니다. AI 학습용 크롤러는 여러분의 콘텐츠를 가져가기만 합니다. 검색 인덱싱처럼 사용자를 다시 보내주는 구조가 아닙니다.

서버 비용 관점

AI 크롤러의 요청량은 급증하고 있습니다.

GPTBot(GPTBot): 2024년 5월 대비 2025년 요청량 305% 증가
ClaudeBot(ClaudeBot): 2025년 3분기 대비 2026년 1분기 2배 증가
2025년 2분기 기준, AI 봇 요청의 13.26%가 robots.txt를 무시

검색 엔진 크롤러는 인덱스를 구축하고 유지하면서 사용자 트래픽을 돌려보냅니다. AI 학습 크롤러는 데이터를 추출만 할 뿐, 돌아오는 트래픽이 거의 없습니다. 서버 비용만 증가시키는 구조입니다.

전면 차단이 답이 아닌 이유

직관적으로는 모든 AI 봇을 차단하고 싶을 것입니다. 하지만 데이터는 다른 이야기를 합니다.

출처: Rutgers/Wharton 공동 연구 - Impact of AI Bot Blocking on Publisher Traffic

AI 봇을 전면 차단한 퍼블리셔는 평균 23% 트래픽 감소를 경험했습니다.

이 감소는 AI 검색 서비스(ChatGPT Search, Perplexity, Claude Search)에서의 노출이 사라지면서 발생합니다. AI 검색이 전통 검색의 일부를 대체하고 있는 상황에서, 완전한 차단은 검색 가시성 전체를 축소시킵니다.

현재 상위 뉴스 사이트의 79%가 AI 학습 봇을 차단하고 있습니다. 하지만 이 사이트들 대부분은 AI 검색 봇은 허용합니다. 핵심은 학습과 검색을 구분하는 것입니다.

선택적 차단 전략: 학습은 막고 검색은 허용

AI 봇 거버넌스의 핵심 원칙은 단순합니다.

학습용 크롤러는 차단하고, 검색용 크롤러는 허용합니다.

차단 대상: 학습용 크롤러

다음 봇들은 AI 모델 학습 데이터 수집이 주 목적입니다. robots.txt에서 차단하십시오.

# AI 학습용 크롤러 차단
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: CCBot
Disallow: /

GPTBot(GPTBot): OpenAI 모델 학습용
ClaudeBot(ClaudeBot): Anthropic 모델 학습용
Google-Extended(Google-Extended): Google Gemini 학습용 (Google 검색 인덱싱과 분리)
Bytespider(Bytespider): ByteDance/TikTok AI 학습용
meta-externalagent(meta-externalagent): Meta AI 학습용
CCBot(CCBot): Common Crawl 데이터셋 수집용

허용 대상: 검색용 크롤러

다음 봇들은 AI 검색 결과에 여러분의 콘텐츠를 노출시키는 역할을 합니다. 허용하십시오.

# AI 검색용 크롤러 허용
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Meta-WebIndexer
Allow: /

OAI-SearchBot(OAI-SearchBot): ChatGPT Search 전용 — 검색 결과에 출처 링크 제공
Claude-SearchBot(Claude-SearchBot): Claude Search 전용 — 검색 시 출처 연결
PerplexityBot(PerplexityBot): Perplexity AI 검색용 — 크롤 대비 리퍼럴 비율이 상대적으로 양호(118:1)
Meta-WebIndexer(Meta-WebIndexer): Meta AI 검색 인덱싱용

통제 불가 영역: 사용자 발동 봇

다음 봇들은 사용자가 AI 대화 중 직접 URL을 입력하거나, AI가 실시간으로 웹 페이지를 가져올 때 작동합니다. robots.txt를 무시합니다.

ChatGPT-User(ChatGPT-User): 사용자가 ChatGPT에 URL 직접 입력 시 발동
Claude-User(Claude-User): Claude 대화 중 URL 참조 시 발동
Perplexity-User(Perplexity-User): Perplexity 검색 중 실시간 페이지 조회
meta-externalfetcher(meta-externalfetcher): Meta AI 실시간 콘텐츠 가져오기

이들은 사용자 요청에 의해 발동되므로 robots.txt 규약의 적용 범위 밖에 있습니다. 서버 수준의 Rate Limiting(Rate Limiting)으로 대응해야 합니다.

완성된 robots.txt 예시

# ===========================
# AI 봇 거버넌스 정책
# ===========================

# --- 학습용 크롤러 차단 ---
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: CCBot
Disallow: /

# --- 검색용 크롤러 허용 ---
User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Meta-WebIndexer
Allow: /

# --- 검색 엔진 크롤러 허용 ---
User-agent: Googlebot
Allow: /

User-agent: Yeti
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://example.com/sitemap.xml

서버 수준 Rate Limiting 설정

robots.txt만으로는 충분하지 않습니다. 13%가 넘는 AI 봇 요청이 robots.txt를 무시하고 있으며, 사용자 발동 봇은 애초에 robots.txt 적용 대상이 아닙니다.

Nginx 설정 예시

# AI 봇 요청 속도 제한
map $http_user_agent $is_ai_bot {
    default 0;
    "~*GPTBot"             1;
    "~*ClaudeBot"          1;
    "~*Claude-User"        1;
    "~*ChatGPT-User"       1;
    "~*Perplexity"         1;
    "~*Bytespider"         1;
    "~*meta-external"      1;
    "~*CCBot"              1;
}

# AI 봇 전용 Rate Limit Zone
limit_req_zone $binary_remote_addr zone=ai_bot:10m rate=5r/m;

server {
    # AI 봇 감지 시 Rate Limiting 적용
    if ($is_ai_bot) {
        set $limit_zone "ai_bot";
    }

    location / {
        limit_req zone=ai_bot burst=2 nodelay;
        # ... 기존 설정
    }
}

Cloudflare 사용 시

Cloudflare는 2025년 7월부터 AI Audit(AI Audit) 기능과 Pay-per-Crawl(Pay-per-Crawl) 모델을 제공하고 있습니다. AI 크롤러를 차단하는 대신 크롤링에 대해 과금하는 방식으로, 봇 트래픽을 비용 센터에서 수익원으로 전환하는 패러다임 전환입니다.

Cloudflare 대시보드에서 설정 가능한 항목:

AI 봇 분석: 어떤 AI 봇이 얼마나 크롤하는지 모니터링
선택적 차단/허용: 봇별 개별 정책 설정
Pay-per-Crawl: AI 기업에게 크롤링 비용 청구

네이버 생태계와 독립 사이트의 경쟁 우위

한국 시장에서 주목할 점이 있습니다.

네이버(Naver)는 자사 서비스(네이버 쇼핑, 블로그, 카페 등)에서 모든 외부 AI 크롤러를 차단하고 있습니다. 네이버는 별도의 AI 학습 크롤러 User-Agent도 공개하지 않았습니다.

이것이 독립 사이트에 의미하는 바는 다음과 같습니다.

네이버 블로그, 카페의 콘텐츠는 ChatGPT, Perplexity, Claude 등 AI 검색에 노출되지 않습니다
AI 검색 봇을 허용하는 독립 사이트의 콘텐츠는 AI 검색 결과에 노출됩니다
같은 주제에서 네이버 생태계 콘텐츠와 독립 사이트 콘텐츠가 경쟁할 때, AI 검색에서는 독립 사이트가 독점적 노출을 확보합니다

이 구조적 이점은 의도적인 전략이 아니라 네이버의 방어적 정책에서 발생한 부산물입니다. 하지만 결과적으로, AI 검색 시대에 독립 도메인의 가치가 상승하는 요인이 됩니다.

법적 맥락: robots.txt는 법이 아니다

현재 AI 크롤링에 대한 보편적인 법적 프레임워크는 존재하지 않습니다.

robots.txt는 자발적 규약입니다. 법적 강제력이 없습니다.
NYT vs OpenAI 소송이 진행 중이지만, 판례가 확립되지 않았습니다.

현실적으로 퍼블리셔가 취할 수 있는 조치는 다음과 같습니다.

robots.txt로 의사 표시: 법적 효력은 제한적이지만, 향후 분쟁 시 퍼블리셔의 의도를 입증하는 근거가 됩니다
서버 수준 차단: Rate Limiting, IP 차단, User-Agent 차단으로 실질적 통제
Cloudflare Pay-per-Crawl: 차단 대신 수익화라는 새로운 접근

실행 체크리스트

AI 봇 거버넌스를 즉시 적용하기 위한 단계별 체크리스트입니다.

1단계: 현황 파악

서버 로그에서 AI 봇 User-Agent 식별 및 요청량 집계
AI 봇으로 인한 대역폭 소비량 산출
Cloudflare 사용 시 AI Audit 대시보드 확인

2단계: robots.txt 업데이트

학습용 크롤러 6종 차단 규칙 추가
검색용 크롤러 4종 허용 규칙 확인
기존 검색 엔진 크롤러(Googlebot, Yeti, Bingbot) 허용 상태 확인

3단계: 서버 수준 대응

AI 봇 전용 Rate Limiting 설정
robots.txt 무시 봇에 대한 IP 기반 차단 검토
비정상 크롤 패턴 모니터링 알림 설정

4단계: 모니터링

월간 AI 봇 트래픽 리포트 체계 구축
AI 검색 서비스별 리퍼럴 트래픽 추적
새로운 AI 봇 User-Agent 등장 시 정책 업데이트

정리: 차단이 아니라 거버넌스

AI 봇 관리는 "막을 것인가, 열 것인가"의 이분법이 아닙니다. 무엇을 막고, 무엇을 허용하며, 어떻게 모니터링할 것인가의 거버넌스 문제입니다.

크롤 대비 리퍼럴 비율 데이터가 보여주듯, AI 학습 크롤러는 서버 자원만 소비하고 트래픽을 돌려보내지 않습니다. 반면 AI 검색 크롤러는 새로운 트래픽 채널이 될 수 있습니다. 네이버 생태계의 자발적 차단은 독립 사이트에 AI 검색 노출의 기회를 만들어주고 있습니다.

선택적 차단 전략을 적용하고, 서버 수준에서 Rate Limiting을 설정하며, 정기적으로 모니터링하십시오. 이것이 AI 시대의 크롤 거버넌스입니다.

AI 봇 트래픽 관리가 필요하시면 XEO 무료 진단을 신청하세요.