TL;DR: AI 봇 트래픽, 한국 호스팅에서 왜 문제인가
- AI 크롤러 = 전체 HTML 요청의 4.2% — Googlebot 제외 기준 (Cloudflare 2025)
- 훈련용 크롤링이 AI 봇 활동의 79% — 검색용보다 훈련용이 압도적
- Cafe24 초과 트래픽 과금 17,000원/Mbps — 봇이 만든 비용을 사람이 부담
- 네이버는 GPTBot, ClaudeBot 등 주요 AI 크롤러를 전면 차단 중
- AI 기본법(2026.01.22 시행) + 공정이용 안내서 — robots.txt 위반이 법적 불이익 요소로 작용
AI 크롤러 트래픽, 얼마나 늘었나
"봇 트래픽이 늘었다"는 말은 이제 체감이 아니라 수치로 확인됩니다.
출처: Cloudflare Radar - 2024 Year in Review
AI 크롤러(Googlebot 제외)가 전체 HTML 요청의 4.2%를 차지하며, 사용자 기반 AI 크롤링은 2025년 한 해 동안 15배 증가했습니다.
규모를 체감하는 수치들
| 지표 | 수치 | 출처 |
|---|---|---|
| AI 크롤러 비중 (HTML 요청) | 4.2% | Cloudflare 2025 |
| 사용자 기반 AI 크롤링 증가율 | 15배 (2025년) | Cloudflare 2025 |
| 훈련용 크롤링 비중 | AI 봇 활동의 79% | Cloudflare 2025 |
| 호스팅 사이트 대비 AI 봇 트래픽 | 전체 트래픽의 1/3 | GoDaddy |
| AI 봇 차단 후 대역폭 절감 | 일 800GB → 200GB (75% 감소) | Read the Docs |
GoDaddy에서 호스팅하는 사이트 기준으로 AI 크롤러가 전체 트래픽의 3분의 1을 차지한다는 보고는, 소규모 사이트일수록 봇 트래픽의 상대적 비중이 높다는 뜻입니다.
Read the Docs는 AI 봇 차단 후 일일 대역폭이 800GB에서 200GB로 줄었습니다. 75% 감소입니다. 이 대역폭이 곧 비용이라면, 한국 호스팅 환경에서 이 수치의 의미는 더 큽니다.
한국 호스팅 환경의 특수성
한국 호스팅은 해외와 다른 구조적 문제를 안고 있습니다.
Cafe24의 "무제한 트래픽" 함정
Cafe24는 "무제한 트래픽"을 표방하지만, 이는 정상적 운영 범위 내에서의 이야기입니다. 봇에 의한 과도한 트래픽은 서비스 제한 사유에 해당하며, 초과 트래픽 과금은 Mbps당 17,000원입니다.
AI 크롤러가 전체 트래픽의 30% 이상을 차지하는 상황에서, 이 "무제한"은 실질적으로 무제한이 아닙니다.
한국 블로거의 실제 경험
BingBot과 Bytespider(ByteDance의 크롤러)로 인해 서버 다운타임이 발생. 차단 후 트래픽 영향은 거의 없었으며, AI 검색 유입 방문자는 "미미한 수준"이었다고 보고
이 사례가 시사하는 점은 명확합니다. AI 봇이 소비하는 서버 리소스 대비 실제로 가져다주는 유입은 현재 시점에서 매우 작습니다.
한국 호스팅별 봇 관리 역량 비교
| 호스팅/서비스 | AI 봇 관리 기능 | 가격/특이사항 |
|---|---|---|
| Cafe24 | robots.txt 수동 설정만 가능 | 초과 17,000원/Mbps. "무제한"은 정상 운영 범위 한정 |
| NHN Cloud | WAF (펜타시큐리티 WAPPLES SA) | AI 봇 특화 관리 기능 없음. 일반 WAF 규칙으로 대응 |
| AWS Korea | WAF Bot Control + AI Activity Dashboard | Bot Control 유료 추가. 2026.02 AI 대시보드 출시 |
| CDNetworks | Bot Shield (ML 기반 평가) | 머신러닝 기반 봇 분류. 한국 CDN 인프라 보유 |
| Cloudflare Free | "Block AI bots" 토글 제공 | 무료 플랜에 서울 CDN 노드 없음 — 지연 발생 가능 |
| 비아웹 | AI 로봇 차단 가이드 제공 | 고객용 차단 가이드 별도 발행 |
핵심 판단 기준: Cafe24나 NHN Cloud 등 국내 호스팅을 사용 중이라면 robots.txt와 서버 레벨 차단을 직접 설정해야 합니다. WAF 단에서 AI 봇을 자동으로 걸러주는 서비스는 AWS Korea의 Bot Control과 CDNetworks의 Bot Shield 정도입니다.
Cloudflare Free 플랜의 "Block AI bots" 토글은 편리하지만, 무료 플랜에서는 서울 CDN 노드가 제공되지 않을 수 있어 한국 사용자 대상 사이트에서는 응답 지연이 발생할 수 있다는 점에 유의해야 합니다.
네이버의 AI 크롤러 전면 차단
네이버는 자사 주요 서비스에서 AI 크롤러를 체계적으로 차단하고 있습니다. 이는 한국 웹 생태계에서 매우 중요한 의미를 가집니다.
네이버 블로그 robots.txt 실제 발췌
# blog.naver.com/robots.txt (2026년 4월 확인)
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
차단 범위
네이버는 블로그, 카페, 지식인, 뉴스, 쇼핑 등 주요 서비스 전반에 AI 크롤러 차단을 적용 (2025년 7월 보도)
shopping.naver.com의 robots.txt에는 동일한 차단 목록에 더해 "AI 크롤링 및 RAG 목적 접근 금지"라는 명시적 문구까지 포함되어 있습니다.
주목할 점: OAI-SearchBot도 차단
네이버는 OpenAI의 훈련용 크롤러인 GPTBot뿐 아니라, 검색용 크롤러인 OAI-SearchBot까지 차단하고 있습니다. 이는 단순히 "우리 데이터로 학습하지 마라"를 넘어 "우리 콘텐츠를 AI 검색 결과에 노출하는 것 자체를 허용하지 않겠다"는 의미입니다.
반면 HyperCLOVA X의 훈련 데이터 소스는 공식적으로 공개되지 않았습니다.
한국 법적 프레임워크: AI 기본법과 공정이용 안내서
2026년 들어 AI 크롤링에 대한 법적 기준이 구체화되고 있습니다.
AI 기본법 (2026.01.22 시행)
2024년 12월 국회를 통과한 AI 기본법이 2026년 1월 22일부터 시행되었습니다. AI 개발과 관련한 기본적인 법적 프레임워크를 제공하며, 데이터 수집과 활용에 대한 원칙적 기준을 포함합니다.
공정이용 안내서 (2026.02.26, 문체부+저작권위원회)
출처: 문화체육관광부 · 한국저작권위원회 — AI 학습용 저작물 이용에 관한 공정이용 안내서 (2026.02.26)
이 안내서에서 실무적으로 가장 중요한 내용은 다음 세 가지입니다.
1. robots.txt 위반 = 공정이용 부정적 요소
robots.txt로 크롤링을 금지한 사이트를 우회하여 데이터를 수집하는 행위는 공정이용 판단에서 부정적 요소로 작용합니다. 이는 robots.txt가 단순한 기술적 관례를 넘어 법적 의미를 갖게 되었다는 뜻입니다.
2. 접근 통제 우회 크롤링의 문제
로그인, 페이월, robots.txt 등 접근 통제 수단을 우회한 대량 뉴스 크롤링은 공정이용으로 인정받기 어렵다고 명시했습니다.
3. 공공누리 AI 유형
공공누리로 배포된 정부 콘텐츠는 AI 학습 목적 무조건 허용으로 분류됩니다.
사이트 운영자에게 주는 의미
robots.txt 설정이 이제 단순한 기술 SEO가 아니라 법적 권리 행사의 도구가 되었습니다. AI 크롤러를 차단하는 robots.txt를 설정해두면, 해당 사이트의 콘텐츠를 무단 크롤링한 AI 기업에 대해 공정이용 항변을 약화시킬 수 있는 근거가 됩니다.
독립 사이트의 경쟁 우위: 네이버 차단이 만든 기회
여기서 전략적으로 중요한 역설이 있습니다.
네이버 콘텐츠는 AI 검색에서 보이지 않는다
네이버 블로그, 카페, 지식인의 콘텐츠는 AI 크롤러에 의해 차단되어 있으므로, ChatGPT, Perplexity, Claude 등의 AI 검색 결과에 인용되지 않습니다.
독립 사이트는 AI 검색에서 인용될 수 있다
독자적인 도메인에서 운영되는 한국어 사이트가 AI 크롤러 접근을 허용하면, 한국어 콘텐츠 중에서 AI가 참조할 수 있는 소스가 됩니다. 네이버 생태계의 방대한 한국어 콘텐츠가 빠진 자리를 독립 사이트가 채울 수 있는 구조입니다.
전략적 선택: 선별적 허용
모든 AI 크롤러를 일괄 차단하는 것이 답이 아닐 수 있습니다. 다음과 같은 선별적 접근이 가능합니다.
| 크롤러 유형 | 허용/차단 | 이유 |
|---|---|---|
| 훈련용 크롤러 (GPTBot, CCBot, Google-Extended) | 차단 | 콘텐츠를 학습 데이터로 소비만 함. 직접 유입 없음 |
| 검색용 크롤러 (OAI-SearchBot, PerplexityBot) | 허용 검토 | AI 검색 결과에 인용 시 트래픽 유입 가능 |
| 공격적 크롤러 (Bytespider, 미식별 봇) | 차단 | 서버 리소스만 소비. 유입 가치 없음 |
다만 현재 시점에서 AI 검색을 통한 실제 유입은 아직 "미미한 수준"이라는 국내 사례 보고가 있으므로, 서버 비용이 문제라면 전면 차단 후 상황을 모니터링하는 것이 현실적입니다.
실전: 한국 사이트를 위한 robots.txt 템플릿
다음은 네이버의 차단 패턴을 참고하되, 전략적 선별을 반영한 robots.txt 템플릿입니다.
기본형: 훈련용 크롤러 전면 차단
# ===========================================
# AI 크롤러 관리 — 훈련용 차단, 검색용 선별 허용
# 마지막 업데이트: 2026-06-13
# ===========================================
# --- 훈련용 AI 크롤러 차단 ---
# OpenAI 훈련용
User-agent: GPTBot
Disallow: /
# Common Crawl (다수 AI 학습에 사용)
User-agent: CCBot
Disallow: /
# Google AI 훈련용
User-agent: Google-Extended
Disallow: /
# Meta AI 훈련용
User-agent: meta-externalagent
Disallow: /
# Apple AI 훈련용
User-agent: Applebot-Extended
Disallow: /
# ByteDance 크롤러
User-agent: Bytespider
Disallow: /
# Anthropic 훈련용
User-agent: ClaudeBot
Disallow: /
# --- 검색용 AI 크롤러 (선별 허용) ---
# OpenAI 검색용 — AI 검색 인용 원하면 허용
User-agent: OAI-SearchBot
Allow: /
# Perplexity 검색용
User-agent: PerplexityBot
Allow: /
# Anthropic 검색용
User-agent: Claude-SearchBot
Allow: /
# --- 일반 검색엔진 (허용) ---
User-agent: Googlebot
Allow: /
User-agent: Yeti
Allow: /
User-agent: Bingbot
Allow: /
# --- 기본 규칙 ---
User-agent: *
Allow: /
Sitemap: https://yourdomain.com/sitemap.xml
강경형: 네이버 스타일 전면 차단
서버 비용이 우선이거나 콘텐츠 보호가 목적이라면, 네이버처럼 검색용까지 포함해 전면 차단합니다.
# AI 크롤러 전면 차단 (네이버 패턴)
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: meta-externalagent
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
서버 레벨 추가 대응
robots.txt는 "요청"입니다. 이를 무시하는 봇에 대해서는 서버 레벨 차단이 필요합니다.
Nginx 설정 예시
# AI 크롤러 User-Agent 기반 차단
map $http_user_agent $is_ai_bot {
default 0;
"~*GPTBot" 1;
"~*ClaudeBot" 1;
"~*CCBot" 1;
"~*Bytespider" 1;
"~*Google-Extended" 1;
"~*meta-externalagent" 1;
}
server {
if ($is_ai_bot) {
return 403;
}
}
Apache .htaccess 예시
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|CCBot|Bytespider|Google-Extended|meta-externalagent) [NC]
RewriteRule .* - [F,L]
모니터링: 차단 효과 확인
차단 후 반드시 효과를 측정해야 합니다.
# 서버 로그에서 AI 봇 요청량 확인
grep -E "GPTBot|ClaudeBot|CCBot|Bytespider|PerplexityBot" /var/log/nginx/access.log | wc -l
# 일별 AI 봇 트래픽 추이
grep -E "GPTBot|ClaudeBot|CCBot|Bytespider" /var/log/nginx/access.log \
| awk '{print $4}' | cut -d: -f1 | sort | uniq -c | sort -rn
대응 전략 결정 플로우
사이트 상황에 따라 전략이 달라집니다.
1단계: 현재 AI 봇 트래픽 파악
서버 로그를 분석하여 AI 크롤러가 전체 트래픽에서 차지하는 비중과 소비하는 대역폭을 확인합니다.
2단계: 비용 영향 계산
Cafe24 기준 초과 트래픽 과금(17,000원/Mbps)을 적용했을 때 AI 봇이 발생시키는 실제 비용을 산출합니다.
3단계: AI 검색 유입 가치 평가
Google Analytics 또는 서버 로그에서 AI 검색 엔진(ChatGPT, Perplexity 등)으로부터의 레퍼럴(Referral) 트래픽을 확인합니다. 현재 시점에서 대부분의 한국 사이트는 이 수치가 매우 낮을 것입니다.
4단계: 선별적 차단 또는 전면 차단 결정
- 서버 비용 부담이 크고 AI 유입이 미미하면 → 전면 차단
- AI 검색 노출에 전략적 가치가 있다면 → 훈련용만 차단, 검색용 허용
- 독립 한국어 사이트로 네이버 부재 영역을 노린다면 → 선별적 허용
요약
AI 크롤러 트래픽은 더 이상 무시할 수 있는 수준이 아닙니다. 특히 한국 호스팅 환경에서는 초과 과금과 서버 안정성에 직접적인 영향을 미칩니다.
동시에 네이버의 AI 크롤러 전면 차단은 독립 사이트에 새로운 기회를 만들고 있습니다. 네이버 블로그, 카페, 지식인 콘텐츠가 AI 검색에서 사라진 자리를 독자적인 한국어 사이트가 채울 수 있습니다.
법적 프레임워크도 정비되고 있습니다. robots.txt 설정은 이제 기술적 관례를 넘어 법적 권리 행사의 수단입니다. 공정이용 안내서가 robots.txt 위반을 부정적 요소로 명시한 만큼, 사이트 운영자는 자신의 콘텐츠에 대한 AI 접근 정책을 명확히 설정해두어야 합니다.
핵심은 일괄적인 차단이나 전면 허용이 아니라, 자사 사이트의 상황에 맞는 선별적 판단입니다. 비용, 서버 역량, 콘텐츠 전략, AI 검색 노출 가치를 종합적으로 고려하여 결정하시기 바랍니다.
AI 봇 대응이 필요하시면 XEO 무료 진단을 신청하세요.