크롤 버짓 최적화 가이드: 대규모 사이트 색인 효율 극대화

TL;DR: 크롤 버짓, 대부분의 사이트는 걱정할 필요 없다

Google 공식 입장: "대부분의 사이트 소유자는 크롤 버짓을 신경 쓸 필요가 없다"
걱정이 필요한 규모: 고유 URL 100만 개 이상, 또는 매일 1만 개 이상 변경되는 사이트
낭비 원인 1위: 패싯 내비게이션(Faceted Navigation) — 전체 크롤 문제의 85%
4xx 에러는 버짓을 낭비하지 않는다 — Google이 공식 확인한 사실
크롤링은 순위 요인이 아니다 — 더 많이 크롤링된다고 순위가 오르지 않음

크롤 버짓(Crawl Budget)은 기술 SEO에서 가장 오해가 많은 개념 중 하나입니다. 소규모 사이트 운영자가 크롤 버짓 최적화에 시간을 투자하는 경우가 있지만, Google은 공식적으로 "대부분의 사이트는 걱정할 필요가 없다"고 밝혔습니다.

출처: Google Search Central — Crawl Budget

"If your site has fewer than a few thousand URLs, most of the time it will be crawled efficiently."

그렇다면 누가, 언제, 어떻게 크롤 버짓을 최적화해야 할까요? 이 글에서는 Google의 공식 문서와 Gary Illyes의 발언을 근거로, 사실과 오해를 구분하며 실전 최적화 전략을 안내합니다.

크롤 버짓의 정의: Google 공식 기준

Google은 크롤 버짓을 "Googlebot이 크롤링할 수 있고, 크롤링하고자 하는 URL의 수"로 정의합니다. 이는 두 가지 요소의 조합입니다.

크롤 용량 한도(Crawl Capacity Limit)

서버가 감당할 수 있는 크롤링 속도의 상한선입니다.

Googlebot은 서버 응답 속도를 실시간으로 모니터링합니다
서버가 느려지거나 5xx 에러가 발생하면 크롤링 속도를 자동으로 줄입니다
사이트 소유자가 GSC에서 크롤링 속도를 제한할 수 있습니다

크롤 수요(Crawl Demand)

Google이 해당 사이트를 크롤링하려는 의지의 크기입니다.

인기도: 외부 링크가 많고 트래픽이 높은 URL은 더 자주 크롤링
신선도(Staleness): 오래된 콘텐츠는 재크롤링 우선순위 상승
URL 발견: 사이트맵이나 내부 링크로 새로 발견된 URL

출처: Google Search Central — Large Site Crawl Budget

"Crawl budget is defined as the number of URLs Googlebot can and wants to crawl."

누가 크롤 버짓을 걱정해야 하는가?

Google의 Gary Illyes는 이 질문에 대해 명확한 기준을 제시했습니다.

크롤 버짓 최적화가 필요한 사이트:

조건	설명
고유 URL 100만 개 이상	대규모 이커머스, 미디어, 분류 사이트
매일 1만 개 이상 URL 변경	뉴스, 부동산, 채용 등 실시간 콘텐츠
GSC에서 색인 누락 확인	중요 페이지가 "발견됨 - 현재 색인이 생성되지 않음" 상태

걱정할 필요 없는 사이트:

수천 페이지 이하의 일반 기업 사이트
콘텐츠 변경이 드문 블로그
기술적 문제가 없는 중소규모 이커머스

출처: Gary Illyes, Google — Crawl Budget Explained

"Most people don't have to care about it."

크롤 버짓 낭비 원인 Top 4: Gary Illyes가 밝힌 핵심 문제

Google의 Gary Illyes가 직접 언급한 크롤 버짓 낭비의 주요 원인입니다. 순서는 영향도 기준입니다.

1위: 패싯 내비게이션 — 전체 크롤 문제의 85%

패싯 내비게이션(Faceted Navigation)은 이커머스 사이트에서 색상, 크기, 가격대 등의 필터 조합으로 생성되는 URL입니다.

문제 URL 예시:
/shoes?color=red
/shoes?color=red&size=42
/shoes?color=red&size=42&brand=nike
/shoes?color=red&size=42&brand=nike&sort=price
→ 필터 조합만으로 수백만 개의 URL 생성 가능

해결 방법:

robots.txt로 불필요한 패싯 URL 패턴을 차단
검색 트래픽이 없는 필터 조합은 크롤링 자체를 차단
중요한 패싯(예: 카테고리+브랜드)만 색인 허용
<link rel="canonical">로 기본 카테고리 페이지를 정규 URL로 지정

2위: 액션 파라미터 — 전체 낭비의 25%

장바구니 추가, 세션 ID, 추적 코드 같은 기능성 파라미터가 별도의 URL로 크롤링되는 경우입니다.

문제 URL 예시:
/product/123?add-to-cart=true
/product/123?sessionid=abc123
/product/123?utm_source=google&utm_medium=cpc

해결 방법:

robots.txt로 액션 파라미터가 포함된 URL 패턴 차단 (GSC URL Parameters 도구는 2022년 3월 폐지됨)
JavaScript로 장바구니 기능 처리 (URL 변경 없이)

3위: 소프트 404 — 200 상태 코드의 빈 페이지

서버가 200 OK를 반환하지만 실제로는 "상품이 없습니다", "검색 결과 없음" 같은 에러 콘텐츠를 보여주는 페이지입니다.

문제점:

Googlebot은 200 응답을 받으므로 정상 페이지로 판단합니다
매번 다시 크롤링하여 버짓을 소모합니다
GSC의 "소프트 404" 경고로 확인할 수 있습니다

해결 방법:

실제로 콘텐츠가 없는 페이지는 404 또는 410 상태 코드를 반환
검색 결과가 0건인 페이지에 noindex 적용
GSC에서 소프트 404 경고를 정기적으로 모니터링

4위: hreflang 잘못된 구현

다국어 사이트에서 hreflang 태그가 부정확하면, Googlebot이 동일한 콘텐츠의 여러 언어/국가 버전을 반복적으로 크롤링합니다.

흔한 실수:

리턴 태그(return tag) 누락 — A→B는 있지만 B→A가 없음
존재하지 않는 URL을 hreflang에 포함
언어/국가 코드 오류 (ko vs kr)

해결 방법:

모든 hreflang 관계에 상호 참조(return tag) 확인
hreflang 검증 도구로 정기 점검
사이트맵에 hreflang을 포함하여 관리 단순화

크롤 버짓에 대한 오해와 사실

Google이 공식적으로 확인한 정보를 기준으로 흔한 오해를 정리합니다.

주장	사실 여부	Google 공식 확인
4xx 에러가 크롤 버짓을 낭비한다	거짓	429를 제외한 4xx 에러는 버짓에 영향 없음
압축된 사이트맵이 버짓을 절약한다	거짓	사이트맵 형식은 크롤 버짓과 무관
빠른 페이지일수록 더 많이 크롤링된다	사실	서버 응답이 빠르면 크롤 용량 한도 상승
크롤링이 많으면 순위가 오른다	거짓	크롤링은 순위 요인이 아님
noindex가 크롤 버짓을 절약한다	부분적 사실	noindex 페이지도 크롤은 필요, robots.txt가 더 효율적
JS 렌더링이 추가 버짓을 소모한다	사실	JavaScript의 XHR/fetch 호출도 크롤 요청으로 카운트
Google이 robots.txt의 crawl-delay를 따른다	거짓	Google은 crawl-delay 지시문을 무시

4xx 에러에 대한 오해를 바로잡자

이 오해는 특히 널리 퍼져 있습니다. 많은 SEO 가이드가 "404 페이지를 줄여서 크롤 버짓을 절약하라"고 조언합니다. 그러나 Google은 429를 제외한 4xx 에러가 크롤 버짓에 영향을 주지 않는다고 공식적으로 확인했습니다(Too Many Requests).

404를 반환하는 페이지는 Googlebot이 빠르게 처리하고 넘어갑니다. 오히려 존재하지 않는 페이지를 소프트 404(200 상태 코드)로 반환하는 것이 더 큰 낭비입니다.

noindex vs robots.txt: 어느 것이 더 효율적인가?

크롤링을 막는 목적이라면 robots.txt가 더 효율적입니다.

방법	크롤링	색인	효율성
robots.txt Disallow	차단	대부분 방지 (외부 링크로 색인될 가능성 있음)	높음 — 크롤링 자체를 방지
noindex	허용	차단	보통 — 크롤링 후 색인만 제외

noindex를 적용한 페이지는 Googlebot이 여전히 방문해야 noindex 태그를 읽을 수 있습니다. 따라서 크롤 버짓 절약이 목적이라면 robots.txt로 차단하는 것이 더 효과적입니다.

단, robots.txt로 차단된 URL에 외부 링크가 있다면 Google이 해당 URL을 색인할 수도 있습니다. 색인을 확실히 막아야 하는 경우에는 noindex가 필요합니다.

실전 사례: 크롤 버짓 최적화 전후

사례 1: 자동차 마켓플레이스 — 1,000만 페이지 중 99%가 미색인

문제: 1,000만 개의 URL 중 99%가 Google에 전혀 색인되지 않았습니다. 패싯 내비게이션으로 생성된 필터 조합 URL이 대부분이었습니다.

조치:

패싯 내비게이션 URL을 robots.txt로 차단
검색 트래픽이 있는 핵심 카테고리만 크롤링 허용
사이트맵을 핵심 페이지 위주로 재구성

결과:

지표	이전	이후	변화
크롤링 빈도	기준값	19배 증가	핵심 페이지 크롤링 집중
주간 오가닉 트래픽	40,000	80,000	3개월 내 2배

출처: Botify — Crawl Budget Case Study

사례 2: REI — 3,400만 URL을 30만으로 축소

아웃도어 리테일러 REI는 3,400만 개의 크롤 가능 URL을 30만 개로 줄였습니다. 가치가 낮은 페이지(빈 카테고리, 중복 필터 페이지, 만료된 상품)를 체계적으로 정리한 결과입니다.

핵심 교훈: 크롤 버짓 최적화는 "페이지를 더 만드는 것"이 아니라 "불필요한 페이지를 줄이는 것"입니다.

사례 3: 이커머스 사이트 — 100만 크롤링 중 2.5%만 색인 가능

한 이커머스 사이트에서 Googlebot이 100만 개의 URL을 크롤링했지만, 이 중 97%가 non-canonical URL이었습니다. 실제로 색인 가능한 페이지는 25,000개에 불과했습니다.

원인: 파라미터 URL, 정렬 옵션, 페이지네이션이 별도 URL로 처리되어 Googlebot이 동일 콘텐츠를 반복 크롤링했습니다.

Google Search Console 크롤 통계 활용법

GSC의 크롤 통계 보고서는 크롤 버짓 문제를 진단하는 핵심 도구입니다.

접근 방법

루트 수준 속성(Domain property)에서만 확인 가능합니다
설정 > 크롤 통계에서 접근합니다

확인해야 할 주요 지표

지표	의미	주의 사항
총 크롤 요청 수	Googlebot의 방문 횟수	리다이렉트 홉도 별도 요청으로 카운트
평균 응답 시간	서버 속도 건강도	증가 추세이면 크롤 속도 감소
다운로드 크기	크롤링된 데이터 총량	비정상적 증가는 불필요한 크롤링 의심
호스트 상태	서버 가용성	5xx 에러 비율 모니터링

응답 코드별 분석

200 응답 비율이 낮다면: 리다이렉트 체인, 소프트 404, 서버 에러 점검
301/302 비율이 높다면: 리다이렉트 체인 정리 필요 (각 홉이 별도 요청)
404 비율: 크롤 버짓에는 영향 없으나, 사용자 경험과 내부 링크 점검 필요

크롤 목적별 분석

GSC는 크롤 목적을 발견(Discovery)과 새로고침(Refresh)으로 구분합니다.

발견 비율이 높다면: 새로운 URL이 계속 생성되고 있을 가능성 (패싯 URL 점검)
새로고침 비율이 높다면: 기존 콘텐츠 재크롤링이 정상적으로 이루어지는 상태

참고: Google은 크롤 통계가 "100% 정확하지 않을 수 있으며 일부 요청이 집계되지 않을 수 있다"고 밝히고 있습니다.

크롤 버짓 최적화 체크리스트

Google의 공식 권장사항을 기준으로 정리합니다.

즉시 적용 가능한 조치

패싯 내비게이션 URL을 robots.txt로 차단 — 가장 큰 효과
액션 파라미터 URL 차단 — 장바구니, 세션 ID, 추적 코드
소프트 404 수정 — 빈 페이지에 404/410 상태 코드 반환
리다이렉트 체인 정리 — 최종 URL로 직접 연결
사이트맵 업데이트 — 색인 대상 URL만 포함, <lastmod> 정확히 설정
삭제된 페이지에 404/410 반환 — 302로 리다이렉트하지 않기

서버 성능 최적화

서버 응답 시간 개선 — 빠른 응답 = 더 많은 크롤링 허용
렌더링 속도 향상 — SSR 또는 프리렌더링으로 JS 의존도 줄이기
5xx 에러 최소화 — 서버 안정성이 크롤 용량 한도에 직결

정기 모니터링

GSC 크롤 통계 월 1회 점검
색인 범위 보고서에서 "발견됨 - 현재 색인이 생성되지 않음" 모니터링
서버 로그 분석으로 Googlebot 크롤링 패턴 확인

네이버(Naver)의 크롤링 특성

네이버의 크롤러 Yeti는 Google과 다른 방식으로 동작합니다.

항목	Google	네이버
크롤 버짓 개념	공식 문서화됨	공식 문서에 명시 없음
크롤링 빈도 조절	인기도 + 신선도	인기도 + 갱신 빈도
IndexNow 지원	미지원	지원
robots.txt	준수 (crawl-delay 무시)	준수

네이버 최적화 팁:

IndexNow 활용: 콘텐츠 변경 시 즉시 알림 가능 (Google은 지원하지 않음)
네이버 서치어드바이저에서 크롤링 현황 확인
robots.txt 설정은 Google과 동일하게 적용됨

핵심 요약

크롤 버짓 최적화는 대규모 사이트에서만 의미 있는 작업입니다. 소규모 사이트라면 크롤 버짓보다 콘텐츠 품질과 기술적 기본기에 집중하는 것이 효과적입니다.

기억해야 할 사실:

100만 페이지 미만이면 대부분 걱정 불필요 — Google 공식 입장
패싯 내비게이션이 최대 원인 — 크롤 문제의 85%를 차지
4xx 에러는 버짓을 낭비하지 않는다 — 소프트 404가 진짜 문제
크롤링은 순위 요인이 아니다 — 더 많이 크롤링된다고 상위 노출되지 않음
robots.txt가 noindex보다 효율적 — 크롤링 자체를 차단
서버 속도가 곧 크롤 용량 — 빠른 응답 = 더 많은 크롤링

크롤 버짓 진단이 필요하시면 XEO 무료 진단을 신청하세요.

크롤 버짓 최적화 가이드: 대규모 사이트 색인 효율 극대화

TL;DR: 크롤 버짓, 대부분의 사이트는 걱정할 필요 없다

크롤 버짓의 정의: Google 공식 기준

크롤 용량 한도(Crawl Capacity Limit)

크롤 수요(Crawl Demand)

누가 크롤 버짓을 걱정해야 하는가?

크롤 버짓 낭비 원인 Top 4: Gary Illyes가 밝힌 핵심 문제

1위: 패싯 내비게이션 — 전체 크롤 문제의 85%

2위: 액션 파라미터 — 전체 낭비의 25%

3위: 소프트 404 — 200 상태 코드의 빈 페이지

4위: hreflang 잘못된 구현

크롤 버짓에 대한 오해와 사실

4xx 에러에 대한 오해를 바로잡자

noindex vs robots.txt: 어느 것이 더 효율적인가?

실전 사례: 크롤 버짓 최적화 전후

사례 1: 자동차 마켓플레이스 — 1,000만 페이지 중 99%가 미색인

사례 2: REI — 3,400만 URL을 30만으로 축소

사례 3: 이커머스 사이트 — 100만 크롤링 중 2.5%만 색인 가능

Google Search Console 크롤 통계 활용법

접근 방법

확인해야 할 주요 지표

응답 코드별 분석

크롤 목적별 분석

크롤 버짓 최적화 체크리스트

즉시 적용 가능한 조치

서버 성능 최적화

정기 모니터링

네이버(Naver)의 크롤링 특성

핵심 요약

다른 글 읽기

구글 서치콘솔에 "색인 생성 안 됨"이 뜨는 진짜 이유

관리자 table은 OK, 가격표는 div grid — table 코드 리뷰

IndexNow vs Google Indexing API: 실시간 색인 요청 비교 가이드

프로그래매틱 SEO: 대규모 페이지 자동 생성과 품질 통제

Next.js layout.tsx에 main이 두 개 — landmark 코드 리뷰

네이버 Search Advisor 기술 감사 워크플로우: GSC와의 차이와 6단계 실전 가이드

검색 최적화가 필요하신가요?