SOYOYU
블로그로 돌아가기기술 SEO

크롤 버짓 최적화 가이드: 대규모 사이트 색인 효율 극대화

Google이 공식 확인한 크롤 버짓의 정의, 실제로 걱정해야 하는 사이트 규모, 낭비 원인 Top 4, 그리고 흔한 오해를 정리합니다. 100만 페이지 이상 사이트를 위한 실전 최적화 전략.

소요유2026년 6월 2일8 min read
크롤 버짓기술 SEO색인 최적화Googlebot크롤링

TL;DR: 크롤 버짓, 대부분의 사이트는 걱정할 필요 없다

  • Google 공식 입장: "대부분의 사이트 소유자는 크롤 버짓을 신경 쓸 필요가 없다"
  • 걱정이 필요한 규모: 고유 URL 100만 개 이상, 또는 매일 1만 개 이상 변경되는 사이트
  • 낭비 원인 1위: 패싯 내비게이션(Faceted Navigation) — 전체 크롤 문제의 85%
  • 4xx 에러는 버짓을 낭비하지 않는다 — Google이 공식 확인한 사실
  • 크롤링은 순위 요인이 아니다 — 더 많이 크롤링된다고 순위가 오르지 않음

크롤 버짓(Crawl Budget)은 기술 SEO에서 가장 오해가 많은 개념 중 하나입니다. 소규모 사이트 운영자가 크롤 버짓 최적화에 시간을 투자하는 경우가 있지만, Google은 공식적으로 "대부분의 사이트는 걱정할 필요가 없다"고 밝혔습니다.

출처: Google Search Central — Crawl Budget

"If your site has fewer than a few thousand URLs, most of the time it will be crawled efficiently."

그렇다면 누가, 언제, 어떻게 크롤 버짓을 최적화해야 할까요? 이 글에서는 Google의 공식 문서와 Gary Illyes의 발언을 근거로, 사실과 오해를 구분하며 실전 최적화 전략을 안내합니다.


크롤 버짓의 정의: Google 공식 기준

Google은 크롤 버짓을 "Googlebot이 크롤링할 수 있고, 크롤링하고자 하는 URL의 수"로 정의합니다. 이는 두 가지 요소의 조합입니다.

크롤 용량 한도(Crawl Capacity Limit)

서버가 감당할 수 있는 크롤링 속도의 상한선입니다.

  • Googlebot은 서버 응답 속도를 실시간으로 모니터링합니다
  • 서버가 느려지거나 5xx 에러가 발생하면 크롤링 속도를 자동으로 줄입니다
  • 사이트 소유자가 GSC에서 크롤링 속도를 제한할 수 있습니다

크롤 수요(Crawl Demand)

Google이 해당 사이트를 크롤링하려는 의지의 크기입니다.

  • 인기도: 외부 링크가 많고 트래픽이 높은 URL은 더 자주 크롤링
  • 신선도(Staleness): 오래된 콘텐츠는 재크롤링 우선순위 상승
  • URL 발견: 사이트맵이나 내부 링크로 새로 발견된 URL

출처: Google Search Central — Large Site Crawl Budget

"Crawl budget is defined as the number of URLs Googlebot can and wants to crawl."


누가 크롤 버짓을 걱정해야 하는가?

Google의 Gary Illyes는 이 질문에 대해 명확한 기준을 제시했습니다.

크롤 버짓 최적화가 필요한 사이트:

조건설명
고유 URL 100만 개 이상대규모 이커머스, 미디어, 분류 사이트
매일 1만 개 이상 URL 변경뉴스, 부동산, 채용 등 실시간 콘텐츠
GSC에서 색인 누락 확인중요 페이지가 "발견됨 - 현재 색인이 생성되지 않음" 상태

걱정할 필요 없는 사이트:

  • 수천 페이지 이하의 일반 기업 사이트
  • 콘텐츠 변경이 드문 블로그
  • 기술적 문제가 없는 중소규모 이커머스

출처: Gary Illyes, Google — Crawl Budget Explained

"Most people don't have to care about it."


크롤 버짓 낭비 원인 Top 4: Gary Illyes가 밝힌 핵심 문제

Google의 Gary Illyes가 직접 언급한 크롤 버짓 낭비의 주요 원인입니다. 순서는 영향도 기준입니다.

1위: 패싯 내비게이션 — 전체 크롤 문제의 85%

패싯 내비게이션(Faceted Navigation)은 이커머스 사이트에서 색상, 크기, 가격대 등의 필터 조합으로 생성되는 URL입니다.

문제 URL 예시:
/shoes?color=red
/shoes?color=red&size=42
/shoes?color=red&size=42&brand=nike
/shoes?color=red&size=42&brand=nike&sort=price
→ 필터 조합만으로 수백만 개의 URL 생성 가능

해결 방법:

  • robots.txt로 불필요한 패싯 URL 패턴을 차단
  • 검색 트래픽이 없는 필터 조합은 크롤링 자체를 차단
  • 중요한 패싯(예: 카테고리+브랜드)만 색인 허용
  • <link rel="canonical">로 기본 카테고리 페이지를 정규 URL로 지정

2위: 액션 파라미터 — 전체 낭비의 25%

장바구니 추가, 세션 ID, 추적 코드 같은 기능성 파라미터가 별도의 URL로 크롤링되는 경우입니다.

문제 URL 예시:
/product/123?add-to-cart=true
/product/123?sessionid=abc123
/product/123?utm_source=google&utm_medium=cpc

해결 방법:

  • robots.txt로 액션 파라미터가 포함된 URL 패턴 차단 (GSC URL Parameters 도구는 2022년 3월 폐지됨)
  • JavaScript로 장바구니 기능 처리 (URL 변경 없이)

3위: 소프트 404 — 200 상태 코드의 빈 페이지

서버가 200 OK를 반환하지만 실제로는 "상품이 없습니다", "검색 결과 없음" 같은 에러 콘텐츠를 보여주는 페이지입니다.

문제점:

  • Googlebot은 200 응답을 받으므로 정상 페이지로 판단합니다
  • 매번 다시 크롤링하여 버짓을 소모합니다
  • GSC의 "소프트 404" 경고로 확인할 수 있습니다

해결 방법:

  • 실제로 콘텐츠가 없는 페이지는 404 또는 410 상태 코드를 반환
  • 검색 결과가 0건인 페이지에 noindex 적용
  • GSC에서 소프트 404 경고를 정기적으로 모니터링

4위: hreflang 잘못된 구현

다국어 사이트에서 hreflang 태그가 부정확하면, Googlebot이 동일한 콘텐츠의 여러 언어/국가 버전을 반복적으로 크롤링합니다.

흔한 실수:

  • 리턴 태그(return tag) 누락 — A→B는 있지만 B→A가 없음
  • 존재하지 않는 URL을 hreflang에 포함
  • 언어/국가 코드 오류 (ko vs kr)

해결 방법:

  • 모든 hreflang 관계에 상호 참조(return tag) 확인
  • hreflang 검증 도구로 정기 점검
  • 사이트맵에 hreflang을 포함하여 관리 단순화

크롤 버짓에 대한 오해와 사실

Google이 공식적으로 확인한 정보를 기준으로 흔한 오해를 정리합니다.

주장사실 여부Google 공식 확인
4xx 에러가 크롤 버짓을 낭비한다거짓429를 제외한 4xx 에러는 버짓에 영향 없음
압축된 사이트맵이 버짓을 절약한다거짓사이트맵 형식은 크롤 버짓과 무관
빠른 페이지일수록 더 많이 크롤링된다사실서버 응답이 빠르면 크롤 용량 한도 상승
크롤링이 많으면 순위가 오른다거짓크롤링은 순위 요인이 아님
noindex가 크롤 버짓을 절약한다부분적 사실noindex 페이지도 크롤은 필요, robots.txt가 더 효율적
JS 렌더링이 추가 버짓을 소모한다사실JavaScript의 XHR/fetch 호출도 크롤 요청으로 카운트
Google이 robots.txt의 crawl-delay를 따른다거짓Google은 crawl-delay 지시문을 무시

4xx 에러에 대한 오해를 바로잡자

이 오해는 특히 널리 퍼져 있습니다. 많은 SEO 가이드가 "404 페이지를 줄여서 크롤 버짓을 절약하라"고 조언합니다. 그러나 Google은 429를 제외한 4xx 에러가 크롤 버짓에 영향을 주지 않는다고 공식적으로 확인했습니다(Too Many Requests).

404를 반환하는 페이지는 Googlebot이 빠르게 처리하고 넘어갑니다. 오히려 존재하지 않는 페이지를 소프트 404(200 상태 코드)로 반환하는 것이 더 큰 낭비입니다.

noindex vs robots.txt: 어느 것이 더 효율적인가?

크롤링을 막는 목적이라면 robots.txt가 더 효율적입니다.

방법크롤링색인효율성
robots.txt Disallow차단대부분 방지 (외부 링크로 색인될 가능성 있음)높음 — 크롤링 자체를 방지
noindex허용차단보통 — 크롤링 후 색인만 제외

noindex를 적용한 페이지는 Googlebot이 여전히 방문해야 noindex 태그를 읽을 수 있습니다. 따라서 크롤 버짓 절약이 목적이라면 robots.txt로 차단하는 것이 더 효과적입니다.

단, robots.txt로 차단된 URL에 외부 링크가 있다면 Google이 해당 URL을 색인할 수도 있습니다. 색인을 확실히 막아야 하는 경우에는 noindex가 필요합니다.


실전 사례: 크롤 버짓 최적화 전후

사례 1: 자동차 마켓플레이스 — 1,000만 페이지 중 99%가 미색인

문제: 1,000만 개의 URL 중 99%가 Google에 전혀 색인되지 않았습니다. 패싯 내비게이션으로 생성된 필터 조합 URL이 대부분이었습니다.

조치:

  • 패싯 내비게이션 URL을 robots.txt로 차단
  • 검색 트래픽이 있는 핵심 카테고리만 크롤링 허용
  • 사이트맵을 핵심 페이지 위주로 재구성

결과:

지표이전이후변화
크롤링 빈도기준값19배 증가핵심 페이지 크롤링 집중
주간 오가닉 트래픽40,00080,0003개월 내 2배

출처: Botify — Crawl Budget Case Study

사례 2: REI — 3,400만 URL을 30만으로 축소

아웃도어 리테일러 REI는 3,400만 개의 크롤 가능 URL을 30만 개로 줄였습니다. 가치가 낮은 페이지(빈 카테고리, 중복 필터 페이지, 만료된 상품)를 체계적으로 정리한 결과입니다.

핵심 교훈: 크롤 버짓 최적화는 "페이지를 더 만드는 것"이 아니라 "불필요한 페이지를 줄이는 것"입니다.

사례 3: 이커머스 사이트 — 100만 크롤링 중 2.5%만 색인 가능

한 이커머스 사이트에서 Googlebot이 100만 개의 URL을 크롤링했지만, 이 중 97%가 non-canonical URL이었습니다. 실제로 색인 가능한 페이지는 25,000개에 불과했습니다.

원인: 파라미터 URL, 정렬 옵션, 페이지네이션이 별도 URL로 처리되어 Googlebot이 동일 콘텐츠를 반복 크롤링했습니다.


Google Search Console 크롤 통계 활용법

GSC의 크롤 통계 보고서는 크롤 버짓 문제를 진단하는 핵심 도구입니다.

접근 방법

  • 루트 수준 속성(Domain property)에서만 확인 가능합니다
  • 설정 > 크롤 통계에서 접근합니다

확인해야 할 주요 지표

지표의미주의 사항
총 크롤 요청 수Googlebot의 방문 횟수리다이렉트 홉도 별도 요청으로 카운트
평균 응답 시간서버 속도 건강도증가 추세이면 크롤 속도 감소
다운로드 크기크롤링된 데이터 총량비정상적 증가는 불필요한 크롤링 의심
호스트 상태서버 가용성5xx 에러 비율 모니터링

응답 코드별 분석

  • 200 응답 비율이 낮다면: 리다이렉트 체인, 소프트 404, 서버 에러 점검
  • 301/302 비율이 높다면: 리다이렉트 체인 정리 필요 (각 홉이 별도 요청)
  • 404 비율: 크롤 버짓에는 영향 없으나, 사용자 경험과 내부 링크 점검 필요

크롤 목적별 분석

GSC는 크롤 목적을 발견(Discovery)과 새로고침(Refresh)으로 구분합니다.

  • 발견 비율이 높다면: 새로운 URL이 계속 생성되고 있을 가능성 (패싯 URL 점검)
  • 새로고침 비율이 높다면: 기존 콘텐츠 재크롤링이 정상적으로 이루어지는 상태

참고: Google은 크롤 통계가 "100% 정확하지 않을 수 있으며 일부 요청이 집계되지 않을 수 있다"고 밝히고 있습니다.


크롤 버짓 최적화 체크리스트

Google의 공식 권장사항을 기준으로 정리합니다.

즉시 적용 가능한 조치

  • 패싯 내비게이션 URL을 robots.txt로 차단 — 가장 큰 효과
  • 액션 파라미터 URL 차단 — 장바구니, 세션 ID, 추적 코드
  • 소프트 404 수정 — 빈 페이지에 404/410 상태 코드 반환
  • 리다이렉트 체인 정리 — 최종 URL로 직접 연결
  • 사이트맵 업데이트 — 색인 대상 URL만 포함, <lastmod> 정확히 설정
  • 삭제된 페이지에 404/410 반환 — 302로 리다이렉트하지 않기

서버 성능 최적화

  • 서버 응답 시간 개선 — 빠른 응답 = 더 많은 크롤링 허용
  • 렌더링 속도 향상 — SSR 또는 프리렌더링으로 JS 의존도 줄이기
  • 5xx 에러 최소화 — 서버 안정성이 크롤 용량 한도에 직결

정기 모니터링

  • GSC 크롤 통계 월 1회 점검
  • 색인 범위 보고서에서 "발견됨 - 현재 색인이 생성되지 않음" 모니터링
  • 서버 로그 분석으로 Googlebot 크롤링 패턴 확인

네이버(Naver)의 크롤링 특성

네이버의 크롤러 Yeti는 Google과 다른 방식으로 동작합니다.

항목Google네이버
크롤 버짓 개념공식 문서화됨공식 문서에 명시 없음
크롤링 빈도 조절인기도 + 신선도인기도 + 갱신 빈도
IndexNow 지원미지원지원
robots.txt준수 (crawl-delay 무시)준수

네이버 최적화 팁:

  • IndexNow 활용: 콘텐츠 변경 시 즉시 알림 가능 (Google은 지원하지 않음)
  • 네이버 서치어드바이저에서 크롤링 현황 확인
  • robots.txt 설정은 Google과 동일하게 적용됨

핵심 요약

크롤 버짓 최적화는 대규모 사이트에서만 의미 있는 작업입니다. 소규모 사이트라면 크롤 버짓보다 콘텐츠 품질과 기술적 기본기에 집중하는 것이 효과적입니다.

기억해야 할 사실:

  1. 100만 페이지 미만이면 대부분 걱정 불필요 — Google 공식 입장
  2. 패싯 내비게이션이 최대 원인 — 크롤 문제의 85%를 차지
  3. 4xx 에러는 버짓을 낭비하지 않는다 — 소프트 404가 진짜 문제
  4. 크롤링은 순위 요인이 아니다 — 더 많이 크롤링된다고 상위 노출되지 않음
  5. robots.txt가 noindex보다 효율적 — 크롤링 자체를 차단
  6. 서버 속도가 곧 크롤 용량 — 빠른 응답 = 더 많은 크롤링

크롤 버짓 진단이 필요하시면 XEO 무료 진단을 신청하세요.

검색 최적화가 필요하신가요?

무료 상담을 통해 비즈니스에 맞는 최적화 전략을 확인하세요.