TL;DR: 필터 URL이 크롤 버짓을 잡아먹고 있다
- 카테고리 1개당 63만 7,500개 URL 조합 발생 가능 — 쇼핑몰 전체로는 수백만
- 실제 유기 트래픽을 받는 faceted URL은 0.09% — 나머지 99.91%는 크롤 낭비
- Google은 faceted navigation을 크롤 버짓 문제의 1순위 원인으로 공식 지목
- canonical 태그는 네이버에서 작동하지 않음 — robots.txt 차단이 유일한 이중 대응
- 네이버 쇼핑 순위는 EP 피드 기반 — 필터 URL 색인은 Google 문제에 집중
Faceted navigation이 만드는 URL 폭발
Faceted navigation(패싯 내비게이션)은 쇼핑몰에서 사용자가 색상, 사이즈, 브랜드, 가격대를 조합해 상품을 필터링하는 기능입니다. 사용자에게는 편리하지만, 검색엔진에게는 재앙입니다.
URL 조합 수학: 카테고리 하나에 63만 개
한국 패션 쇼핑몰의 일반적인 필터 구성을 계산해 보겠습니다.
상위 카테고리: 5개 (여성의류, 남성의류, 신발, 가방, 악세서리)
색상 필터: 17개 (블랙, 화이트, 네이비, 베이지...)
사이즈 필터: 10개 (XS ~ 4XL, Free)
브랜드 필터: 15개
가격대 필터: 5개 (1만원 미만 ~ 10만원 이상)
조합 수 = 17 x 10 x 15 x 5 = 12,750개 (카테고리 1개 기준)
전체 = 12,750 x 5개 카테고리 = 63,750개 (페이지네이션 제외)
카테고리가 20개라면 1,275만 개, 정렬 옵션(인기순, 가격순, 최신순)과 페이지네이션까지 합하면 수천만 개 URL이 생성됩니다.
속성 10개에 옵션 10개씩만 있어도 이론상 100억 개 조합이 가능합니다. 실제로는 모든 조합이 상품을 반환하지 않지만, 크롤러는 링크가 존재하면 따라갑니다.
실제 데이터: 0.09%만 트래픽을 받는다
출처: Botify - Faceted Navigation SEO
한 신발 리테일러에서 faceted URL 427,000개 중 실제 유기 유입이 발생한 URL은 403개(0.09%)에 불과했습니다.
출처: Botify - Faceted Navigation SEO
한 신발 소매업체에서 faceted 페이지가 전체 사이트의 약 90%를 차지했지만 유기 방문을 받은 페이지는 1% 미만(427,000개 중 403개)이었습니다.
Google이 공식 지목한 1순위 크롤 버짓 킬러
Google은 faceted navigation을 크롤 버짓 문제의 가장 흔한 원인으로 명확히 밝혔습니다.
출처: Google Search Central - Faceted Navigation
"By far the most common source of overcrawl issues."
Google의 Gary Illyes는 대규모 사이트 크롤 버짓 문제의 85%가 faceted navigation에서 비롯된다고 밝혔습니다.
Google이 제시하는 두 가지 경로 (2024년 12월 업데이트)
경로 A — 색인이 필요 없는 필터 URL
robots.txt로 Disallow 처리- 또는 URL fragment(#)로 전환해 크롤 자체를 차단
경로 B — 일부 필터 URL이 색인에 필요한 경우
- 파라미터 순서를 일관되게 유지
- 상품이 0개인 조합은 404 반환
- canonical 태그로 대표 URL 지정
noindex는 해결책이 아니다
흔한 오해가 있습니다. <meta name="robots" content="noindex">를 추가하면 된다고 생각하지만, Google은 noindex 페이지도 크롤은 계속합니다. 색인에서는 제외하지만 크롤 버짓은 여전히 소모합니다.
robots.txt Disallow가 noindex보다 효율적인 이유는 크롤러가 아예 해당 URL을 방문하지 않기 때문입니다.
참고로 Google URL Parameters tool은 2022년 3월 폐지되었으며, 대체 도구는 제공되지 않습니다.
한국 주요 쇼핑 플랫폼 robots.txt 실사 (2026년 4월)
한국 이커머스 플랫폼들이 faceted navigation 크롤링을 어떻게 처리하는지 실제 robots.txt를 확인했습니다.
| 플랫폼 | robots.txt 상태 | 필터 파라미터 차단 | 특이사항 |
|---|---|---|---|
| Cafe24 | 정상 제공 | 없음 | /product/list.html?cate_no=55&sort_method=4&page=2 형태. 최대 4단계 카테고리. 필터 파라미터 관리 기능 없음 |
| 11번가 | 정상 제공, Crawl-delay: 1 | /html/category/ 차단, 그러나 /products/, /catalog/ 허용 | 필터 파라미터는 차단되지 않음 |
| 네이버 쇼핑 | 정상 제공 | Yeti 외 모든 크롤러 차단 | AI 크롤러(GPTBot, Claude-Web 등) 명시적 차단 |
| 쿠팡 | 봇별 allow/disallow 규칙 | 선택적 허용 | /vp/products/, /np/categories/ 등 선택적 허용. 봇 감지 활발 |
| G마켓 | 봇 검증 페이지 | 확인 불가 | robots.txt 대신 봇 검증 페이지 반환 |
Cafe24 사용자가 가장 취약하다
Cafe24는 한국 중소 쇼핑몰의 절대 다수가 사용하는 플랫폼이지만, faceted navigation 파라미터를 자동으로 차단하는 기능이 없습니다. 운영자가 직접 robots.txt를 편집하지 않으면 모든 필터 조합 URL이 크롤러에 노출됩니다.
# Cafe24 기본 URL 패턴
/product/list.html?cate_no=55
/product/list.html?cate_no=55&sort_method=4
/product/list.html?cate_no=55&sort_method=4&color=BK
/product/list.html?cate_no=55&sort_method=4&color=BK&size=M
/product/list.html?cate_no=55&sort_method=4&color=BK&size=M&page=2
→ 모두 크롤러에 노출
11번가도 카테고리 경로는 차단하면서 필터 파라미터가 포함된 상품 목록 URL은 허용하고 있어, 부분적으로만 대응이 되어 있습니다.
Google vs 네이버: canonical이 안 통하는 이유
한국 쇼핑몰 SEO에서 가장 치명적인 실수는 canonical 태그만으로 faceted URL 문제를 해결하려는 것입니다.
네이버는 canonical을 신뢰하지 않는다
| 대응 방법 | 네이버 | |
|---|---|---|
| robots.txt Disallow | 크롤 차단, 가장 효율적 | 크롤 차단, 양쪽 모두 작동 |
| URL fragment (#) | 크롤 차단, JS 재구현 필요 | 크롤 차단 |
| canonical 태그 | 강한 시그널로 처리 | 신뢰성 낮음, 작동 불안정 |
| noindex 태그 | 색인 제외, 크롤은 계속 | 네이버 지원 여부 불명확 |
| JS 기반 필터링 | 크롤 차단 효과 | 네이버의 JS 렌더링 능력 제한적 |
결론: Google과 네이버 양쪽에서 확실하게 작동하는 방법은 robots.txt Disallow뿐입니다.
canonical 태그는 Google에서는 유효한 시그널이지만, 네이버에서는 일관되게 반영되지 않습니다. canonical만 사용하면 네이버 검색에서 중복 페이지가 색인되는 문제가 그대로 남습니다.
네이버 쇼핑은 별개의 문제다
여기서 중요한 구분이 필요합니다. 네이버 쇼핑 순위는 faceted navigation과 무관합니다.
네이버 쇼핑의 상품 순위는 EP 데이터 피드(Entry Point)에 의해 결정됩니다.
- 판매량, 주문 건수, 리뷰 수 등 거래 데이터
- 상품 정보의 정확성과 완성도
- 가격 경쟁력
필터 URL이 네이버에 색인되든 안 되든 네이버 쇼핑 순위에는 영향이 없습니다. Faceted navigation SEO 문제는 본질적으로 Google 검색 문제이며, 네이버 웹 검색의 중복 색인 문제입니다.
따라서 우선순위는 명확합니다:
- Google 크롤 버짓 보호 — 가장 큰 실질적 영향
- 네이버 웹 검색 중복 색인 방지 — robots.txt로 동시 해결
- 네이버 쇼핑 — EP 피드 최적화가 별도로 필요 (faceted nav과 무관)
실전 robots.txt 설정 가이드
Cafe24 쇼핑몰용 robots.txt
User-agent: *
Disallow: /product/list.html?*sort_method*
Disallow: /product/list.html?*color*
Disallow: /product/list.html?*size*
Disallow: /product/list.html?*brand*
Disallow: /product/list.html?*price*
Disallow: /product/list.html?*page=*
# 카테고리 메인은 허용
Allow: /product/list.html?cate_no=
Sitemap: https://yourdomain.com/sitemap.xml
주의: robots.txt의 와일드카드(*) 패턴은 Google과 네이버 모두 지원합니다. 파라미터 이름은 실제 쇼핑몰에 맞게 수정해야 합니다.
일반 쇼핑몰용 (NHN Commerce, 메이크샵 등)
User-agent: *
# 필터 파라미터가 포함된 URL 차단
Disallow: /*?*sort=
Disallow: /*?*color=
Disallow: /*?*size=
Disallow: /*?*brand=
Disallow: /*?*price_min=
Disallow: /*?*price_max=
Disallow: /*?*page=
# 정렬 파라미터 차단
Disallow: /*?*order=
Disallow: /*?*orderby=
Sitemap: https://yourdomain.com/sitemap.xml
설정 후 확인 방법
- Google Search Console → URL 검사 도구에서 차단된 필터 URL 테스트
- robots.txt 테스터 → 차단 규칙이 의도대로 작동하는지 확인
- 크롤 통계 보고서 → 2-4주 후 크롤 요청 수 변화 모니터링
해결 방법 비교: 크롤 절감 효과와 플랫폼 호환성
| 방법 | 크롤 절감 | Google 호환 | 네이버 호환 | 구현 난이도 | 권장 |
|---|---|---|---|---|---|
| robots.txt Disallow | 최대 | O | O | 낮음 | 1순위 |
| URL fragment (#) | 최대 | O | O | 높음 (JS 재구현) | 장기 과제 |
| JS 기반 필터 | 높음 | O | 제한적 (JS 렌더링) | 높음 | 조건부 |
| canonical 태그 | 중간 | O | X (불안정) | 낮음 | Google 전용 보조 |
| noindex 태그 | 없음 (크롤 계속) | O | 불명확 | 낮음 | 비권장 |
권장 조합: robots.txt Disallow (1순위) + canonical 태그 (Google 보조) + 빈 조합 404 처리
실제 효과: 크롤 버짓 회복 사례
robots.txt로 faceted URL을 차단한 후의 실제 변화입니다.
사례 1: 마켓플레이스
faceted URL 제거 후 6주 만에 크롤량 19배 증가. Google이 불필요한 필터 URL 대신 실제 상품 페이지와 카테고리 페이지를 크롤하기 시작했습니다.
사례 2: 이커머스 사이트
랜딩 페이지당 80개 이상의 중복 페이지가 발견되었으며, robots.txt 수정 후 첫날부터 크롤 버짓이 회복되기 시작했습니다.
사례 3: Shopify 스토어
faceted navigation 크롤 차단 후 1페이지 키워드 비율이 4.4%에서 10%로 증가. 크롤 버짓이 중요한 페이지에 집중되면서 색인 품질이 전반적으로 향상되었습니다.
체크리스트: 우리 쇼핑몰 진단
아래 항목 중 3개 이상 해당되면 faceted navigation 크롤 버짓 문제를 의심해야 합니다.
- Google Search Console 크롤 통계에서 "크롤된 페이지 수"가 실제 상품 수보다 10배 이상 많다
- "크롤됨 - 현재 색인 안 됨" 상태의 URL이 대량으로 존재한다
- 색인된 URL 수가 사이트맵 URL 수보다 현저히 많다
- 필터 파라미터가 포함된 URL이 검색 결과에 노출된다
- robots.txt에 필터 파라미터 관련 Disallow 규칙이 없다
- Cafe24, 메이크샵 등 SaaS 플랫폼을 기본 설정 그대로 사용 중이다
요약
Faceted navigation은 사용자 경험에 필수적이지만, 방치하면 크롤 버짓의 99%를 쓸모없는 URL에 낭비합니다. 한국 쇼핑몰은 Google과 네이버 양쪽을 대응해야 하므로, canonical 태그만으로는 부족합니다.
가장 확실한 대응은 robots.txt Disallow입니다. 구현이 간단하고, Google과 네이버 모두에서 작동하며, 크롤 절감 효과가 즉시 나타납니다. 특히 Cafe24 기반 쇼핑몰은 기본 설정에 faceted URL 차단이 없으므로, 반드시 수동으로 robots.txt를 설정해야 합니다.
쇼핑몰 크롤 버짓 진단이 필요하시면 XEO 무료 진단을 신청하세요.