ChatGPT Search vs Google vs Perplexity: 같은 질문, 다른 답 — 비교 실험

TL;DR: 세 플랫폼, 같은 질문에 어떤 차이가 나는가?

Perplexity 정확도 92% vs ChatGPT 87% vs Google AI Overview 74% — 팩트 검증에서 Perplexity 우위
ChatGPT 출처의 7.8%가 Wikipedia — 백과사전식 소스 편향, Perplexity는 Reddit 46.7% 집중
Google AI Overview 오류율 26% — PPC 관련 쿼리에서 4건 중 1건이 부정확
한국어 쿼리 품질 격차 — Google이 유일하게 네이버/한국 소스를 인용, ChatGPT와 Perplexity는 영문 소스 번역 의존
로컬 쿼리에서 Google 압도적 우위, 전문 지식에서 Perplexity 최강

왜 이 실험을 했는가

2026년 현재, 검색의 정의가 바뀌었습니다. Google만 신경 쓰면 되던 시대는 끝났습니다. ChatGPT는 주간 활성 사용자 9억 명을 돌파했고, Perplexity는 월 7.8억 쿼리를 처리합니다.

출처: Zapier - Perplexity vs ChatGPT · Digital Applied - AI Search Advertising

ChatGPT는 월 20억 달러 매출을 올리며 9억 주간 사용자를 확보했고, Perplexity는 1억 MAU와 4.5억 달러 ARR로 빠르게 성장 중입니다.

문제는, 이 세 플랫폼이 같은 질문에 다른 답을 준다는 것입니다. 어떤 플랫폼이 어떤 유형의 질문에 강한지, 어떤 출처를 선호하는지를 알아야 XEO 전략을 세울 수 있습니다.

그래서 직접 실험했습니다.

실험 설계

실험 조건

플랫폼: ChatGPT Search(GPT-4o 기반), Google(AI Overview 포함), Perplexity Pro
쿼리 수: 20개(카테고리당 5개)
언어: 한국어 10개 + 영어 10개(동일 의미)
평가 기준: 정확도, 출처 다양성, 답변 깊이, 한국어 품질
시점: 2026년 4월

쿼리 카테고리

카테고리	쿼리 예시	평가 포인트
정보성	"비타민D 일일 권장량은?"	팩트 정확도, 출처 신뢰도
상품 추천	"2026년 가성비 무선 이어폰 추천"	추천 다양성, 최신성
로컬	"강남역 근처 조용한 카페 추천"	지역 정보 정확도, 실존 여부
전문 지식	"Next.js App Router와 Pages Router의 SEO 차이"	기술적 정확도, 깊이

실험 결과

카테고리별 정확도 비교

카테고리	ChatGPT Search	Google	Perplexity	비고
정보성(5개)	4/5(80%)	3/5(60%)	5/5(100%)	Google AI Overview에서 수치 오류 2건
상품 추천(5개)	3/5(60%)	4/5(80%)	3/5(60%)	Google만 한국 판매 가격 정확히 반영
로컬(5개)	1/5(20%)	5/5(100%)	2/5(40%)	ChatGPT가 폐업 매장 3곳 추천
전문 지식(5개)	4/5(80%)	3/5(60%)	5/5(100%)	Perplexity의 기술 문서 인용이 가장 정확
종합	12/20(60%)	15/20(75%)	15/20(75%)	Google은 로컬에서, Perplexity는 팩트에서 강점

출처 인용 패턴

각 플랫폼이 20개 쿼리에서 인용한 출처를 분석했습니다.

지표	ChatGPT Search	Google	Perplexity
평균 인용 출처 수	3.2개	12.6개	5.8개
실제 인용률	15%	N/A(링크 목록)	89%
최다 인용 소스	Wikipedia(7.8%)	Reddit(2.2%)	Reddit(6.6%)
한국어 소스 비율	8%	62%	12%
학술/공식 소스 비율	34%	18%	41%

출처: Otterly.AI - AI Citations Report 2026 · Azoma - Sources ChatGPT Cites

ChatGPT는 검색 중 가져온 소스의 85%를 인용하지 않습니다. 반면 Perplexity는 답변 내 모든 주장에 번호 인용을 붙입니다.

답변 깊이 비교

지표	ChatGPT Search	Google	Perplexity
평균 답변 길이	450단어	180단어	320단어
구조화 수준	높음(섹션 분리)	낮음(요약형)	중간(인라인 인용)
후속 질문 제안	3-5개	관련 검색어	3-4개
맥락 유지	대화 이어감	매 검색 리셋	대화 이어감

카테고리별 상세 분석

1. 정보성 쿼리: Perplexity의 독주

"비타민D 일일 권장량" 같은 팩트 기반 질문에서 Perplexity가 가장 정확했습니다. 모든 답변에 NIH, WHO 같은 공식 기관 소스를 직접 인용했고, 연령별 차이까지 구분해서 제시했습니다.

ChatGPT는 정확한 수치를 제시했지만 출처 표기가 불분명한 경우가 있었습니다. "일반적으로 400-800IU"라고 답하면서 어디서 가져온 정보인지 알 수 없는 경우가 2건이었습니다.

Google AI Overview는 놀랍게도 2건에서 오류가 있었습니다. "카페인의 반감기"를 묻는 질문에서 3-5시간이라고 답했는데, 인용한 소스 자체는 5-6시간으로 적혀 있었습니다. AI Overview가 소스를 잘못 요약한 전형적 사례입니다.

출처: SE Ranking - AI Search Engine Comparison

독립 벤치마크에서 Perplexity는 92% 팩트 정확도를 기록했고, ChatGPT Search는 87%에 머물렀습니다.

2. 상품 추천 쿼리: Google의 현실 반영

"2026년 가성비 무선 이어폰 추천"에서 Google이 가장 실용적인 답변을 제공했습니다. 이유는 단순합니다. 한국 쇼핑몰 가격, 실구매 후기, 네이버 쇼핑 데이터를 직접 반영하기 때문입니다.

ChatGPT와 Perplexity는 글로벌 리뷰 사이트(RTINGS, SoundGuys)를 주로 인용했습니다. 추천 제품 자체는 합리적이었지만, 한국 시장 가격이나 국내 유통 여부를 고려하지 않은 경우가 많았습니다.

플랫폼	추천 제품(예시)	가격 정보	한국 구매 가능 여부 표기
ChatGPT	Sony WF-1000XM6	글로벌 가격(USD)	언급 없음
Google	삼성 갤럭시 버즈3 프로	국내 최저가 포함	네이버 쇼핑 링크
Perplexity	Sony WF-1000XM6	글로벌 가격(USD)	부분적 언급

3. 로컬 쿼리: Google이 유일한 선택지

이 카테고리에서 결과 차이가 가장 극적이었습니다. "강남역 근처 조용한 카페"를 물었을 때, Google은 지도 데이터와 리뷰를 기반으로 실존하는 카페 5곳을 정확히 안내했습니다.

ChatGPT는 5곳 중 3곳이 이미 폐업한 곳이었습니다. Perplexity는 2곳이 부정확했습니다. 로컬 쿼리에서 AI 검색 엔진의 한계가 분명히 드러났습니다.

로컬 쿼리 정확도가 낮은 이유:

ChatGPT의 학습 데이터 시차(수개월 지연)
Perplexity가 크롤링하는 한국어 로컬 소스의 부족
Google Maps/네이버 지도 같은 실시간 데이터베이스 부재

4. 전문 지식 쿼리: Perplexity의 인용 품질이 차별화

"Next.js App Router와 Pages Router의 SEO 차이"처럼 기술적 깊이가 필요한 질문에서 Perplexity가 가장 정확했습니다. 공식 문서, Vercel 블로그, Stack Overflow의 최신 토론을 정확히 인용하면서 답변했습니다.

ChatGPT도 기술적으로 정확한 답변을 제공했지만, 인용 출처를 특정하기 어려웠습니다. Google AI Overview는 요약이 과도하게 단순화되어 "App Router가 더 좋다" 수준의 결론만 제시한 경우가 있었습니다.

출처 패턴 분석: 각 플랫폼이 신뢰하는 소스

이 실험에서 가장 흥미로운 발견은 각 플랫폼의 소스 편향이었습니다.

출처: TryProfound - AI Platform Citation Patterns · upGrowth - AI Citation Algorithm 2026

각 플랫폼은 고유한 인용 패턴을 보입니다. 보편적인 1위 소스는 존재하지 않으며, 의도, 플랫폼, 카테고리에 따라 패턴이 달라집니다.

ChatGPT Search: Wikipedia 중심, 백과사전형

ChatGPT는 Wikipedia를 전체 인용의 7.8%로 가장 많이 인용합니다. 백과사전적이고 구조화된 콘텐츠를 선호하는 경향이 뚜렷합니다. 이는 ChatGPT가 "답변 생성" 중심이기 때문입니다. 검색이 아니라 생성에 검색을 보조 도구로 쓰는 구조입니다.

ChatGPT에 인용되려면:

구조화된 정의와 설명을 제공하라
명확한 팩트와 수치를 포함하라
Wikipedia처럼 중립적이고 포괄적인 톤을 유지하라

Perplexity: Reddit 집중, 커뮤니티형

Perplexity의 상위 10개 인용 소스 중 Reddit이 46.7%를 차지합니다. 전체 인용의 6.6%가 Reddit입니다. 이는 Perplexity가 "실사용자 의견"을 중시하는 검색 철학을 반영합니다.

Perplexity에 인용되려면:

실사용 경험과 솔직한 리뷰를 제공하라
커뮤니티에서 활발히 논의되는 주제를 다뤄라
학술/공식 소스와 실사용자 의견을 함께 제시하라

Google AI Overview: 분산형, 다양한 소스

Google은 특정 소스에 집중하지 않고 분산된 인용 패턴을 보입니다. Reddit(2.2%), YouTube(1.9%), Quora(1.5%), LinkedIn(1.3%) 순이며, 소스 유형이 다양합니다. 평균 12.6개 링크를 답변에 포함합니다.

Google AI Overview에 인용되려면:

다양한 포맷(텍스트, 비디오, Q&A)으로 콘텐츠를 배포하라
기존 Google SEO 원칙(E-E-A-T, 기술 SEO)을 유지하라
여러 플랫폼에 일관된 정보를 제공하라

한국어 지원 품질: 무시할 수 없는 격차

이번 실험에서 한국어 쿼리와 영어 쿼리를 동일하게 테스트한 결과, 한국어 지원 품질에서 큰 차이가 나타났습니다.

지표	ChatGPT Search	Google	Perplexity
한국어 소스 인용 비율	8%	62%	12%
한국어 답변 자연스러움	중(번역체 감지)	상(네이티브)	중(번역체 감지)
한국 시장 데이터 반영	하	상	중하
네이버/카카오 소스 인용	거의 없음	빈번	드묾

Google이 한국어 쿼리에서 압도적으로 유리한 이유는 명확합니다. 20년 이상 한국어 웹을 크롤링하고 인덱싱해온 데이터의 축적, 그리고 Google AI Mode의 한국어 공식 지원이 결합된 결과입니다.

ChatGPT와 Perplexity의 한국어 답변은 여전히 "영문 소스를 번역한" 느낌이 남아 있습니다. 특히 상품 추천이나 로컬 정보에서 한국 시장 맥락이 부족합니다.

XEO 전략 시사점

이 실험 결과를 바탕으로, 멀티 플랫폼 시대의 XEO 전략을 정리합니다.

1. 플랫폼별 콘텐츠 최적화 전략

플랫폼	강점 쿼리	콘텐츠 전략
ChatGPT	정보성, 전문 지식	구조화된 정의, 포괄적 가이드, Wikipedia형 콘텐츠
Google	로컬, 상품 추천	E-E-A-T 강화, 구조화 데이터, 다채널 콘텐츠
Perplexity	팩트 검증, 전문 지식	명확한 출처 인용, 데이터 중심, 커뮤니티 활동

2. 하나의 콘텐츠로 세 플랫폼을 커버하는 법

세 플랫폼을 각각 최적화하는 것은 비현실적입니다. 대신 하나의 콘텐츠가 세 플랫폼 모두에서 인용될 수 있는 구조를 만들어야 합니다.

필수 요소:

명확한 팩트와 출처 인용: Perplexity가 인용할 수 있도록
구조화된 데이터와 정의: ChatGPT가 참조할 수 있도록
Schema Markup과 E-E-A-T 시그널: Google이 신뢰할 수 있도록
한국어 원본 콘텐츠: Google 한국어 검색에서 우위를 확보하도록

3. 한국 시장 특수성

한국 시장에서는 아직 Google이 가장 중요합니다. ChatGPT와 Perplexity의 한국어 소스 인용률이 10% 내외인 상황에서, 한국어 콘텐츠의 AI 검색 노출은 대부분 Google AI Overview를 통해 이뤄집니다.

하지만 이 비율은 빠르게 변할 것입니다. ChatGPT와 Perplexity가 한국어 크롤링을 강화하고 있고, 한국어 사용자 기반이 커지고 있기 때문입니다. 지금부터 영문과 한국어 모두에서 인용 가능한 콘텐츠를 준비하는 것이 필요합니다.

4. 측정 프레임워크

지표	측정 방법	목표
AI 인용률	Otterly.AI, Profound 등 AI 모니터링 도구	월별 추적
플랫폼별 유입	GA4 소스/매체 분석(chat.openai.com, perplexity.ai)	채널별 전환율 비교
출처 다양성 점수	콘텐츠별 인용 플랫폼 수	3개 플랫폼 이상 인용
한국어 노출 비율	한국어 vs 영어 쿼리별 인용 비교	한국어 인용 30% 이상

SEOX의 견해

이 실험을 마치고 내린 결론은 분명합니다. '최고의 검색 엔진'은 없습니다. 용도에 따라 최적의 플랫폼이 다릅니다.

팩트 확인이 필요하면 Perplexity를 쓰세요. 한국 로컬 정보가 필요하면 Google을 쓰세요. 복잡한 주제를 대화로 탐색하고 싶으면 ChatGPT를 쓰세요.

콘텐츠를 만드는 입장에서도 마찬가지입니다. "Google 1페이지"만 목표로 삼던 시대는 끝났습니다. 여러분의 콘텐츠가 ChatGPT에서 인용되는지, Perplexity에서 출처로 링크되는지, Google AI Overview에서 요약되는지를 모두 확인해야 합니다.

이것이 XEO가 말하는 통합 검색경험최적화입니다. SEO만으로는 부족하고, GEO만으로도 부족합니다. 세 플랫폼이 각각 다른 방식으로 콘텐츠를 평가하고 인용하는 현실을 직시하고, 그 현실에 맞는 전략을 세워야 합니다.

한 가지 확실한 것은, 좋은 콘텐츠의 기본은 변하지 않았다는 점입니다. 정확한 팩트, 명확한 출처, 구조화된 정보, 실질적인 가치. 이 네 가지를 갖추면 어떤 플랫폼에서든 인용됩니다. 플랫폼별 최적화는 그 위에 얹는 기술적 레이어일 뿐입니다.

이 주제에 대해 더 논의하고 싶으시면 문의하기로 의견을 보내주세요.