모든 것은 하나의 오해에서 시작됐다
“중복 콘텐츠가 있으면 구글이 내 사이트를 처벌한다.” 이 믿음이 얼마나 많은 웹마스터를 괴롭혔는지 모릅니다. 하지만 구글의 John Mueller는 2008년부터 지금까지 한결같이 말합니다. “We don’t have a duplicate content penalty.” 구글은 중복 콘텐츠 자체에 대해 페널티를 부과하지 않는다는 뜻입니다. 그렇다면 왜 중복된 페이지들이 검색 결과에서 사라지는 걸까요?
답은 간단합니다. 구글은 페널티를 주는 게 아니라 클러스터링을 통해 비슷한 콘텐츠를 하나로 묶은 뒤, 그중 가장 적절한 하나만 보여주는 것입니다. 이는 처벌이 아니라 검색 품질을 높이기 위한 필터링 과정입니다. 사용자가 같은 내용을 여러 번 보는 걸 막기 위한 구글의 배려인 셈이죠.
구글 알고리즘이 중복을 감지하는 정밀한 과정
구글이 웹페이지를 크롤링할 때 가장 먼저 하는 일은 각 페이지의 디지털 지문을 만드는 것입니다. SimHash라는 알고리즘을 통해 모든 페이지는 64비트 핑거프린트로 변환됩니다. 두 페이지의 해밍 거리가 3 이내면 거의 동일한 콘텐츠로, 5-8이면 유사한 콘텐츠로 판단합니다. 이 과정은 단순히 텍스트만 비교하는 게 아니라 DOM 구조, 시맨틱 의미, 심지어 페이지의 목적까지 고려합니다.
예를 들어 여러분의 사이트에 example.com/product?id=123, example.com/product/shoes-red, example.com/products/123-red-shoes 같은 URL들이 있다고 해봅시다. 이 세 페이지가 동일한 빨간 신발을 보여준다면, 구글은 이들을 하나의 클러스터로 묶습니다. 그리고 이 클러스터 안에서 대표 URL을 선정하는 복잡한 과정이 시작됩니다.
대표 URL 선정 기준은 생각보다 복잡합니다. PageRank 신호가 가장 중요한데, 얼마나 많은 백링크를 받았는지가 핵심입니다. 그다음은 사용자 신호로, 클릭률과 체류시간이 높은 페이지가 유리합니다. HTTPS 사용 여부, 모바일 최적화 수준, 페이지 로딩 속도 같은 기술적 신호도 영향을 미치며, URL의 깨끗함과 간결함도 고려됩니다. 구글은 이 모든 신호를 종합해서 “이 페이지가 사용자에게 가장 유용할 것”이라고 판단되는 URL을 선택합니다.
보이지 않는 손실이 더 치명적인 이유
중복 콘텐츠의 진짜 문제는 색인에서 제외되는 것만이 아닙니다. 더 큰 문제는 SEO 신호가 분산된다는 점입니다. 백링크 100개가 있는데 이것이 5개의 중복 페이지로 분산되면, 각 페이지는 20개씩만 받은 것처럼 처리될 수 있습니다. 이는 마치 투표권을 여러 후보에게 나눠주는 것과 같아서, 결과적으로 어떤 페이지도 충분한 권위를 얻지 못하게 됩니다.
크롤링 예산 낭비도 심각한 문제입니다. 구글봇이 여러분의 사이트를 방문할 때마다 한정된 시간과 리소스를 사용합니다. 중복 페이지가 많으면 정작 중요한 새 콘텐츠를 발견하지 못할 수 있습니다. 대형 이커머스 사이트에서 필터링과 정렬 옵션 때문에 수만 개의 중복 URL이 생성되는 경우, 신제품 페이지가 몇 주째 색인되지 않는 일이 발생하는 이유가 바로 이것입니다.
가장 황당한 상황은 구글이 여러분이 원하지 않는 페이지를 대표로 선정할 때입니다. 상세한 제품 페이지 대신 간단한 카테고리 페이지가, 최신 버전 대신 오래된 버전이, 심지어 프린트용 페이지가 대표로 선정되기도 합니다. 이런 일이 발생하면 사용자는 최적의 페이지를 보지 못하고, 전환율은 떨어지며, 결국 비즈니스에 직접적인 타격을 입게 됩니다.
크로스 도메인 중복이라는 더 복잡한 전장
다른 도메인이 여러분의 콘텐츠를 복사했을 때 상황은 더욱 복잡해집니다. 구글은 원본을 찾기 위해 노력하지만, 항상 정확한 판단을 내리는 것은 아닙니다. 최초 색인 시점이 중요하긴 하지만, 때로는 도메인 권위도가 더 큰 영향을 미칩니다. 신생 블로그의 훌륭한 콘텐츠가 대형 포털에 복사되면, 안타깝게도 대형 포털이 원본으로 인식될 수 있습니다.
구글은 콘텐츠의 완성도와 풍부함도 고려합니다. 원본 사이트가 간단한 설명만 제공하는데 복사한 사이트가 이미지, 비디오, 상세한 설명을 추가했다면, 구글은 후자를 더 가치 있는 버전으로 볼 수 있습니다. 사용자들이 어느 버전을 더 많이 클릭하고 오래 머무는지도 중요한 신호가 됩니다.
이런 크로스 도메인 중복은 단순히 랭킹 문제를 넘어 브랜드 신뢰도에도 영향을 미칩니다. 고객이 여러분의 콘텐츠를 다른 사이트에서 먼저 발견하면, 원본이 어디인지 혼란스러워할 수 있습니다. 특히 제품 설명이나 기술 문서처럼 정확성이 중요한 콘텐츠의 경우, 이런 혼란은 치명적일 수 있습니다.
실무에서 즉시 적용 가능한 해결책
Google Search Console의 커버리지 보고서를 열어보세요. “제외됨” 탭에서 “중복” 또는 “대체 페이지”로 표시된 URL들이 바로 구글이 클러스터링 과정에서 버린 페이지들입니다. 이 목록을 보면 어떤 페이지들이 서로 중복으로 인식되는지 패턴을 파악할 수 있습니다. site: 연산자를 사용해 실제로 어떤 페이지가 색인되어 있는지 확인하는 것도 중요합니다. site:yourdomain.com "핵심 키워드"를 검색했을 때 원하는 페이지가 나오지 않는다면, 다른 페이지가 대표로 선정된 것입니다.
Canonical 태그는 가장 널리 사용되는 해결책이지만, 구글이 이를 절대적인 명령으로 받아들이지는 않습니다. 대략 50-60% 정도의 경우에만 canonical 태그를 따른다고 보면 됩니다. 그래도 없는 것보다는 훨씬 낫습니다. <link rel="canonical" href="https://example.com/원본-페이지">를 각 중복 페이지의 head 섹션에 추가하면, 구글에게 강한 힌트를 줄 수 있습니다.
301 리다이렉트는 95% 이상의 확실성을 보장합니다. 중복 URL을 완전히 제거하고 하나의 URL로 통합하고 싶다면 이 방법이 가장 확실합니다. 다만 리다이렉트된 페이지는 완전히 사라지므로, 각 페이지가 고유한 목적을 가진 경우에는 적합하지 않을 수 있습니다.
내부 링크의 일관성도 무시할 수 없는 요소입니다. 사이트 내에서 동일한 콘텐츠를 가리킬 때 항상 같은 URL을 사용하세요. /product와 /product/처럼 사소해 보이는 차이도 구글에게는 다른 페이지로 인식될 수 있습니다. 모든 내부 링크를 점검하고 일관성 있게 정리하는 것만으로도 상당한 개선을 볼 수 있습니다.
기술적 깊이: 알고리즘의 실제 작동 방식
구글의 SimHash 알고리즘은 단순한 텍스트 비교를 넘어서는 정교한 시스템입니다. 각 웹페이지는 먼저 토큰화되고, 각 토큰에 가중치가 부여됩니다. 이 가중치는 단어의 위치, 태그, 빈도수 등을 고려해 결정됩니다. 그런 다음 각 토큰의 해시값을 계산하고, 가중치를 적용해 64비트 벡터를 생성합니다. 최종적으로 이 벡터들을 합쳐 페이지의 고유한 핑거프린트를 만듭니다.
대규모 웹에서 모든 페이지를 일대일로 비교하는 것은 불가능하므로, 구글은 MinHash와 LSH(Locality Sensitive Hashing) 같은 확률적 알고리즘을 사용합니다. 이들은 유사한 문서를 높은 확률로 같은 버킷에 배치해, 비교 연산을 크게 줄입니다. Jaccard 유사도가 0.8 이상인 페이지들은 중복 후보로 분류되어 더 정밀한 분석을 거치게 됩니다.
이 과정의 시간 복잡도는 O(n log n)으로 최적화되어 있어, 수십억 개의 웹페이지를 실시간으로 처리할 수 있습니다. 구글은 또한 점진적 업데이트를 통해 전체 웹을 다시 크롤링하지 않고도 새로운 중복을 감지할 수 있습니다.
구글의 궁극적 의도를 이해하기
구글이 중복 콘텐츠를 처리하는 방식을 이해하려면, 먼저 구글의 비즈니스 모델을 이해해야 합니다. 구글의 수익은 사용자가 계속해서 구글을 사용하는 데서 나옵니다. 사용자가 검색했을 때 같은 내용이 반복해서 나온다면, 검색 경험이 나빠지고 다른 검색 엔진을 찾게 될 것입니다. 그래서 구글은 다양하고 유용한 결과를 보여주기 위해 중복을 필터링합니다.
이는 페널티가 아니라 큐레이션입니다. 미술관이 같은 그림의 복사본을 여러 개 전시하지 않는 것처럼, 구글도 같은 콘텐츠를 여러 번 보여주지 않습니다. 대신 가장 좋은 버전 하나를 선택해 보여주는 것입니다. 여러분의 과제는 구글이 여러분이 원하는 페이지를 “가장 좋은 버전”으로 인식하게 만드는 것입니다.
중복 콘텐츠 처리는 앞으로도 계속 진화할 것입니다. 인공지능이 발전하면서 구글은 단순한 텍스트 유사도를 넘어 의미론적 유사성까지 파악하게 될 것입니다. 하지만 기본 원칙은 변하지 않을 것입니다. 사용자에게 가장 가치 있는 콘텐츠를 제공하는 것, 그것이 구글의 영원한 목표이기 때문입니다.