SEO를 위한 Robots.txt 가이드

Robots.txt는 일종의 문서로, 글이 어떻게 구성되어 있는지 크롤봇이 파악할 수 있게 만드는 도구입니다. 조금 어려울 수도 있지만, 이를 이해하는 것은 웹사이트 SEO에 있어 상당히 중요한 부분입니다.

크롤봇이 확인하는 문서인 만큼 웹사이트가 크롤링, 색인되는 방식과 페이지의 검색 노출에 영향을 미칠 수 있기 때문인데요, 구글은 특히 최근 불필요한 URL들을 차단하기 위해 파일 사용을 권장하고 있습니다. 이를 올바르게 사용하는 방법은 무엇일까요?

Robots.txt란?

Robots.txt는 웹사이트의 루트 디렉토리에 위치하는 간단한 텍스트 파일로, 크롤러들에게 어떤 페이지를 크롤링할지 지시하는 역할을 합니다.

명령어	설명
User-agent	어떤 크롤러에 규칙이 적용되는지 지정합니다. 사용자 에이전트 토큰을 참조하세요. ‘*’는 모든 크롤러를 대상으로 합니다.
Disallow	특정 URL의 크롤링을 방지합니다.
Allow	상위 디렉토리가 Disallow 되어 있어도 특정 URL의 크롤링을 허용합니다.
Sitemap	XML Sitemap의 위치를 표시하여 검색 엔진이 이를 찾도록 돕습니다.

robot.txt 기초 용어

Robots.txt의 우선순위

파일을 설정할 때, 충돌하는 규칙이 있을 경우 검색 엔진이 우선적으로 적용하는 규칙입니다. 크롤봇은 우선, 가장 구체적이고 명확한 명령어부터 적용시킵니다.

이 경우, “Allow: /downloads/free/” 규칙이 “Disallow: /downloads/” 규칙보다 더 구체적이므로, Google은 “downloads/free/” 하위 폴더의 크롤링을 허용하지만 “downloads/” 아래의 다른 모든 것은 차단합니다. 아래와 같은 규칙보다 말이죠.

SEO에서 Robots.txt가 중요한 이유

중요하지 않은 페이지를 차단하면 Googlebot이 웹사이트의 중요한 부분에 크롤봇 예산을 집중할 수 있고, 새로운 페이지를 크롤링하는 데에도 도움을 줍니다. 또한 검색 엔진의 컴퓨팅 파워를 절약해 더 나은 사이트의 지속 가능성에 기여할 수 있습니다.

웹사이트에 수백, 수천 개의 페이지가 있는 온라인 상점을 운영하고 있다고 가정해봅시다. 필터링된 페이지와 같이 무한한 수의 버전을 가질 수 있는 섹션이 있을 수 있습니다. 이러한 페이지는 고유한 가치를 지니고 있지 않으며, 본질적으로 중복된 콘텐츠를 포함하고 있을 수 있고, 무한한 크롤 공간을 만들어 서버와 Googlebot의 리소스를 낭비할 수 있습니다.

즉, 이 같은 중복 페이지의 크롤링을 방지하여 검색 엔진 봇이 중복 페이지를 크롤링하는 것을 막아줍니다. 이렇게 하지 않으면 Google은 다른(존재하지 않는) 검색 매개변수 값을 가진 무한한 수의 URL을 크롤링하려고 시도할 수 있으며, 이는 결과적으로 SEO 점수를 떨어트릴 수 있습니다.

Robots.txt를 언제 사용해야 할까?

일반적인 규칙으로, 특정 페이지가 존재하는 이유와 그 페이지가 검색 엔진이 크롤링하고 색인할 가치가 있는지 항상 확인해야 합니다.

이 원칙에서 출발하면, 확실히 차단해야 할 항목은 다음과 같습니다:

검색어, 그리고 매개변수를 포함한 URL (예: 내부 검색 및 추적 URL)
URL 구조와 SEO 전략의 일부가 아닌 필터링 또는 정렬 옵션에 의해 생성된 탐색 URL
위시리스트에 추가 또는 장바구니에 추가와 같은 액션 URL
로그인 페이지와 같은 웹사이트의 비공개 부분
웹사이트 콘텐츠 또는 렌더링과 관련이 없는 JavaScript 파일 (예: 추적 스크립트)
스크래퍼와 AI 챗봇을 차단하여 이들이 콘텐츠를 사용해 학습하는 것을 방지

각 사례에서의 사용 방법에 대한 예시를 살펴보겠습니다.

내부 검색 페이지 차단

가장 일반적이고 꼭 필요한 단계는 Google 및 기타 검색 엔진이 내부 검색 URL을 크롤링하지 않도록 차단하는 것입니다. 대부분의 웹사이트에는 내부 검색 기능이 있습니다.

WordPress 웹사이트에서는 “s” 매개변수가 보통 사용됩니다. Googlebot이 존재하지 않는 URL을 계속해서 크롤링하는 문제를 방지하기 위해 다음 규칙을 사용할 수 있습니다. 이 규칙은 모든 크롤봇에게 해당 사이트의 검색 매개변수를 포함한 URL을 크롤링하지 말라고 지시합니다.

필터링 및 정렬된 페이지 차단

예를 들어, 제품 페이지에서 색상, 크기, 가격대와 같은 필터링 옵션을 사용할 수 있는데, 이 필터링된 페이지가 크롤러에 의해 색인되지 않도록 할 수 있습니다. 또한 액션 기반의 URL인 장바구니에 추가하는 URL 등도 차단이 가능하며, 다음과 같은 규칙을 사용할 수 있습니다.

비공개 페이지 차단

로그인 페이지, 계정 설정 페이지 등 웹사이트의 비공개 페이지는 검색 엔진이 크롤링할 필요가 없습니다. 검색 엔진에 이 페이지를 크롤링하지 말라는 신호를 주기 위해 다음 규칙을 사용할 수 있습니다.

불필요한 스크립트 파일 차단

웹사이트에서 사용되는 JavaScript 파일 중 일부는 콘텐츠와 상관없는 경우가 있습니다. 예를 들어, 추적이나 광고 스크립트는 검색 엔진에 크롤링될 필요가 없습니다. 또한 AI 챗봇 및 웹 스크래퍼들이 웹사이트의 콘텐츠를 학습하거나 사용할 수 없도록 차단할 수도 있습니다. 특정 사용자 에이전트를 타겟으로 하여 이러한 봇의 접근을 막을 수 있습니다.

Robots.txt 문제 해결

이는 매우 강력한 도구이지만, 잘못된 설정은 웹사이트의 중요한 페이지를 검색 엔진에서 차단할 수 있습니다. 이를 방지하기 위해 파일을 주기적으로 점검하는 것이 중요합니다. 다음은 주의해야 할 몇 가지 일반적인 문제입니다.

실수로 중요한 페이지를 차단 : 잘못된 규칙으로 인해 중요한 페이지가 차단되는 경우가 있습니다. 이럴 경우, Googlebot은 해당 페이지를 크롤링하지 않으며, 검색 결과에 나타나지 않게 됩니다. 예를 들어, 잘못된 경로를 입력한 경우입니다.
Sitemap 지시어 누락 : Sitemap 지시어를 포함하지 않으면 검색 엔진이 웹사이트의 전체 구조를 이해하기 어려워할 수 있습니다. 이는 특히 큰 사이트에서 문제가 될 수 있으며, Sitemap 파일의 위치를 명시하여 검색 엔진이 이를 쉽게 찾을 수 있도록 해야 합니다.
서버 부하 증가 : 파일을 잘못 구성하여 모든 페이지를 차단하지 않으면, 크롤러가 불필요한 페이지를 크롤링하여 서버 부하를 증가시킬 수 있습니다. 이로 인해 웹사이트의 성능이 저하될 수 있으며, 크롤링 예산도 낭비됩니다.
대소문자 구분 문제 : 대소문자를 구분하는 것이 중요합니다. 즉, “Disallow: /Folder/”는 “/folder/”와 다르게 처리됩니다. 이로 인해 예상치 못한 페이지가 차단될 수 있습니다. 규칙을 설정할 때 항상 정확한 대소문자를 사용하는 것이 중요합니다.

중앙집중식 Robots.txt 관리

대규모 웹사이트나 여러 도메인을 운영하는 경우, 중앙집중 형태로 robots.txt 파일을 관리하는 것이 좋습니다. 이를 통해 일관성을 유지하고 실수를 줄일 수 있고, 초보자도 쉽게 접근이 가능합니다.

CMS 또는 프레임워크 내에서 관리 : WordPress와 같은 콘텐츠 관리 시스템(CMS)에서는 플러그인을 통해 쉽게 관리할 수 있습니다. 이를 통해 사이트의 구조 변경 시에도 손쉽게 업데이트할 수 있습니다.
자동화된 도구 사용 : Screaming Frog SEO Spider와 같은 도구를 사용하여 웹사이트의 설정을 정기적으로 검토하고 최적화할 수 있습니다. 이러한 도구는 차단된 페이지를 식별하고, 크롤링 효율성을 높일 수 있는 권장 사항을 제공합니다.

결론

Robots.txt 파일을 올바르게 설정하는 것은 웹사이트의 SEO 성능에 크게 기여할 수 있습니다. 이를 통해 크롤링 효율성을 높이고, 크롤 예산을 절약하며, 검색 엔진이 중요한 페이지를 집중적으로 크롤링하도록 할 수 있습니다.

하지만 잘못 설정하면 중요한 페이지가 크롤링되지 않을 수 있으므로 주기적으로 설정을 검토하고 필요한 조치를 취하는 것이 중요합니다. Google Search Console과 같은 도구를 사용하여 성능을 모니터링하는 것도 좋은 방법입니다.

✅ 원글 보러 가기
🙌 디지털 마케팅 전문가의 도움이 필요하신가요? NNT와 무료 상담을 받아보세요!