seo, 검색엔진 최적화, 크롤링, crawl budget, 크롤러

검색엔진 최적화(SEO)를 위한 Crawl Budget 최적화 5가지

SEO(Search Engine Optimization)는 말그대로 검색엔진 최적화를 말합니다. 웹사이트나 웹페이지의 트래픽 품질과 양을 개선하면서 검색 결과에서 상위에 노출될 수 있도록 하는 것이 주된 목표입니다.

검색엔진 최적화 (SEO)를 위해 크롤링 예산 (Crawl Budget)을 최적화하는 방법은 무엇이 있을까요? 웹사이트에 존재하는 모든 웹페이지들을 검색엔진이 잘 읽어갈 수 있는 방법 5가지에 대해 알려드립니다.

크롤링 예산(Crawl Budget)이란?

seo, 검색엔진 최적화, 크롤링, crawl budget, 크롤러

이미지 출처 :backlinko

크롤링 예산(Crawl Budget)이란, 검색 엔진의 크롤러가 웹사이트 및 웹페이지를 크롤링할 페이지 수를 의미합니다.

Googlebot, Yeti, Daumoa 등 검색 엔진의 검색 로봇(crawler)이 웹사이트나 웹페이지를 탐색(crawling)하고, 검색 결과에 노출(indexing)하는데에 있어, 영향을 줄 수 있는 요소 중 하나입니다.

Crawl Budget을 절약해야하는 이유

그렇다면, Crawl Budget을 절약해야하는 궁극적인 이유는 무엇일까요?

구글은 서버에 과부하가 걸리지 않는 선에서 웹사이트를 읽어가려고 합니다. 이에 따라 Crawl Budget은 제한적이라는 것을 알 수 있습니다. DA(Domain Authority)나 인기도, 사용자 가치 등에 따라 크롤링 예산이 웹사이트마다 다를 수 있기 때문에 제한된 예산 안에서 노출되어야 하는 페이지들이 우선적으로 인덱싱될 수 있도록 하는 것이 중요합니다.

(참고로 Crawl Budget 제한에 도달하지 않는다고 해도 수요가 낮다면 크롤러는 사이트를 덜 크롤링할 수 있습니다.)

Crawl Budget이 SEO에 중요한 이유

크롤링 예산은 구글에서 명확하게 설명하는 순위에 영향을 주는 요소(ranking factor)는 아닙니다. 다만, 검색 엔진에 인덱싱 되지 않으면 순위가 매겨지지 않는 문제가 있습니다.

웹페이지들이 크롤링 예산을 초과해 인덱싱 되지 않는다면 검색 결과에서 상위에 노출될 수 없기 때문에, 웹페이지의 모든 페이지들이 검색엔진 최적화 되기 위해서는 관리가 필요한 것입니다.

크롤링 예산 최적화

seo, 검색엔진 최적화, 크롤링, crawl budget, 크롤러

이미지 출처 : pinterest

구글에서는 Crawl Budget에 대해 규모가 큰 사이트일 경우 필요하다고 말하고 있습니다. 즉, 자신의 사이트가 변경되는 페이지가 많거나, 웹페이지를 게시하고 당일에 크롤링이 되지 않는다면 최적화하는 작업이 필요할 것입니다.

💡아래의 대략적인 사이트 분류 기준을 참고하여 내 사이트가 최적화가 필요한지를 확인해보고, 이를 관리하는 방법에 대해 알아보세요.

  • 대규모 사이트: 고유한 페이지 수가 1백만 개 이상, 콘텐츠가 주기적으로 변경됨 (ex. 1주일에 한 번)
  • 중간 규모 이상 사이트: 고유한 페이지 수가 1만 개 이상, 콘텐츠가 매우 빠르게 변경됨 (ex. 매일)

1) 페이지 속도 최적화

페이지 속도는 SEO (검색엔진 최적화) 랭킹에 영향을 미치는 요소(ranking factor)이기 때문에, 전반적인 웹사이트 performance를 개선하는 것은 매우 중요합니다. 또한 웹사이트의 페이지 속도가 빠를수록 사용자의 경험을 향상시킬 수 있고, 크롤러에게 더 많은 페이지를 탐색할 시간을 줄 수 있습니다.

긴 리다이렉션 체인의 경우, 최종적으로 색인이 생성되어야 하는 페이지까지 크롤러가 도달하는데 시간을 지연시킬 수 있기 때문에 주의하는 것이 좋습니다.

2) robots.txt에서 주요 페이지 명시

robots.txt 파일을 사용하면 크롤러가 웹사이트에서 액세스할 수 있는 파일(URL)을 검색엔진에 알릴 수 있습니다. 검색 결과에서 인덱싱 되는 것을 차단하기 위한 목적으로 사용하는 것은 아니지만, 사이트가 오버로드 되는 것을 방지하는 목적으로 사용됩니다.

대부분 모든 페이지를 크롤러가 읽어갈 수 있도록 전체 허용인 Allow: / 처리를 하는 경우가 많은데, SEO (검색엔진 최적화)적으로는 모두 허용하라고 명시하는 것보다는 주요페이지의 허용에 대한 정확한 명령 repuest가 있는 것이 좋습니다. disallow에는 비공개 되어야할 페이지를 명시해주어 빠르게 크롤링될 수 있도록 해야합니다.

3) 중복 콘텐츠 관리

원본 URL이 아닌 중복 페이지들이 인덱싱되면 트래픽이 분산되는 문제가 발생할 수 있습니다. 사이트맵 제출 등을 통해 URL들이 잘 인덱싱 되도록 요청하더라도, 해당 URL이 아닌 검색엔진에서 선택한 다른 URL이 원본으로 색인될 수 있기 때문입니다.

또한 검색엔진이 중복 콘텐츠 뿐만 아니라 원본인 페이지까지도 중복 콘텐츠로 인식할 수 있으며, 이는 검색엔진이 중복 페이지를 읽어가는 부담을 줄이기 위해 전반적으로 웹페이지를 적게 크롤링하려고 할 수 있습니다.

이에 따라, 중복 콘텐츠를 관리하는 것도 Crawl Budget을 최적화할 수 있는 방법이 되므로 인덱싱이 필요한 주요 원본 페이지만 색인이 잘 될 수 있는 환경을 만들어주는 것이 필요합니다.

  • self-referencing canonical tag 적용하기
  • 중복 콘텐츠 페이지에는 파라미터가 붙지 않은 원본 URL로 canonical tag 적용하기
  • 중복 페이지 URL은 사이트맵에서 삭제하기

4) 사이트맵 최신으로 유지

구글은 정기적으로 사이트맵을 읽기 때문에, 사이트맵에는 크롤링되어야 하는 페이지가 모두 포함되어야 합니다. 업데이트 된 콘텐츠는 <lastmod> 태그를 포함하여, 해당 URL이 언제 업데이트 되었는지를 알릴 수 있습니다.

인덱싱되지 않아야할 URL이 사이트맵에 포함되지 않도록 주의하고, 업데이트 사항이 없는 사이트맵을 하루에 여러번 제출하지 않도록 해야합니다.

5) Soft 404 제거

soft 404 페이지는 계속해서 크롤링 대기열에 남기 때문에 크롤러가 해당 페이지를 탐색하려는 시도를 할 수 있습니다. 이는 Crawl Budget을 낭비할 수 있기 때문에 soft 404 페이지가 있다면 올바른 상태 코드로 반환할 수 있도록 제거하는 것이 좋습니다.

GSC(구글 서치 콘솔)을 사용한다면, 색인 생성 범위 보고서를 통해 soft 404 오류가 있는 페이지들을 확인할 수 있습니다.

GSC 색인 생성 범위 보고서 – 지금 확인하기


지금까지 검색엔진 최적화 (SEO)를 위해 크롤링 예산(crawl budget)을 최적화할 수 있는 방법에 대해 알아보았습니다. 구글은 콘텐츠의 퀄리티를 중요시하기 때문에 품질이 낮은 콘텐츠가 많은 페이지는 크롤러가 사이트를 탐색하려고 하지 않을 수 있습니다.

만일, 자신의 사이트에 고품질의 콘텐츠가 많은데도 불구하고 인덱싱되지 않는 모습을 보인다면, 크롤링 예산을 늘리는 작업을 통해 크롤러들의 방문을 더 높이는 것을 추천합니다.

검색엔진 최적화 (SEO)가 급격한 인기를 얻고 있는 6가지 이유 – 보러 가기

위로 스크롤