크롤링 예산이란 무엇이며 이를 최적화하는 방법

게시 됨: 2022-11-25

크롤링 예산이란 무엇이며 URL과 Googlebot을 사용하여 이를 최적화하는 방법

크롤링 예산은 검색 엔진 봇의 작동 방식에 대해 처음 배울 때 낯선 개념처럼 보일 수 있습니다. 가장 쉬운 SEO 개념은 아니지만 보이는 것보다 덜 복잡합니다. 크롤링 예산이 무엇인지, 검색 엔진 크롤링이 어떻게 작동하는지 이해하기 시작하면 웹 사이트를 최적화하여 크롤링 가능성을 최적화할 수 있습니다. 이 프로세스는 귀하의 사이트가 Google 검색 결과에서 순위를 매길 수 있는 최고의 가능성을 달성하는 데 도움이 됩니다.

크롤링 예산이란 무엇입니까?

크롤링 예산을 보여주는 인덱싱 할 일 목록이 있는 googlebot

크롤링 예산은 검색 엔진 봇이 하나의 인덱싱 세션 내에서 인덱싱할 수 있는 한 웹사이트의 URL 수입니다. 크롤링 세션의 '예산'은 개별 사이트의 크기, 트래픽 통계 , 페이지 로드 속도 에 따라 웹사이트마다 다릅니다 .

여기까지 왔고 SEO 용어가 익숙하지 않다면 SEO 용어집을 사용하여 정의에 더 익숙해지십시오 .

웹사이트의 크롤링 예산에 영향을 미치는 요소는 무엇입니까?

googlebot으로 크롤링 예산 설명 Google은 인터넷의 모든 웹사이트에 동일한 시간이나 크롤링 횟수를 할당하지 않습니다. 웹 크롤러는 또한 몇 가지 요인에 따라 크롤링하는 페이지와 크롤링 빈도를 결정합니다. 다음을 기준으로 각 사이트를 크롤링해야 하는 빈도와 기간을 결정합니다.

  • 인기도: 사이트나 페이지를 더 많이 방문할수록 업데이트를 위해 더 자주 분석해야 합니다. 또한 인기 있는 페이지가 많을수록 더 많은 인바운드 링크가 더 빠르게 누적됩니다.
  • 크기: 데이터 집약적 요소가 많은 대형 웹사이트 및 페이지는 크롤링하는 데 더 오래 걸립니다.
  • 상태 /문제: 웹 크롤러가 내부 링크를 통해 막다른 골목에 도달하면 새로운 시작점을 찾는 데 시간이 걸리거나 크롤링을 포기합니다. 404 오류, 리디렉션 및 느린 로딩 시간은 웹 크롤러를 느리게 하고 방해합니다.

크롤링 예산이 SEO에 어떤 영향을 미칩니까?

웹 크롤러 인덱싱 프로세스 검색을 가능하게 합니다. 귀하의 콘텐츠를 찾을 수 없는 경우 Google 웹 크롤러에 의해 색인이 생성되고 귀하의 웹 페이지와 웹사이트는 검색자가 찾을 수 없습니다. 이로 인해 귀하의 사이트에서 많은 검색 트래픽이 누락될 수 있습니다.

Google은 왜 웹사이트를 크롤링합니까?

Googlebot은 웹사이트의 페이지를 체계적으로 검토하여 페이지와 전체 웹사이트의 내용을 파악합니다. 웹 크롤러는 콘텐츠와 함께 URL 캐시를 생성하기 위해 해당 웹 사이트의 데이터를 페이지별로 처리, 분류 및 구성하므로 Google은 검색 쿼리에 대한 응답으로 표시할 검색 결과를 결정할 수 있습니다.

또한 Google은 이 정보를 사용 하여 각 검색 결과가 계층적 검색 결과 목록에 표시되어야 하는 위치를 결정하기 위해 검색 쿼리에 가장 적합한 검색 결과를 결정합니다.

크롤링 중에는 어떻게 됩니까?

인덱싱 체크리스트가 포함된 googebot

Google은 Googlebot이 웹사이트를 처리하도록 정해진 시간을 할당합니다. 이러한 제한으로 인해 봇은 한 번의 크롤링 세션 동안 전체 사이트를 크롤링하지 않을 가능성이 높습니다. 대신 robots.txt 파일 및 기타 요인(예: 페이지의 인기도)을 기반으로 사이트의 모든 페이지에서 작동합니다.

크롤링 세션 동안 Googlebot은 처리하는 각 페이지의 콘텐츠를 이해하기 위해 체계적인 접근 방식을 사용합니다.

여기에는 다음과 같은 인덱싱 특정 속성이 포함됩니다.

  1. 메타 태그 및 NLP를 사용하여 의미 결정
  2. 링크 및 앵커 텍스트
  3. 이미지 검색 및 비디오 검색을 위한 리치 미디어 파일
  4. 스키마 마크업
  5. HTML 마크업

웹 크롤러는 또한 페이지의 콘텐츠가 표준의 복제본인지 확인하기 위해 검사를 실행합니다. 그렇다면 Google은 URL을 우선 순위가 낮은 크롤링으로 이동하므로 페이지를 자주 크롤링하는 데 시간을 낭비하지 않습니다.

크롤링 속도 및 크롤링 수요란 무엇입니까?

Google의 웹 크롤러는 수행하는 모든 크롤링에 일정 시간을 할당합니다. 웹사이트 소유자는 이 시간을 제어할 수 없습니다. 그러나 사이트에 있는 동안 사이트의 개별 페이지를 크롤링하는 속도를 변경할 수 있습니다. 이 숫자를 크롤링 속도 라고 합니다 .

크롤링 수요 는 Google이 사이트를 크롤링하는 빈도입니다. 이 빈도는 인터넷 사용자의 사이트 요구와 검색 시 사이트 콘텐츠를 업데이트해야 하는 빈도를 기반으로 합니다. 로그 파일 분석을 사용하여 Google이 사이트를 얼마나 자주 크롤링하는지 확인할 수 있습니다(아래 #2 참조).

내 사이트의 크롤링 예산은 어떻게 결정합니까?

크롤링 예산 계산

Google은 사이트를 크롤링하는 횟수와 시간을 제한하므로 크롤링 예산이 얼마인지 알고 싶을 것입니다. 그러나 Google은 사이트 소유자에게 이 데이터를 제공하지 않습니다. 특히 예산이 너무 적어 새 콘텐츠가 적시에 SERP에 도달하지 못하는 경우에는 더욱 그렇습니다. 이는 중요한 콘텐츠와 제품 페이지와 같은 새로운 페이지에 재앙이 될 수 있습니다.

사이트가 크롤링 예산 제한에 직면해 있는지 이해하려면(또는 사이트가 정상인지 확인하려면) 다음을 수행해야 합니다. 사이트에 있는 URL 수에 대한 인벤토리를 가져옵니다. Yoast를 사용하는 경우 총계가 사이트맵 URL 상단에 표시됩니다 .

  • 이 숫자가 있으면 Google Search Console 의 '설정' > '크롤링 통계' 섹션을 사용하여 Google이 사이트에서 매일 크롤링하는 페이지 수를 확인하세요.
  • 사이트맵의 페이지 수를 하루에 크롤링되는 평균 페이지 수로 나눕니다.
  • 결과가 10 미만이면 크롤링 예산이 충분한 것입니다. 그러나 숫자가 10 미만인 경우 크롤링 예산을 최적화하여 이점을 얻을 수 있습니다.
  • 크롤링 예산을 어떻게 최적화할 수 있습니까?

    사이트가 크롤링 예산에 비해 너무 커지면 크롤링 예산 최적화에 뛰어들어야 합니다. 사이트를 더 자주 또는 더 오래 크롤링하도록 Google에 지시할 수 없으므로 제어할 수 있는 항목에 집중해야 합니다.

    크롤링 예산을 최적화하려면 다면적인 접근 방식과 Google 권장 사항에 대한 이해가 필요합니다 . 크롤링 속도를 최대한 활용하려면 어디서부터 시작해야 합니까? 이 포괄적인 목록은 계층적 순서로 작성되었으므로 맨 위에서 시작하십시오.

    1. 사이트의 크롤링 속도 제한을 높이는 것을 고려하십시오.

    Google은 사이트의 여러 페이지에 동시에 요청을 보냅니다. 그러나 Google은 정중하게 노력하고 서버를 중단시키지 않아 사이트 방문자의 로드 시간이 느려집니다. 갑자기 사이트가 지연되는 것을 발견했다면 이것이 문제일 수 있습니다.

    사용자 환경에 영향을 주지 않기 위해 Google에서는 크롤링 속도를 줄일 수 있습니다. 이렇게 하면 Google이 동시에 색인을 생성할 수 있는 페이지 수가 제한됩니다.

    그러나 흥미롭게도 Google에서는 크롤링 속도 제한을 높일 수 있습니다. 그 결과 한 번에 더 많은 페이지를 가져올 수 있으므로 한 번에 더 많은 URL이 크롤링됩니다. 그러나 모든 보고서에 따르면 Google은 크롤링 속도 제한 증가에 대한 응답이 느리며 Google이 더 많은 사이트를 동시에 크롤링한다고 보장하지 않습니다.

    크롤링 속도 제한을 늘리는 방법:

    1. Search Console에서 '설정'으로 이동합니다.
    2. 여기에서 크롤링 속도가 최적인지 여부를 확인할 수 있습니다.
    3. 그런 다음 90일 동안 더 빠른 크롤링 속도로 제한을 늘릴 수 있습니다.

    2. 로그 파일 분석 수행

    로그 파일 분석은 서버로 전송된 모든 요청을 반영하는 서버의 보고서입니다. 이 보고서는 사이트에서 Googlebot이 수행하는 작업을 정확하게 알려줍니다. 이 프로세스는 종종 기술 SEO에 의해 수행되지만 서버 관리자에게 문의하여 얻을 수 있습니다.

    로그 파일 분석 또는 서버 로그 파일을 사용하여 다음을 배우게 됩니다.

    • Google이 사이트를 크롤링하는 빈도
    • 가장 많이 크롤링되는 페이지
    • 서버 코드가 응답하지 않거나 누락된 페이지

    이 정보가 있으면 이를 사용하여 3번부터 7번까지 수행할 수 있습니다.

    3. XML Sitemap 및 Robots.txt를 최신 상태로 유지

    로그 파일에 Google이 SERP에 표시하고 싶지 않은 페이지를 크롤링하는 데 너무 많은 시간을 소비하고 있는 것으로 표시되면 Google 크롤러가 이 페이지를 건너뛰도록 요청할 수 있습니다. 이렇게 하면 더 중요한 페이지에 대한 크롤링 예산의 일부를 확보할 수 있습니다.

    사이트맵 (Google Search Console 또는 SearchAtlas 에서 얻을 수 있음 )은 검색 결과에 표시될 수 있도록 Google에서 색인을 생성할 사이트의 모든 페이지 목록을 Googlebot에 제공합니다. 검색 엔진이 찾기를 원하는 모든 웹 페이지로 사이트 맵을 업데이트하고 찾지 않기를 원하는 페이지를 생략하면 웹 크롤러가 사이트에서 시간을 보내는 방법을 최대화할 수 있습니다.

    예제 xml 사이트맵

    robots.txt 파일은 귀하가 원하는 페이지 와 크롤링하지 않기를 원하는 페이지를 검색 엔진 크롤러에게 알려줍니다 . 좋은 방문 페이지를 만들지 못하는 페이지나 게이트가 있는 페이지가 있는 경우 robots.txt 파일에서 해당 URL에 noindex 태그 를 사용해야 합니다. Googlebot은 noindex 태그가 있는 웹페이지를 건너뛸 가능성이 높습니다.

    4. 리디렉션 및 리디렉션 체인 줄이기

    상태 301 보고서

    검색 엔진 크롤링에서 불필요한 페이지를 제외하여 크롤링 예산을 확보하는 것 외에도 리디렉션을 줄이거나 제거하여 크롤링을 최대화할 수도 있습니다. 이는 3xx 상태 코드를 초래하는 모든 URL입니다.

    리디렉션된 URL은 서버가 리디렉션에 응답한 다음 새 페이지를 검색해야 하므로 Googlebot이 검색하는 데 더 오래 걸립니다. 한 번의 리디렉션에는 몇 밀리초 밖에 걸리지 않지만 합산할 수 있습니다. 이로 인해 사이트 크롤링이 전반적으로 더 오래 걸릴 수 있습니다. 이 시간은 Googlebot이 일련의 URL 리디렉션에 걸리면 배가됩니다.

    리디렉션 및 리디렉션 체인을 줄이려면 콘텐츠 생성 전략을 염두에 두고 슬러그에 대한 텍스트를 신중하게 선택하십시오.

    5. 끊어진 링크 수정

    Google이 종종 사이트를 탐색하는 방식은 내부 링크 구조를 통해 탐색하는 것입니다. 페이지를 통해 작동하면서 링크가 존재하지 않는 페이지로 연결되는지 확인합니다(이는 종종 소프트 404 오류라고 함). 그런 다음 해당 페이지를 인덱싱하는 데 시간을 낭비하지 않고 계속 진행합니다.

    사용자 또는 Googlebot을 실제 페이지로 보내려면 이러한 페이지에 대한 링크를 업데이트해야 합니다. 또는 (믿기 어렵지만) 페이지가 실제로 존재하는데 Googlebot이 페이지를 4xx 또는 404 오류로 잘못 식별했을 수 있습니다. 이 경우 URL에 오타가 없는지 확인한 다음 Google Search Console 계정을 통해 해당 URL에 대한 크롤링 요청을 제출하세요.

    이러한 크롤링 오류를 최신 상태로 유지하려면 Google Search Console 계정의 색인 > 범위 보고서를 사용할 수 있습니다. 또는 SearchAtlas 의 사이트 감사 도구를 사용하여 웹 개발자에게 전달할 사이트 오류 보고서를 찾으십시오.

    참고: 새 URL은 로그 파일 분석에 바로 표시되지 않을 수 있습니다. 크롤링을 요청하기 전에 Google에서 찾을 수 있도록 시간을 주세요.

    6. 페이지 로드 속도 개선 작업

    페이지 로드 속도

    검색 엔진 봇은 빠른 속도로 사이트를 이동할 수 있습니다. 그러나 사이트 속도가 최고 수준이 아닌 경우 크롤링 예산에 큰 타격을 줄 수 있습니다. 로그 파일 분석, SearchAtlas 또는 PageSpeedInsights를 사용하여 사이트 로드 시간이 검색 가시성에 부정적인 영향을 미치는지 확인하십시오.

    사이트의 응답 시간을 개선하려면 동적 URL을 사용하고 Google의 핵심 성능 보고서 권장사항 을 따르세요 . 여기에는 접힌 부분 위의 미디어에 대한 이미지 최적화가 포함될 수 있습니다.

    사이트 속도 문제가 서버 측에 있는 경우 다음과 같은 다른 서버 리소스에 투자할 수 있습니다.

    • 전용 서버(특히 대규모 사이트의 경우)
    • 최신 서버 하드웨어로 업그레이드
    • RAM 늘리기

    이러한 개선 사항은 또한 사용자 경험을 향상시켜 사이트 속도가 PageRank의 신호이기 때문에 Google 검색에서 사이트 성능을 향상시키는 데 도움이 될 수 있습니다.

    7. 정식 태그를 사용하는 것을 잊지 마세요

    중복 콘텐츠에 소스 페이지가 있음을 인정하지 않는 경우 적어도 Google은 중복 콘텐츠를 눈살을 찌푸리게 합니다. 왜요? 달리 지시하지 않는 한 Googlebot은 불가피한 경우가 아니면 모든 페이지를 크롤링합니다. 그러나 중복 페이지나 친숙한 항목(귀하의 페이지 또는 외부 사이트)을 발견하면 해당 페이지 크롤링을 중지합니다. 이렇게 하면 시간이 절약되지만 표준 URL을 식별하는 표준 태그를 사용하여 크롤러의 시간을 더 많이 절약해야 합니다.

    정식 예

    Canonicals 는 Googlebot에게 크롤링 기간을 사용하여 해당 콘텐츠의 색인을 생성하지 않도록 지시합니다. 이렇게 하면 검색 엔진 봇이 다른 페이지를 조사할 시간을 더 많이 확보할 수 있습니다.

    8. 내부 연결 구조에 집중

    사이트 내에서 잘 구성된 연결 방법을 사용하면 Google 크롤링의 효율성을 높일 수 있습니다. 내부 링크는 사이트에서 가장 중요한 페이지를 Google에 알려주고 이러한 링크는 크롤러가 페이지를 더 쉽게 찾는 데 도움이 됩니다.

    최고의 연결 구조는 사용자와 Googlebot을 웹사이트 전체의 콘텐츠에 연결합니다. 항상 관련 앵커 텍스트를 사용하고 콘텐츠 전체에 자연스럽게 요루 링크를 배치하세요.

    전자상거래 사이트의 경우 Google크롤링을 최대화하기 위한 패싯 탐색 옵션에 대한 권장사항을 제공합니다. 패싯 탐색을 통해 사이트 사용자는 속성별로 제품을 필터링하여 쇼핑 경험을 향상시킬 수 있습니다. 이 업데이트는 과도한 URL 크롤링 외에도 표준 혼란과 중복 문제를 방지하는 데 도움이 됩니다.

    9. 불필요한 콘텐츠 정리

    Googlebot은 사이트를 크롤링할 때마다 매우 빠르게 움직이고 너무 많은 페이지의 색인을 생성할 수 있습니다. 트래픽을 수신하지 않거나 오래되었거나 품질이 낮은 콘텐츠가 있는 페이지가 많다면 잘라내세요! 가지치기 프로세스 를 통해 사이트를 짓누를 수 있는 초과 수하물을 잘라낼 수 있습니다.

    사이트에 페이지가 너무 많으면 페이지를 무시하면서 Googlebot이 중요하지 않은 페이지로 이동할 수 있습니다.

    크롤링 오류가 발생하지 않도록 이러한 페이지에 대한 링크를 리디렉션하는 것을 잊지 마십시오.

    10. 더 많은 백링크 생성

    Googlebot이 사이트에 도착한 다음 내부 링크를 기반으로 페이지의 색인을 생성하기 시작하는 것처럼 색인 생성 과정에서 외부 링크도 사용합니다. 다른 사이트가 귀하의 사이트에 링크되어 있으면 Googlebot은 링크된 콘텐츠를 더 잘 이해하기 위해 귀하의 사이트로 이동하여 페이지의 색인을 생성합니다.

    또한 백링크 는 사이트의 인기도와 최신성을 좀 더 높여주며 Google은 이를 사용하여 사이트 색인 생성 빈도를 결정합니다.

    11. 고아 페이지 제거

    분리된 페이지 보고서

    Google의 크롤러는 내부 링크를 통해 페이지 사이를 이동하기 때문에 링크된 페이지를 쉽게 찾을 수 있습니다. 그러나 사이트의 어딘가에 연결되지 않은 페이지는 Google에서 알아차리지 못하는 경우가 많습니다. 이러한 페이지를 "고아 페이지"라고 합니다.

    언제 고아 페이지가 적절합니까? 매우 구체적인 목적이나 청중을 가진 랜딩 페이지인 경우. 예를 들어 마이애미에 거주하는 골퍼에게 그들에게만 적용되는 랜딩 페이지가 포함된 이메일을 보내는 경우 다른 페이지에 링크하고 싶지 않을 수 있습니다.

    크롤링 예산 최적화를 위한 최고의 도구

    크롤링 예산을 최적화할 때 Search Console과 Google 애널리틱스가 매우 유용할 수 있습니다. Search Console을 사용하면 페이지 색인을 생성하고 크롤링 통계를 추적하도록 크롤러를 요청할 수 있습니다. Google 애널리틱스는 내부 연결 과정을 추적하는 데 도움이 됩니다.

    SearchAtlas와 같은 다른 SEO 도구를 사용하면 사이트 감사 도구를 통해 크롤링 문제를 쉽게 찾을 수 있습니다. 하나의 보고서로 사이트의 다음 정보를 확인할 수 있습니다.

    • 인덱싱 가능성 크롤링 보고서
    • 색인 깊이
    • 페이지 속도
    • 중복 콘텐츠
    • XML 사이트맵
    • 연결

    크롤링 예산을 최적화하고 최고의 검색 엔진이 되십시오

    검색 엔진이 사이트를 색인하는 빈도나 기간을 제어할 수는 없지만 각 검색 엔진 크롤링을 최대한 활용하도록 사이트를 최적화할 수 있습니다. 서버 로그부터 시작하여 Search Console에서 크롤링 보고서를 자세히 살펴보세요. 그런 다음 크롤링 오류, 링크 구조 및 페이지 속도 문제를 수정하는 데 집중하십시오.

    GSC 크롤링 활동을 진행하면서 링크 구축 양질의 콘텐츠 추가를 포함하여 나머지 SEO 전략에 집중하십시오 . 시간이 지남에 따라 랜딩 페이지가 검색 엔진 결과 페이지를 오르는 것을 발견하게 될 것입니다.