O que é o orçamento de rastreamento e como otimizá-lo de maneira inteligente?
Publicados: 2021-08-19Índice
A análise do orçamento de rastreamento está entre as funções de trabalho de qualquer especialista em SEO (principalmente se estiver lidando com sites grandes). Uma tarefa importante, coberta decentemente nos materiais fornecidos pelo Google. No entanto, como você pode ver no Twitter, até os funcionários do Google minimizam o papel do orçamento de rastreamento para obter melhor tráfego e classificações:
Eles estão certos sobre este?
Como o Google trabalha e coleta dados?
À medida que abordamos o tópico, vamos relembrar como o mecanismo de busca coleta, indexa e organiza as informações. Manter esses três passos no canto da sua mente é essencial durante o seu trabalho posterior no site:
Etapa 1: rastreamento . Vasculhando recursos online com o objetivo de descobrir – e navegar por – todos os links, arquivos e dados existentes. Geralmente, o Google começa com os lugares mais populares na Web e, em seguida, passa a verificar outros recursos menos populares.
Etapa 2: Indexação . O Google tenta determinar sobre o que é a página e se o conteúdo/documento em análise constitui material único ou duplicado. Nesta fase, o Google agrupa o conteúdo e estabelece uma ordem de importância (lendo sugestões nas tags rel=”canonical” ou rel=”alternate” ou não).
Passo 3: Servindo . Uma vez segmentados e indexados, os dados são exibidos em resposta às consultas do usuário. É também quando o Google classifica os dados conforme apropriado, considerando fatores como a localização do usuário.
Importante: muitos dos materiais disponíveis ignoram a Etapa 4: renderização de conteúdo . Por padrão, o Googlebot indexa o conteúdo de texto. No entanto, à medida que as tecnologias da web continuam a evoluir, o Google teve que criar novas soluções para parar de apenas “ler” e começar a “ver” também. É disso que se trata a renderização. Ele serve ao Google para melhorar substancialmente seu alcance entre os sites recém-lançados e expandir o índice.
Observação : problemas com a renderização de conteúdo podem ser a causa de um orçamento de rastreamento com falha.
Qual é o orçamento de rastreamento?
O orçamento de rastreamento nada mais é do que a frequência com que os rastreadores e os bots dos mecanismos de pesquisa podem indexar seu site, bem como o número total de URLs que eles podem acessar em um único rastreamento. Imagine seu orçamento de rastreamento como créditos que você pode gastar em um serviço ou aplicativo. Se você não se lembrar de “cobrar” seu orçamento de rastreamento, o robô ficará mais lento e fará menos visitas.
Em SEO, “cobrança” refere-se ao trabalho feito para adquirir backlinks ou melhorar a popularidade geral de um site. Consequentemente, o orçamento de rastreamento é parte integrante de todo o ecossistema da Web. Quando você está fazendo um bom trabalho no conteúdo e nos backlinks, está aumentando o limite do seu orçamento de rastreamento disponível.
Em seus recursos, o Google não se aventura a definir explicitamente o orçamento de rastreamento. Em vez disso, ele aponta para dois componentes fundamentais do rastreamento que afetam a integridade do Googlebot e a frequência de suas visitas:
- limite de taxa de rastreamento;
- demanda de rastreamento.
Qual é o limite da taxa de rastreamento e como verificá-lo?
Em termos mais simples, o limite da taxa de rastreamento é o número de conexões simultâneas que o Googlebot pode estabelecer ao rastrear seu site. Como o Google não quer prejudicar a experiência do usuário, ele limita o número de conexões para manter o bom desempenho do seu site/servidor. Em resumo, quanto mais lento for o seu site, menor será o seu limite de taxa de rastreamento.
Importante: o limite de rastreamento também depende da integridade geral do SEO do seu site – se o seu site acionar muitos redirecionamentos, erros 404/410 ou se o servidor retornar frequentemente um código de status 500, o número de conexões também diminuirá.
Você pode analisar os dados de limite de taxa de rastreamento com as informações disponíveis no Google Search Console, no relatório Estatísticas de rastreamento .
Demanda de rastreamento ou popularidade do site
Embora o limite da taxa de rastreamento exija que você aprimore os detalhes técnicos do seu site, a demanda de rastreamento o recompensa pela popularidade do seu site. Grosso modo, quanto maior o burburinho em torno do seu site (e nele), maior a demanda de rastreamento.
Nesse caso, o Google faz um balanço de duas questões:
- Popularidade geral – o Google está mais ansioso para executar rastreamentos frequentes dos URLs que geralmente são populares na Internet (não necessariamente aqueles com backlinks do maior número de URLs).
- Atualização dos dados do índice – o Google se esforça para apresentar apenas as informações mais recentes. Importante: criar cada vez mais conteúdo novo não significa que seu limite geral de orçamento de rastreamento está aumentando.
Fatores que afetam o orçamento de rastreamento
Na seção anterior, definimos o orçamento de rastreamento como uma combinação do limite da taxa de rastreamento e da demanda de rastreamento. Tenha em mente que você precisa cuidar de ambos, simultaneamente, para garantir o rastreamento adequado (e, portanto, a indexação) do seu site.
Abaixo, você encontrará uma lista simples de pontos a serem considerados durante a otimização do orçamento de rastreamento
- Servidor – o principal problema é o desempenho. Quanto menor sua velocidade, maior o risco de que o Google atribua menos recursos para indexar seu novo conteúdo.
- Códigos de resposta do servidor – quanto maior o número de redirecionamentos 301 e erros 404/410 em seu site, piores resultados de indexação você obterá. Importante: fique atento aos loops de redirecionamento – cada “salto” reduz o limite de taxa de rastreamento do seu site para a próxima visita do bot.
- Bloqueios no robots.txt – se você está baseando suas diretivas do robots.txt em intuição, você pode acabar criando gargalos de indexação. O resultado: você limpará o índice, mas às custas de sua eficácia de indexação para novas páginas (quando os URLs bloqueados foram firmemente incorporados à estrutura de todo o site).
- Navegação facetada / identificadores de sessão / quaisquer parâmetros nas URLs – mais importante, fique atento às situações em que um endereço com um parâmetro pode ser parametrizado ainda mais, sem restrições. Se isso acontecer, o Google chegará a um número infinito de endereços, gastando todos os recursos disponíveis nas partes menos significativas do nosso site.
- Conteúdo duplicado – o conteúdo copiado (além da canibalização) prejudica significativamente a eficácia da indexação de novo conteúdo.
- Thin Content – que ocorre quando uma página tem uma proporção muito baixa de texto para HTML. Como resultado, o Google pode identificar a página como um Soft 404 e restringir a indexação de seu conteúdo (mesmo quando o conteúdo for significativo, o que pode ser o caso, por exemplo, na página de um fabricante apresentando um único produto e nenhum conteúdo do texto).
- Ligação interna deficiente ou falta dela .
Ferramentas úteis para análise de orçamento de rastreamento
Como não há referência para o orçamento de rastreamento (o que significa que é difícil comparar limites entre sites), prepare-se com um conjunto de ferramentas projetadas para facilitar a coleta e análise de dados.
Google Search Console
O GSC cresceu muito ao longo dos anos. Durante uma análise de orçamento de rastreamento, há dois relatórios principais que devemos analisar: Cobertura do índice e Estatísticas de rastreamento.
Cobertura do Índice no GSC
O relatório é uma enorme fonte de dados. Vamos verificar as informações sobre URLs excluídos da indexação. É uma ótima maneira de entender a escala do problema que você está enfrentando.
Os relatórios inteiros merecem um artigo separado, então, por enquanto, vamos nos concentrar nas seguintes informações:
- Excluído pela tag 'noindex' – Em geral, mais páginas noindex significam menos tráfego. O que levanta a questão – qual é o ponto de mantê-los no site? Como restringir o acesso a essas páginas?
- Rastreado – atualmente não indexado – se você vir isso, verifique se o conteúdo é renderizado corretamente aos olhos do Googlebot. Lembre-se de que cada URL com esse status desperdiça seu orçamento de rastreamento porque não gera tráfego orgânico.
- Descoberto – atualmente não indexado – um dos problemas mais alarmantes que vale a pena colocar no topo da sua lista de prioridades.
- Duplicar sem canônico selecionado pelo usuário – todas as páginas duplicadas são extremamente perigosas, pois não apenas prejudicam seu orçamento de rastreamento, mas também aumentam o risco de canibalização.
- Duplicado, o Google escolheu um canônico diferente do usuário – teoricamente, não há necessidade de se preocupar. Afinal, o Google deve ser inteligente o suficiente para tomar uma decisão acertada em nosso lugar. Bem, na realidade, o Google seleciona seus canônicos de forma bastante aleatória – geralmente cortando páginas valiosas com um canônico apontando para a página inicial.
- Soft 404 – todos os erros “soft” são altamente perigosos, pois podem levar à remoção de páginas críticas do índice.
- URL enviado duplicado não selecionado como canônico – semelhante ao relatório de status sobre a falta de canônicos selecionados pelo usuário.
Estatísticas de rastreamento
O relatório não é perfeito e no que diz respeito às recomendações, sugiro fortemente jogar também com os bons e antigos logs do servidor, que fornecem uma visão mais profunda dos dados (e mais opções de modelagem).
Como eu já disse, você terá dificuldade em procurar benchmarks para os números acima. No entanto, é uma boa chamada para dar uma olhada em:
- Tempo médio de download. A captura de tela abaixo mostra que o tempo médio de resposta sofreu um impacto dramático, devido a problemas relacionados ao servidor:
- Rastreie respostas. Observe o relatório para ver, em geral, se você tem um problema com seu site ou não. Preste muita atenção aos códigos de status de servidor atípicos, como os 304s abaixo. Esses URLs não servem para nenhum propósito funcional, mas o Google desperdiça seus recursos rastreando seu conteúdo.
- Objetivo de rastreamento. Em geral, esses dados dependem em grande parte do volume de novos conteúdos no site. As diferenças entre as informações coletadas pelo Google e o usuário podem ser bastante fascinantes:
Conteúdo de um URL rastreado novamente aos olhos do Google:
Enquanto isso, aqui está o que o usuário vê no navegador:
Definitivamente um motivo para reflexão e análise :)
- Tipo Googlebot . Aqui você tem os bots visitando seu site em uma bandeja de prata, juntamente com suas motivações para analisar seu conteúdo. A captura de tela abaixo mostra que 22% das solicitações se referem ao carregamento de recursos da página.
O total aumentou nos últimos dias do período:
Uma olhada nos detalhes revela os URLs que requerem mais atenção:
Rastreadores externos (com exemplos do Screaming Frog SEO Spider)
Os rastreadores estão entre as ferramentas mais importantes para analisar o orçamento de rastreamento do seu site. Seu objetivo principal é imitar os movimentos dos bots de rastreamento no site. A simulação mostra rapidamente se tudo está indo bem.
Se você é um aprendiz visual, deve saber que a maioria das soluções disponíveis no mercado oferece visualizações de dados.
No exemplo acima, os pontos vermelhos representam páginas não indexadas. Reserve um tempo para considerar sua utilidade e impacto na operação do site. Se os logs do servidor revelarem que essas páginas desperdiçam muito tempo do Google sem agregar valor – é hora de revisitar seriamente o ponto de mantê-las no site.
Importante : se quisermos recriar o comportamento de um Googlebot com a maior precisão possível, as configurações corretas são obrigatórias. Aqui você pode ver as configurações de amostra do meu computador:
Ao realizar uma análise aprofundada, é uma boa opção testar dois modos – Somente texto, mas também JavaScript – para comparar as diferenças (se houver).
Finalmente, nunca é demais testar a configuração apresentada acima em dois agentes de usuário diferentes:
Na maioria dos casos, você só precisará se concentrar nos resultados rastreados/renderizados pelo agente móvel.
Importante: também sugiro usar a oportunidade oferecida pelo Screaming Frog e alimentar seu rastreador com dados do GA e do Google Search Console. A integração é uma maneira rápida de identificar o desperdício do orçamento de rastreamento, como um corpo substancial de URLs potencialmente redundantes que não recebem tráfego.
Ferramentas para análise de logs (Screaming Frog Logfile e outros)
A escolha de um analisador de log do servidor é uma questão de preferência pessoal. Minha ferramenta preferida é o Screaming Frog Log File Analyzer. Pode não ser a solução mais eficiente (carregar um pacote enorme de logs = travar a aplicação), mas gosto da interface. A parte importante é ordenar que o sistema exiba apenas Googlebots verificados.
Ferramentas para rastreamento de visibilidade
Uma ajuda útil, pois permitem identificar suas principais páginas. Se uma página tiver uma classificação alta para muitas palavras-chave no Google (= recebe muito tráfego), ela pode ter uma demanda de rastreamento maior (verifique nos logs – o Google realmente gera mais acessos para essa página em particular?).
Para nossos propósitos, precisaremos de relatórios gerais em Senuto – Caminhos e URLs – para revisão contínua no futuro. Ambos os relatórios estão disponíveis em Análise de Visibilidade, na aba Seções. Dar uma olhada:
Nosso principal ponto de interesse é o segundo relatório. Vamos classificá-lo para ver nossa visibilidade de palavras-chave (a lista e o número total de palavras-chave para as quais nosso site está no TOP 10). Os resultados nos servirão para identificar o eixo principal para o estímulo (e alocação eficiente) do nosso orçamento de rastreamento.
Ferramentas para análise de backlinks (Ahrefs, Majestic)
Se uma de suas páginas tiver uma grande quantidade de links de entrada, use-a como um pilar de sua estratégia de otimização de orçamento de rastreamento. As páginas populares podem assumir o papel de hubs que transferem ainda mais o suco. Além disso, uma página popular com um conjunto decente de links valiosos tem mais chances de atrair rastreamentos frequentes.
No Ahrefs, precisamos do relatório Pages e, para ser exato, sua parte intitulada: “Melhor por links”:
O exemplo acima mostra que alguns LPs relacionados a shows continuaram gerando estatísticas sólidas para backlinks. Mesmo com todos os shows cancelados por causa da pandemia, ainda vale a pena usar páginas historicamente poderosas para despertar a curiosidade de bots rastreadores e espalhar o suco para os cantos mais profundos do seu site.
Quais são os sinais reveladores de um problema de orçamento de rastreamento?
A percepção de que você está lidando com um orçamento de rastreamento problemático (excessivamente baixo) não é fácil. Por quê? Principalmente, porque SEO é um empreendimento extremamente complexo. Baixas classificações ou problemas de indexação também podem ser consequência de um perfil de link medíocre ou da falta de conteúdo correto no site.
Normalmente, um diagnóstico de rastreamento de orçamento envolve a verificação de:
- Quanto tempo passa desde a publicação até a indexação de novas páginas (postagens/produtos do blog), supondo que você não solicite a indexação pelo Google Search Console?
- Por quanto tempo o Google mantém URLs inválidos em seu índice? Importante: os endereços redirecionados são uma exceção – o Google os armazena de propósito.
- Você tem páginas que entram no índice apenas para serem abandonadas mais tarde?
- Quanto tempo o Google gasta em páginas que não geram valor (tráfego)? Vá para análise de log para descobrir.
Como analisar e otimizar o orçamento de rastreamento?
A decisão de mergulhar na otimização do orçamento de rastreamento é ditada principalmente pelo tamanho do seu site. O Google sugere que, em geral, sites com menos de 1.000 páginas não devem se preocupar em aproveitar ao máximo seus limites de rastreamento disponíveis. No meu livro, você deve começar a lutar por um rastreamento mais eficiente e eficaz se seu site incluir mais de 300 páginas e seu conteúdo estiver mudando dinamicamente (por exemplo, você continua adicionando novas páginas / postagens de blog).
Por quê? É uma questão de higiene SEO. Implemente bons hábitos de otimização e gerenciamento de orçamento de rastreamento sólido nos primeiros dias, e você terá menos para corrigir e reprojetar no futuro.
Otimização do orçamento de rastreamento. Um procedimento padrão
Em geral, o trabalho de análise e otimização do craw budget consiste em três etapas:
- Coleta de dados, que é o processo de compilar tudo o que sabemos sobre o site – tanto de webmasters quanto de ferramentas externas.
- Análise de visibilidade e identificação de frutos baixos. O que funciona como um relógio? O que poderia ser melhor? Quais áreas têm o maior potencial de crescimento?
- Recomendações para o orçamento de rastreamento.
Coleta de dados para uma auditoria de orçamento de rastreamento
1. Um rastreamento completo do site realizado com uma das ferramentas disponíveis comercialmente. O objetivo é concluir no mínimo dois rastreamentos: o primeiro simula o Googlebot, enquanto o outro busca o site como um user agent padrão (o user agent de um navegador serve). Nesta fase, você está interessado apenas em baixar 100% do conteúdo . Se você perceber que o rastreador entrou em um loop (quando, após um dia de rastreamento, ainda temos apenas 10% do site em nosso disco rígido) - avise que há um problema e você pode interromper o rastreamento. Um número razoável de URLs para análise, no caso de grandes sites, gira em torno de 250 a 300 mil páginas.
a) O que estamos procurando são principalmente redirecionamentos 301 internos, erros 404, mas também as situações em que seus textos podem ser categorizados como conteúdo fino. O Screaming Frog tem a opção de detectar conteúdo quase duplicado:
2. Registros do servidor . O prazo ideal deve abranger o último mês, no entanto, no caso de sites grandes, duas últimas semanas podem ser suficientes. Na melhor das hipóteses, deveríamos ter acesso a registros históricos do servidor para comparar os movimentos do Googlebot no momento em que tudo estava indo bem.
3. Exportações de dados do Google Search Console . Em combinação com os pontos 1 e 2 acima, os dados da Cobertura do Índice e das Estatísticas de Rastreamento devem fornecer uma descrição bastante abrangente de todos os acontecimentos em seu site.
4. Dados de tráfego orgânico . Principais páginas conforme determinado pelo Google Search Console, Google Analytics, bem como Senuto e Ahrefs. Queremos identificar todas as páginas que se destacam entre a multidão com suas estatísticas de alta visibilidade, volume de tráfego ou contagem de backlinks. Essas páginas devem se tornar a espinha dorsal do seu trabalho no orçamento de rastreamento. Vamos usá-los para melhorar o rastreamento das páginas mais importantes.
5. Revisão manual do índice . Em alguns casos, o melhor amigo de um especialista em SEO é uma solução simples. Neste caso: uma revisão dos dados retirados diretamente do índice! É uma boa pedida checar seu site com o combo dos operadores inurl: + site:.Por fim, precisamos mesclar todos os dados coletados. Normalmente, usaremos um rastreador externo com recursos que permitem a importação de dados externos (dados GSC, logs do servidor e dados de tráfego orgânico).
Análise de visibilidade e frutos baixos
O processo merece um artigo separado, mas nosso objetivo hoje é ter uma visão geral de nossos objetivos para o site e do progresso feito. Estamos interessados em tudo fora do comum: quedas repentinas de tráfego (que não podem ser explicadas por tendências sazonais) e as mudanças simultâneas na visibilidade orgânica. Estamos verificando quais grupos de páginas são os mais fortes, pois eles se tornarão nossos HUBS para impulsionar o Googlebot mais profundamente em nosso site.
No mundo perfeito, tal verificação deveria cobrir toda a história do nosso site desde o seu lançamento. No entanto, como o volume de dados continua crescendo a cada mês, vamos nos concentrar em analisar a visibilidade e o tráfego orgânico dos últimos 12 meses.
Orçamento de rastreamento – nossas recomendações
As atividades listadas acima serão diferentes dependendo do tamanho do site otimizado. No entanto, eles são os elementos mais importantes que sempre considero ao realizar uma análise de orçamento de rastreamento. O objetivo primordial é eliminar os gargalos em seu site. Em outras palavras, para garantir a máxima rastreabilidade para Googlebots (ou outros agentes de indexação).
1. Vamos começar do básico – a eliminação de todos os tipos de erros 404/410, a análise de redirecionamentos internos e sua remoção de links internos . Devemos concluir nosso trabalho com um rastreamento final. Desta vez, todos os links devem retornar um código de resposta 200, sem redirecionamentos internos ou erros 404.
- Nesta fase, é uma boa ideia corrigir todas as cadeias de redirecionamento detectadas no relatório de backlink.
2. Após o rastreamento, certifique-se de que a estrutura do nosso site esteja livre de duplicatas gritantes .
- Verifique também a possível canibalização – além dos problemas decorrentes da segmentação da mesma palavra-chave com várias páginas (em resumo, você para de controlar qual página será exibida pelo Google), a canibalização afeta negativamente todo o seu orçamento de rastreamento.
- Consolide as duplicatas identificadas em um único URL (geralmente aquele com classificação mais alta).
3. Verifique quantos URLs têm a tag noindex . Como sabemos, o Google ainda pode navegar por essas páginas. Eles simplesmente não aparecem nos resultados da pesquisa. Estamos tentando minimizar o compartilhamento de tags noindex na estrutura do nosso site.
- Caso em questão – um blog organiza sua estrutura com tags; os autores afirmam que a solução é ditada pela conveniência do usuário. Cada postagem é rotulada com 3 a 5 tags, atribuídas de forma inconsistente e não indexadas. A análise de log revela que é a terceira estrutura mais rastreada no site.
4. Revise o robots.txt . Lembre-se de que implementar o robots.txt não significa que o Google não exibirá o endereço no índice.
- Verifique quais das estruturas de endereço bloqueadas ainda estão sendo rastreadas. Talvez cortá-los esteja causando um gargalo?
- Remova as diretivas desatualizadas/desnecessárias.
5. Analise o volume de URLs não canônicos em seu site. O Google deixou de considerar rel=”canonical” como uma diretiva rígida. Em muitos casos, o atributo é completamente ignorado pelo mecanismo de busca (parâmetros de classificação no índice – ainda um pesadelo).
6. Analise os filtros e seu mecanismo subjacente . Filtrar as listagens é a maior dor de cabeça da otimização do orçamento de rastreamento. Os proprietários de empresas de comércio eletrônico insistem em implementar filtros aplicáveis em qualquer combinação (por exemplo, filtrando por cor + material + tamanho + disponibilidade… pela enésima vez). A solução não é ótima e deve ser limitada ao mínimo.
7. Arquitetura da informação no site – aquela que considera objetivos de negócios, potencial de tráfego e perfil de link atual. Vamos trabalhar com a suposição de que um link para o conteúdo crítico para nossos objetivos de negócios deve ser visível em todo o site (em todas as páginas) ou na página inicial. Estamos simplificando aqui, é claro, mas a página inicial e o menu superior / links em todo o site são os indicadores mais poderosos na criação de valor a partir de links internos. Ao mesmo tempo, estamos tentando alcançar a distribuição de domínio ideal: nosso objetivo é a situação em que podemos iniciar o rastreamento de qualquer página e ainda alcançar o mesmo número de páginas (cada URL deve ter um link de entrada NO MÍNIMO) .
- Trabalhar para uma arquitetura de informações robusta é um dos principais elementos da otimização do orçamento de rastreamento. Ele nos permite liberar alguns dos recursos do bot de um local e redirecioná-los para outro. É também um dos maiores desafios, pois requer a cooperação das partes interessadas do negócio – o que muitas vezes leva a grandes batalhas e críticas minando as recomendações de SEO.
8. Renderização de conteúdo. Crítico no caso de sites que pretendem basear sua vinculação interna em sistemas de recomendação capturando o comportamento do usuário. Acima de tudo, a maioria dessas ferramentas depende de arquivos de cookies. O Google não armazena cookies, por isso não obtém resultados personalizados. O resultado: o Google sempre vê o mesmo conteúdo ou nenhum conteúdo.
- É um erro comum impedir que o Googlebot acesse conteúdo crítico de JS/CSS. Essa mudança pode levar a problemas com a indexação da página (e desperdiçar o tempo do Google renderizando conteúdo indisponível).
9. Desempenho do site – Core Web Vitals . Embora eu esteja cético sobre o impacto do CWV nas classificações do site (por muitas razões, incluindo a diversidade de dispositivos disponíveis comercialmente e as velocidades variadas da conexão com a Internet), é um dos parâmetros que mais vale a pena discutir com um codificador.
10. Sitemap.xml – verifique se funciona e contém todos os elementos-chave (nada além de URLs canônicos retornando um código de status 200).
- Minha primeira recomendação para otimizar sitemap.xml é dividir suas páginas por tipo ou – quando possível – categoria. A divisão lhe dará controle total sobre os movimentos do Google e a indexação do conteúdo.