Como o Googlebot funciona? Como e por que ele rastreia páginas da web?

Elyson Gums
Revisado por Karine Sales
Atualizado em 24/02/2025
5 min de leitura

Conteúdo do Post

O que é rastreamento?

Como o Googlebot funciona para rastrear recursos de páginas?

Como ver o que o Googlebot está rastreando no meu site?

Sem o Googlebot, SEO não funciona. Ele é o robô do Google que faz o rastreamento de URLs para que elas possam aparecer nos resultados orgânicos.

Ele é um programa que roda nos servidores do Google e analisa o seu conteúdo, relata erros de rede, redirecionamentos, e outros detalhes que possam prejudicar a visibilidade das páginas.

Martin Splitt, porta-voz do Google, e Gary Illyes, engenheiro do buscador, compartilharam em um blog post os detalhes sobre como o robô funciona. Veja os principais pontos traduzidos abaixo.

O que é rastreamento?

Rastreamento é o processo de baixar o conteúdo de páginas já existentes ou recém-descobertas. Esse trabalho é feito por crawlers (também chamados de rastreadores, robôs, spiders, etc.), como o Googlebot.

Em resumo, acontece assim:

O Googlebot descobre a URL (uma das formas mais comuns é através de links);
Faz uma requisição HTTP para o servidor do site;
Prossegue de acordo com o código de resposta HTTP, seguindo redirecionamentos, lidando com erros e analisando o conteúdo da página.

Se estiver tudo certo, o rastreamento acontece. Depois dessa etapa, o Google decide se a página será indexada ou não. Inclusive, parte do trabalho de SEO é tornar o site otimizado para que este processo ocorra sem erros.

A versão de página que o robô acessa é bem diferente da que aparece para os humanos. Para ele, o principal aspecto é o código-fonte, incluindo HTML, JS e CSS.

Como o Googlebot funciona para rastrear recursos de páginas?

Apesar de ver versões diferentes de página, o Googlebot acessa os sites de forma parecida com um ser humano.

Quando alguém abre um site no navegador, o processo que acontece nos bastidores é o seguinte:

O navegador baixa a URL principal, que contém o arquivo HTML;
Os dados iniciais da página contém referências a recursos JavaScript e CSS, imagens e vídeos;
O navegador baixa tudo e exibe a versão renderizada da página ao visitante.

Quando o Googlebot abre um site, faz parecido:

Baixa o HTML da página;
Encaminha os dados para um Web Rendering Service (WRS);
O WRS baixa os recursos referenciados no HTML da página;
O WRS exibe a versão de página que o Googlebot lê.

Ou seja, é um processo parecido, mas otimizado para rastrear uma infinidade de páginas diariamente.

Alguns detalhes relevantes do processo:

O WRS busca armazenar dados de CSS e JS das páginas renderizadas por até 30 dias para facilitar o rastreamento;
Quando o WRS não consegue acessar recursos críticos para renderização, o Google pode ter problemas em exibir a página nos Resultados Orgânicos.

Gerenciando o crawl budget

Crawl budget é a “cota de rastreamento” de um site. Significa basicamente a quantidade de páginas e recursos que o Googlebot consegue acessar. Quando passa da cota, ele para o processo e retoma posteriormente.

Por isso, donos de sites precisam gerenciar quais recursos são rastreados e como eles influenciam o crawl budget. É um ponto a se considerar apenas para sites grandes, com milhares de páginas, e deve ser feito com apoio de profissionais em SEO e desenvolvimento.

Algumas boas práticas recomendadas por Martin Splitt e Gary Illyes são:

Use o mínimo de recursos possíveis para oferecer boa experiência de página. Por exemplo, reduza ou otimize os arquivos JS;
Armazene recursos fora do domínio principal do site, usando CDN ou algum subdomínio, para “distribuir” o crawl budget entre eles;
Evite mudar a URL de arquivos do site sem necessidade, e use parâmetros de cache busting (como códigos ?v=2 ao final da URL) com cautela. Tudo isso fará com que o Google precise visitar novamente as URLs, ao invés de usar o cache do WRS, o que aumenta o gasto de crawl budget.

Como ver o que o Googlebot está rastreando no meu site?

Existem duas formas de saber quais páginas o robô está visitando: seus logs de servidor e o Google Search Console.

Nos logs de servidor, você verá todas as URLs que foram requisitadas por servidores e rastreadores, aí, é só buscar os IPs do Google.

Já no Google Search Console, basta acessar o relatório de estatísticas de rastreamento. Ele apresenta todas as páginas e recursos rastreados. E também mostra:

Status de resposta HTTP encontrados;
Tamanho total dos downloads feitos;
Número de solicitações;
Tempo de resposta do servidor;
Porcentagem de páginas novas descobertas e rastreamentos em páginas já conhecidas;
Entre outras informações relevantes.

Captura de tela de relatórios mostrando atuação do Googlebot em um site

Martin Splitt e Gary Illyes estão publicando semanalmente novos artigos com alguns detalhes técnicos sobre como o Googlebot funciona. E você acompanha tudo por aqui! Siga-nos no LinkedIn e no YouTube, acompanhe nossa newsletter e podcast e não perca nada.

Elyson Gums

Jornalista e mestre em Comunicação Social. Produzo conteúdo para projetos de SEO e inbound marketing desde 2014.

Comentários

0 Comentários

Como o Googlebot funciona? Como e por que ele rastreia páginas da web?

Conteúdo do Post

Newsletter

O que é rastreamento?

Como o Googlebot funciona para rastrear recursos de páginas?

Gerenciando o crawl budget

Como ver o que o Googlebot está rastreando no meu site?

Elyson Gums

Comentários

Deixe um comentário Cancelar resposta

Postagens relacionadas

Como fazer uma auditoria de SEO no seu site em 16 passos

Tudo o que você precisa saber sobre os Core Updates do Google: o que são, como funcionam e como impactam o SEO do seu site

Os desafios e melhores práticas de SEO para empresas no modelo SaaS