Como o Google indexa páginas, segundo sua equipe de engenharia

Gary Illyes explica processos-chave da indexação de páginas do Google, como a leitura de marcações HTML, variantes de conteúdo e definição de páginas canônicas.

O Google está lançando uma série de vídeos que explicam como a Pesquisa Orgânica funciona. O episódio mais recente fala sobre a indexação de páginas, incluindo alguns “bastidores técnicos” desta etapa.

O processo de indexação de páginas no Google em si é bastante conhecido e documentado. É uma das três etapas principais da Pesquisa Orgânica:

  • Rastreamento: buscar páginas e fazer o download do seu conteúdo;
  • Indexação: analisar as páginas e adicioná-las a um índice;
  • Classificação: classificar os melhores resultados para cada busca, com base em uma série de sinais.

Os principais diferenciais do vídeo são os detalhes de como o Google adiciona páginas ao índice e como interpreta variantes de conteúdo.

As informações são de Gary Illyes, engenheiro da Pesquisa Orgânica, e foram publicadas em vídeo em 4 de abril.

Como o Google indexa páginas?

Podemos dividir a explicação de Gary em três partes principais:

  • Análise do conteúdo da página;
  • Identificação de páginas duplicadas;
  • Seleção de versão canônica, considerada a principal.

Se a página tiver boa qualidade e corresponder a uma série de critérios e fatores do Google, ela é adicionada ao índice. A partir daí, pode ser exibida na pesquisa.

O índice é uma “base de dados” com milhões de páginas que estão prontas para serem exibidas como resultados de busca. Sempre que você digita algo no Google, o buscador vasculha o índice e apresenta o resultado que julga mais relevante.

Gary descreve o “index” do Google como:

“Uma grande base de dados, montada em milhares de computadores. Se falarmos corretamente com ela, retornará resultados altamente relevantes ao que perguntamos”.

Análise do conteúdo da página

Depois que a página é indexada, o Google lê o conteúdo dela. 

No dia a dia de SEO, é normal pensar em “conteúdo” como o texto escrito de uma página. Mas em indexação é mais do que isso: inclui marcações HTML da página, meta tags, atributos de imagem, entre outros. 

Com base nesta leitura, o Google calcula alguns “sinais” para decidir se a página deve ser indexada.

Segundo Gary, o Google entende sinais como:

“Partes de informação que o mecanismo de busca coleta sobre páginas e sites, que são usadas para processamento no futuro. Alguns sinais são mais concretos, como anotações em HTML ou a presença de canonical tag. Outros, como a importância de uma página individual, são mais abstratos”.

O Google começa a leitura pelo HTML da página, a partir do campo <head>.

O <head> é como se fosse um “contêiner” que agrupa as principais informações sobre a página, descritas com metadados. É ali que ficam tags como hreflang ou canonical.

Se o Google perceber uma tag não-suportada pelo <head>, ele fecha imediatamente o contêiner e ignora tudo o que estiver depois dessa tag. 

Identificação de página duplicada

Depois de ler o conteúdo, o Google define se a página é original ou duplicada

O Google compara a página com outras que existem na internet. Se for original, será adicionada ao índice (se o Google a considerar relevante). Se houver outras versões, inicia-se um processo chamado “duplicate clustering”. Em português, seria algo como “agrupamento duplicado” ou “agrupamento de duplicatas”. 

Basicamente, o buscador separa as páginas e as agrupa. Veja uma representação abaixo:

A imagem mostra uma ilustração estilizada de várias janelas de navegador sobrepostas em três cores distintas: verde, azul e amarelo. Cada janela de navegador parece conter diferentes elementos gráficos, como ícones de pessoas, nuvens e imagens de paisagens. Acima de cada grupo de janelas, há uma bolha de fala contendo um ícone que representa o conteúdo comum entre as janelas daquele grupo específico. A ilustração representa o conceito de duplicate clustering na indexação do Google

Seleção de página canônica

Cada cluster terá uma página canônica. Ela é considerada a “principal” e será exibida na maioria dos resultados de busca. As demais serão consideradas versões alternativas. 

De acordo com Gary, a página canônica é:

“A página de um grupo de páginas duplicadas que melhor representa o grupo, de acordo com os sinais que o Google coletou sobre cada versão”.

As versões alternativas também são adicionadas ao index, mas são exibidas apenas para buscas específicas.

Recomenda-se marcar certos tipos de página com a canonical tag. Ela informa claramente que existe uma versão preferencial. Se não fizer isso, o Google tentará encontrar por conta própria.

Na maioria dos casos, também não é recomendado marcar versões alternativas de páginas com a tag noindex. Ela é uma diretiva para que buscadores nunca adicionem a URL ao índice. 

Ela deve ser usada apenas para páginas que não têm nenhum valor para SEO, como páginas internas ou de administradores. 

Como funciona na prática?

Para ficar menos abstrato, imagine que você vende videogames e está diante deste cenário:

  • www.sualoja.com/produtos/nintendo-switch é a URL principal do seu produto;
  • Você também tem a url www.sualoja.com/produtos/nintendo-switch-coral, para uma versão específica do console;
  • Ambas têm basicamente o mesmo conteúdo, com exceção das características específicas do Nintendo Switch Coral, como cor, diferença de preço etc. 

Depois de rastrear as duas páginas, o Google fará a seguinte leitura:

  • Analisará as informações, atributos e conteúdos da página;
  • Fará uma comparação entre as duas e entenderá que são semelhantes, por se tratarem do mesmo produto, com pequenas variantes;
  • Escolherá uma página principal (canônica) e definirá a outra como variante. Ambas serão indexadas.

A melhor prática de SEO é marcar a url www.sualoja.com/produtos/nintendo-switch como canonical. 

Se o seu site for bem classificado, ela será a resposta padrão para pesquisas sobre “Nintendo Switch” no Google. A URL www.sualoja.com/produtos/nintendo-switch-coral aparecerá apenas quando uma pessoa pesquisar especificamente por videogames desta cor.

Por isso é um erro marcar a variante como noindex, neste caso. Ambas as URLs têm valor para os visitantes, em cenários diferentes. Por isso, o Google mantém as duas no índice, sem prejuízos para o SEO do site. 

Essa é uma situação comum em páginas de produto para e-commerce, mas pode ocorrer em outros casos também. 

O que acontece depois da indexação?

O próximo passo é o processo de classificação, tema do próximo vídeo de Gary Illyes, ainda sem data de lançamento. 

Certamente ele não explicará os detalhes e os bastidores – isso seria entregar o ouro e abrir as portas para manipulações do algoritmo. Mas dará uma visão geral do que o Google considera relevante para exibir uma página. 

E, vindo de uma “fonte oficial”, estas informações são sempre relevantes!

Continue nos acompanhando para ver os principais insights sobre essa etapa da busca! Siga-nos no LinkedIn e acompanhe nossa newsletter e podcast para ver análises, exemplos e aplicações do conceito de classificação do Google – além de outros conteúdos essenciais sobre SEO. 

  • Elyson Gums

    Elyson Gums

    Jornalista e mestre em Comunicação Social. Produzo conteúdo para projetos de SEO e inbound marketing desde 2014.

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *