Elyson Gums
Jornalista e mestre em Comunicação Social. Produzo conteúdo para projetos de SEO e inbound marketing desde 2014.
Elyson Gums
Atualizado em 08/04/2024
7 min de leitura
Gary Illyes explica processos-chave da indexação de páginas do Google, como a leitura de marcações HTML, variantes de conteúdo e definição de páginas canônicas.
O Google está lançando uma série de vídeos que explicam como a Pesquisa Orgânica funciona. O episódio mais recente fala sobre a indexação de páginas, incluindo alguns “bastidores técnicos” desta etapa.
O processo de indexação de páginas no Google em si é bastante conhecido e documentado. É uma das três etapas principais da Pesquisa Orgânica:
Os principais diferenciais do vídeo são os detalhes de como o Google adiciona páginas ao índice e como interpreta variantes de conteúdo.
As informações são de Gary Illyes, engenheiro da Pesquisa Orgânica, e foram publicadas em vídeo em 4 de abril.
Podemos dividir a explicação de Gary em três partes principais:
Se a página tiver boa qualidade e corresponder a uma série de critérios e fatores do Google, ela é adicionada ao índice. A partir daí, pode ser exibida na pesquisa.
O índice é uma “base de dados” com milhões de páginas que estão prontas para serem exibidas como resultados de busca. Sempre que você digita algo no Google, o buscador vasculha o índice e apresenta o resultado que julga mais relevante.
Gary descreve o “index” do Google como:
“Uma grande base de dados, montada em milhares de computadores. Se falarmos corretamente com ela, retornará resultados altamente relevantes ao que perguntamos”.
Depois que a página é indexada, o Google lê o conteúdo dela.
No dia a dia de SEO, é normal pensar em “conteúdo” como o texto escrito de uma página. Mas em indexação é mais do que isso: inclui marcações HTML da página, meta tags, atributos de imagem, entre outros.
Com base nesta leitura, o Google calcula alguns “sinais” para decidir se a página deve ser indexada.
Segundo Gary, o Google entende sinais como:
“Partes de informação que o mecanismo de busca coleta sobre páginas e sites, que são usadas para processamento no futuro. Alguns sinais são mais concretos, como anotações em HTML ou a presença de canonical tag. Outros, como a importância de uma página individual, são mais abstratos”.
O Google começa a leitura pelo HTML da página, a partir do campo <head>.
O <head> é como se fosse um “contêiner” que agrupa as principais informações sobre a página, descritas com metadados. É ali que ficam tags como hreflang ou canonical.
Se o Google perceber uma tag não-suportada pelo <head>, ele fecha imediatamente o contêiner e ignora tudo o que estiver depois dessa tag.
Depois de ler o conteúdo, o Google define se a página é original ou duplicada.
O Google compara a página com outras que existem na internet. Se for original, será adicionada ao índice (se o Google a considerar relevante). Se houver outras versões, inicia-se um processo chamado “duplicate clustering”. Em português, seria algo como “agrupamento duplicado” ou “agrupamento de duplicatas”.
Basicamente, o buscador separa as páginas e as agrupa. Veja uma representação abaixo:
Cada cluster terá uma página canônica. Ela é considerada a “principal” e será exibida na maioria dos resultados de busca. As demais serão consideradas versões alternativas.
De acordo com Gary, a página canônica é:
“A página de um grupo de páginas duplicadas que melhor representa o grupo, de acordo com os sinais que o Google coletou sobre cada versão”.
As versões alternativas também são adicionadas ao index, mas são exibidas apenas para buscas específicas.
Recomenda-se marcar certos tipos de página com a canonical tag. Ela informa claramente que existe uma versão preferencial. Se não fizer isso, o Google tentará encontrar por conta própria.
Na maioria dos casos, também não é recomendado marcar versões alternativas de páginas com a tag noindex. Ela é uma diretiva para que buscadores nunca adicionem a URL ao índice.
Ela deve ser usada apenas para páginas que não têm nenhum valor para SEO, como páginas internas ou de administradores.
Para ficar menos abstrato, imagine que você vende videogames e está diante deste cenário:
Depois de rastrear as duas páginas, o Google fará a seguinte leitura:
A melhor prática de SEO é marcar a url www.sualoja.com/produtos/nintendo-switch como canonical.
Se o seu site for bem classificado, ela será a resposta padrão para pesquisas sobre “Nintendo Switch” no Google. A URL www.sualoja.com/produtos/nintendo-switch-coral aparecerá apenas quando uma pessoa pesquisar especificamente por videogames desta cor.
Por isso é um erro marcar a variante como noindex, neste caso. Ambas as URLs têm valor para os visitantes, em cenários diferentes. Por isso, o Google mantém as duas no índice, sem prejuízos para o SEO do site.
Essa é uma situação comum em páginas de produto para e-commerce, mas pode ocorrer em outros casos também.
O próximo passo é o processo de classificação, tema do próximo vídeo de Gary Illyes, ainda sem data de lançamento.
Certamente ele não explicará os detalhes e os bastidores – isso seria entregar o ouro e abrir as portas para manipulações do algoritmo. Mas dará uma visão geral do que o Google considera relevante para exibir uma página.
E, vindo de uma “fonte oficial”, estas informações são sempre relevantes!
Continue nos acompanhando para ver os principais insights sobre essa etapa da busca! Siga-nos no LinkedIn e acompanhe nossa newsletter e podcast para ver análises, exemplos e aplicações do conceito de classificação do Google – além de outros conteúdos essenciais sobre SEO.
Comentários