Ícone do site Portal Direito na Era Digital

Vazamento de dados do Google revela segredos do algoritmo

Vazamento de dados do Google

Mais de 2,5 mil documentos internos da engenharia do Google foram vazados na última semana, contendo mais de 14 mil funcionalidades e milhares de detalhes sobre os dados que a maior empresa de buscas coleta e utiliza em seus algoritmos – a tal “fórmula secreta” para rankear sites e aparecer no topo das buscas do Google. Os documentos foram vazados na plataforma de hospedagem de código-fonte e arquivos GitHub e enviados pelo leaker Erfan Azimi ao especialista Rand Fishkin, que publicou as informações mais quentes sobre os materiais no blog SparkToro.

O vazamento de informações desmistifica uma série de declarações feitas nos últimos anos de que o Google utiliza determinadas variáveis para ranquear os sites. Entre as milhares de páginas, que funcionam como um repositório de informações, é possível definir com mais clareza quais dados são realmente usados para classificar o conteúdo da pesquisa, e pode-se ter uma ideia de quais informações a comunidade de SEO já imaginava que eram reais — mas o Google dizia que não.

 

CTR foi comprovado

Uma das variáveis mais importantes que apareceu no vazamento é a taxa de cliques (CTR, na sigla em inglês). Por exemplo, quando um site está no terceiro lugar na página de buscas e ele tem mais cliques do que os que estão no primeiro ou no segundo, o CTR dele é maior e o algoritmo do Google pode colocá-lo na segunda ou na primeira posição — algo que o Google nunca confirmou ser real, e agora foi comprovado pelos documentos.

 

Chrome fornece dados

O Google também utiliza dados de comportamento do usuário, como quanto tempo foi gasto na página de busca, se um resultado foi clicado ou não, se o usuário voltou para página de busca depois de clicar em algum resultado, entre outros. Dessa forma, pode-se afirmar que o Google usa dados do Chrome, como tempo de carregamento da página, experiência do usuário e estabilidade da página durante a navegação, para determinar a qualidade de um determinado conteúdo.

 

Autoridade de sites em jogo

A companhia também utiliza uma métrica chamada site authority para determinar a autoridade de um site frente a um assunto e a outros sites Com o vazamento dessa informação, torna-se possível manipular, por exemplo, a quantidade de links que apontam para um site para aumentar a sua reputação frente a outros – algo que o Google sempre quis evitar que fosse feito, mas que a indústria de SEO já faz há mais de 20 anos.

Outra informação que quem trabalha com SEO há muitos anos já percebeu, é que existe um fator chamado de sandbox para sites novos, ou seja, um período em que esses sites são rebaixados e colocados em uma avaliação à parte para monitorar seu comportamento antes de liberá-los para o público geral. Sempre se imaginou que sites recém-lançados passavam por uma verificação manual, e agora veio a confirmação de que o sandbox realmente existe.

 

É confiável ou não?

Com a enorme quantidade de sites presentes na ferramenta de busca, o Google criou as chamadas white lists, que são listas de sites confiáveis que terão um tratamento preferencial entre determinadas buscas. Isso pôde ser verificado durante a pandemia da Covid-19, por exemplo, momento no qual informações de saúde confiáveis (na visão do Google) eram colocadas em evidência.

Outro exemplo foi quando a solução do Google Shopping chegou ao Brasil anos atrás e o Google derrubou a relevância do Buscapé, na época um dos maiores comparadores de preços, para que os usuários gradualmente adotassem a nova solução da empresa. Isso nunca foi oficialmente confirmado, mas quem trabalha na área sabe que isso aconteceu.

 

Criação de conteúdo importa

Marcas que investem em produção de conteúdo, branding e relações públicas tendem a ser melhor percebidas e favorecidas nos resultados do Google. O próprio vazamento deixou claro que artigos assinados por pessoas reconhecidas e com boa reputação são considerados como um fator de classificação, além, é claro, da importância da marca – quanto mais ela é citada, quanto mais ela é famosa e quanto mais ela é conhecida no universo digital, mais ela tende a ter performance por ter esse reconhecimento.

O que esse vazamento confirmou?

No fim das contas, os documentos serviram para comprovar que uma série de hipóteses e suposições que a indústria de SEO fazia sobre o Google estavam corretas. Mas por que o Google mentia sobre eles e negava esses fatores?

 

A resposta parece óbvia: para que não houvesse manipulação dos dados

A partir deste vazamento, uma das coisas que pode ocorrer é que as ferramentas que geram cliques artificiais no Google se popularizem e as pessoas comecem a comprar cliques em seus resultados para subir posições no Google. Essa ação passará a consumir muitos recursos dos servidores do Google e vai fazer com que uma série de robôs façam buscas automatizadas, que tendem a crescer em volume e intensidade. Isso já ocorre, mas irá se intensificar.

Essa possibilidade deve ser observada de perto pelo Google, que tende a ficar mais atento às ações feitas por meio de ferramentas de manipulação.

Mas o que já era sabido e sempre foi recomendado se mostrou de fato o mais importante:  a melhor maneira de ter consistência no ranqueamento no Google é apostar em uma estratégia de conteúdo consistente, com larga produção de conteúdo especializado, que aumente a relevância da marca e que traga resultados de forma adequada.

Quanto mais conteúdo bom uma marca produz, melhores posições ela ocupa e gera maior volume de acessos, que levam a mais leads e mais vendas.

Nada de novo, efetivamente. E essa é uma ótima notícia!

 

*Por Rafael Rez, fundador e CMO da Web Estratégica, agência pioneira nos mercados de otimização de mecanismos de busca (SEO, na sigla em inglês) e marketing de conteúdo no Brasil, atende empresas como Magazine Luiza, Netshoes, Americanas, Electrolux, Leroy Merlin e Panvel. É co-fundador da Nova Escola de Marketing e autor do livro: “Marketing de Conteúdo: A Moeda do Século XXI”.

Sair da versão mobile