Google Search Console e Google Analytics: Por que os dados não correspondem?

Essa disparidade de dados entre o Google Search Console e o Google Analytics é na verdade por design. Vamos nos aprofundar nos detalhes para descobrir o porquê.

Uma reclamação comum sobre o Google Search Console (GSC) é que os dados são “imprecisos” quando comparados aos resultados do Google Analytics.

Você conhece a situação.

Todos nós já fizemos isso.

Você tenta alinhar o tráfego para as páginas de destino do analytics com cliques do Google Search Console e os números não chegam nem perto!

Depois, você murmura algo sobre “não fornecido” e envia uma mensagem instantânea a um amigo sobre os bons velhos tempos em que era possível ver palavras-chave em suas análises.

Embora seja uma questão de precisão , não é uma questão de precisão em si.

Essa disparidade de dados é realmente por design.

Vamos nos aprofundar nos detalhes e descobrir por que isso acontece.

O que você vai ler neste artigo

O Google Search Console e o Google Analytics não medem as mesmas coisas

A breve explicação é que as duas fontes de dados têm diferentes metodologias de medição.

O GSC é criado a partir de consultas e cliques ou registros de seleção, para que os dados sejam um pouco semelhantes aos que você pode esperar de seus próprios arquivos de log de acesso (você sabe, os arquivos que você solicita ao DevOps para acessar a análise de arquivos de log) .

Por outro lado, seu pacote de análise coleta dados do fluxo de cliques via JavaScript. Isso introduz inerentemente muitas variáveis sobre como as coisas podem ser medidas, bem como quais são essas coisas.

Para entender melhor o que causa as diferenças nos dados entre o GSC e o analytics, primeiro você precisa entender como cada ferramenta coleta e entende os dados de comportamento do usuário.

Anatomia da consulta e seleção (clique) Logs

A busca incansável do Google por qualidade de pesquisa naturalmente os leva a rastrear uma riqueza de pontos de dados para cada pesquisa e todo pesquisador, na esperança de obter uma compreensão completa do que está acontecendo nos SERPs.

Embora tenham indicado muitas vezes que não permitem que os cliques e as taxas de cliques influenciem as classificações, apesar das evidências dizerem o contrário , eles também disseram que usam dados de cliques para avaliar o desempenho.

DS: No mês passado, tivemos a atualização de qualidade. Como o Google está avaliando a qualidade. Como os cliques são considerados?
GI: Usamos cliques de maneiras diferentes. as principais coisas que usamos cliques para avaliação e experimentação. Existem muitas pessoas tentando induzir ruído nos cliques. Rand Fishkin, por exemplo, está experimentando cliques. Usar cliques diretamente na classificação seria um erro. Em resultados personalizados, se você pesquisar pela Apple, provavelmente forneceremos uma caixa de desambiguação. Temos que descobrir se você quer dizer a empresa ou a comida. Em seguida, veríamos o clique que você fez.

Esse tem sido um dos argumentos em andamento entre Googlers e SEOs voltados ao público.

Pessoalmente, acredito que o lado do Google seja um argumento semântico.

Existem várias medidas de avaliação que são padrão na recuperação de informações, como:

Cliques.
Abandono da SERP.
Taxa de sucesso da sessão.
Etc.

Como você pode imaginar, o Google tem seu próprio sabor, chamado modelo Cliques, Atenção e Satisfação (leia a explicação de Bill Slawski, se você precisar de uma tradução).

Isso está sendo discutido em um artigo chamado “Incorporando Cliques, Atenção e Satisfação em um Modelo de Avaliação de Página de Resultado de Mecanismo de Pesquisa”, combinado com a metodologia baseada em cliques destacada na patente Ranking Baseado em Tempo, sugere que alguém pelo menos teve tempo para pensar em como cliques podem afetar as classificações.

De acordo com o testemunho de Eric Schmidt em 2011, o Google fez “13.111 avaliações de precisão”. Isso seria uma média de ~ 35 por dia.

Portanto, é lógico supor que, se você estiver sempre avaliando em um ambiente de produção, como é a equipe de Pesquisa, sempre haverá o potencial de os cliques do usuário impactarem as classificações.

Além disso, há esta seção da classificação Modificando resultados de pesquisa com base na patente de estatísticas de pesquisa de corpus que fala sobre logs de pesquisa e como eles podem informar as classificações no futuro:

“As informações armazenadas no (s) registro (s) de sessão 2060 ou nos registros de pesquisa podem ser usadas pelo mecanismo modificador de classificação 2070 na geração de um ou mais sinais para o mecanismo de classificação 2030 . Em geral, uma grande variedade de informações pode ser coletada e usada para modificar ou ajustar o sinal do usuário para produzi-lo, e os resultados de pesquisa futuros fornecidos, para melhor atender às necessidades do usuário. Assim, as seleções de usuários de um ou mais corpora para emitir pesquisas e interações do usuário com os resultados da pesquisa apresentados aos usuários do sistema de recuperação de informações podem ser usadas para melhorar as classificações futuras. ”

O mais interessante, no entanto, é o conceito de que esses logs apresentam muito ruído, além de seus sinais mais valiosos.

Isso sugere que tirar os cliques completamente do valor nominal seria um erro.

De que tipo de ruído estamos falando?

Bem, por exemplo, quantas impressões são representadas por ferramentas de classificação?

Quantas vezes você pressiona enter no auto-sugestão e depois percebe que ele aciona uma pesquisa por “fã” em vez de “fantástico 4”?

Ou então, quando você está rolando no celular e acidentalmente com o dedo gordo o resultado errado?

Todos esses são exemplos de como os dados coletados pelo Google podem apresentar uma grande quantidade de imprecisões e precisam ser contabilizados.

O que há nos arquivos de log?

Se a documentação do Google Search Appliance , agora extinta, for alguma indicação (o que pode não ser), os registros de consulta e clique são simplesmente arquivos de texto que registram dados sobre usuários e suas interações com o SERP.

A documentação discute os logs de pesquisa, que podem ou não ser os mesmos que os de consulta e clique, conforme são mencionados nas patentes do Google.

Apesar de ser uma versão simplificada do sistema, ele nos dá uma idéia do que é rastreado – recursos do usuário, sua consulta e recursos do que eles clicam.

Indo mais fundo, nos sistemas e métodos do Google para gerar estatísticas a partir de patentes de logs de consultas de mecanismos de pesquisa , eles falam um pouco mais sobre como um sistema capaz de operar uma ferramenta como o Google Trends pode funcionar.

Para esta discussão, suponho que o conjunto de dados subjacente seja semelhante, se não o mesmo, ao que alimenta o Google Search Console e o Google Ads Keyword Planner.

Eles falam sobre os logs de consulta da seguinte maneira:

“Um mecanismo de pesquisa na web pode receber milhões de consultas por dia de usuários em todo o mundo. Para cada consulta, o mecanismo de pesquisa gera um registro de consulta em seu log de consultas. O registro da consulta pode incluir um ou mais termos da consulta, um carimbo de data / hora indicando quando a consulta é recebida pelo mecanismo de pesquisa, um endereço IP que identifica um dispositivo único (por exemplo, um PC ou um telefone celular) do qual os termos da consulta são enviados, e um identificador associado a um usuário que envia os termos da consulta (por exemplo, um identificador de usuário em um cookie do navegador da web). “

Em outras palavras, os logs de consulta do mecanismo de pesquisa são uma versão um pouco mais robusta dos logs de pesquisa do GSA.

Os autores explicam mais detalhadamente mais adiante, na patente, com uma discussão sobre como os cookies, dispositivos, idioma do usuário e localização também são rastreados.

Eles também fornecem a figura a seguir para fornecer uma representação visual dos dados coletados no log de consulta:

Dando mais cor ao sistema, a patente discute esse conceito de registro de sessão, que é um mecanismo para determinar se um determinado usuário executou as mesmas pesquisas ou pesquisas semelhantes dentro do prazo especificado.

Isso é especialmente importante quando se trata de medir e gerar relatórios e / ou volume de pesquisa:

“Um registro da sessão de consulta inclui consultas com espaçamento estreito no tempo e / ou consultas relacionadas ao mesmo interesse do usuário. Em algumas modalidades, o processo de extração da sessão de consulta é baseado em heurísticas. Por exemplo, consultas consecutivas pertencem à mesma sessão se elas compartilham alguns termos de consulta ou se são enviadas dentro de um período predefinido (por exemplo, dez minutos), mesmo que não exista um termo de consulta comum entre eles. ”

As heurísticas mencionadas acima são talvez o principal motivo pelo qual o Search Console e seu pacote de análise nunca serão compatíveis.

Essencialmente, o que o autor está dizendo é que o Google toma uma decisão no log de consultas para determinar se as pesquisas na sua sessão são únicas o suficiente para serem registradas como distintas.

Portanto, o que você pode considerar duas visitas distintas ao seu site, porque elas vieram de duas pesquisas diferentes que chegaram a duas páginas de destino diferentes, podem ser consideradas uma pesquisa e, portanto, uma impressão, dependendo de como é registrada nos registros de consulta do Google.

Os logs de cliques, por outro lado, apresentam mais informações sobre o comportamento do usuário depois que ele apresenta uma série de resultados.

A classificação dos resultados da pesquisa de modificação com base na patente de estatísticas da pesquisa de corpus revela o que pode ser armazenado neste conjunto de dados.

Embora o Google Search Console mostre apenas uma fração dessas informações, é bastante claro como a ferramenta Search Analytics é efetivamente uma interface de usuário limitada criada sobre esse conjunto de dados.

O interessante aqui é a menção de atividades que podem acontecer em uma SERP.

Isso é uma indicação de que não apenas todos os cliques são rastreados, mas os recursos por trás do que gerou a posição de um resultado em uma SERP.

O que determina um clique?

A documentação pública do Google Search Appliance não indica o que é considerado um clique ou uma impressão.

Por exemplo, se eu procurar uma palavra-chave e clicar em um resultado, responder e clicar novamente no mesmo resultado, o Google está considerando dois cliques distintos ou um?

A patente Systems & Methods for Generating Statistics from Search Engine Query Logs , no entanto, fornece algumas dicas sobre a resposta a essa pergunta.

A primeira coisa a saber é que eles costumam amostrar os dados. Isso faz muito sentido no ambiente do Google Trends.

No entanto, o autor observa que existem casos de uso em que eles não podem amostrar os dados.

“ Para obter informações estatísticas confiáveis a partir do log de consulta 108, nem sempre é necessário pesquisar todos os registros de consulta (também aqui denominados registros de log ou registros de transação) no log de consulta. Desde que as informações estatísticas sejam derivadas de um número suficiente de amostras no log de consultas, as informações são tão confiáveis quanto as informações derivadas de todos os registros de log. Além disso, são necessários menos tempo e recursos de computador para pesquisar um log de consultas com subamostras. Portanto, um processo de amostragem de log de consulta 110 pode ser empregado para sub-amostrar o log de consulta 108 e produzir um log de consulta sub-amostrado 112. Por exemplo, o log de consulta sub-amostrado 112 pode conter dez ou vinte por cento dos registros de log no log de consulta original 108. Observe que o processo de amostragem é opcional.Em algumas modalidades, todo o log de consulta 108 é usado para gerar informações estatísticas. “

O Google também parece considerar profundamente que duas consultas semelhantes podem representar uma pesquisa.

Essa linha de pensamento é um componente central que gera uma diferença na medição entre ferramentas.

Como o Google mudou recentemente para fornecer às versões singular e plural de palavras-chave o mesmo volume de pesquisa, para grande desgosto da comunidade de pesquisa, é importante ver uma perspectiva interna sobre o assunto.

Basta dizer que o registro no mecanismo de pesquisa do Google usa uma série específica de metodologias para determinar o que é uma pesquisa e um clique distintos.

Isso pode ou não estar alinhado com o que você acredita ou como sua plataforma de análise está configurada para acreditar que é uma sessão.

Como o Analytics determina uma sessão?

Os pacotes de análise, por outro lado, também seguem uma série de métodos para medir um usuário e suas atividades.

Dependendo do pacote de análise, uma “sessão” ou uma visita pode ser definida pelo usuário.

De acordo com a documentação do Google Analytics, “por padrão, uma sessão dura até 30 minutos de inatividade, mas você pode ajustar esse limite para que durar de alguns segundos a várias horas”.

Portanto, embora não saibamos o tempo exato do que a Pesquisa Google considera uma sessão, os números considerados nos trechos acima são certamente inferiores a 30 minutos.

Em uma patente relacionada ao Google Analytics, Sistema e método para agregar dados analíticos , os autores falam sobre como um usuário é rastreado por meio de um ID de sessão e como esse mecanismo pode ser invalidado:

“Um ID de sessão geralmente é concedido a um visitante em sua primeira visita a um site. É diferente do ID do usuário, pois as sessões geralmente duram pouco (elas expiram após um tempo predefinido de inatividade que pode ser de minutos ou horas) e podem se tornar inválidas após o cumprimento de uma determinada meta (por exemplo, uma vez que o comprador tenha finalizou seu pedido, ele não pode usar o mesmo ID da sessão para adicionar mais itens). “

Como resultado, um usuário pode potencialmente ser medido várias vezes para a mesma visita.

Os pacotes de análise são ambientes complexos que permitem diferentes níveis de especificidade em sua configuração.

Existem inúmeras razões pelas quais você não verá consistência entre dois pacotes de análise e muito menos duas ferramentas que medem coisas diferentes.

Por que os dois não combinam

Simplificando, um clique no Google Search Console não é uma sessão do Google Analytics e uma sessão do Google Analytics não é um clique no Google Search Console.

No cenário acima, em que um usuário clicou duas vezes, isso poderia ser considerado dois cliques e uma sessão.

Como alternativa, se um usuário realizar as duas pesquisas diferentes e fizer dois cliques diferentes, sua atividade poderá ser considerada uma impressão e um clique, mas também poderá invalidar o ID da sessão ou o tempo limite em algum momento e ser considerada duas visitas distintas em analytics.

Ou considere o seguinte:

Um usuário clica no seu resultado, mas sua análise não foi acionada por vários motivos. Isso explica qualquer uma das várias razões pelas quais a análise nem sempre é a fonte mais confiável da verdade.

Por fim, o GSC usa URLs canônicos, enquanto o analytics pode usar qualquer URL para relatar uma sessão. O Google fala um pouco sobre isso na documentação deles .

No entanto, a discussão deles tem mais a ver com a explicação das diferenças no contexto da integração do GSC com o GA do que com a explicação das diferenças nas metodologias de medição.

Termo	Utilização na Search Console	Utilização no Google Analytics
Impressões	Utilizado para impressões do Google Ads e da Pesquisa Google	Utilizado exclusivamente para impressões da Pesquisa Google
Cliques	Utilizado exclusivamente para cliques da Pesquisa Google	Utilizado para cliques do Google Ads e da Pesquisa Google
Posição média	Classificação média nos resultados da Pesquisa Google	Classificação média nos resultados da Pesquisa Google
CTR	Taxa de cliques. Cliques/impressões para cliques da Pesquisa Google.	Taxa de cliques. Cliques/impressões para cliques do Google Ads e da Pesquisa Google.
Palavra-chave	Aplica-se aos termos-chave utilizados no conteúdo escrito das páginas do Website. Estes termos são as palavras-chave mais significativas e as respetivas variantes que o Google encontrou ao rastrear o seu site. Quando revistos juntamente com o relatório de consultas de pesquisa e a listagem do seu site em resultados de pesquisa reais para as suas palavras-chave segmentadas, fornecem informações sobre como o Google está a interpretar o conteúdo do seu site.	Em relatórios de pesquisa paga ou do Google Ads, descreve uma palavra-chave paga de uma página de resultados de motor de pesquisa. Nos relatórios de pesquisa orgânica, descreve a string de consulta real introduzida por um utilizador numa pesquisa Web.
Consulta	A consulta real introduzida por um utilizador na Pesquisa Google.	Apenas utilizado nos relatórios da Search Console. Aplica-se à consulta real introduzida por um utilizador na Pesquisa Google.

Por que isso é um problema?

O principal problema é que muitos profissionais de marketing não acreditam nos dados da GSC porque consideram a análise sua principal fonte de verdade.

Ignorando que todas as análises são inerentemente falhas, afirmo que a paridade entre as fontes é irrealista e estamos olhando para dois lados da mesma verdade, apenas medidos de maneira diferente.

Os dados de desempenho do Google Search Console são uma medida do que está acontecendo no próprio Google, não necessariamente do que está acontecendo no seu site.

Ah, e enquanto estamos nisso, não esqueça que os dados de posição do GSC estão medindo algo diferente dos dados de seu ranking.

Como obter dados mais precisos

A precisão dos dados relatados no Google Search Console na verdade aumenta à medida que você introduz mais especificidade na maneira como analisa um site.

Em outras palavras, se você criar perfis que refletem níveis mais profundos da estrutura de diretórios, a ferramenta produzirá mais dados.

Pode ser bastante entediante adicionar 10s ou centenas de subdiretórios ao Google Search Console, mas o aumento na precisão dos dados pode ser bastante útil para casos de uso, como testes A / B e compreensão de oportunidades de palavras-chave inovadoras.

Ao adicionar diversos perfis, a principal limitação a ser lembrada é que a interface do usuário do GSC limita você a 1.000 consultas por filtro de pesquisa.

Portanto, considere usar a API para extrair seus dados, pois retorna 5.000 por filtro de pesquisa.

Além disso, para extrair o máximo de dados possível, considere fazer um loop através de uma série de tentativas como filtros de pesquisa (S / O para William Sears).

Isso garante que você use o maior número possível de subconjuntos de palavras como filtros para obter o máximo de resultados possível.

Fazer isso por subdiretório e seguir a taxonomia do site permitirá obter os dados mais precisos possíveis.

Desde o lançamento de “(Not Provided)” no final de 2011, sabíamos que nossos dados de pesquisa orgânica seriam destruídos.

Realisticamente, nunca viveremos em um mundo onde possamos vincular uma visita diretamente a uma sessão.

Os dados que o Google Search Console fornece são os melhores que teremos no futuro.

Embora os dados não correspondam à sua fonte de verdade, isso não significa que sejam imprecisos.

Da mesma forma que você não deve esperar que os dados dos Anúncios do Facebook correspondam ao Google Analytics ou os arquivos de log no Kibana relatem o mesmo que o Adobe Analytics, você não deve esperar que o Google Search Console corresponda aos seus dados analíticos.

Bruno Aires

Profissional de Marketing Digital com 15 anos de experiência em SEO, técnico e planejamento estratégico, já atuou em diversas agências e empresas de nichos bastante diversificado de farmácia ao setor bancário. É fundador e mantenedor do portal MBN - Marketing de Busca e Notícias.

Next Teste A / B: Por que e como fazer esses testes em seu site »

Previous « Como usar o Google Analytics

View Comments

Julia says:

14/03/2023 at 13:52

Obrigada! Ajudou muito seu material. Confesso que estava preocupada com a discrepância, mas agora me sinto mais aliviada e com argumentos mais convincentes.
- Bruno Aires says:
  
  20/03/2023 at 22:07
  
  É sempre bom ter argumentos para demonstrar as diferenças, agradecemos o seu comentário.