Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Comment récupérer les pages actives sur 1 an sans échantillonnage Analytics

La méthode SEO d’analyse des Pages Actives sur 1 an nécessite de récupérer des données fiables, notamment sans échantillonnage Google Analytics. Cette vidéo explique pourquoi c’est un problème et comment faire pour l’éviter.

Si besoin, consultez mes explications sur l’Analyse des Pages Actives sur 1 an.

Tout est expliqué dans ce tutoriel en vidéo :

A voir aussi sur YouTube : analyse des pages actives SEO sur 1 an et échantillonnage

Si vous préférez la version texte, voici le « transcript » :

Bonjour,

J’aimerais vous parler de l’échantillonnage des données dans Google Analytics, un sujet un peu technique mais hyper important, surtout quand il s’agit de prendre des décisions majeures pour votre référencement

J’ai publié sur WebRankInfo un article expliquant ma méthode SEO basée sur l’analyse des pages actives sur 1 an

Elle permet de repérer les pages qui semblent poser problème à l’algo de Google et pour lesquelles il faut agir (améliorer la qualité, mettre à jour, regrouper, supprimer…)

Cette analyse est entièrement incluse de manière automatique dans chaque audit RM Tech (à condition d’utiliser l’option de couplage avec Google Analytics sur 1 an)

Je suis ravi de constater que mon article a rencontré beaucoup de succès

En particulier, j’ai été énormément sollicité par des SEO (des agences, des consultants, des freelances ainsi que des responsables SEO chez l’annonceur)

Parmi leurs questions, j’aimerais en aborder 2 dans cette vidéo

  1. premièrement, certains clients de ma plateforme My Ranking Metrics s’étonnent de ne pas retrouver les mêmes valeurs entre RM Tech et Google Analytics, concernant le nombre de sessions que chaque page a générées sur 1 an. je vais vous expliquer les 3 erreurs les plus répandues qu’ils avaient faites
  2. deuxièmement, certains SEO me disent « Olivier, j’utilise justement ScreamingFrog pour récupérer le nombre de sessions générées en organic par mes pages. Que penses-tu de cette méthode ? »

Erreur n°1
La 1ère erreur est de consulter le rapport « Toutes les pages » de Google Analytics, au lieu du rapport « Pages de destination »
vous ne voulez pas savoir combien de fois vos pages ont été consultées, mais combien de fois elles ont généré de visites. Il faut donc s’intéresser à ce que Google Analytics appelle les pages de destination.

Erreur n°2
La 2ème erreur est d’utiliser une vue Google Analytics sur laquelle des filtres sont appliqués. Certains d’entre eux restreignent les données récupérées ou modifient l’URL telle qu’elle est enregistrée par Google Analytics.
Dans ces cas-là, les outils tiers qui se basent sur un export des données Google Analytics ne peuvent plus obtenir les bonnes valeurs, et donc l’analyse est impossible.
Je vous conseille donc d’utiliser une vue sur laquelle aucun filtre n’est appliqué. J’espère que vous avez conservé cette vue !

Erreur n°3
La 3ème erreur est de ne pas faire attention à l’échantillonnage qui peut être appliqué dans Google Analytics.
Concrètement, pour certains rapports qui demandent des calculs en temps réel, Google Analytics ne traite pas l’ensemble des données disponibles mais une partie seulement, afin d’accélérer le temps de réponse.
Pour analyser le nombre de sessions générées par le référencement naturel, une façon simple est d’appliquer un segment (pour inclure uniquement le support « organic »).
Mais ceci provoque souvent de l’échantillonnage !

Allons dans Google Analytics
J’ai choisi une période de 365 jours pour faire mes analyses de pages actives sur 1 an

Je suis allé dans Comportement > Contenu du site > Pages de destination
Je vois que Google Analytics m’indique qu’il n’y a pas d’échantillonnage. Normal, c’est un rapport par défaut.
Je vais appliquer un segment pour inclure uniquement le trafic issu des résultats naturels
Je l’applique et désormais Google Analytics m’indique que le rapport n’est basé que sur 16% des sessions !
Résultat, les valeurs indiquées dans le rapport ne sont que des estimations. Dans l’exemple à l’écran, elles sont parfois assez loin de la réalité.
Pour s’en rendre compte, j’ai fait un export de ces données Analytics.
Je les ai regroupées avec les données fournies par mon outil RM Tech. Il passe par l’API avec une méthode permettant d’éviter l’échantillonnage (pour 99% des utilisateurs). Le rapport indique toujours si un échantillonnage a eu lieu ou pas.

Voici les résultats.

Ici vous avez les valeurs obtenues par RM Tech.
Ensuite celles obtenues par Google Analytics avec de l’échantillonnage

Vous voyez sur les pages à fort trafic que les écarts (en nombre de visites) peuvent être importants.

Mais sur les pages très faiblement actives sur 1 an, par exemple celles générant mettons 5 visites. Selon les cas, Analytics a estimé qu’elles en avaient généré 0, ou 6, ou 12, ou 18…

Quand il s’agit de savoir si une page a généré des visites ou pas, et que selon les valeurs obtenues vous allez parfois décider de supprimer la page de votre site, ou de la faire désindexer, alors c’est grave si les valeurs sont fausses.

Je réponds maintenant à la 2ème question concernant ScreamingFrog.

Il s’agit d’un excellent outil de crawl, très performant. Il sait lui aussi récupérer les données de Google Analytics et les coupler avec les URL trouvées pendant le crawl. Concrètement, il va les récupérer dans votre compte via un processus classique d’authentification.

Dans Configuration > API Access > Google Analytics

Vous indiquez la période (1 an dans mon cas) et précisez que vous souhaitez le segment « Organic Traffic ». C’est celui proposé par défaut, ça tombe bien car c’est ce qui vous intéresse.

Sans surprise, les valeurs obtenues sont identiques à celles trouvées en direct dans l’interface web de Google Analytics. Sauf dans quelques rares cas que je ne sais expliquer.

Donc concrètement, si vous exploitez les données ainsi récupérées par Screaming Frog, vous risquez de vous baser sur des données fausses (si vous avez de l’échantillonnage sur 1 an). Ce qui est préjudiciable quand il s’agit d’envisager de supprimer des pages ou de les désindexer.

Ce qu’il faut bien voir aussi avec ScreamingFrog, c’est que c’est à vous de faire les bons croisements de données pour n’étudier que les pages indexables. A priori celles qui ont généré des visites sont indexables, mais elles peuvent ne plus l’être aujourd’hui.
Idem, si vous souhaitez savoir ce qui ne va pas avec les pages inactives, il faut croiser les données mais ce n’est pas facile à récupérer, surtout à la main.

Avec RM Tech, tout est automatisé :

  • l’identification des pages indexables
  • la récupération du nombre de sessions générées en référencement naturel sur 1 an, sans échantillonnage (pour 99,5% de nos clients). Le rapport indique toujours si un échantillonnage a eu lieu ou pas.
  • l’export des données finales comportant toutes les données (issues du crawl, de Google Analytics ou Search Console)
  • la liste des problèmes identifiés pour chaque page, avec les recommandations associées

Pour conclure, que vous utilisiez RM Tech ou un autre outil, c’est bien l’humain qui prend les décisions finales. Mais pour cela, il a besoin de s’appuyer sur des données fiables.

Cet article vous a-t-il plu ?

Note : 3.8 (5 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

6 commentaires

Cristovinho

J’ai voulu analyser sur une période d’un an les pages de destination avec un segment de trafic généré pas les résultats naturels. Résultat, le rapport est basé sur 100% des sessions…le logo est vert. Pourquoi est-ce différent pour moi ?

Merci encore pour cette vidéo !

Répondre
Olivier Duffez

ça dépend des volumes de données (nombre de sessions sur la période étudiée). Ce qui compte c’est de ne pas avoir d’échantillonnage, en tout cas pour prendre le genre de décisions expliquées ici.

Répondre
salazar

Pourquoi utiliser une vue vierge, puisque la vue vierge va inclure notre propre trafic (basée sur notre IP). Cela risque de fausser les donnees non?

Ex: Quand je vois dans GA une url que je ne reconnais pas, je l’ouvrir pour voir ce que c’est. donc augmenter le nombre de vue?

Répondre
Olivier Duffez

j’ai conseillé une vue vierge pour être certain qu’aucun filtre appliqué à la vue ne modifie les données
votre propre trafic serait alors inclus en effet, mais d’une part il doit être extrêmement faible par rapport à l’ensemble des visites (donc insignifiant), en tout cas je l’espère pour vous ! Et d’autre part, je ne m’intéresse ici qu’aux visites issues du référencement naturel. Je doute que vous visitiez souvent votre site en ayant fait des recherches via Google.

Répondre
Dju

Bonjour,
En suivant ce tuto, je me suis rendu compte qu’il est impossible d’exporter l’ensemble des résultats d’Analytics (pour les gros sites), mais juste ce que l’on a à l’écran (ou alors j’ai loupé un truc?). Donc comment fait-tu pour récupérer la liste complète des urls actives sur 1 an ?
Merci d’avance !

Répondre
Olivier Duffez

Si le site génère des visites sur un grand nombre de pages, il faut modifier le nb de lignes affichées à l’écran avant d’exporter. Si ça ne suffit pas, il faut absolument passer par l’API (ce que je fais avec mon outil RM Tech).

Répondre