Le trafic direct, 1er des ranking factors de l'étude SEMrush novembre 2017

WebRankInfo · 17 Novembre 2017

SEMrush a publié le 13/11/2017 les résultats d'une étude des Ranking Factors, c'est-à-dire les critères qui agissent sur le positionnement dans les résultats de recherche. Il s'agit de la 2ème étude, une mise à jour de la précédente sortie début 2017.

Selon eux, le critère n°1 est de loin le trafic direct, suivi par des métriques liées aux sessions de l'internaute sur le site (temps passé sur le site, nombre de pages vues, taux de rebond).
Ensuite seulement arrivent les critères de popularité traditionnels (liés aux backlinks) et au contenu éditorial (notamment sa taille).

Vous pouvez télécharger le rapport ici (il y a aussi un document qui présente la méthodologie).

Que pensez-vous de leur étude et des résultats présentés ?

Voici mon humble avis, pour démarrer la discussion...

J'ai choisi de pointer du doigt 4 points

1- Pour ma part, j'ai d'abord regardé le doc de méthodologie, car je faisais partie des "très sceptiques" quand la 1ère version de l'étude était sortie. Je déteste qu'on appelle ça une analyse des ranking factors, car je me demande s'il existe vraiment une entité au monde (externe à Google) qui puisse réellement identifier et mesurer l'importance des ranking factors.
La plupart de ceux qui font ce genre d'études utilisent ces termes (dans le titre) car ça marche bien pour la comm.
Dans le cas présent, je note une incohérence car dans les explications, les auteurs nient le fait qu'il s'agisse d'une étude de ranking factors. C'est très net avec le début de la conclusion (du doc méthodo) :

Il n’y a aucune garantie que si vous améliorez vos métriques de site pour n’importe quel facteur susmentionné, vos pages se mettront à mieux ranker.

2- J'ai apprécié leur virage à 180° : enfin, ils admettent qu'avoir basé les études précédentes sur de la corrélation était une erreur.

Pourquoi nous pensons que l’analyse de corrélation est mauvaise pour les études de facteurs de ranking

J'ai donc lu les explications sur l'algo Random Forest. Le pb est que malgré mon profil d'ingénieur, je suis dépassé par les explications. Si 1% des lecteurs de l'étude arrivent à comprendre la méthode, je serais déjà étonné

Si des experts en algorithmie pouvaient nous donner leur avis, ça serait top.
En tout cas au final je n'arrive toujours pas à être convaincu qu'on puisse faire de l'ingénierie inverse dans le cas qui nous intéresse...

3- Selon cette étude, le critère le plus important est le "trafic direct". Je suis vraiment très sceptique... Je pense même que c'est une erreur d'affirmer ça. Vous trouverez dans cet article et surtout ses commentaires de solides arguments pour l'expliquer.
En gros, le trafic direct est le canal d'acquisition que j'appelle "poubelle"... En effet, on classe dedans toute source de trafic inconnue. C'est en fait assez rare qu'il s'agisse de trafic directement lié à la notoriété, il y a plein d'autres cas de figure qui alimentent ce trafic direct (et la montée en puissance de HTTPS n'aide pas). Ce qui réduit d'autant la précision de ce critère, et me fait douter de la place qui lui est accordée dans l'étude.
A mon avis, Google pourrait se baser sur des métriques liées à la renommée de la marque (ou plus généralement du nom) du site. Par exemple le nombre de recherches de la marque, ou de recherches combinant marque et mot-clé.
Vous-même pouvez le mesurer en étudiant les termes de recherche dans Search Console.
Mais on ne peut pas faire le raccourci "trafic direct" = "trafic de notoriété"

4- Je suis également sceptique sur les critères liés à la session de l'internaute (notamment ce qui concerne le temps). J'ai longuement expliqué pourquoi dans ce dossier où je décortique les métriques de Google Analytics concernées.
Je pense que les critères qu'ils mettent en avant sont souvent (mais pas toujours) le reflet de sites de qualité, mais que cela ne signifie pas pour autant que ce soit la cause de leur bon positionnement. Par ailleurs, je crains qu'il y ait trop de "bruit" dans la mesure de ces valeurs, surtout dans leur étude. On ne sait pas d'où viennent les valeurs, ça semble venir des données Analytics récoltées sur leur plateforme. Je fais la même chose sur My Ranking Metrics et je vois bien toute la difficulté à avoir des statistiques fiables. En tout cas pour ma part, j'exclus plein de cas de figure pour éviter qu'ils faussent l'ensemble.

Je finis par une note plus positive : je suis assez d'accord avec l'idée qu'un site doit avoir de l' E.A.T. pour réussir. Il s'agit en anglais de Expertise, Authoritativeness, and Trustworthiness. Que l'on peut traduire par Expertise, Autorité et Confiance.
(autorité dans le sens "faire autorité", le susbstantif autorité n'est pas la traduction idéale de Authoritativeness)
Il s'agit de "concepts" largement évoqués dans les consignes officielles de Google à ses évaluateurs de la qualité des résultats (Search Quality Raters). Vous pouvez les consulter dans ce PDF en anglais.
Cela dit encore une fois, je vois mal comment on peut prouver que ces concepts sont utilisés par Google. Et si oui, quelles métriques sont évaluées ?

Par ailleurs, j'ai apprécié leur gros travail et le fait qu'il soit partagé pour que la communauté SEO en discute.

François · 17 Novembre 2017

Bonjour Olivier,

Je suis assez d'accord avec toi, d'ailleurs, je reconnais le travail considérable que cela demande, mais je n'aime pas trop ce genre d'étude. Elles ne font que constater l'existant, et je ne vois pas vraiment comment on peut éliminer la corrélation.

Je comprends ta réaction face au trafic direct mais j'aimerai y apporter un bémol par une expérience fortuite que j'ai eu cette année.

Ayant créé un thème WordPress mis en pâture sur la célèbre marketplace Australienne, j'ai mis en place une campagne Adwords quelque mois après sa publication, les ventes n'étant pas au rendez-vous.

J'ai eu la surprise de faire un petit traffic organique Google sur un des sites de démos 8O
Je vérifie, et je constate que j'avais oublié de le mettre en noindex. Je me mets donc à regarder sur quoi il "sort".
Et surprise à nouveau, le site sortait sur des requêtes assez concurrentielles liées au tourisme ( 1ère et seconde pages ). Je précise que le contenu était hautement dupliqué car en provenance de sites d'articles libres.
Depuis que j'ai arrêté la campagne, ceci ne s'est plus reproduit, je pense qu'il y a une part importante de l'algo qui se base sur le trafic non organique.

En gros "aides-toi et Google t'aidera" !

La taille du contenu je n'y crois plus, je vois trop de sites sans contenu ou très faible qui rankent, je crois comme toi à E.A.T. fut-il artificiel.
J'ai la ferme conviction que l'algo aujourd'hui est basé sur le comportement de l'utilisateur, mais de façon très basique.
Je m'explique : un site à la limite de l'escroc, avec un bad buzz, va ranker parce qu'on parle de lui, j'en connais, toi aussi je pense.
Je connais des réseaux de sites de ventes, en complet duplicate qui rankent bien, pourquoi ? Parce qu'ils sont populaires, parce qu'ils ont des très bon prix, même si tous les clients râlent sur le service bas de gamme.

Google classe bien les sites que la plupart des gens demandent.

A la fin, ces sites se retrouvent dans ce genre d'études, et ont des métrics identiques par la force des choses... Il faudrait une étude historique pour voir l'évolution des ces métrics au cours du temps, autant dire impossible ou presque.

Je sais que mon propos peut paraitre un peu confus par moment, c'est parce que je traduit une intuition, celle que Google ne suis pas une logique telle que nous la percevons. Mais à réussi à dresser un profil des utilisateurs par secteurs d'activités ainsi qu'un profil de sites par activité. C'est là que ce genre d'études se prend le mur.

A+
François

Natalia Zhukova · 17 Novembre 2017

Bonjour Olivier !
Merci beaucoup pour ton avis !
Je vois que je peux ajouter un peu plus d'info sur notre étude

Pour les facteurs de ranking, ça amène toujours à un débat. Nous avons pris la plus grande partie des données jamais prise pour des études de ce genre, mais nous n’avons pas couvert tout le web.

1
Oui, on ne donne pas de garanties. Mais on montre ce que la data nous donne. C’est une analyse basée sur la grande portée de data et ça peut donner des idées sur les trucs qu’il faut prendre en compte en priorité. Mais on indique bien sûr que tous les facteurs sont importants et si tu changes un truc ça ne te donne pas les 1ères positions partout. De plus, tu vois, Google c’est plus compliqué

il y a plein de facteurs différents et c’est seulement Google qui les connais. Mais en analysent plein de data on a ces résultats.
Depuis de nombreuses années, SEMrush est l’un des principaux fournisseurs de données et solutions SEO. Il est important pour nous de comprendre la tendance générale et de nous assurer que nos instruments aident à prioriser et réaliser diverses tâches.
Alors la prochaine fois que vous arrivez à l’optimisation d’une page pour un mot-clé particulier et vous jetez un oeil à vos rivaux réels. 10 rivaux ? Sont-ils des grandes marques ? Est-ce que leur contenu est bien fait et les utilisateurs restent sur la page? Ont-ils un large éventail de liens ? Ont-ils un domaine sécurisé ? etc. Nous espérons que nos recherches vous aideront à comprendre les priorités.

2
Oui, tu as raison, tous les trucs de Random Forest sont compliqués à expliquer et à comprendre

Le truc important de cette méthodologie est que ça nous permet de ne pas faire une corrélation simple, mais trier les facteurs par leur importance.

A propos de la méthodologie - nous avons appliqué l’algorithme de machine learning appelé Random Forest et nous avons calculé tous les facteurs ensemble. T'as parlé un peu de la méthodologie mais je te donne plus de détails. Nous avons appliqué la méthodologie complètement différente par rapport aux autres études de ranking factors. Et nous sommes convaincus que la méthode de corrélation est obsolète puisque les SERPs et les algorithmes de Google sont beaucoup plus complexes. Vous ne pouvez pas vraiment revendiquer (réclamer) l’importance et l’influence d’un facteur sans prendre en compte les autres. En outre, avec une si grande portée (600 000 mots-clés) les SERPs sont vraiment uniques, donc nous avons comparé URL par URL par deux (en paires) de façon aléatoire. Ensuite on a mis ça dans l’algo machine learning Randon Forrest. C’est l’un des plus fiables algos de machine learning si on travaille avec de gros tronçons (morceaux) de données et il a été créé spécialement pour calculer l’importance des attributs. À l’intérieur de l’algorithme, les tronçons de données sont fournis à des millions de collecteurs de données (arbres) et chaque arbre reçoit un ensemble unique de paires. Une fois que les 2/3 des données ont été attribués à l’algorithme et que la forêt est complètement développée, on fait le test sur le reste (1/3 des données). À ce stade, on commence à exclure les attributs et si on remarque qu’il y a un changement radical parmi ces millions d’arbres ça indique que cet attribut a une grande importance. Si rien n’est changé - pas important. De cette façon, avec des millions d’ensembles de données indépendantes, il y a presque aucune chance d’erreur.

3
Le trafic direct, c’est des utilisateurs qui viennent directement sur le site. C’est indiqué comme ça dans la documentation Google Analytics et de tous les autres outils. On a essayé de garder la description commune pour nous assurer que tout le monde comprend les résultats.
Lorsqu’on a exclu le trafic search (organique et payant) de toutes les visites, les résultats n’ont pas changé et l’algorithme n’a pas signalé d’importance. Après, on a exclu le trafic social et référent. Et quand seulement le trafic direct est resté, on a vu que c’est le facteur principal. Oui, on parle de source de trafic inconnue, mais il faut prendre en compte que c’est toujours les gens qui tapent quelques choses dans la barre de search ou par exemple utilisent des bookmarks, etc. Certains liens d’emails et / ou de fichiers PDF ne soient pas “directs” par leur nature, ils appartiennent toujours à la chaîne directe, selon la documentation de Google Analytics. Peut-être c’est pas directement lié à la notoriété à 100%, mais ton brand awareness influence les utilisateurs. Le trafic direct est souvent le signe d’une bonne notoriété de la marque.
Il est difficile de mesurer la notoriété de la marque (brand awareness) en chiffres, mais le trafic direct est certainement l’un des indicateurs de la notoriété de la marque. Nous supposons que le trafic direct n’est pas la cause, mais qu’il prouve plutôt que l’autorité est importante pour le ranking élevé.
On ne dit pas que seulement le volume du trafic direct vous amène à la première position. Le trafic direct est un signal d’une notoriété, ce qui prouve que le PR et la gestion de l’e-réputation sont importants pour le SEO. Nous déclarons que l’autorité du domaine (domain authority) est importante.
Google a également déclaré qu’un seul facteur de ranking est l’excellence (awesomeness)

!!!

4
Encore une fois on montre ce que la data nous donne. C’est une analyse basée sur une grande portée de data. Mais on indique bien sûr que tous les facteurs sont importants et si tu changes un truc ça ne te donne pas les 1res positions partout. De plus, tu vois, Google c’est plus compliqué :slightly_smiling_face: et il y a plein de facteurs différents et seul Google les connaît. Mais en analysant plein de data on a ces résultats. Notre étude montre que les sites qui se positionnent aux premiers résultats ont des métriques liées à la session plus réussie.
Pour avoir et analyser l’information sur le trafic, on utilise la data de notre outil Traffic Analytics (estimations sont basées sur clickstream data qu’on obtient de plusieurs sources de données propriétaires et tierces) qui permet de voir les canaux de trafic sur un site web : organiques, payants, sociaux, directs et référents. C’est la source que de nombreux outils utilisent de nos jours pour aider les utilisateurs à avoir une idée de ce que font leurs concurrents.

Merci encore une fois de partager avec nous toutes vos préoccupations, cela nous aidera à faire mieux la prochaine fois

! Si vous avez des suggestions sur les autres aspects que nous devrions considérer dans notre prochaine étude, n’hésitez pas à nous les communiquer !

thickparasite · 17 Novembre 2017

J'ai donné mon avis sur l'étude en vidéo
http://www.laurentbourrelly.com/blog/54624.php

Comme toi, je pense que l'appellation Ranking Factors n'est pas bonne, mais j'ai la chance d'avoir un docteur es algorithme en speed dial qui m'a expliqué Random Forest.

Le souci est qu'on a une étude sur des conséquences de ranking factors. Une eau de couleur verte sort du tuyau. Est-ce qu'il y a un pot de peinture verte au robinet ou un jaune et bleu ?

Mais bon, c'est moins pire que les précédentes dans la méthodologie.
Ce qui m'a vraiment intéressé est le drop pour le 1er résultat. Si l'effet marque fait foirer à ce point l'étude, cela suggère quand même pas mal de choses au niveau de l'approche visibilité pour un site Web.
En d'autres termes, si tu n'es pas capable de construire une marque aujourd'hui, tu vas certainement perdre.
Ma préco est minimum 1/3 du trafic qui doit être en relation avec la marque.

nickargall · 17 Novembre 2017

Amha, meme si en effet cette étude n'est pas (et ne prétend pas) être une méthodologie pour performer au mieux dans le trio ranking/trafic/conversions, elle a le mérite de se baser sur un volume conséquent de datas, réduisant de facto les risques de contre sens.

Elle a aussi le mérite de remettre en question des facteurs qu'on considère souvent comme des «piliers» immuables de la discipline, ce qui ne peut que faire progresser la réflexion -et donc la competence- de la communauté SEO.
Merci SemRush

cheloniologue · 22 Novembre 2017

En gros....
1/ tu as intérêt à avoir un sacré NDD facile à écrire et retenir.

2/ disloque ton contenu sur plusieurs pages pour un maximum de sessions.