Fuite de documents sur l'algorithme de Google

kristel · 28 Mai 2024

Pour votre info:

"Des milliers de documents internes provenant de l’équipe de recherche de Google (et divulgués par une source anonyme). La source affirme que ces documents ont été confirmés comme authentiques par d’anciens employés de Google .....Ces documents révèlent des pratiques internes de Google qui contredisent ses déclarations publiques"

Pour en savoir plus :
https://www.abondance.com/20240528-531373-google-milliers-documents-internes.html
et ses sources en anglais

Je vous laisse juges.

(edit)
NB
En ce qui concerne les listes blanches, l'info était connue depuis 2011 (pas confondre avec un article poisson d'avril d'Andrieu en 2015)
D'autres infos semblent conformes avec celles divulguées lors du récent procès antitrust contre Google aux USA (le verdict est attendu dans les mois à venir).

kristel · 28 Mai 2024

(edit)
En revanche, le fait que ces infos soient rendues publiques par une firme qui organise un événement marketing en octobre prochain me laisse sceptique, en tous cas quant à la présentation/forme de ces "révélations".

WebRankInfo · 28 Mai 2024

La source n'est plus anonyme, il s'agit apparemment de Erfan Azimi

WebRankInfo · 28 Mai 2024

Les docs sont disponibles ici par exemple.
Les articles publiés par ceux qui ont révélé cette fuite sont :

An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them (SparkToro), 27/05/2024
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked (ipullrank), 27/05/2024

On a pas mal de confirmations sur la prise en compte des données de navigation des utilisateurs, aussi bien dans les SERP que via Chrome.
On apprend le nom Twiddler. Les Twiddlers sont des fonctions de reclassement qui s’exécutent après l’algorithme de recherche primaire. En gros, il s'agit par exemple de l'algorithme NavBoost, QualityBoost, RealTimeBoost ou WebImageBoost.
quelques détails sur Panda
Google s'intéresse de près aux auteurs (parmi toutes les entités détectées sur une page)
il existe plein de cas de demotions (rétrogradations)
pas mal de détails sur les liens, notamment les backlinks
dans l'analyse des liens, Google se base sur de multiples versions historiques des documents (mais se limite aux 20 dernières)
la taille de la police semble prise en compte (pour quoi, mystère)
quand un document est court (nombre de mots) c'est son originalité qui compte
la correspondance des mots de la balise title avec ceux de la requête semble (encore) importante
Google fait attention aux dates d'un document, surtout pour renvoyer des résultats "frais"
les plateformes vidéo sont traitées différemment, et sont détectées comme telles si + de 50% de leurs pages contiennent des vidéos
la notion de YMYL est clairement prise en compte

Pour ma part, ça ne va pas changer ma façon de faire le SEO, et je ne vois pas vraiment le pb pour Google, à part le manque de crédibilité des Googlers qui communiquent en public sur l'algo (par exemple John Mueller ou Gary Illyes)

colonies · 29 Mai 2024

WebRankInfo a dit:
la taille de la police semble prise en compte (pour quoi, mystère)

Peut-être pour se baser sur ce que l’utilisateur voit, et non ce que l’auteur du document indique. Un div en haut de page avec un texte en taille 40px ressemble plus à un titre qu’un h1 avec une police de 16px. Enfin j’imagine qu’il peut s’agir de ça.

poupilou · 29 Mai 2024

Extraits (et traduction) de cet article :

- La marque compte plus que toute autre chose. S'il y avait un conseil universel que je donnerais aux spécialistes du marketing cherchant à améliorer considérablement leur classement et leur trafic dans les recherches organiques, ce serait : « Créez une marque notable, populaire et bien reconnue dans votre espace, en dehors de la recherche Google. ».

- Renforcer son influence en tant qu’auteur en ligne peut en effet conduire à des avantages en matière de classement dans Google. Mais « Il existe de nombreuses marques puissantes qui se classent remarquablement bien dans Google et ont très peu d’expérience, d’expertise, d’autorité ou de fiabilité, comme le détaille en profondeur le récent article viral de HouseFresh. ».

- Le contenu et les liens sont secondaires lorsque l'intention de l'utilisateur concerne la navigation (et les modèles créés par cette intention) sont présents. Disons, par exemple, que de nombreuses personnes dans la région de Seattle recherchent « Lehman Brothers » et font défiler jusqu'à la page 2, 3 ou 4 des résultats de recherche jusqu'à ce qu'elles trouvent la liste des théâtres de la production scénique de Lehman Brother, puis cliquent sur ce résultat. . Assez rapidement, Google apprendra que c’est ce que veulent les chercheurs de ces mots dans cette zone.

- La puissance de Navboost et l’intention des utilisateurs sont probablement le facteur de classement le plus puissant dans les systèmes de Google.

- Facteurs de classement classiques : le PageRank, les ancres (PageRank thématique basé sur le texte d'ancrage du lien) et la correspondance de texte ont perdu de leur importance depuis des années. Mais les titres de page restent très importants.

- Il est peu probable que le contenu que vous créez fonctionne correctement sur Google s'il existe une concurrence de grands sites Web populaires avec des marques bien connues.

- Le référencement est un jeu de grande marque et de domaine populaire.

Pour ma part, ça confirme la montée dans les serps depuis Octobre 2023 des grandes marques (comme Tiffany, De Beers, etc... dans mon domaine) et la chute des sites d'indépendants. Comment lutter face à autant de connerie ? Ce n'est pas parce que ta marque est connue, que ton contenu est pertinent et écrit par des gens compétents : c'est quand même pas dur à comprendre ça, non ? Quand je consulte les sites de ces grandes marques et que je vois la qualité et la pauvreté des articles rédigés, j'ai envie de vomir !

Vous avez beau écrire les articles les plus intéressants du monde, d'un intérêt crucial, si votre site (votre marque) n'est pas dans la "liste blanche" de Google, vous serez relayé aux oubliettes dans les serps. La messe est dite...

WebRankInfo · 29 Mai 2024

Je continue avec d'autres infos

Quelques exemples de modèles à aller consulter

Ce modèle décrit 132 attributs rattachés à une page web !
https://hexdocs.pm/google_api_conte...Api.ContentWarehouse.V1.Model.PerDocData.html

ou d'autres propriétés d'un document
https://hexdocs.pm/google_api_conte....ContentWarehouse.V1.Model.DocProperties.html

informations sur les liens spam
https://hexdocs.pm/google_api_conte...V1.Model.IndexingDocjoinerAnchorSpamInfo.html

statistiques des liens
https://hexdocs.pm/google_api_conte....Model.IndexingDocjoinerAnchorStatistics.html

analyse du sentiment de l'internaute
https://hexdocs.pm/google_api_conte...entWarehouse.V1.Model.SentimentSentiment.html
le sentiment et les émotions que l'utilisateur manifeste au moment de la requête :
La polarité représente le sentiment à l'égard du sujet.
le comportement est pour l'instant uniquement une évaluation du degré de politesse
les émotions gérées sont : colère, dégoût, peur, bonheur, tristesse, surprise

Résumé des informations fournies par Rand et Mike

Navboost et l'utilisation des clics, du CTR, des clics longs par rapport aux clics courts et des données utilisateur de Chrome semblent faire partie des signaux de classement les plus puissants de Google.
Google utilise des listes de sécurité pour des sujets sensibles tels que COVID-19, les élections et les voyages afin de contrôler les sites qui apparaissent.
Google utilise les commentaires et les évaluations des évaluateurs de la qualité dans ses systèmes de classement, et pas seulement comme un ensemble d'entraînement aux systèmes IA (machine learning).
Les données relatives aux clics influencent la manière dont Google pondère les liens à des fins de classement.
Les facteurs de classement classiques tels que le PageRank et le texte d'ancrage perdent de leur influence au profit de signaux plus centrés sur l'utilisateur.
Construire une marque et générer une demande de recherche est plus critique que jamais pour le succès du référencement.

Validité des données ?

https://www.searchenginejournal.com/google-data-leak-clarification/517711/
Il n'y a pas de preuves concluantes que les données proviennent de Google Search, et l'ambiguïté persiste quant à leur véritable origine et utilisation.
Les ex-employés de Google contactés par Fishkin ont seulement confirmé que les données semblaient authentiques et similaires à des documents internes de Google, sans affirmer qu'elles proviennent spécifiquement de Google Search.
On ne sait pas non plus si cela concerne quelque chose utilisé en production ou seulement en tests.

Ce document contredit ce que plusieurs employés de Google ont affirmé pendant des années

https://www.searchenginejournal.com...flicting-signals-unanswered-questions/517669/
Google a toujours affirmé ne pas utiliser directement les données de clics et les métriques d'engagement des utilisateurs dans ses algorithmes de recherche. Cependant, ces documents mentionnent des fonctionnalités comme goodClicks et badClicks, liées aux systèmes de classement Navboost et Glue, confirmés par un VP de Google. Ils suggèrent également que les données de navigation Chrome sont utilisées pour influencer les classements, contredisant les déclarations passées de Google.

Attention au biais de confirmation

(c'est-à-dire chercher des informations qui confirment des croyances préexistantes) :

https://twitter.com/x/status/1795508097026269589

Chacun voit ce qu'il veut voir.
Les vendeurs de liens vous disent que cela prouve que les liens sont toujours importants.
Les adeptes du référencement sémantique vous disent que cela prouve qu'ils avaient raison depuis le début.
Les sites de niche vous disent que c'est la raison pour laquelle ils se sont effondrés.
Les agences vous disent que cela prouve que vous devriez construire une marque.

Pour chercher par mot-clé dans les modules, ce tableau est pratique

https://dixonjones.com/google-ranking-signals/

Une feuille Google Sheets pour ce qui concerne le SEO local

https://www.localseoguide.com/local-seo-according-to-the-leaked-google-api-documents/

un autre résumé en français

https://www.partouzedeliens.info/fuite-api-de-google-search-1529/
Évaluation du Spam : Google attribue des scores de spam et utilise des systèmes comme SpamBrain pour détecter les contenus indésirables.
Scores YMYL : Les contenus relatifs à la santé et aux actualités sont évalués avec des scores spécifiques, influençant leur classement.
Thématisation : Les sites spécialisés dans un domaine obtiennent un meilleur classement dans Google Discover.
Whitelist : Utilisée pendant la crise du COVID-19 et les élections, avec des sites considérés d'autorité
Interactions Utilisateurs : Les données d'interaction des utilisateurs, telles que les clics et les impressions (mais ça va très loin), jouent un rôle crucial dans le classement des documents. Les données de Chrome sont utilisées.
Autorité du Site et de l'Auteur : Des attributs comme siteAuthority et isAuthor sont utilisés pour évaluer l'autorité des sites et des auteurs.
Backlinks : plein de détails sur la façon de traiter les mauvais backlinks dans le cadre de Penguin

poupilou · 29 Mai 2024

Réunion d'urgence chez Google avec les juristes et les avocats : Google doit-il confirmer ou démentir la véracité de ces documents ? Le silence de Google sur cette affaire en dit long (si ces documents étaient des fakes, ils auraient déjà démenti)... préparons nous au bullshit Googolien.

Par contre si Google confirme, alors cela donnera beaucoup de munitions aux spammeurs...

WebRankInfo · 29 Mai 2024

Google a dit qu'il ne commentera pas (source).
Je ne vois pas bien de ce que les spammeurs pourraient vraiment exploiter, tu as un exemple ?

poupilou · 29 Mai 2024

WebRankInfo a dit:
Je ne vois pas bien de ce que les spammeurs pourraient vraiment exploiter, tu as un exemple ?

Par exemple, la réputation d'un site et la crédibilité de son auteur sont apparemment des critères importants qui sont pris en compte dans l'algo de Google, il n'est pas très difficile d'imaginer des spammeurs poster massivement sur des blogs des articles citant le nom de l'auteur du site pour lui « apporter » plus de crédibilité. Ca va être la course à la crédibilité et à la notoriété de l'auteur + une accentuation de l'achat de backlinks (qui accroit la « notoriété » du site).

Le clic sur les liens dans les serps sont aussi pris en compte par l'algo, un clic court sur un lien envoi un signal négatif au lien (donc au site). On peut imaginer que des spammeurs mettent en place des systèmes de clics court dans les serps sur les liens des sites concurrents pour faire baisser dans les serps ces sites et manipuler ainsi l'algo. Est-ce que nous même on ne sera pas tenté de cliquer très régulièrement sur les liens de nos concurrents par le biais de clic court ?

Je crois que les spammeurs ont suffisamment d'imagination pour utiliser chaque infos contenues dans ces documents pour essayer de manipuler l'algo. Les enjeux sont trop importants.

Marie-Aude · 29 Mai 2024

poupilou a dit:
Par exemple, la réputation d'un site et la crédibilité de son auteur sont apparemment des critères importants qui sont pris en compte dans l'algo de Google,

Ce n'est pas nouveau. L'autorité, la nécessité d'avoir des profils d'auteurs avec un knowledge graph sont connus depuis longtemps

poupilou a dit:
Le clic sur les liens dans les serps sont aussi pris en compte par l'algo, un clic court sur un lien envoi un signal négatif au lien (donc au site)

Oui, mais sais-tu comment ? Et quelle est la différence avec "un bounce rate trop élevé est mauvais pour ton SEO" (là aussi, depuis longtemps...)

kristel · 29 Mai 2024

1. Au sujet de NavBoost, ce petit résumé:
https://www.abondance.com/20240529-533696-navboost.html

2. Quant à la crédibilité des googlers et pour ce qui en est de John Mueller, celui-ci ne devrait pas en être fort affecté ; car, il ne faisait la plupart du temps que vulgariser les directives classiques de Google comme celles de Google Support, pratiquement jamais des divulgations réelles.

WebRankInfo · 30 Mai 2024

Google a répondu :

Nous vous mettons en garde contre les hypothèses inexactes concernant la recherche, fondées sur des informations hors contexte, obsolètes ou incomplètes. Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et les types de facteurs que nos systèmes prennent en compte, tout en nous efforçant de protéger l'intégrité de nos résultats contre les manipulations.

rick38 · 31 Mai 2024

"La marque compte plus que toute autre chose."

Oui mais alors la question est : comment Google sait qu'une marque est populaire ? (sans utiliser les backlinks donc)

WebRankInfo · 31 Mai 2024

s'il se rend compte que les internautes l'utilisent dans leurs recherches (encore plus quand ils combinent la marque avec un produit ou service)
s'il rencontre plein de mentions de la marque (pas forcément des backlinks)
etc.

poupilou · 3 Juin 2024

Google confirme l'authenticité des documents qui ont fuité sur Internet

WebRankInfo · 3 Juin 2024

ça, c'est le titre de l'article de Clubic.
ce qu'a dit le porte-parole de Google, c'est :

Nous mettons en garde contre les suppositions inexactes sur la recherche basées sur des informations hors contexte, obsolètes ou incomplètes. Nous avons partagé de nombreuses informations sur le fonctionnement de la recherche et les types de facteurs que nos systèmes prennent en compte, tout en nous efforçant de protéger l'intégrité de nos résultats contre les manipulations

WebRankInfo · 3 Juin 2024

je vous partage mes idées dans un dossier, fruit de longues heures de travail : quelles actions SEO mettre en place suite à la fuite de documents Google ?

kristel · 11 Juin 2024

Google leaks
Réactions/Précisions du Googler Danny Sullivan au sujet du rôle du taux des clics:

https://www.abondance.com/20240611-554805-danny-sullivan-google-leak.html

Fuite de documents sur l'algorithme de Google

Quelques exemples de modèles à aller consulter​

Résumé des informations fournies par Rand et Mike​

Validité des données ?​

Ce document contredit ce que plusieurs employés de Google ont affirmé pendant des années​

Attention au biais de confirmation​

Pour chercher par mot-clé dans les modules, ce tableau est pratique​

Une feuille Google Sheets pour ce qui concerne le SEO local​

un autre résumé en français​