Collectif d'étude de la fuite de documents Google Leak

Nouveau WRInaute

Exploration solo : mission impossible​

Depuis 2 semaines, je passe du temps à me plonger dans les documents de la Google Leak, et à essayer d'y comprendre quelque chose.
C'est très obscur au début mais plus on lit, mieux on comprend : le charabia du jargon, des noms poétiques et des acronymes cryptiques - Mustang, Ocean, NSR, PQ etc - s'éclaire peu à peu et prend sens - dans une certaine mesure.
J'ai établi et publié la liste complète des modules, pour essayer de comprendre la structure d'ensemble.
J'ai étudié en détails et commenté deux modules :
- CompressedQualitySignals
- QualityNsrNsrData
Bref, 2 semaines à temps très partiel et je n'en suis que là.
Il semble évident que même à plein temps, l'analyse approfondie des documents de la fuite par une seule personne prendrait des mois.

Travaillons en commun et répartissons-nous la charge de travail ?​

Je propose donc qu'on se coordonne :

1/ on se répartit des blocs de modules à explorer.​

Dans ma liste complète des modules, j'ai structuré en mettant des titres H2 pour chaque série de modules dont le nom commence par le ou les mêmes termes. ça fait clairement apparaitre des groupes thématiques.
On peut donc explorer chacun un de ces groupes, puis faire un compte-rendu et en débattre.

2/ on débat régulièrement sur nos trouvailles, hypothèses, problèmes d'interprétation etc​

Il est clair que pour comprendre certains modules et attributs, il faut en avoir exploré d'autres et ainsi de suite, or on ne peut pas tout explorer, donc en en discutant chaque chercheur / chercheuse aurait l'occasion de compléter ses pièces du puzzle avec celles des autres.
Pour débattre il faudrait monter ptet une conférence audio ici ou là (Discord, Zoom ?)

Voilà l'idée, qui serait partant ?
 
Nouveau WRInaute
Oui pas de souci.
Je sais pas si je peux poster les liens vers mes commentaires de modules ? c'est vraiment difficile à résumer tant il y a d'incertitudes.
Bon tsé quoi je vais poster les liens pis si c'est pas ok tu me dis et j'édite le post.

Liste structurée des modules : https://boutique-wp.fr/liste-modules-googleapi-contentwarehouse/
Tentative d'analyse du module QualityNsrNsrData : https://boutique-wp.fr/nsr/
Tentative d'analyse du module CompressedQualitySignals : https://boutique-wp.fr/compressedqualitysignals/

Ps : j'ai lu tes articles, manifestement y'a des modules qui nous semblent plus intéressants que d'autres.
Je les scanne "un par un" en en prenant au moins un par "groupe de modules" pour identifier de quoi ça parle (première approche...), j'en suis à "Copley", plein de modules parlent d'autre chose que de SEO (Google Apps = Google Play j'imagine, Google Assistant, etc), or moi c le SEO qui m'intéresse.
 
Nouveau WRInaute
bonjour, je ne pense pas, j'y ai pensé mais j'ai croisé plusieurs fois le mot shard, je vois pas pourquoi ils utiliseraient un mot pour un autre.
Le problème est que le mot chard veut dire en anglais "blettes" ou "bettes à cardes" : ça semble donc très inapproprié, sauf qu'il y a aussi régulièrement le mot "rhubarb" :) Je compte enquêter sur cette rhubarbe, j'ai pas encore eu le temps.
 
WRInaute discret
Une "image de chard" : ou pluto du concept en se référant aux feuilles d'artichaud. https://boutique-wp.fr/nsr/

Au centre : la cible (exemple : une page, un contenu dans une page, un concept ...) - Autour : le chemin pour arriver à la cible (exemple : des pages, la hierarchisation d'un contenu, des variantes ou sous-elements du concept ...) .

Le schema ci-dessous est fourni par la wayback machine pour un domaine.


chard.png

Définition de "côtes (ou cardes) botanique" : https://www.larousse.fr/dictionnaires/francais/côte/19601
 
Dernière édition:
Nouveau WRInaute
@eldk ça me semble en effet possible que le mot chard désigne ce type de graphique.

Je viens de créer un début de lexique de l'API Google : https://boutique-wp.fr/vocabulaire-google-leak/

Je vais attendre de croiser le mot chard encore quelques fois et voir si ça colle dans le contexte, auquel cas je l'ajouterai au lexique.

J'ai aussi passé des dizaines d'heures à analyser la très longue liste d'attributs du module PerDocData :

https://boutique-wp.fr/perdocdata/

(Désolé, l'article compte 11 000 mots et j'ai pas encore produit de synthèse : je préférerais en discuter avant d'écrire ma synthèse.)

Ce module me semble très important : je pense qu'il rassemble l'essentiel de ce que Google considère devoir savoir à propos d'une page web, d'une image ou d'une vidéo. ça parle souvent de pagerank et de spam score notamment.

Au passage j'ai corrigé ma compréhension de "NSR" / normalized site rank : je pense que ça n'a rien à voir avec le classement au sens de "liste ordonnée de résultats en fonction de la pertinence", c'est clairement, d'après plusieurs attributs de PerDocData, une typologie des types de site, genre site de vidéos, site lié au covid, site d'une autorité électorale. Je ne sais pas si une liste des types de site NSR est dispo dans la doc, je compte chercher.

J'ai un peu l'impression d'essayer de décrypter l'égyptien hiéroglyphique ; on est très majoritairement dans le noir au début, mais plus on lit, plus le sens s'éclaire... mon début de lexique me permet déjà de décrypter mieux et plus vite que lors de mes premières lectures où j'étais éberlué par l'apparente absurdité du texte.

N'empêche que ça irait mieux et plus vite si on s'y mettait à plusieurs.
 
Nouveau WRInaute
Super, merci, je le connaissais pas.
Je viens de le lire.
Il est pas très avancé sur certains points, genre NSR il a pas compris ce que c'est - je commence à en avoir une idée.
Certaines interprétations sont fausses, par exemple quand il dit :

BrainLoc​

A ranking or list, with scores, of the main locations by categories (countries, states, cities, counties or provinces).
C'est en partie faux, je viens de commenter l'attribut brainloc de PerDocData et il vient peu après un attribut countryInfo qui stocke clairement le pays d'origine du document.
Je pense que brainloc cherche vraiment à connaître la localité au niveau fin, genre si j'ai mon adresse sur mon site, la "brainloc" de chaque page ou image de mon site sera mon adresse. Je pense que ça sert dans le référencement local, genre pour répondre à "boulangerie près de chez moi" il faut bien attribuer une adresse ou des coordonnées aux pages du site de chaque boulangerie. Connaitre le pays ou même la ville ne serait pas assez utile.

Bref, j'ai quand même appris quelques trucs dans ce lexique et je le recommande.
But research goes on !
 
Discussions similaires
Haut