Panda et Penguin, comment Google tromperait-il les SEO ?

longo600 · 31 Juillet 2013

Voilà un petit sujet qui va faire un peu tourner les serps et les caches, car il me semble avoir détecté, peut-être, une des raisons pour laquelle vos modifs SEO ne sont pas prise en compte lors des grosses mise à jour Panda et/ou Penguin, et que les SEO sont assez démunis sur les phénomènes "yoyo" de ces MAJ.

La raison possible est que lorsque Google met en oeuvre de nouveaux filtres, il n'utiliserait pas vos pages actuelles, mais des pages anciennes qu'il a sauvegardé 12 mois auparavant.

VOS MODIFS POUR PANDA ET PENGUIN NE SERONT PRISES EN COMPTE QUE DANS 1 AN ... :
Vous êtes nombreux a faire des contestations sur les mises à jour Majeure, et la plupart du temps, vous constatez que le dur labeur de toutes vos modifs SEO n'a absolument eut aucun effet.

Ce constat, je l'ai fait suite a un bug chez Google que j'ai cru au début venir de chez moi. Lors de la mise à jour PENGUIN 4.0 puis recement de PANDA, Google a mélangé les pages des sous domaines de chaque département de l'Annuaire Français. On retrouve des pages Marseille dans l'Ain, de Châteauroux dans le 06, etc etc etc.

Mais le plus troublant, hormis ce bug, c'est que ces pages datent d'un an presque jour pour jour. Les 5 millions de pages de l'Annuaire Français sont mise a jour une a deux fois par mois, avec des améliorations à chaque fois. Il est donc très aisé de situer dans le temps le template utilisé et modifié.

Cette déduction est basée sur la raison de l'utilisation du backup dans notre cas, et vu que le serveur n'a aucun problème, ni le nouveau que nous avons mis en place pour vérifier la nature du problème de mélange des SS domaines, il n'y a pas de raison logique et personnelle a notre site que Google utilise un backup lors de ces gros updates Panda et Penguin (question de taille du site peut-être?...)

Pour infos, notre trafic n'a pas été impacté car les pages réelles sont toujours dans les serps et côtoient celles qui ne sont pas attribué au bon sous domaines (qui conduisent à une erreur 404).

Je ne saurait dire si en parallèle et par la suite des gros updates, si les pages modifiées sont prise en compte, il semble que oui, jusqu'au prochain gros update de Google. Que se passe-t-il si les pages ne sont pas modifiées?
Peut-être est-ce une coïncidence que Google aurait utilisé une sauvegarde d'un an de notre site lors de la MAJ Panda et Penguin,et donc, cette théorie ne tient plus. Peut-être qu'avec l'erreur d'existence de cette page de Marseille dans l'Ain (et des millions d'autres), google va puiser dans les sauvegardes, mais quel intérêt de mettre dans les serps un lien vers une page qui n'existe pas, ou au pire, qui n'existerait plus? Ce n'est pas logique.

C'est par cette logique que Google utiliserait des datas sauvegardés plutôt que des datas en cours de crawl qui occupent déjà du temps machine. Pour mettre à jour des milliards d'analyses, il faudrait énormément de temps pour revisiter la totalité des pages et des sites du monde, et repasser la totalité de tous les filtres algorithmique sur chacune des pages dans le monde.
Donc, oui, l'utilisation de data anciens et stockés à part est largement compréhensible.

A noter que peu à peu, les nouvelles pages modifiées apparaissent dans les serps. Pour être a peu près certain de cette théorie, il faut la vérifier juste après une grosse mise à jour.

Si vous avez fait des modifs qui n'ont rien apportées ni corrigé, vérifiez si le document qui est en cache dans Google dont la date est récente, si le contenu du document en cache est bien celui qui correspond à la date mentionnée du cache.
En ce qui nous concerne, les dates de mise en cache sont bien actuelles ou du mois passé, mais le contenu lui est vieux d'un an sur plus de 20% des tests sur une centaine.

Les 80% de documents à la bonne date en cache et en réel restent quand même une énigme par rapport a cette théorie ...

Qu'en est-il de votre côté? Cette théorie vous semble exacte ou à côté de la plaque?

patapon87 · 31 Juillet 2013

Qu'en est-il de votre côté? Cette théorie vous semble exacte ou à côté de la plaque?

Excuse moi mais j'ai super mal compris de quoi il s'agit...

Google a mélangé les pages des sous domaines de chaque département de l'Annuaire Français. On retrouve des pages Marseille dans l'Ain, de Châteauroux dans le 06, etc etc etc.

En gros au lieu d'avoir 40-landes.annuairefrancais.fr/capbreton.html
Tu avais 13-bouches-du-rhone.annuairefrancais.fr/capbreton.html ???

mais quel intérêt de mettre dans les serps un lien vers une page qui n'existe pas

Petite supposition : un lien vers cette page existe et a un contenu pas forcément logique mais a du contenu.

Qu'en est-il de votre côté? Cette théorie vous semble exacte ou à côté de la plaque?

Donc je pense qu'il s'agit plus d'un problème de code de ton côté qu'autre chose. Surtout que tu dois avoir du mal à savoir de quelle page il s'agit dans l'analyse

longo600 · 31 Juillet 2013

patapon87 a dit:
En gros au lieu d'avoir
40-landes.annuairefrancais.fr/capbreton.html
Tu avais
13-bouches-du-rhone.annuairefrancais.fr/capbreton.html ???

Bonjour patapon87, oui, il suffit de coller l'URL ci-dessous dans la barre de recherche et de voir ce que Google a mis dans l'index, et le cache de cette page qui n'a jamais existé sur le serveur, enfin, pas dans le répertoire 41 mais issue du répertoire 91 :
41-loir-et-cher.annuairefrancais.fr/institut-beaute/boussy-saint-antoine.html

Non, le problème ne se situe pas sur mon serveur, c'est une certitude, il n'y a pas de bug Apache non plus.
De plus, le serveur a été changé, tout a été reconstruit de A à Z sans aucune copie, et le problème est réapparu lors de la dernière MAJ Panda. Et jamais de jamais, avec un navigateur, je n'ai constaté une seule erreur de lien ou de confusion de ss domaine.

En Résumé, en mettant de côté cette erreur chez Google, il apparait avec certitude que lors des 3 dernières grosses mise à jour de Panda et Penguin, Google n'a pas utilisé mes pages actuelles mais des sauvegardes vieilles d'un an.

A savoir si c'est uniquement sur mon site ou généralisé. Si c'est généralisé, cela signifie qu'effectivement, les modifs que vous faites ne sont pas prises en compte lors de ces grosses mises à jour ... puisque ce seraient des sauvegardes anciennes qui seraient utilisées ...

J'espère être assez compréhensible, pas tjrs évident...

UsagiYojimbo · 31 Juillet 2013

Tu as essayé de faire crawler ton site via un outil comme Xenu ou Screaming Frog, de manière à t'assurer que ce n'est pas du à un souci de conception technique ? Aucune url JS, aucun formulaire ni problématique technique (genre une erreur de mise à jour dans le sitemap) qui pourrait expliquer ce genre de choses ?

patapon87 · 31 Juillet 2013

Ca reste bizarre qu'elle soit indexée quand même.
Mais dans tous les cas google invente pas les pages, il doit y avoir un lien qqpart.

fobec · 31 Juillet 2013

@longo600
la théorie est certes contraire aux idées reçues, par contre elle explique bien des choses. De mon coté:
- GoogleBot persiste à demander des pages redirigées (301) depuis bien longtemps,
- une rubrique du site était inaccessible depuis 6 mois au moins. Récemment je remets le contenu en ligne, et miracle toutes mes anciennes positions sont de retour.

Si je comprends bien, le squelette du site web et la notation sont effectuées sur d'anciennes pages en cache. Les modifications du site entre 2 maj sont certes prises en compte, par contre leur effet est très limité ?

Depuis quelques GoogleBot s'affole, p'etre qu'il y a une grosse maj en vue :lol:

passion · 31 Juillet 2013

Sans jouer les conspirateurs, mais cela revient à mon idée sur le sujet.
Je vais présenter la chose différemment.

Pour commencer, ne prends pas les commandes : cache, site, etc.. pour argent comptant !
Il m'est arrivé bien souvent de m’apercevoir qu'en cache, il me donnait une version antérieure de 2 semaines alors qu'il me retournait avec la commande site, la dernière version !

Avec GG, c'est tout et son contraire... C'est la seule ligne de défense qu'il a trouvé pour se protéger des SEO qui veulent mettre leur nez partout !

Rien n'est faible même le GWT.

Maintenant, concernant les maj sur une page web se font à mon sens en fonction de sa périodicité d'actualisation.
Je m'explique....
Un site comme WRI, il va non seulement crawlée les pages vitesse grand V mais en plus il va appeler son data center réactif.

Un site qui est actualisé une fois tous les 6 mois, GG ira chercher dans un autre data center (disons une actualisation semestrielle).

C'est son principe du clustering (je pense). ça lui permet de désengorger son/ses data réactif.
Donc même si tu as fait des modifs récemment pour plaire à Merlin pinpin, cela ne serait pas pris en compte tout de suite car il ira chercher ses infos dans le data (6 mois).

En faite, pour que cela change et retomber dans ses faveurs, il faut créer du contenu pour l'inciter à revenir plus souvent.
Par ce biais, tu vas stimuler GG à changer de data.

C'est mon avis

Bongrand · 31 Juillet 2013

Je vois mal Google inventer des pages. Par contre je vois bien un code php ou un script de rewritting bogué du genre :
Il y a un an quelqu'un as mis en ligne du code bogué qui a généré ces pages. Entre temps ce code a été modifié ou supprimé. En période de grand update, Google brasse toutes les pages qu'il a un jour crawlé et te les ressert aujourd'hui.

Koxin-L.fr · 1 Août 2013

fobec a dit:
- GoogleBot persiste à demander des pages redirigées (301) depuis bien longtemps,

Quoi de plus normal si les url existent ailleurs ?

forty · 1 Août 2013

concernant les 404 entre les liens externes faux et les liens texte que google essaye de suivre tout est possible. J'ai souvent des 404 sur des pages qui n'existent pas chez moi et dont le format ne correspond pas du tout à ceux que j'ai. J'ai l'impression qu'il y a parfois des mélanges entre différentes sites.

longo600 · 5 Août 2013

Merci de toutes ces analyses et pistes.

Non, il n'y a aucun PHP, script rewriting sur le serveur. C'est du pur fichier en dur qui ne fait tourner que le serveur Apache.

Je vais tenter une visite au siège Google France cette semaine pour mon problème.

Dans tous les cas, je constate l'ancienneté des pages utilisée, et 1 an, je trouve que c'est beaucoup.
Effectivement, c'est peut-être proportionnel à la notoriété du site et fréquence de MAJ. Pour le site que je gère, toutes les pages sont régénérées une a deux fois par mois, avec une légère modification de code à chaque fois.

En général, google remet assez rapidement les pages nouvelles dans les serps, comme si il utilisait les anciennes principalement pour les gros calculs.

Il faut attendre une prochaine grosse MAJ pour étudier le phénomène, et vérifier/comparer l'ancienneté des pages avec archive.org .

fobec · 5 Août 2013

Sous Analytics, il y a un tableau sur les vitesses de chargement qui semble confirmer l'utilisation du cache.
Dans 'Contenu / Vitesse du site / Suggestions relatives à la vitesse du site' indique une note qui ne correspond pas au test en live sur PageSpeed. Pour ma part, les valeurs sont celles des pages d'il y a au moins 3 mois, date à laquelle j'ai fait quelques optimisations sur le temps de chargement.

Qu'en est-il de votre côté ?