2 rappels importants (404 et pages vides)

Nouveau WRInaute
Bonjour à tous
cela fait deux fois cette semaine que je constate 2 erreurs assez importantes faites par un client et un membre de wri, que l'on peut éviter pour le positionnement et Panda, donc je fais un petit article afin d'aider la communauté.

1) le cas d'un client ecommerce
ce client se plaint d'avoir perdu 40% de son trafic, après recherches, on pense qu'il est dans panda, et une piste parait flagrante : il a 60% des pages qui sont vides, ça affiche juste :
"article n'existe plus"
- le soucis c'est que ca fait des milliers de pages vides et panda aime pas ça :?
solution : ne jamais laisser des pages vides, bien vérifier votre plateforme ecommerce et mettre des noindex ou 301

2) le cas du membre "actionsavoirs" de wri > 301 au lieu de 404
actionsavoirs se plaint d'avoir perdu des places sur une page précise, après recherches je constate qu'il a simplement changé l'url de sa page sur son blog, le problème c'est que la pageA est en 404 et la pageB google l'a indexé. En cherchant sur google on se rend compte qu'il indexe encore les 2 pages, donc gros soucis.
- google met des mois à revenir sur une 404 et donc la garde en index
- donc les 2 pages sont en duplicate interne
- en plus la pageB ne récupère pas le bonus des liens de l'ancienne pageA
Solution : sur les forums et blogs, toujours penser à mettre des 301 et pas utiliser de 404, on évite le dupli et on garde les liens.

EN RESUME : ça parait bête mais faites attention à vos 404 et à vos pages vides !!!

J'ai posté un article hier sur notre blog sur le nouvel algo Hummingbird et les pénalités, si ca vous intéresse vous pouvez le lire ici :
http://www.bigseo.fr/updates/update-hummingbird-puni-til-mon-site-78.htm


david
 
Nouveau WRInaute
de rien

J'essaierais de poster toutes les semaines ou 15 jours environ des petits rappels comme ceux-ci car nous remarquons que la majorité des problèmes sur les sites viennent de petites erreurs que les webmasters (débutants ou pas d'ailleurs) commettent encore.
à bientôt
 
WRInaute occasionnel
Oui ça parait simple et pourtant...J'ai des équipes chargées des envois de colis qui lorsqu'on ne vendait plus un produit désactivaient simplement le produit...donc ce fameux article n'existe plus...Quand le site a quelques années je vous assure qu'il y a un gros turn over de produits...
 
Nouveau WRInaute
encore

Je viens de répondre à un membre wri qui s'inquiète du nombre de ses erreurs 404 dans webmaster tools,
je poste donc un complément dans ce sujet car on parlait déjà des 404.

- Gwt affiche le nombre d'erreurs 404, et les 1000 premières url en exemple.
- On peut les "marquer comme CORRIGEES", mais ce n'est pas pour autant que le problème est résolu, ce n'est qu'une question d'affichage dans gwt, en fait il faudra que google recrawle ces url pour que tout soit ok.
- Eviter de mettre une 404 pour effacer une page car cela mettra des mois, optez pour une noindex par exemple.
- Ne surtout jamais mettre une 404 si on veut déplacer une page : mettre une 301
- Sinon les 404 traditionnelles ne posent pas de problème même en grand nombre pour le positionnement, google l'a encore confirmé il n'y a pas longtemps.

David
 
WRInaute passionné
Merci David de ces rappels utiles, mais coté erreurs 404 qui n'ont pas d'impact selon la loi Google article N°4 paragraphe 12 Alinéa 5 tamponnée par M.CUTTS, je suis personnellement persuadé qu'en grand nombre, cela est un fort préjudice. En tout cas l'impact se fait sentir de manière importante sur mon site dès qu'une erreur de variable produit des liens erronés sur la majorité des pages...

En tout cas, mon experience jusqu'à présent m'a confirmé cette hypothèse, cas rare toutefois vu l'ampleur du site.
Je pense toutefois que quelques erreurs 404 en petit nombre n'est pas nuisible.

Olivier, tu veux pas rajouter un ou deux liens 404 sur toutes les pages du site pour tester? ... :idea: :arrow:
 
Nouveau WRInaute
complément pour longo600

Bonjour longo600
je n'ai pas non plus des dizaines de sites avec des milliers de 404,
mais j'ai un client qui a 18000 404 pour 3500 bonnes, cela ne gêne en rien jusqu'à ce jour son positionnement.
On va quand même faire le ménage on sait jamais :wink:
 
WRInaute passionné
Bonjour David,

Je joint un graphique pour étayer mon point de vue. Je pense quand même qu'il y a une différence entre des pages qui n'existe plus et n'ont plus de lien en interne, de celles qui sont issues de liens externes.
Je pense que si l'algo découvre des pages existantes qui ont des liens internes en 404, alors seulement dans ce cas il y a une sanction.

Cela m'arrives parfois (variable mal implémentée etc), corrigé au plus vite.

Dans l'historique de l'Annuaire Français, il a été lancé en 1996 (http://www.annuaire.gncia.fr), et en 2008, j'ai décidé de le retirer de l'index des moteurs en raison de données obsolètes, et pour engager une refonte (robots.txt bloquant tout le site). Etant partis à l'étranger, cela a pris du temps. Le 26 décembre 2011, le nouveau site est lancé, le trafic monte en flèche et s'écroule d'un coup suite à la découverte de milliers de liens 404.

Voir le graphique :
1ère Sanction 404:
- Le 26 décembre 2011, je libère l'accès au robot sur le nouveau site. Le 27, les robots de Google passent en masse, et commence a indexer les premières novelles pages. Le trafic montre très vite de jour en jour.
- Le 5 Janvier 2012, en a peine 10 jours, le trafic est déjà à + de 3 000 visites/jour.
- Le 6 Janvier 2012, le trafic s'écroule d'un coup. Je creuse autant que je peux et découvre qu'un rajout de liens en dernière minute sur toutes les pages (4,2 millions de pages) sont en partie erronés et en 404 ; liste de liens vers départements limitrophes sur la même rubrique, sauf que si il n'y a pas d'inscrit, il n'y a pas de page ... gloup ! oubli de cette règle dans la programmation).

J'ai corrigé dessuite (vers le 10 Janvier), mais trop tard, une lourde sanction 404 est tombée... et est restée jusqu'au 12 Avril 2012 date à laquelle le trafic a repris une croissance. 3 mois de pénalités pour ces mauvais liens 404 ... Vu que je n'ai fait aucun référencement étant en Bêta sur cette V2, la lente croissance du trafic s'est faite sûrement en fonction de l'ancienneté des pages ou alors sur une libération progressive de la sanction (ou des deux,allez savoir ...).

stats-generales-afd.jpg


2ème Sanction 404:
- Avril 2013 (1 an plaus tard), le trafic est monté a environ 25K de visites/jour. Puis retour d'erreurs 404 en volume dans webmasters tools a partir du 23 Mai 2013 et une grosse chute de trafic. Je m'inquiète de l'état et constate que j'ai des milliers de vieilles pages de 2011 qui apparaissent dans les serps, pas attribuées au bon sous domaine en plus.
Dans l'index des résultats de Google, mes pages de Marseille sont dans le sous domaine 75-paris, celles de Toulouse dans dans le 69-rhone, celles de Villiers-sur-marne(dept 95) dans le 43-haute-loire etc etc. exemple d'erreurs (bug) dans l'index Google. Franconville et Cergy sont des villes du dept 95 et non pas du dept 43 haute loire (sauf pour l'index de Google ...).

Je cherche dans mes logs et ne trouve rien, le robots tente bien de crawler ces pages dans le mauvais répertoire (Marseille dans le 75), mais mon serveur dédié chez ovh enregistre bien dans les logs des erreurs 404 en réponse au bot google.
Sans réponse 200 ok, le serveur n'envoies pas de fichier. Je fais des tests, crée un programme de crawl, aucun contenu de page n'est retourné sur tous ces liens erronés. Si pas de contenu retourné, pourquoi Google et surtout où va-t-il les chercher parmi un contenu qu'il a stocké ailleurs que chez moi?
Requete Bot => pas de document => si pas de document => je note l'erreur et la poste dans webmaster tools => mais je prends quand même dans mon vieux stock un autre document => j'envoie a l'indexeur... = pas normal

J'ai tenté de résoudre ce problème. J'ai dépêché les techniciens d'OVH sur le serveur, ils ont fini par s'y mettre a trois pour tenter de déceler un problème, étalé sur une semaine, en vain. Dépité, j'ai pris un nouveau serveur, SDD et tout qui va bien, avec une conf d'origine.

L'Annuaire Français est un vrai répertoire, aucune base de donnée sur le serveur, 100% de fichier statiques.
Il sont générés ailleurs, en local, par un programme que j'ai conçu, chaque répertoire de département avec les pages est zippé en local, tranféré en ftp, et dézippé sur le serveur. Par sécurité, j'ai tout regénéré de A à Z propre sur le nouveau serveur.

Malgré cela, les erreurs continuaient a apparaitre. La sanction des 404 n'est pas aussi importante que la première, et peut-être même sans effet réel. Toutefois, le trafic a chuté d'un coup, et vu que des pages sont indexées dans le mauvais sous domaine (pages de Marseille a Paris par exemple), c'est certain que la pertinence en prend un coup (si c'est dans l'index, c'est donc passé par tous les algos).

C'est un bug de Google, par la simple logique, sans même connaitre tous les mécanismes, voici pourquoi :
1) Mes logs confirmes la tentative de crawl de GoogleBot sur de mauvais liens (erreur de ville pour le répertoire sous domaine), => erreur 404.
2) Google me confirme le retour d'erreur renvoyé par mon serveur (erreur 404) dans webmastertools.

Déjà ici, tout est clair, Google confirme qu'il n'existe aucun document correspondant a l'url (comme mon serveur). Donc, l'erreur ne vient pas de mon serveur, avec 100% de certitude !. Logique, sauf pour les Googlers Français.

3) Malgré cela, Google affiche quand même une page, pas la bonne, celle d'un autre sous domaine, et plus étonnant, c'est une page qui à plus d'un an, une archive chez lui?. L'url n'existe pas pour le bot ni pour mon serveur, mais il va quand même mettre dans l'index une autre page à la place????


Pour les Googlers, tout est normal, ca ne pose pas de problème selon eux, et pour eux, le problème vient de chez moi (ben voyons).

Le débat houleux avec les Googlers France
Ca discute sec, aimablement, mais pour les Googlers et quelques modérateurs, l'erreur viens de chez moi, elle est sans conséquence pour mon trafic et la note globale de mon site au travers des algo.
Même pour certains (7nuit), une simple règle REGEX résoudrait le problème ...

Prime de 500 euros a celui qui me pond une ligne REGEX de redirection 301 (allez, même deux lignes - mais pas plus de 10 000 caractères hein !!! :-) ) pour résoudre l'équation suivante :
sachant que :
il y a 95 sous domaines, 1000 rubriques, 38 000 communes
sachant que la structure du site est :
sous domaine / rubrique / commune

ont obtient les combinaisons possibles ;
95 X 1000 X 36 000 communes = un peu plus de 3 milliards de combinaisons possibles ...

Bonjour la règle regex. Hormis de rediriger toutes erreurs vers la même destination, corriger toutes les mauvaises urls vers les bonnes est impossible. Pour eux ... si.

Bref, je sais pas quoi faire, sinon d'insister, pour obtenir soit une correction, soit un reset, pour ne plus voir ces "fausses" pages dans l'index. Les erreurs 404, c'est moins grave.
Ce qui m'a déplu, c'est de voir disparaitre le sujet initial dans la liste Google par ordre de message, j'ai cru a une censure, mais le message a été déplacé du thème indexation a celui de outils pour les webmasters (bien sur, c'est l'indexation qui est concernée ...) .

Discussion sur Google (vous pouvez aller direct a la dernière page)

En Résumé ;
Ce n'est que mon avis perso, mais avoir des pages avec des liens 404 sortants, en interne ou en externe est pénalisé.
Pages avec liens sortant en 404 ==>>> Pénalité (interne ou externe)
Pages recevant des liens 404 ==>>> Pas de Pénalité (interne ou externe)


Il faut faire la distinction entre les deux types d'erreurs, et ne pas gober à la lettre ce que dit MC.
 
Nouveau WRInaute
Longo600 a raison

A Longo600

je te remercie pour cet article bien détaillé (ça fait quand même pas mal de lecture :mrgreen: )
mais effectivement on dirait que tu as une relation entre ces 404 et tes problèmes,
ta précision sur ce sujet est indispensable, de mon côté je ne parle pas de pages 404 qui restent liées au site mais plutôt de 404 orphelines.

en tout cas j'espère que tu trouveras ta solution pour éviter ces erreurs,
bonne chance
david
 
WRInaute passionné
Re: Longo600 a raison

david-seo a dit:
de mon côté je ne parle pas de pages 404 qui restent liées au site mais plutôt de 404 orphelines.

Je suis aussi d'accord avec toi, c'est a dire que des erreurs 404 sur des pages supprimées, ce n'est pas sanctionné. C'est dommage de ne pas leur donner une redirection en terme SEO si elles étaient bien référencées, c'est tout, mais pas de sanction.

C'est juste la Googleuse qui m'agace un peu beaucoup passionnément (...) a me dire que mes pages avec des dizaines de liens morts en 404 ne sont pas sanctionnées, elle a lu cela dans le manuel ... De plus, Matts Cutts avait averti sur les liens morts, mais je trouve plus les réferences.

désolé pour la tartine, cette fois j'ai fait court ( :mrgreen: )
 
WRInaute accro
J'ai tenté de résoudre ce problème. J'ai dépêché les techniciens d'OVH sur le serveur, ils ont fini par s'y mettre a trois pour tenter de déceler un problème, étalé sur une semaine, en vain...
L'erreur est qu'il n'y a pas d'erreur en fait. Ce qui amène a se poser la questions de comment peuvent être apparues ces erreurs ...
Ton site utilisant quasi exclusivement des liens avec urls relatives, sur ce type de site vue son volume il suffit d'un cafouillage DNS transitoire sur ton serveur qui va donc fournir des pages sur un sous domaine depuis un dossier qui n'est pas le bon et c'est la cata en une heure vue la fréquence de crawl ...

Je ne soutiens pas que GG soit l'auteur du problème ni que ce soit toi mais je sais comment ça peut se produire. Ensuite les pages anciennes présentes dans l'index s'explique surement par la similarité des urls et un contenu ancien qui est servi en "guise de" dans le cas ou GG n'a rien de bon a fournir (classique)

A titre perso je met toujours l'url complète partout (liens, images etc ...) je ne souhaite pas, en effet, que ce soit un tiers qui calcule l'url (navigateur, bot). ça te permet de déplacer le contenu sans réfléchir, ça évite aussi ton souci ...
 
WRInaute passionné
zeb a dit:
L'erreur est qu'il n'y a pas d'erreur en fait. Ce qui amène a se poser la questions de comment peuvent être apparues ces erreurs ...
Courageux @Zeb en tout cas, ca fait un paquet de chose à lire !...

zeb a dit:
Ton site utilisant quasi exclusivement des liens avec urls relatives, sur ce type de site vue son volume il suffit d'un cafouillage DNS transitoire sur ton serveur qui va donc fournir des pages sur un sous domaine depuis un dossier qui n'est pas le bon et c'est la cata en une heure vue la fréquence de crawl ...
J'ai aussi pensé cela , mais le serveur ne gère pas le DNS, il est ailleurs, avec la même IP pour tous les sous-domaines.
il n'y a que Apache qui gere la distribution, ou la partie qui attribue le répertoire au sous domaine créé (est-ce Apache sur une realease 2 d'ovh?). pour les techniciens d'ovh, ca ne vient pas de là. Je ne sais pas si une telle possibilité passagère peu venir d'un problème serveur qui a une config 100% d'origine, pour eux c'est non, il y aurait des traces dans le serveur.

zeb a dit:
Ensuite les pages anciennes présentes dans l'index s'explique surement par la similarité des urls et un contenu ancien qui est servi en "guise de" dans le cas ou GG n'a rien de bon a fournir (classique)
.
Coluche avait un sketch du genre sur les journalistes ...
Un jour ou une semaine, ca passe, mais 5 mois déjà que ca dure...
Le pourquoi j'insiste auprès d'eux pour résoudre le soucis, a part que ca me semble légitime, c'est qu'au calcul des combinaisons possibles, 95 dept X 1000 rubriques X 36 000 communes, ont risque de s'avancer vers 3 milliards de combinaisons possibles de crawl avant qu'il fasse le tour de toutes les erreurs...

zeb a dit:
A titre perso je met toujours l'url complète partout (liens, images etc ...) je ne souhaite pas, en effet, que ce soit un tiers qui calcule l'url (navigateur, bot). ça te permet de déplacer le contenu sans réfléchir, ça évite aussi ton souci ...
Là je te donnes raison et cet incident aussi. C'est pas mal de travail car le volume de liens croisés et dépendants les uns des autres est important, mais je pense finir par le faire.

Autre solution en réserve, restructurer le site à nouveau. Je pense a l'éclater en sous domaine par rubrique, soit 1000 sous domaine. Je redirige ainsi toutes les villes de chaque rubrique sur la racine de la rubrique. Mais mettre une redirection 301 sur une mauvaise url, cela veut dire que l'effacement de la mauvaise url peut prendre des années.

La meilleure solution est de laisser tomber Google est de lancer mon propre moteur... :wink:
 
WRInaute accro
longo600 a dit:
pour les techniciens d'ovh, ca ne vient pas de là. Je ne sais pas si une telle possibilité passagère peu venir d'un problème serveur qui a une config 100% d'origine, pour eux c'est non, il y aurait des traces dans le serveur...

Et la marmotte ... :wink: tu en connais beaucoup des techcos qui acceptent de dire facilement que ça a merdé chez eux ? en tous cas chez GG c'est niet ... donc ces urls étant apparues qque part (surement par le fait des urls relative cité plus haut) il nous reste deux choix ... ton site fonctionne en live donc ça viens pas de là reste l'infra serveur ou GG ...
Un prob transitoire d'un côté ou de l'autre (quel qu'il soit) aura le même effet et sera de toute façon difficilement détectable (jusqu’à preuve du contraire, personne ne log l'activité processeur :D )

Ce qui me fais dire que ça viens du côté de ton serveur c'est que si un souci transitoire avait affecté la productions des urls a crawler chez google, tu n'aurais pas été le seul a te retrouver dans la merde a cette période ...

Bref c'est entre OVH et OVH sans discuter quasiment (pour moi). A titre d'information ils t'ont facturé la mise a disposition des 3 techniciens ? Car si c'est pas le cas c'est que ça venais de chez eux et qu'ils se sentais merdeux face au dommages causés qu'ils aurait pu casquer....
 
WRInaute passionné
zeb a dit:
Ce qui me fais dire que ça viens du côté de ton serveur c'est que si un souci transitoire avait affecté la productions des urls a crawler chez google, tu n'aurais pas été le seul a te retrouver dans la merde a cette période ...
Pas évident, puisqu'il semble impossible de faire remonter l'incident a un quelconque service technique, les Googlers font barrage ou vous retournent le problème.

Pour voir l'incident, il faut dejà avoir des sous domaines, des remontées de 404, et surtout avoir la curiosité de copier / coller l'url dans la barre de recherche pour voir le résultat. En théorie, une page 404 n'est pas dans l'index si elle n'a jamais existé. Ca fait beaucoup de conditions.
Si de plus, si c'est un bug suite a des essais ou tests de Google sur une selection de sites, et essais abrogés depuis, personne ne s'en rendra compte.

En tout cas, je vois aussi une cause a effet des erreurs 404 sur une dégradation du trafic par des sanctions, et les dires de Matts Cutts sont mal interprétés. Pages inexistante = pas de soucis, pages avec des liens morts = sanction.

PS: je doute aussi que la faute soit sur Google, mais je vois encore moins Apache fautif. Je me suis posé la question "entre les 2"?
Un proxy à mi-chemin qui cafouilles ou du Négative SEO? J'ai pas les compétences en la matière.
 
WRInaute passionné
Je ne sais pas d'ou vient l'erreur longo600 mais une fois détectée il faut résoudre le problème pour éviter les sanctions, ne pas perdre un lien entrant ou un visiteur.

Je serais toi je mettrais en place une page d'erreur 404 personnalisée 'intelligente" qui te permette de rediriger vers la bonne page quand c'est possible ou qui stocke la page en 404 pour analyse et résolution ultérieure. Il suffit d'une petite table sql avec 3 champs url_en_404(clé), code_retour(301, 410, ...), url_ok(si redirection)

En suivant régulièrement c'est pas trop lourd et ca permet de détecter un soucis rapidement.

Ca ne doit pas être trop compliqué pour ce cas particulier d'automatiser la redirection vers la bonne page si chaque page ne se trouve que dans un sous-domaine. Il semble que le site soit statique. Il suffit donc de rechercher le nom du fichier dans les autres répertoires pour voir s'il existe et rediriger vers le bon sous-domaine.
 
WRInaute passionné
forty a dit:
Je serais toi je mettrais en place une page d'erreur 404 personnalisée 'intelligente"
Tu a raison Forty, j'ai pas pris le temps encore, mais je vais mettre cette page 404 perso, ca aurait du être fait depuis le début...
A l'analyse des logs, je n'ai quasiment aucun visiteur sur ces pages erronées liées dans l'index, cela se comprend, car pour trouver, tu devrais taper genre "avocat Marseille 18 Cher" ... donc, ca n'arrive presque jamais.

forty a dit:
Il semble que le site soit statique. Il suffit donc de rechercher le nom du fichier dans les autres répertoires pour voir s'il existe et rediriger vers le bon sous-domaine.
Tu chercherais dans le répertoire avec quoi si il n'y a ni php, ni sql, ni aucun module? Il n'y a que le htaccess ...
Et puis une recherche sur 4 millions de fichiers a chaque requete ... le serveur s'écroulerait.
 
WRInaute passionné
longo600 a dit:
Tu chercherais dans le répertoire avec quoi si il n'y a ni php, ni sql, ni aucun module? Il n'y a que le htaccess ...
Et puis une recherche sur 4 millions de fichiers a chaque requete ... le serveur s'écroulerait.
Pour moi "a chaque requete" c'est à chaque erreur 404 nouvelle si ton traitement est un minimum optimisé (donc pas tant que ca normalement une fois le ménage fait). Et puis ton serveur fait déjà cette recherche quand tu demandes une URL : il cherche un fichier dans un répertoire.

La seule contrainte c'est de pouvoir exécuter un script php ou autre (ou de faire un htaccess monstrueux).
 
WRInaute passionné
forty a dit:
La seule contrainte c'est de pouvoir exécuter un script php ou autre (ou de faire un htaccess monstrueux).
Au mieux dans une regle, je serais contraint de gérer toutes les villes qui n'appartiennent pas au département :
=> sous domaine / rubrique (.*) / ville 1 - ville 2 ... Je vais laisser Google se débrouiller tout seul ... J'ai encore un peu de boulot avant le lancement final de cette V2 ... 20k V/mois, c'est pas la cata non plus. C'est juste super agacant ces retours de 404 dans Webmasters trolls ... :mrgreen:
 
Discussions similaires
Haut