Page introuvable remontées dans WMT

CARREZ

WRInaute discret
Bonjour,

J'ai un problème depuis quelques mois et je ne trouve nul part la raison (je cherche peut-être mal ou dans la mauvaise direction ?).
Sur de nombeux sites j'ai beaucoup d'erreurs 404 ("Page introuvable") qui remontent dans WMT, or ces pages existent bien ... Elles sont dans le sitemap des sites avec une url du type : -http://www.monSite.com/blog/dossier/maPage,i68.html
Et ressortent en erreur avec l'url : -http://www.monSite.com/blog/dossier/maPage

WMT semble ignorer tout ce qui est après la virgule ce qui est très étonnant car ce problème est assez récent et apparait même sur des sites un peu anciens qui n'avaient pas ce problème avant. D'autant plus étonnant que ce phénomène n'apparait pas sur tous les sites qui sont pourtant construit avec le même CMS.

Je me dis donc qu'il s'agit d'un bug de WMT (?) ou alors ... Je ne vois pas !?!

Est-ce que certains d'entre vous on déjà constaté çe problème ? Si oui connaissez-vous la raison ? Le remède ? C'est tout de même ennuyeux quand certains clients ont accès à WMT et voient des "page introuvable" en masse.

Merci d'avance pour vos retours d'expérience et conseils.
 

Marie-Aude

WRInaute accro
Arrêter de faire des urls avec des , qui sont effectivement tronquées dans certains cas (envoi auto sur Twitter, certains forums, etc)
 

CARREZ

WRInaute discret
Ok pour arrêter mais en attendant sauf erreur ce n'est pas interdit et j'aimerais comprendre pourquoi Google tronque ces urls ? Y'a t'il des précos de Google qui justifierait ça ?
Il crawl les sitemaps sans signaler d'erreur et dèrrière remonte des erreurs 404 de ces même sitemaps ... J'avoue que je suis un peu perplexe !
 

UsagiYojimbo

WRInaute accro
Le problème ce n'est pas tant Google, dans ce cas de figure, que les sites tiers qui vont faire des liens vers tes pages profondes. De nombreux CMS vont ainsi tronquer le lien avant la virgule, ce qui va permettre au moteur de crawler ton site via une url non valide.

CF le lien que tu as toi-même mis dans ton topic, que le PHPBB de Wri a tronqué.
 

CARREZ

WRInaute discret
Alors je n'ai pas de problème avec les urls à virgules, pas de problème d'indexation ou de rewriting ...

Je cherche juste à comprendre pourquoi le WMT polluent la liste des erreurs 404 avec des erreurs qui n'en sont pas. Il m'affiche que les liens provoquant ces erreurs sont dans les sitemap alors que les sitemap comportent bien les bonnes urls. Et ne me remonte aucun problème sur les sitemap et m'affiche que les pages des sitemap sont bien indexées. Un exemple, j'ai un site où il m'affiche 2000 erreurs depuis le 18/12/2013 alors que le rewriting est le même depuis plusieurs années sur ce site.

Avant d'envisager de remplacer les virgules par autre chose dans les url j'aimerais comprendre pourquoi google m'affiche ça, il me donne des infos contradictoire et je ne suis pas prêt à modifier le rewriting de dizaines de sites alors que je ne suis pas sûr de la fiabilité des infos que google me donne.
J'ai souvent constaté des problèmes dans cet outil depuis son existence, celui là est très polluant surtout pour les clients qui ont accès à ces données.

Je suis preneur de toutes les explications d'autant que ce n'est pas généralisé sur tous nos sites pourtant construit sur le même CMS.
 

UsagiYojimbo

WRInaute accro
Tu as essayé de regarder via GWT ou via des outils comme Ahrefs si les pages en erreur n'étaient pas linkées depuis des sites tiers ?
 

CARREZ

WRInaute discret
UsagiYojimbo a dit:
Tu as essayé de regarder via GWT ou via des outils comme Ahrefs si les pages en erreur n'étaient pas linkées depuis des sites tiers ?

Je viens de regarder sur un "petit" site (avec 190 "pages introuvables"), je ne vois pas de lien moisit dans les backlinks.
GWT me dis que ces liens viennent du sitemap ! Sauf que dans le sitemap ils sont ok et il indexe bien les pages :(

Un détail que je n'ai pas mentionné, sur la plupart des sites la montée de liens morts commence vers le 18-19 décembre 2013. Est-ce lié à un événement particulier chez Google ?
 

CARREZ

WRInaute discret
J'ai l'impression que mon problème ne passionne pas les foules :(

Je ne pense pas être le seul à déjà l'avoir eu, j'ai vu sur divers forum francophones et anglophones quelques cas similaires mais personne n'a pu apporter de réponses quant à la cause réelle ... Je n'arrive pas à isoler le point commun entre les sites touchés (ou les non touchés) !
En soit ça n'a pas l'air pénalisant donc la gène est juste au niveau de la pollution du GWT, j'aime bien comprendre ce qu'il se passe quand je rencontre ce type de problème, je ne pense pas être le seul :wink:

Pas d'amateur pour tenter de m'aiguiller ?
 

salva

WRInaute accro
CARREZ a dit:
Non non j'utilise des sitemapindex qui pointe vers les sitemap des modules, par exemple : http://www.aubonpin.com/Catalogue/sitemap.xml ou http://www.prodium.fr/Sous-Traitance/sitemap.xml !
Ton sitemapindex ne semble pas respecter le protocole :
http://www.prodium.fr/sitemap.xml
affiche ceci
Code:
<urlset xmlns="https://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.prodium.fr/</loc>
</url>
<url>
<loc>http://www.prodium.fr/plan-du-site.html</loc>
</url>
</urlset>
alors qu'il devrait ressembler à ceci
Code:
<?xml version="1.0" encoding="UTF-8"?>
   <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
   </sitemapindex>
Un sitemapindex liste tous les sitemaps (en xml ou xml.gz) des catégories choisies
et non un lien vers un plan de site en html.
Plus d'info ici.
 

CARREZ

WRInaute discret
Je soumet des sitemapindex à google depuis que ça existe et jamais un aucun soucis, le problème ne semble pas être là, ils sont là en fait : http://www.aubonpin.com/sitemapindex.xml et http://www.prodium.fr/sitemapindex.xml !

Je pencherais plus vers un bug de GWT qui ne supporterais plus les virgules dans les urls mais tant que je ne suis pas sûr je sais que le bug peut être de mon côté ... Par contre je suis dans le brouillard complet je ne vois toujours pas de cause pluasible !?!

Vraiment personne n'a ce problème ? Bon ça doit concerner uniquement les url à virgule mais je ne suis pas le seul à utiliser ça.
 

CARREZ

WRInaute discret
Une autre données qui me laisse penser que le soucis est du côté de GWT : le problème est bien daté, je le constate sur plusieurs sites (plus de 20 au minimum) et ça commence entre le 18 et le 20 décembre 2013 sur tous les sites.

Les sites en questions n'ont rien en commun (à part le CMS utilisé et le rewriting) et surtout sont sur des serveurs différents. Ils ont d'ailleurs tous été migrés en janvier et le problème persiste ...
 

salva

WRInaute accro
Google gère très bien la virgule dans une url, idem pour plusieurs virgules dans une même url.
Le problème vient de chez toi.

Les sites en questions n'ont rien en commun (à part le CMS utilisé et le rewriting)
Le 18 décembre est probablement lié à une mise à jour du CMS utilisé ou alors à une modification des paramètres du serveur.

As-tu modifié les fichiers qui génèrent les sitemaps, ne serait-ce un saut de ligne ?

Dans tous les cas, ton sitemapindex ne respecte pas le protocole.
Le terme "sitemapindex" est absent du fichier. Perso je réglerai d'abord ce problème parce que s'en est un.
un protocole de communication est un ensemble de contraintes permettant d'établir une communication entre deux entités.
Source
 

CARREZ

WRInaute discret
euh mon sitemapindex respecte bien les précos :
Code:
<?xml version="1.0" encoding="UTF-8" ?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<sitemap>
<loc>http://www.aubonpin.com/sitemap.xml</loc>
</sitemap>
<sitemap>
<loc>http://www.aubonpin.com/Catalogue/sitemap.xml</loc>
</sitemap>
<sitemap>
<loc>http://www.aubonpin.com/News/sitemap.xml</loc>
</sitemap>
</sitemapindex>

J'ai exploré la piste mise à jour CMS, mise à jour serveur, mais ça ne peux pas venir de là. Les sites sont sur des serveurs différents (pas les 2 cités mais d'autres) et le phénomène débute à la même date sans qu'il n'y ait eu de changement notable sur les serveurs ni de mise à jour du CMS sur les différents sites. De plus comme je l'ai précisé les serveurs ont été migrés mi janvier et le problème persiste.

A noter que dans les logs il apparait que Google tente d'accèder aux pages avec et sans la virgule ce qui explique qu'il indexe bien les pages et qu'il remonte des erreurs 404.
A se taper la tête contre les murs ...
 

salva

WRInaute accro
Autant pour moi, j'étais resté bloqué sur -http://www.prodium.fr/sitemap.xml

Alors je plussoie UsagiYojimbo
UsagiYojimbo a dit:
Le problème ce n'est pas tant Google, dans ce cas de figure, que les sites tiers qui vont faire des liens vers tes pages profondes. De nombreux CMS vont ainsi tronquer le lien avant la virgule, ce qui va permettre au moteur de crawler ton site via une url non valide.

CF le lien que tu as toi-même mis dans ton topic, que le PHPBB de Wri a tronqué.

CARREZ a dit:
Je viens de regarder sur un "petit" site (avec 190 "pages introuvables"), je ne vois pas de lien moisit dans les backlinks.
As-tu regardé le code source des sites/pages qui te linkent ? Peut être du NSEO et/ou une faille sur ton CMS. C'est quoi le CMS ?
 

CARREZ

WRInaute discret
Ben le soucis c'est que ça concerne aussi des pages non linkées ... J'ai sur un site e-commerce bientôt 2000 erreurs 404 sur des pages profondes qui ne comportent aucun lien externe.

Le CMS est propriétaire on le développe depuis 10 ans, c'est vraiment nouveau comme phénomène et ça concerne des sites à jour comme des sites qui sont sur une version de plus de 3 ans du CMS, donc non modifiés depuis niveau code.

Il semblerait que presque tous nos sites soient touchés à un degrés différent. Un autre site ecommerce (avec autant de pages) n'a que 30 erreurs 404 pour le moment ... Question de temps j'imagine.
 

salva

WRInaute accro
Le seul lien commun reste le CMS utilisé.
Es-tu certain que ce n'est pas un bug généré par le CMS lui-même dans la construction des urls ?

Sinon à par une faille, je ne vois pas. As-tu soumis le CMS à des tests d'injection xls ou autres ?
 

CARREZ

WRInaute discret
Marie-Aude a dit:
Non, j'ai deux sites avec des urls avec des virgules, et je n'ai pas ce problème
Peut-être juste une question de temps :wink:
salva a dit:
Le seul lien commun reste le CMS utilisé.
C'est bien ce qui me préoccupe ...
salva a dit:
Es-tu certain que ce n'est pas un bug généré par le CMS lui-même dans la construction des urls ?
Ca fait plusieurs années que c'est comme ça dans notre CMS, de plus comme je l'ai dis certains sites ont une version ancienne et sont touchés de la même manière, à la même date, et ça m'intrigue vraiment que la date soit la même alors que le seul lien est bien le CMS (version différente avec une méthode qui à changé même si le resultat est le même, serveurs différents, etc).
salva a dit:
Sinon à par une faille, je ne vois pas. As-tu soumis le CMS à des tests d'injection xls ou autres ?
Qu'entends tu pas "tests d'injection xls ou autres" ? On fait des imports/exports csv sans problème à part ça je ne vois pas ?
 

CARREZ

WRInaute discret
salva a dit:
As-tu sécurisé le CMS avec ce genre d'outils ?
Non mais notre admin serveur surveille l'activité sur nos serveurs et aucune faille n'a été découverte à ce jour (même si il y en a surement), le nombreuses tentatives d'intrusions ont toujours échouées. De plus le développeur principal du CMS est très attaché à la sécurité d'autant que nous avons certains clients sensibles.

Si une faille était découverte quel rapport avec mon problème ?
 

salva

WRInaute accro
Petit exemple vécu.

J'utilise un CMS modifié dans tous les sens qui n'est plus mis à jour depuis belle lurette mais en version stable à l'époque de sa mise en ligne.

Un bot scannait mes liens en ajoutant des paramètres dans les urls à la recherche de faille à exploiter.

Et quand on cherche, en règle générale, on trouve :)
Du style
Code:
index.php?option=com_jce&task=plugin&plugin=imgmanager&file=imgmanager&version=1576&cid=20 HTTP/1.1" 404 17236 "-" "BOT/0.1 (BOT for JCE)"
La plus part des injections renvoyaient une 404 ou 500 mais aussi de beaux 200 sur certain format d'url.

Comme le CMS était stable et à priori sécurisé, cette simple injection de paramètre dans l'url n'avait qu"une incidence mineure. A savoir des 404 ou 500 sans importances que google ne relève même pas dans GWT. Donc il semblerait que google gère bien le nseo. Du moins dans ce cas de figure.

Par acquis de conscience j'ai patché la faille. J'ai réglé le problème en rajoutant une canonical avec la bonne url.

Dans le cas de faille plus sérieuse, les conséquences peuvent être désastreuses. Jusqu’à l'injection de virus.
 

CARREZ

WRInaute discret
Ok compris ! J'explorerai ça sérieusement mais je doute que ça soit la cause, enfin on ne sait jamais.

Autre piste, je m'aperçois que la source de mes sitemap ne comporte pas de saut de ligne. Je vais an ajouter sur un pour voir si ça pourrait être la cause du problème ... Encore une fois, on ne sait jamais ;)

Je verrai d'ici 2-3 jours si il y a des effets.
En tout cas merci beaucoup pour l'aide à la recherche du bug ! A suivre donc.
 

salva

WRInaute accro
L'avantage d'un CMS populaire est sa communauté qui fait remonter les bugs et failles diverses qui sont rapidement patchés par les développeurs.
Tu n'auras jamais ce retour avec une solution maison.
 

CARREZ

WRInaute discret
salva a dit:
L'avantage d'un CMS populaire est sa communauté qui fait remonter les bugs et failles diverses qui sont rapidement patchés par les développeurs.
Tu n'auras jamais ce retour avec une solution maison.

Oui je sais bien c'est un choix qu'on a fait il y a 10 ans et ça à d'autres avantages aussi de développer son propre CMS ;)
 

CARREZ

WRInaute discret
salva a dit:
...et les petits trous qui vont avec.
Et tu dois en avoir, statistiquement parlant :)

Ah ben oui c'est certain mais un gros trous dans notre CMS sera toujours moins visible qu'un petit trou dans un CMS dont les sources sont publiques :wink:
Enfin c'est un autre débat et je ne pense pas qu'il y ait "un bon choix" entre l'un ou l'autre, chacun mesure l'importance de ce que ça lui apporte et de ce que ça lui enlève !
 

salva

WRInaute accro
CARREZ a dit:
un gros trous dans notre CMS sera toujours moins visible qu'un petit trou dans un CMS dont les sources sont publiques
Détrompe-toi. Grâce à Google et dans la mesure où le contenu du CMS se place sur quelques bonnes requêtes, tu trouveras toujours sur ton chemin des vautours, parfois très talentueux, qui viendront réclamer leur pitance. CMS maison ou pas.
 

Discussions similaires

Haut