Page introuvable remontées dans WMT

Discussion dans 'Crawl et indexation Google, sitemaps' créé par CARREZ, 3 Mars 2014.

  1. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Bonjour,

    J'ai un problème depuis quelques mois et je ne trouve nul part la raison (je cherche peut-être mal ou dans la mauvaise direction ?).
    Sur de nombeux sites j'ai beaucoup d'erreurs 404 ("Page introuvable") qui remontent dans WMT, or ces pages existent bien ... Elles sont dans le sitemap des sites avec une url du type : -http://www.monSite.com/blog/dossier/maPage,i68.html
    Et ressortent en erreur avec l'url : -http://www.monSite.com/blog/dossier/maPage

    WMT semble ignorer tout ce qui est après la virgule ce qui est très étonnant car ce problème est assez récent et apparait même sur des sites un peu anciens qui n'avaient pas ce problème avant. D'autant plus étonnant que ce phénomène n'apparait pas sur tous les sites qui sont pourtant construit avec le même CMS.

    Je me dis donc qu'il s'agit d'un bug de WMT (?) ou alors ... Je ne vois pas !?!

    Est-ce que certains d'entre vous on déjà constaté çe problème ? Si oui connaissez-vous la raison ? Le remède ? C'est tout de même ennuyeux quand certains clients ont accès à WMT et voient des "page introuvable" en masse.

    Merci d'avance pour vos retours d'expérience et conseils.
     
  2. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 368
    J'aime reçus:
    2
    Arrêter de faire des urls avec des , qui sont effectivement tronquées dans certains cas (envoi auto sur Twitter, certains forums, etc)
     
  3. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Ok pour arrêter mais en attendant sauf erreur ce n'est pas interdit et j'aimerais comprendre pourquoi Google tronque ces urls ? Y'a t'il des précos de Google qui justifierait ça ?
    Il crawl les sitemaps sans signaler d'erreur et dèrrière remonte des erreurs 404 de ces même sitemaps ... J'avoue que je suis un peu perplexe !
     
  4. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 883
    J'aime reçus:
    73
    Le problème ce n'est pas tant Google, dans ce cas de figure, que les sites tiers qui vont faire des liens vers tes pages profondes. De nombreux CMS vont ainsi tronquer le lien avant la virgule, ce qui va permettre au moteur de crawler ton site via une url non valide.

    CF le lien que tu as toi-même mis dans ton topic, que le PHPBB de Wri a tronqué.
     
  5. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Alors je n'ai pas de problème avec les urls à virgules, pas de problème d'indexation ou de rewriting ...

    Je cherche juste à comprendre pourquoi le WMT polluent la liste des erreurs 404 avec des erreurs qui n'en sont pas. Il m'affiche que les liens provoquant ces erreurs sont dans les sitemap alors que les sitemap comportent bien les bonnes urls. Et ne me remonte aucun problème sur les sitemap et m'affiche que les pages des sitemap sont bien indexées. Un exemple, j'ai un site où il m'affiche 2000 erreurs depuis le 18/12/2013 alors que le rewriting est le même depuis plusieurs années sur ce site.

    Avant d'envisager de remplacer les virgules par autre chose dans les url j'aimerais comprendre pourquoi google m'affiche ça, il me donne des infos contradictoire et je ne suis pas prêt à modifier le rewriting de dizaines de sites alors que je ne suis pas sûr de la fiabilité des infos que google me donne.
    J'ai souvent constaté des problèmes dans cet outil depuis son existence, celui là est très polluant surtout pour les clients qui ont accès à ces données.

    Je suis preneur de toutes les explications d'autant que ce n'est pas généralisé sur tous nos sites pourtant construit sur le même CMS.
     
  6. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 883
    J'aime reçus:
    73
    Tu as essayé de regarder via GWT ou via des outils comme Ahrefs si les pages en erreur n'étaient pas linkées depuis des sites tiers ?
     
  7. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Je viens de regarder sur un "petit" site (avec 190 "pages introuvables"), je ne vois pas de lien moisit dans les backlinks.
    GWT me dis que ces liens viennent du sitemap ! Sauf que dans le sitemap ils sont ok et il indexe bien les pages :(

    Un détail que je n'ai pas mentionné, sur la plupart des sites la montée de liens morts commence vers le 18-19 décembre 2013. Est-ce lié à un événement particulier chez Google ?
     
  8. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 883
    J'aime reçus:
    73
    Pour aller plus loin, il nous faudrait l'url du site.
     
  9. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Des url j'en ai un stock ... Deux exemples de petits sites avec le problème dans GMT : http://www.prodium.fr/ & http://www.aubonpin.com/

    Pour les 2 les erreurs ont commencé le 19/12/2013 et se stabilisent début janvier 2014 ! Pour les plus gros sites àa continue d'augmenter chaque jour.
     
  10. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 883
    J'aime reçus:
    73
    En même temps, sur les deux sites en question, le sitemap.xml est vide, à deux url près...
     
  11. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
  12. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    J'ai l'impression que mon problème ne passionne pas les foules :(

    Je ne pense pas être le seul à déjà l'avoir eu, j'ai vu sur divers forum francophones et anglophones quelques cas similaires mais personne n'a pu apporter de réponses quant à la cause réelle ... Je n'arrive pas à isoler le point commun entre les sites touchés (ou les non touchés) !
    En soit ça n'a pas l'air pénalisant donc la gène est juste au niveau de la pollution du GWT, j'aime bien comprendre ce qu'il se passe quand je rencontre ce type de problème, je ne pense pas être le seul :wink:

    Pas d'amateur pour tenter de m'aiguiller ?
     
  13. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Ton sitemapindex ne semble pas respecter le protocole :
    affiche ceci
    Code:
    <urlset xmlns="https://www.google.com/schemas/sitemap/0.84">
    <url>
    <loc>http://www.prodium.fr/</loc>
    </url>
    <url>
    <loc>http://www.prodium.fr/plan-du-site.html</loc>
    </url>
    </urlset>
    alors qu'il devrait ressembler à ceci
    Code:
    <?xml version="1.0" encoding="UTF-8"?>
       <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
       <sitemap>
          <loc>http://www.example.com/sitemap1.xml.gz</loc>
          <lastmod>2004-10-01T18:23:17+00:00</lastmod>
       </sitemap>
       <sitemap>
          <loc>http://www.example.com/sitemap2.xml.gz</loc>
          <lastmod>2005-01-01</lastmod>
       </sitemap>
       </sitemapindex>
    Un sitemapindex liste tous les sitemaps (en xml ou xml.gz) des catégories choisies
    et non un lien vers un plan de site en html.
    Plus d'info ici.
     
  14. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Je soumet des sitemapindex à google depuis que ça existe et jamais un aucun soucis, le problème ne semble pas être là, ils sont là en fait : http://www.aubonpin.com/sitemapindex.xml et http://www.prodium.fr/sitemapindex.xml !

    Je pencherais plus vers un bug de GWT qui ne supporterais plus les virgules dans les urls mais tant que je ne suis pas sûr je sais que le bug peut être de mon côté ... Par contre je suis dans le brouillard complet je ne vois toujours pas de cause pluasible !?!

    Vraiment personne n'a ce problème ? Bon ça doit concerner uniquement les url à virgule mais je ne suis pas le seul à utiliser ça.
     
  15. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Une autre données qui me laisse penser que le soucis est du côté de GWT : le problème est bien daté, je le constate sur plusieurs sites (plus de 20 au minimum) et ça commence entre le 18 et le 20 décembre 2013 sur tous les sites.

    Les sites en questions n'ont rien en commun (à part le CMS utilisé et le rewriting) et surtout sont sur des serveurs différents. Ils ont d'ailleurs tous été migrés en janvier et le problème persiste ...
     
  16. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Google gère très bien la virgule dans une url, idem pour plusieurs virgules dans une même url.
    Le problème vient de chez toi.

    Le 18 décembre est probablement lié à une mise à jour du CMS utilisé ou alors à une modification des paramètres du serveur.

    As-tu modifié les fichiers qui génèrent les sitemaps, ne serait-ce un saut de ligne ?

    Dans tous les cas, ton sitemapindex ne respecte pas le protocole.
    Le terme "sitemapindex" est absent du fichier. Perso je réglerai d'abord ce problème parce que s'en est un.
    Source
     
  17. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    euh mon sitemapindex respecte bien les précos :
    Code:
    <?xml version="1.0" encoding="UTF-8" ?>
    <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <sitemap>
    <loc>http://www.aubonpin.com/sitemap.xml</loc>
    </sitemap>
    <sitemap>
    <loc>http://www.aubonpin.com/Catalogue/sitemap.xml</loc>
    </sitemap>
    <sitemap>
    <loc>http://www.aubonpin.com/News/sitemap.xml</loc>
    </sitemap>
    </sitemapindex>
    
    J'ai exploré la piste mise à jour CMS, mise à jour serveur, mais ça ne peux pas venir de là. Les sites sont sur des serveurs différents (pas les 2 cités mais d'autres) et le phénomène débute à la même date sans qu'il n'y ait eu de changement notable sur les serveurs ni de mise à jour du CMS sur les différents sites. De plus comme je l'ai précisé les serveurs ont été migrés mi janvier et le problème persiste.

    A noter que dans les logs il apparait que Google tente d'accèder aux pages avec et sans la virgule ce qui explique qu'il indexe bien les pages et qu'il remonte des erreurs 404.
    A se taper la tête contre les murs ...
     
  18. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Autant pour moi, j'étais resté bloqué sur -http://www.prodium.fr/sitemap.xml

    Alors je plussoie UsagiYojimbo
    As-tu regardé le code source des sites/pages qui te linkent ? Peut être du NSEO et/ou une faille sur ton CMS. C'est quoi le CMS ?
     
  19. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Ben le soucis c'est que ça concerne aussi des pages non linkées ... J'ai sur un site e-commerce bientôt 2000 erreurs 404 sur des pages profondes qui ne comportent aucun lien externe.

    Le CMS est propriétaire on le développe depuis 10 ans, c'est vraiment nouveau comme phénomène et ça concerne des sites à jour comme des sites qui sont sur une version de plus de 3 ans du CMS, donc non modifiés depuis niveau code.

    Il semblerait que presque tous nos sites soient touchés à un degrés différent. Un autre site ecommerce (avec autant de pages) n'a que 30 erreurs 404 pour le moment ... Question de temps j'imagine.
     
  20. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 368
    J'aime reçus:
    2
    Non, j'ai deux sites avec des urls avec des virgules, et je n'ai pas ce problème
     
  21. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Le seul lien commun reste le CMS utilisé.
    Es-tu certain que ce n'est pas un bug généré par le CMS lui-même dans la construction des urls ?

    Sinon à par une faille, je ne vois pas. As-tu soumis le CMS à des tests d'injection xls ou autres ?
     
  22. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Peut-être juste une question de temps :wink:
    C'est bien ce qui me préoccupe ...
    Ca fait plusieurs années que c'est comme ça dans notre CMS, de plus comme je l'ai dis certains sites ont une version ancienne et sont touchés de la même manière, à la même date, et ça m'intrigue vraiment que la date soit la même alors que le seul lien est bien le CMS (version différente avec une méthode qui à changé même si le resultat est le même, serveurs différents, etc).
    Qu'entends tu pas "tests d'injection xls ou autres" ? On fait des imports/exports csv sans problème à part ça je ne vois pas ?
     
  23. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    As-tu sécurisé le CMS avec ce genre d'outils ?
     
  24. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Non mais notre admin serveur surveille l'activité sur nos serveurs et aucune faille n'a été découverte à ce jour (même si il y en a surement), le nombreuses tentatives d'intrusions ont toujours échouées. De plus le développeur principal du CMS est très attaché à la sécurité d'autant que nous avons certains clients sensibles.

    Si une faille était découverte quel rapport avec mon problème ?
     
  25. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Petit exemple vécu.

    J'utilise un CMS modifié dans tous les sens qui n'est plus mis à jour depuis belle lurette mais en version stable à l'époque de sa mise en ligne.

    Un bot scannait mes liens en ajoutant des paramètres dans les urls à la recherche de faille à exploiter.

    Et quand on cherche, en règle générale, on trouve :)
    Du style
    Code:
    index.php?option=com_jce&task=plugin&plugin=imgmanager&file=imgmanager&version=1576&cid=20 HTTP/1.1" 404 17236 "-" "BOT/0.1 (BOT for JCE)"
    La plus part des injections renvoyaient une 404 ou 500 mais aussi de beaux 200 sur certain format d'url.

    Comme le CMS était stable et à priori sécurisé, cette simple injection de paramètre dans l'url n'avait qu"une incidence mineure. A savoir des 404 ou 500 sans importances que google ne relève même pas dans GWT. Donc il semblerait que google gère bien le nseo. Du moins dans ce cas de figure.

    Par acquis de conscience j'ai patché la faille. J'ai réglé le problème en rajoutant une canonical avec la bonne url.

    Dans le cas de faille plus sérieuse, les conséquences peuvent être désastreuses. Jusqu’à l'injection de virus.
     
  26. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Ok compris ! J'explorerai ça sérieusement mais je doute que ça soit la cause, enfin on ne sait jamais.

    Autre piste, je m'aperçois que la source de mes sitemap ne comporte pas de saut de ligne. Je vais an ajouter sur un pour voir si ça pourrait être la cause du problème ... Encore une fois, on ne sait jamais ;)

    Je verrai d'ici 2-3 jours si il y a des effets.
    En tout cas merci beaucoup pour l'aide à la recherche du bug ! A suivre donc.
     
  27. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    L'avantage d'un CMS populaire est sa communauté qui fait remonter les bugs et failles diverses qui sont rapidement patchés par les développeurs.
    Tu n'auras jamais ce retour avec une solution maison.
     
  28. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Oui je sais bien c'est un choix qu'on a fait il y a 10 ans et ça à d'autres avantages aussi de développer son propre CMS ;)
     
  29. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    ...et les petits trous qui vont avec.
    Et tu dois en avoir, statistiquement parlant :)
     
  30. CARREZ
    CARREZ WRInaute discret
    Inscrit:
    12 Mai 2006
    Messages:
    73
    J'aime reçus:
    0
    Ah ben oui c'est certain mais un gros trous dans notre CMS sera toujours moins visible qu'un petit trou dans un CMS dont les sources sont publiques :wink:
    Enfin c'est un autre débat et je ne pense pas qu'il y ait "un bon choix" entre l'un ou l'autre, chacun mesure l'importance de ce que ça lui apporte et de ce que ça lui enlève !
     
  31. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 577
    J'aime reçus:
    0
    Détrompe-toi. Grâce à Google et dans la mesure où le contenu du CMS se place sur quelques bonnes requêtes, tu trouveras toujours sur ton chemin des vautours, parfois très talentueux, qui viendront réclamer leur pitance. CMS maison ou pas.
     
Chargement...
Similar Threads - introuvable remontées WMT Forum Date
WordPress Pages indexées mais introuvables sur Google Débuter en référencement 23 Octobre 2019
Page Facebook Introuvable Facebook 31 Août 2019
Balise "noindex" détectée par Google mais introuvable Crawl et indexation Google, sitemaps 28 Août 2018
Page 404 qui remonte en introuvable dans GSC Référencement Google 12 Avril 2018
fichier robot.txt introuvable Débuter en référencement 8 Avril 2017
site .ma, premier sur google.ma, introuvable sur google.fr Problèmes de référencement spécifiques à vos sites 20 Mars 2017
Page introuvable dans Google Problèmes de référencement spécifiques à vos sites 7 Janvier 2017
Pages "Introuvables" uniquement sur smartphone GWT Crawl et indexation Google, sitemaps 13 Décembre 2016
Pages introuvables sur Search Console avec code inconnu en fin d'url Crawl et indexation Google, sitemaps 5 Février 2016
Page d'un site introuvable Développement d'un site Web ou d'une appli mobile 28 Décembre 2015
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice