Crawl de pages qui n'existent plus et forcément erreurs GWT :/

Discussion dans 'Crawl et indexation Google, sitemaps' créé par julien-h92, 6 Juillet 2010.

  1. julien-h92
    julien-h92 Nouveau WRInaute
    Inscrit:
    19 Novembre 2008
    Messages:
    15
    J'aime reçus:
    0
    Vous l'aurez compris en lisant le titre, il m'arrive quelque chose de très étrange depuis quelques temps.. Je travaille (ou plutôt je fais semblant ^^) sous Wordpress est alors que j'ai bien supprimé 5 ou 6 articles de mon blog depuis plus de quinze jours, Google Bot (et Yahoo bot) me crawlent ces pages malgré tout. Du coup chaque jour, GWT m'indique que ces pages remontent des erreurs 404 et qu'elles sont introuvables (nan, sérieux ?? pff..)

    Je suis en train de devenir fou car j'ai bien vérifié et ces articles n'existent plus (ni les tags en question d'ailleurs..) alors j'ai essayé de les supprimer de l'index de Google dans GWT mais pour la majorité, j'obtiens un refus de suppression. Du coup dans l'immédiat je gère en redirection 301 grâce à un plugin Wordpress (jsuis trop bidon pour le faire en .htaccess, j'y pige rien), mais c'est n'importe quoi je vous l'accorde.

    Autre fantaisie, GWT m'a indexé une page qui n'existe pas et n'a JAMAIS existé, en se plantant de surcroit dans l'URL, il m'indexe une de mes pages ainsi :

    http://monsite.com/sujet-de-mon-article/Une%20supportrice%20sud%20afri ... 20endommagé%20la%20gorge%20à20force%20de%20souffler%20dans%20l'instrument.%20Ce%20qui%20au%20départ%20n'était%20apparemment%20qu'un%20simple%20mal%20de%20gorge,%20s'est%20avéré%20en%20fait%20être%20une%20lésion%20de%20la%20trachée.

    Et une autre en :
    http://monsite.com/western-digital-hotliner-alcoolique/www.viedemerde.fr/ (j'ai mis un lien vers ce site dans mon article, mais pas dans mon url jsuis nul mais pas à ce point..)

    Question :

    1. Comment se fait il que des articles qui sont censés ne plus exister et qui ne sont ni dans mon sitemap.xml, ni dans mon sitemap.xml.gz se retrouve SANS CESSE et a chaque passage de GG crawlés et indexés ????
    2. Physiquement, sont ils présents dans un de mes dossiers sur mon ftp ? (je sais la question est débile mais un article wordpress lorsqu'il est publié est il créé dans un dossier et du coup il est possible qu'en le supprimant de mes articles il ne le soit pas forcément physiquement de mon ftp ?) < j ai regardé vite fait je trouve pas de dossiers comportant mes aricles mais j ai peut être mal cherché..
    3. je prends tous les conseils que vous me donnerez je suis une quiche absolue en referencement et Google me déteste..

    MERCI D AVANCE AUX BONNES AMES QUI M AIDERONT (parceque je suis a 2 doigts de peter un cable.

    Pour info mon site est accessible via "http://lahyene.com" si quelqu'un veut regarder le code de la page ou autre..les plugins installés sont "XML Sitemap", "All in One SEO Plugin" pour le référencement principalement.
     
  2. Rod la Kox
    Rod la Kox WRInaute accro
    Inscrit:
    24 Juin 2008
    Messages:
    2 780
    J'aime reçus:
    0
    Tout d'abord, techniquement parlant, Google ne peut crawler une page qui n'existe pas, il trouve un lien pointant vers elle est tente d'y accéder, nuance.

    En ce qui concerne les pages en 404, il faut voir si tous les liens pointant vers elles ont été supprimé (interne, mais aussi externe).
    Pour ce qui est de la suppression d'une page via les GWT, ça fonctionne. Mais encore faut-il suivre leur directive, à savoir de mettre l'url dans le robots.txt, etc...

    Rediriger une page inexistante vers une autre via une 301 n'est en rien bidon. C'est une solution pour dire à GG que l'ancienne n'existe plus et qu'il doivent transposer tout ce qu'il savait sur elle vers la nouvelle.
     
Chargement...
Similar Threads - Crawl existent forcément Forum Date
Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt Crawl et indexation Google, sitemaps 26 Avril 2022
Crawler une url présente dans un select Développement d'un site Web ou d'une appli mobile 28 Mars 2022
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Liens internes invisibles pour les crawlers Demandes d'avis et de conseils sur vos sites 7 Décembre 2021
Budget Crawl Google pour un gros site Crawl et indexation Google, sitemaps 18 Novembre 2021
Problème récent de Crawl Google Crawl et indexation Google, sitemaps 7 Juillet 2021
faut-il activer les URL image ou éviter pour économiser le crawl Référencement Google 21 Juin 2021
Signaler aux crawler de ne pas suivre un lien qui nécessite une connexion Crawl et indexation Google, sitemaps 9 Juin 2021
Urls filtrées indexées et crawl robots.txt Crawl et indexation Google, sitemaps 19 Mai 2021
Crawl et indexation Landing Page (site en création) Débuter en référencement 25 Mars 2021
Critères de tri en GET et budget crawl Référencement Google 25 Février 2021
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
Crawl prédictif Google : pourquoi c'est majeur en SEO Techniques avancées de référencement 17 Décembre 2020
Search Console Suivi du crawl Google (Statistiques sur l'exploration) Crawl et indexation Google, sitemaps 9 Décembre 2020
Comment éviter un piège à bots avec un crawler ? Crawl et indexation Google, sitemaps 3 Décembre 2020
Pas de nouveau "crawl" sur une page récente, pourquoi ? Crawl et indexation Google, sitemaps 17 Novembre 2020
Crawl Screaming Frog : comment interpréter ces données ? Crawl et indexation Google, sitemaps 8 Octobre 2020
Search Console Suppression de sous domaines + stop crawl ? Crawl et indexation Google, sitemaps 27 Juillet 2020
Qwant : une étude du crawl Autres moteurs de recherche connus 7 Juillet 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020