1. Pour Black Friday on FRACASSE les prix ⚡ avec RM Tech Découverte
    Rejeter la notice

Supprimer pages indexées

Discussion dans 'Crawl et indexation Google, sitemaps' créé par passion, 11 Octobre 2020.

  1. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Bonjour,

    Je suis devant un casse-tête et qui est surtout stupide !
    Mon fichier robot interdit l'indexation d'un répertoire. Il est évident que les pages de ce répertoire ne devront pas être indexées.
    Seulement voilà, la console search m'indique que certaines de ces pages ont été indexées dans la rubrique "Indexée, mais non envoyée via un sitemap".
    Non seulement les pages sont bloquées par le fichier robot mais en plus, elles possèdent une meta=noindex !
    Je me suis dit avec ça, les moteurs vont pas me les indexer... et bien si !

    Maintenant je me retrouve à devoir bidouiller pour que googlebot comprenne PAS INDEXER !

    J'ai utilisé le formulaire "suppression d'urls" en renseignant le répertoire pour qu'ils les virent de l'index. Mais ça, c'est temporaire !
    Alors j'ai créé un sitemap qui liste donc ces urls pour qu'il vienne enfin faire la maj mais là, maintenant la console search répond :
    Bah oui gros nigaud !
    Là, tu en tiens compte !

    Maintenant si je désactive la protection du répertoire dans le fichier robots, ça va être la porte ouverte pour indexer TOUTES les pages !

    C'est complètement stupide et un non-sens !
    Je ne sais pas quoi faire !
    De l'aide ?

    Merci
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 914
    J'aime reçus:
    482
    en fait non, car le robots.txt n'a pas d'impact sur l'indexabilité, seulement sur le crawl. OK, dans ce cas, on peut trouver que c'est très proche.

    sans doute qu'à une époque, tes pages n'avaient pas de noindex. Et Google était passé les crawler, donc les avait indexées. Maintenant qu'elles sont bloquées au crawl, il ne retourne plus les voir, donc il ne peut pas constater qu'il y a du noindex.

    j'insiste, car pour Google le robots.txt n'est qu'une indication qu'il ne respecte pas dans 100% des cas, contrairement à la noindex.

    Si tout est dans un seul répertoire, et que ce répertoire ne contient rien à faire indexer, alors tu peux faire une demande de suppression (=désindexation) de ce répertoire. En théorie ça ne devrait pas être temporaire car tu as pris les mesures pour empêcher l'indexation.

    S'il n'y a pas trop d'URL dans ce répertoire, tu peux aussi supprimer l'interdiction de crawl dans le fichier robots.txt et laisser les noindex.
     
  3. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Non c'est ce qui m'étonne. Elles ont toujours été noindex.

    La réponse vient d'une subtilité de google:
    Pour résumer, mes pages ont toujours été noindex et bloquées par le fichier robot mais des membres ont partagées ces pages. Au yeux de google, comme elles sont partagées, elles méritent peut-être d'être indexées mais comme elles ne peuvent pas être crawler pour en vérifier le statut alors GG décide de les indexer dans le doute. En définitif, je ne dois pas empêcher le crawl. Uniquement utiliser la meta=noindex

    J'ai compris la subtilité entre le noindex et le fichier robot !
    Soit on utilise la meta=noindex ou soit on bloque par un htaccess si le répertoire est strictement privé.
    La seule alternative est alors la balise meta=noindex.

    J'ai viré le fichier robot et confirmer avoir "corriger le problème" sur la console search. Mes pages concernées sont évidemment renseignées meta=noindex.

    Je vais surveiller que les pages de mon répertoire soient bien désindexées prochainement.
    Je me rends compte que beaucoup font l'erreur sur l'utilité d'un fichier robots en pensant que ça va protéger de l'indexation !
    A la rigueur, je ne vois même pas l'utilité du fichier robots. On ne peut même pas augmenter son capital crawl en interdisant googlebot de passer sur certaines pages puisqu'elles risquent à terme d'être indexées et ensuite bidouiller pour les virer !

    En clair, je vais gagner sur mon indice qualitatif mais perdre sur mon budget crawl !

    Merci pour l'aide
     
    #3 passion, 12 Octobre 2020
    Dernière édition: 12 Octobre 2020
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 914
    J'aime reçus:
    482
  5. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Merci article intéressant mais j'y mettrai une nuance
    Le disallow n'aide pas le seo. Il suffit de voir mon cas concret.
    En interdisant l'accès au statut de ta page, Google peut indexer ta page malgré tout. Donc où est l'intérêt seo?
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 914
    J'aime reçus:
    482
    ça reste rare que Google crawle les pages bloquées au robots.txt, mais je suis moi aussi déçu de voir que Google ne le respecte pas assez
     
  7. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 829
    J'aime reçus:
    158
    Il y a vraiment une séparation des rôles.
    Le disallow renseigne uniquement l'interdiction du crawl donc en définitif car ne sert à rien
    A la rigueur utile pour renseigner des URL de fichiers pdf statiques etc... assez lourd et venant prendre du budget crawl.
    Mais pour le reste c'est obligatoire noindex
     
Chargement...
Similar Threads - Supprimer indexées Forum Date
Comment supprimer des pages indexées Crawl et indexation Google, sitemaps 26 Septembre 2019
RGPD : faire supprimer par Facebook l'ensemble de mes informations Droit du web (juridique, fiscalité...) 2 Novembre 2020
Search Console Supprimer des doublons Crawl et indexation Google, sitemaps 26 Octobre 2020
Contenu Obsolète supprimer ou noindex ? Débuter en référencement 16 Octobre 2020
Supprimer des pages en moasse (avec l'accent de Gad) Crawl et indexation Google, sitemaps 5 Octobre 2020
Galère pour supprimer index.php URL Rewriting et .htaccess 12 Août 2020
Supprimer les doublons d'une table mysql Développement d'un site Web ou d'une appli mobile 16 Juin 2020
faut il supprimer un ancien sitemap ? Crawl et indexation Google, sitemaps 6 Mai 2020
Supprimer le sitemap HTML et garder le XML Crawl et indexation Google, sitemaps 27 Avril 2020
Déplacer le contenu d'une page puis la supprimer Problèmes de référencement spécifiques à vos sites 24 Avril 2020