Quand Googlebot fait l'impasse à robots.txt

Discussion dans 'Crawl et indexation Google, sitemaps' créé par 5_legs, 29 Mai 2009.

  1. 5_legs
    5_legs WRInaute passionné
    Inscrit:
    30 Avril 2006
    Messages:
    1 521
    J'aime reçus:
    0
    Il y a des jours où il m'agace !

    J'ai sur plusieurs sites une page pour signaler un bug, pour l'exemple on va dire :

    /y-a-un-bug.php suivi d'une variable identifiante ce qui nous donne (toujours par exemple)

    /y-a-un-bug.php?products_id=39

    J'ai bien dans mon robots.txt un

    Disallow: /y-a-un-bug.php

    Et bien régulièrement il m'en indexe une, je suis obligé de demandé l'effacement dans GWT

    Nan mais c'est vrai quoi ! il m'agace à ne pas faire ce que je lui demande ! :)
     
  2. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    Si tu parles du site de ton www, des /signaler_bug.php sont dans l'index, mais sans cache, ce qui veut dire que Google a bien respecté le robots.txt puisqu'il ne les a pas crawlées.

    Si tu tiens à interdire toute indexation de ces pages, il faut :
    - soit mettre des rel="nofollow" sur tous les liens vers ces pages;
    - soit laisser Google les crawler (donc enlever l'interdiction du robots.txt) et mettre une meta robots noindex dans la page même.

    Jean-Luc
     
  3. 5_legs
    5_legs WRInaute passionné
    Inscrit:
    30 Avril 2006
    Messages:
    1 521
    J'aime reçus:
    0

    Bonsoir Jean-Luc, merci pour ta réponse ;-)

    Mais les liens sont bien en nofollow :)
    Ensuite si ces pages sont dans l'index c'est bien qu'elles ont été crawlées. non ? suis perdu là
    Et dans ce cas pourquoi seulement une et pas toutes ?

    En fait je ne voulais tout simplement pas les voir dans l'index.

    Ceci dit ce n'est pas grave en soit, c'est juste que je ne comprends pas
     
  4. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    Pas nécessairement ! L'algo de Google repose en grande partie sur la réputation des pages (PageRank, link juice, TrustRank et compagnie). Une page peut avoir une bonne réputation avant d'avoir été visitée par le robot, mais c'est évidemment l'exception. Dans ton cas, il se peut que la page soit présente seulement quand tu fais site: et qu'elle ne sorte jamais sur une requête "normale".

    La méthode la plus fiable pour qu'une page n'apparaisse pas dans Google, c'est :
    - laisser Googlebot visiter la page (donc pas d'interdiction dans robots.txt)
    - et mettre une meta robots noindex dans la page même.
    Ainsi Googlebot visitera la page et il y verra que tu ne veux pas qu'elle soit indexée.

    En résumé :
    - robots.txt interdit seulement le crawl (et rend ainsi peu probable l'indexation, mais ne l'interdit pas)
    - meta robots noindex interdit l'indexation (mais il faut que le crawl soit autorisé)

    Jean-Luc
     
  5. 5_legs
    5_legs WRInaute passionné
    Inscrit:
    30 Avril 2006
    Messages:
    1 521
    J'aime reçus:
    0
    Merci.

    Je pense donc que désormais je vais prendre des meta "bloquant" et ranger mon robot alors puisque je ne jouerai plus avec.

    ;-)
     
Chargement...
Similar Threads - Googlebot impasse robots Forum Date
Les liens nofollow sont quand même suivis par Googlebot Débuter en référencement 27 Mai 2021
Voir une page (entière) comme Googlebot Développement d'un site Web ou d'une appli mobile 27 Mars 2021
Fréquence passage googlebot Crawl et indexation Google, sitemaps 30 Janvier 2021
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019
feuilles de styles non obtenues par Googlebot Crawl et indexation Google, sitemaps 28 Septembre 2018
Temps de réponse serveur googlebot Développement d'un site Web ou d'une appli mobile 23 Mai 2018
Strikingly et Googlebot : Contenu invisible dans la Search Demandes d'avis et de conseils sur vos sites 3 Avril 2018
Robots.txt ligne génante selon Googlebot votre avis ? Crawl et indexation Google, sitemaps 23 Mai 2017
Impact gestion paramètre url sur Googlebot Crawl et indexation Google, sitemaps 12 Mai 2017
Googlebot et fichier css/ java Débuter en référencement 24 Juin 2016
Googlebot, Cookie et SEO Crawl et indexation Google, sitemaps 20 Mars 2016
GWT m'invente des pages (Googlebot for smartphones) Crawl et indexation Google, sitemaps 19 Août 2015