Exploration VS Indexation / robots.txt VS noindex

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Neoxy, 13 Février 2013.

  1. Neoxy
    Neoxy WRInaute occasionnel
    Inscrit:
    19 Avril 2006
    Messages:
    450
    J'aime reçus:
    0
    Bonjour,

    Il me semble que notre ami GoogleBot procède dans un premier temps à l'exploration des URLs d'un site, puis à l'indexation des pages dans son index afin de les présenter éventuellement dans ses résultats de recherche.

    Dans le cadre d'un contrôle de l'indexation des pages d'un site, il est parfois nécessaire d'indiquer à Google de ne pas indexer certaines pages, pour éviter des phénomènes de duplicate content par exemple :
    - Fonctions de tri effectués par un moteur de recherche interne d'un site.
    - Plusieurs pages pour un même produit ayant des couleurs différentes (et des contenus très similaires).
    - Pages présentant une version Web et une version imprimable d'un article...

    Pensez vous qu'il est judicieux de bloquer l'indexation des pages avec robots.txt ou simplement avec une balise noindex ?


    Il me semble que robots.txt bloque carrément l'exploration des URLs, et de ce fait, je me dis que GoogleBot ne doit pas pouvoir constater toute l'expérience utilisateur que propose un site. (A travers des fonctions d'un moteur de recherche par exemple).

    Alors que la balise noindex autorise l'exploration, mais indique simplement à Google de ne pas indexer les pages concernées...

    Devons nous laisser Google explorer toutes les urls d'un site et bloquer l'indexation avec un simple noindex pour se prémunir du duplicate content ?

    Ou est ce que le robots.txt suffit ? De ce fait, on privilégie les pages importantes à indexer, et Google ne se fatigue pas à explorer des milliers d'url noindex ?

    Au plaisir d'avoir des avis, des retours, et des expériences à ce sujet.

    A bientôt !
     
  2. GSleuth
    GSleuth Nouveau WRInaute
    Inscrit:
    6 Octobre 2012
    Messages:
    8
    J'aime reçus:
    0
    Pour moi, le robots.txt est à proscrire.
    J'avais un site qui s'est retrouvé avec 3 fois plus de pages dans l'index Google que de pages réelles. Car au final les pages bloquées par le robots sont tout de même présentes dans l'index. Il n'y a simplement par de description ou de titre, car il ne peut pas l'explorer. Mais c'était l'effet inverse de celui recherché.
    Avec des noindex, plus de problèmes.
     
  3. Neoxy
    Neoxy WRInaute occasionnel
    Inscrit:
    19 Avril 2006
    Messages:
    450
    J'aime reçus:
    0
    Merci pour ton avis GSleuth...

    Je me demandais quand quelqu'un allait m'apporter un point de vue concernant cette question...

    Après réflexions, je partage ton avis, noindex semble plus intéressant que Robots.txt...
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 832
    J'aime reçus:
    454
    si les pages ont déjà été indexées, alors il ne faut pas utiliser le fichier robots.txt en les interdisant (dans l'espoir qu'elles soient désindexées) car Google ne pouvant plus aller les consulter, il ne les met plus à jour, mais c'est tout.
    à moins qu'elles soient toutes dans le même répertoire, dans ce cas on peut les désindexer via GWT

    mais sinon, les 2 outils n'ont pas le même but et sont tous les 2 utiles :
    - le robots.txt sert à bloquer le crawl, donc a priori en amont
    - la meta robots noindex sert à bloquer l'indexation donc a priori en aval
     
  5. Neoxy
    Neoxy WRInaute occasionnel
    Inscrit:
    19 Avril 2006
    Messages:
    450
    J'aime reçus:
    0
    Bonjour,

    Merci pour votre retour, grand administrateur de WRI ^^ :)

    Cordialement,
     
  6. GSleuth
    GSleuth Nouveau WRInaute
    Inscrit:
    6 Octobre 2012
    Messages:
    8
    J'aime reçus:
    0
    En fait j'ai du mal à percevoir l'intérêt de bloquer le crawl, puisque ça n'empêche pas les pages d'apparaître dans l'index s'il y a un lien dessus.
    Économiser les ressources serveur? Honnêtement à part ça je ne vois pas.
     
  7. julienringard
    julienringard WRInaute discret
    Inscrit:
    13 Juillet 2009
    Messages:
    193
    J'aime reçus:
    0
    Passe directement par APache et ton htaccess pour régler ça et ensuite fait une demande sur GWT
     
  8. Neoxy
    Neoxy WRInaute occasionnel
    Inscrit:
    19 Avril 2006
    Messages:
    450
    J'aime reçus:
    0
    A la base, c'était pour limiter le duplicate content sur une rubrique du site...
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 832
    J'aime reçus:
    454
    si les pages n'ont jamais été indexées, en les bloquant dans le fichier robots.txt elles ne devraient pas être indexées
     
  10. GSleuth
    GSleuth Nouveau WRInaute
    Inscrit:
    6 Octobre 2012
    Messages:
    8
    J'aime reçus:
    0
    Dans le cas de mon site en tout cas elles l'ont été :(
     
Chargement...
Similar Threads - Exploration Indexation robots Forum Date
Différence entre moteur d'exploration et moteur d'indexation Débuter en référencement 19 Avril 2010
Search Console Erreurs d'exploration rapport Couverture Crawl et indexation Google, sitemaps 15 Avril 2020
Search Console Anomalie "aléatoire" lors de l'exploration Crawl et indexation Google, sitemaps 20 Février 2020
Search Console URL envoyée contient une erreur d'exploration Problèmes de référencement spécifiques à vos sites 23 Décembre 2019
Search Console L'URL envoyée contient une erreur d'exploration (erreur couverture) Crawl et indexation Google, sitemaps 12 Août 2019
Search Console Taux de crawling - Statistiques sur l'exploration Crawl et indexation Google, sitemaps 22 Mai 2019
erreurs d'exploration Demandes d'avis et de conseils sur vos sites 5 Novembre 2018
Que veut dire dernière exploration Crawl et indexation Google, sitemaps 28 Octobre 2018
Plus de statistiques d'exploration depuis le 23 mai 2018 Crawl et indexation Google, sitemaps 4 Juin 2018
Statistiques sur l'exploration - Pages explorées par jour Crawl et indexation Google, sitemaps 2 Décembre 2017