Ne pas indexer ni faire crawler

Discussion dans 'Crawl et indexation Google, sitemaps' créé par alphakka, 10 Juin 2016.

  1. alphakka
    alphakka Nouveau WRInaute
    Inscrit:
    10 Juin 2016
    Messages:
    2
    J'aime reçus:
    0
    Bonjour,

    Petite question pour un site, où je souhaiterais qu'un grand nombre de pages ne soient pas crawlées ni indexées.

    Ces pages sont en noindex, ou avec canonical, comment éviter également leur crawl (suite au message de Google "Grand nombre d'URL détectées") ? A priori, je pensais qu'il ne fallait pas ajouter également les directives au robots.txt pour que Google voit le noindex et jusqu'à maintenant, je préférai mettre en noindex un contenu qui n'a pas d'importance pour Google et les visiteurs du site. Cela ne semble pas suffisant. Analyse de logs prévue mais pas pour tout de suite...

    Merci pour votre avis.
     
  2. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    Bonjour,

    Pour éviter le crawl, il faut l'interdire dans le robots.txt. Si une page n'est pas crawlée, il est très peu probable qu'elle ressorte dans les résultats de recherche.

    Si tu utilises la balise noindex dans la page, Google doit lire la page (donc la crawler) pour lire la balise.

    Jean-Luc
     
  3. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 891
    J'aime reçus:
    8
    Slt,

    La solution du robots.txt et la plus simple, même si nombre de moteurs ne la respecte pas.

    Maintenant quel est pour toi cette nécessiter de ne SURTOUT pas laisser crawler ?
     
  4. alphakka
    alphakka Nouveau WRInaute
    Inscrit:
    10 Juin 2016
    Messages:
    2
    J'aime reçus:
    0
    Merci pour vos réponses.

    La nécessité de ne surtout pas laisser crawler est de répondre à la demande de Google, qui envoie souvent le message "Grand nombre d'URL détectées sur le site... Cela rend l'exploration de votre site Web plus difficile et peut empêcher les internautes de trouver votre contenu récent dans les résultats de recherche. Googlebot explore peut-être un grand nombre d'URL distinctes qui pointent vers un contenu identique ou semblable, ou explore des parties de votre site qu'il n'est pas censé explorer. Dans ce cas, il est possible que Googlebot utilise beaucoup plus de bande passante que nécessaire ou ne parvienne pas à indexer tout le contenu de votre site."

    Je pense que dans ce cas, la solution la plus simple serait effectivement d'éviter le crawl via le fichier robots.txt, je pense laisser cependant le noindex sur chaque page (Google ne pourra pas voir l'info, tant pis, au moins il ne crawlera pas la page).

    Bonne journée à tous !
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 978
    J'aime reçus:
    293
    si ces pages ne sont pas indexées (je suppose que c'est le cas car elles ont du noindex et ne sont pas bloquées au crawl), alors ta solution est de les bloquer au crawl dans le robots.txt

    mais la meilleure solution est de repenser le site en se demandant si c'est normal de générer autant de pages sans intérêt pour le SEO
     
Chargement...
Similar Threads - indexer crawler Forum Date
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
WordPress Impossible d'indexer un site pour la première fois Problèmes de référencement spécifiques à vos sites 4 Septembre 2019
Pages zombies : faut-il désindexer les pages catégories ? Référencement Google 26 Août 2019
Pages Avis clients : à désindexer ou pas ? e-commerce 19 Août 2019
pages zombies à désindexer Techniques avancées de référencement 29 Juin 2019
Comment desindexer ces pages (AMP Media WP) Débuter en référencement 19 Juin 2019
Indexer ou pas /wp-content/ (et son contenu) ? Référencement Google 28 Mai 2019
Référencement : comment indexer les différentes pages du site ? Débuter en référencement 18 Février 2019
WordPress Google refuse d'indexer le site (après des 1ères pages) Problèmes de référencement spécifiques à vos sites 21 Janvier 2019
désindexer et/ou empêcher crawl ? Crawl et indexation Google, sitemaps 4 Janvier 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice