Crawl, indexation, robots.txt : les mystères de Google expliqués

Discussion dans 'Crawl et indexation Google, sitemaps' créé par WebRankInfo, 10 Juin 2013.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 671
    J'aime reçus:
    749
    J'ai regroupé dans un même dossier les résultats de plusieurs tests que j'ai effectués ces dernières semaines, sur le crawl, l'indexation et les interdictions de crawl et d'indexation. Google ne réagit plus de la même façon qu'il y a plusieurs années...

    J'ai également testé et validé l'utilisation de la directive Noindex dans le fichier robots.txt, qui n'est documentée ni dans le standard ni chez Google, mais que Google semble pourtant bien suivre.

    Bonne lecture ! et surtout n'hésitez pas à commenter et proposer d'autres pistes d'étude ou d'approfondissements.
     
  2. nza2k
    nza2k WRInaute impliqué
    Inscrit:
    16 Janvier 2004
    Messages:
    892
    J'aime reçus:
    2
    Merci Olivier pour ce topo.

    Très bien vu la nuance de traitement entre les instructions du robots.txt et celles de la meta robot

    Sur un de mes sites, qui a changé de version, j'ai mis en place les redirections 301 pour les principales url et j'ai voulu desindéxé le reliquat des anciennes url avec le fichier robotx.txt... Ca fait bien trois semaines, et elles sont toujours dans l'index Google. En fait, après lecture de cet article, j'en déduis qu'elles ne vont pas disparaître de cette manière. Pire, elles vont rester plus longtemps car Google ne va plus les crawler et il ne va pas voir qu'elles ne contiennent plus grand chose (maintient du duplicate content donc !).

    Je me souviens qu'il y a quelques années, on pouvait demander à Google une désindexation express en lui indiquant de consulter le robots.txt Ce n'est effectivement plus le cas maintenant, je comprends pourquoi.

    Je vais donc essayer la directive noindex à l'intérieur du robots.txt. Sinon, il faudra communiquer à la main les url à désindexer sur GWT.
     
  3. alain78france
    alain78france WRInaute occasionnel
    Inscrit:
    1 Mars 2006
    Messages:
    459
    J'aime reçus:
    0
    Bonjour,
    Merci , un article clair et passionnant !
    Quelques petits points d'ombre encore
    mais c'est bien la ligne mystérieuse de notre grand GG.
    Alain
     
  4. nza2k
    nza2k WRInaute impliqué
    Inscrit:
    16 Janvier 2004
    Messages:
    892
    J'aime reçus:
    2
    Bonjour,

    Je viens de mettre en place ça dans le robots.txt :

    Code:
    User-agent: *
    Disallow: /vieux_repertoire_abandonne/
    Sitemap: adresse_du_sitemap
    User-agent: *
    Noindex: /vieux_repertoire_abandonne/
    
    J'ai mis le noindex à la fin, en espérant que les premières instructions, valides, seront lues par tous les moteurs. Si vous voyez des correctifs à apporter, je suis preneur... Sinon, RV dans quelques jours pour vous dire si les vielles url ont bien été désindexées par l'ami GG.
     
  5. nza2k
    nza2k WRInaute impliqué
    Inscrit:
    16 Janvier 2004
    Messages:
    892
    J'aime reçus:
    2
    Pr info, à J+3, les vielles url sont toujours indexées.
    Sur Google Webmaster Tools, il est indiqué que la date de dernier téléchargement du robots.txt date d'hier, le 13 juin.

    J'attends encore quelques jours !
     
  6. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 024
    J'aime reçus:
    1
    A mon avis un no-index a défaut de redirection et un vidage du contenu serait plus fonctionnel.
     
  7. madri2
    madri2 WRInaute impliqué
    Inscrit:
    29 Décembre 2007
    Messages:
    650
    J'aime reçus:
    0
    en passant j'ai une question.
    Pour un nouveau site avec une nouvelle url et ayant de nombreuses pages, vaut-il mieux laisser google tout crawler et indexer ou vaut-il mieux mettre des meta noindex sur les pages les moins intéressantes ou une autre technique pour limiter le nombre de pages à indexer d'un coup ?
     
Chargement...
Similar Threads - Crawl indexation robots Forum Date
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Crawl et indexation Landing Page (site en création) Débuter en référencement 25 Mars 2021
Crawl et indexation de certaines pages Débuter en référencement 30 Décembre 2019
Indexation de nouveaux url et crawl Référencement Google 15 Novembre 2018
Crawl indexation depuis mobile et AMP ? Référencement Google 7 Février 2018
Crawl et indexation Google par langue et pays Référencement international (langues, pays) 2 Février 2015
Premiere indexation et crawl suivants Référencement Google 22 Février 2014
Crawl, indexation et optimisation SEO pour Qwant Autres moteurs de recherche connus 14 Mars 2013
Pas d'indexation d'une page alors que google a bien fait son crawling du domaine Problèmes de référencement spécifiques à vos sites 24 Novembre 2009
[Problème] Indexation/Crawl d'un site Crawl et indexation Google, sitemaps 18 Mars 2009
Description du système de crawl et d'indexation de Google Crawl et indexation Google, sitemaps 20 Août 2008
Développement d'un crawler pour indexation petites annonces Développement d'un site Web ou d'une appli mobile 20 Avril 2007
Temps entre crawl et indexation Problèmes de référencement spécifiques à vos sites 22 Janvier 2006
Crawl des pages mais pas indexation? Crawl et indexation Google, sitemaps 23 Juin 2005
Google crawl indexation nouveaux domaines Crawl et indexation Google, sitemaps 18 Août 2003
Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt Crawl et indexation Google, sitemaps 26 Avril 2022
Crawler une url présente dans un select Développement d'un site Web ou d'une appli mobile 28 Mars 2022
Liens internes invisibles pour les crawlers Demandes d'avis et de conseils sur vos sites 7 Décembre 2021
Budget Crawl Google pour un gros site Crawl et indexation Google, sitemaps 18 Novembre 2021
Problème récent de Crawl Google Crawl et indexation Google, sitemaps 7 Juillet 2021