Crawl, indexation, robots.txt : les mystères de Google expliqués

Discussion dans 'Crawl et indexation Google, sitemaps' créé par WebRankInfo, 10 Juin 2013.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 691
    J'aime reçus:
    439
    J'ai regroupé dans un même dossier les résultats de plusieurs tests que j'ai effectués ces dernières semaines, sur le crawl, l'indexation et les interdictions de crawl et d'indexation. Google ne réagit plus de la même façon qu'il y a plusieurs années...

    J'ai également testé et validé l'utilisation de la directive Noindex dans le fichier robots.txt, qui n'est documentée ni dans le standard ni chez Google, mais que Google semble pourtant bien suivre.

    Bonne lecture ! et surtout n'hésitez pas à commenter et proposer d'autres pistes d'étude ou d'approfondissements.
     
  2. nza2k
    nza2k WRInaute impliqué
    Inscrit:
    16 Janvier 2004
    Messages:
    898
    J'aime reçus:
    2
    Merci Olivier pour ce topo.

    Très bien vu la nuance de traitement entre les instructions du robots.txt et celles de la meta robot

    Sur un de mes sites, qui a changé de version, j'ai mis en place les redirections 301 pour les principales url et j'ai voulu desindéxé le reliquat des anciennes url avec le fichier robotx.txt... Ca fait bien trois semaines, et elles sont toujours dans l'index Google. En fait, après lecture de cet article, j'en déduis qu'elles ne vont pas disparaître de cette manière. Pire, elles vont rester plus longtemps car Google ne va plus les crawler et il ne va pas voir qu'elles ne contiennent plus grand chose (maintient du duplicate content donc !).

    Je me souviens qu'il y a quelques années, on pouvait demander à Google une désindexation express en lui indiquant de consulter le robots.txt Ce n'est effectivement plus le cas maintenant, je comprends pourquoi.

    Je vais donc essayer la directive noindex à l'intérieur du robots.txt. Sinon, il faudra communiquer à la main les url à désindexer sur GWT.
     
  3. alain78france
    alain78france WRInaute occasionnel
    Inscrit:
    1 Mars 2006
    Messages:
    465
    J'aime reçus:
    0
    Bonjour,
    Merci , un article clair et passionnant !
    Quelques petits points d'ombre encore
    mais c'est bien la ligne mystérieuse de notre grand GG.
    Alain
     
  4. nza2k
    nza2k WRInaute impliqué
    Inscrit:
    16 Janvier 2004
    Messages:
    898
    J'aime reçus:
    2
    Bonjour,

    Je viens de mettre en place ça dans le robots.txt :

    Code:
    User-agent: *
    Disallow: /vieux_repertoire_abandonne/
    Sitemap: adresse_du_sitemap
    User-agent: *
    Noindex: /vieux_repertoire_abandonne/
    
    J'ai mis le noindex à la fin, en espérant que les premières instructions, valides, seront lues par tous les moteurs. Si vous voyez des correctifs à apporter, je suis preneur... Sinon, RV dans quelques jours pour vous dire si les vielles url ont bien été désindexées par l'ami GG.
     
  5. nza2k
    nza2k WRInaute impliqué
    Inscrit:
    16 Janvier 2004
    Messages:
    898
    J'aime reçus:
    2
    Pr info, à J+3, les vielles url sont toujours indexées.
    Sur Google Webmaster Tools, il est indiqué que la date de dernier téléchargement du robots.txt date d'hier, le 13 juin.

    J'attends encore quelques jours !
     
  6. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    A mon avis un no-index a défaut de redirection et un vidage du contenu serait plus fonctionnel.
     
  7. madri2
    madri2 WRInaute impliqué
    Inscrit:
    29 Décembre 2007
    Messages:
    655
    J'aime reçus:
    0
    en passant j'ai une question.
    Pour un nouveau site avec une nouvelle url et ayant de nombreuses pages, vaut-il mieux laisser google tout crawler et indexer ou vaut-il mieux mettre des meta noindex sur les pages les moins intéressantes ou une autre technique pour limiter le nombre de pages à indexer d'un coup ?
     
Chargement...
Similar Threads - Crawl indexation robots Forum Date
Crawl et indexation de certaines pages Débuter en référencement 30 Décembre 2019
Indexation de nouveaux url et crawl Référencement Google 15 Novembre 2018
Crawl indexation depuis mobile et AMP ? Référencement Google 7 Février 2018
Crawl et indexation Google par langue et pays Référencement international (langues, pays) 2 Février 2015
Premiere indexation et crawl suivants Référencement Google 22 Février 2014
Crawl, indexation et optimisation SEO pour Qwant Autres moteurs de recherche connus 14 Mars 2013
Pas d'indexation d'une page alors que google a bien fait son crawling du domaine Problèmes de référencement spécifiques à vos sites 24 Novembre 2009
Search Console Suppression de sous domaines + stop crawl ? Crawl et indexation Google, sitemaps 27 Juillet 2020
Qwant : une étude du crawl Autres moteurs de recherche connus 7 Juillet 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice