Google passe outre mon fichier robots.txt , pages ré-indexées

Discussion dans 'Crawl et indexation Google, sitemaps' créé par longo600, 26 Juin 2011.

  1. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 172
    J'aime reçus:
    7
    Bonjour,

    mon site étant en chantier, j'ai bloqué les robots sur 99% du contenu, avec des doubles fichiers robots.txt.
    d"une part à la racine du site, ensuite dans les répertoires a désindexer. j'ai aussi utilisé la suppression directe avec l'outil webmaster, j'ai mis des noindex dans les méta, rechargé mon fichier sitemap.xml épuré... La totale, pour ne conserver que les 3000 pages les plus importantes sur 100 000.

    Les premiers mois, la desindexation s'est bien faite, 80 000, 50 000,30 000, 15 000 puis 8 000 ... puis au bout de 3 moins, petit a petit, le nombre a remonté ... et ne cesse depuis. Il m'affiche désormais "Environ 33 300 résultats (0,08 secondes) " sur la reque site:www.monsite.com , et quand j'arrives a la 58eme page qui liste mes urls, il me dis afficher les "580" résultats les plus pertinent.

    Ce qui me chiffonne, c'est la première réponse, les 33 300 et pourquoi cela remonte-t-il?
    Comme si il n'avais pas totalement effacé les anciennes pages ... ou un vieux data qui a repris des données anciennes?
    ce n'est pas ponctuel, depuis le 15 juin, ca ne cesse de remonter chaque jour ....

    Quelqu'un a un avis éclairé? que dois-je en déduire?
     
  2. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    il ne peut y avoir qu'un seul robots.txt : à la racine
     
  3. f_trt
    f_trt WRInaute impliqué
    Inscrit:
    17 Septembre 2005
    Messages:
    953
    J'aime reçus:
    0
  4. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 172
    J'aime reçus:
    7
    il me donnes simplement Restricted by robots.txt ‎(39,997)‎ ...
    Quelques part, il n'efface pas tout semble-t-il. Cela dis, seules les pages qui ne sont pas interdites par le fichier robots.txt reçoivent de la visite. Il n'y a rien de vital dans ma question et préoccupation, c'est juste une curiosité.

    Certains produisent tous les efforts pour être indexés, moi c'est pour me dé-indexer , et c'est aussi dur ! :mrgreen:
    En ait, je vais éclater en sous domaines, et je suis prudent du gros changement. D'ou la restriction. Ensuite, je mettrais des redirections 301 à la place des noindex.
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 902
    J'aime reçus:
    846
    Si tu mets un disallow dans le robots.txt, le robot ne peut plus venir voir tes pages pour constater que tu as ajouté une meta robots noindex. Conclusion : il n'a aucune raison de désindexer tes pages. En effet, il obéit à ta 1ère demande qui est de ne plus venir te voir...

    Essaie de supprimer les interdictions dans le robots.txt et vérifie que tu as bien mis les balises meta robots noindex sur les pages concernées.

    Regarde aussi combien de pages distinctes de ton site te génèrent des visites via le SEO (c'est un indicateur intéressant d'ailleurs).
     
  6. M&B Multimédia
    M&B Multimédia WRInaute passionné
    Inscrit:
    1 Octobre 2009
    Messages:
    1 097
    J'aime reçus:
    0
    Si le site est en chantier, il est préférable :

    - de travailler en local
    - (ou) de protéger le dossier par htaccess

    Sinon +1 pour Leonick et Olivier...
     
  7. alexandreb
    alexandreb Nouveau WRInaute
    Inscrit:
    26 Avril 2011
    Messages:
    24
    J'aime reçus:
    0
    C'est la methode imparable pour bloquer les robots, cependant tu
    bloqueras aussi les visiteurs mais bon si ton site est en reconstruction...
     
  8. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 226
    J'aime reçus:
    0
    je ne suis pas sur de comprendre. Tu peux préciser, STP, Olivier ?
     
  9. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    comme le but, à terme, est de rediriger ces pages en 301, si, actuellement ces pages n'amènent aucun visiteur, ça n'est pas génant de continuer à les avoir dans l'index de gg. Ca sera plus facile de les rediriger rapidement ensuite. Car si on les désindexe, le retour dans les serp se fera plus lentement.
     
  10. JanoLapin
    JanoLapin WRInaute accro
    Inscrit:
    21 Septembre 2008
    Messages:
    4 226
    J'aime reçus:
    0
    bien vu !

    Merçi... Olivier :D
     
  11. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 172
    J'aime reçus:
    7
    Il est clair qu'en théorie, le premier fichier robots.txt doit suffire à lui seul, le reste n'est donc que superflus.

    Pour la stratégie de restructuration, ces désindexations de pages n'étaient pas nécessaires. Je l'ai fait car ces pages (rubrique sur 1 département) étaient très pauvres, voire sans fiche et ne comportaient qu'un lien vers le total des fiche sur toute la france.
    Rien de bon pour l'internaute que de tomber sur une fiche vide ...

    Surtout que Google s'est entété a indexer surtout les pages vide et les classer en premier dans les serp ! incroyable mais j'ai du me battre (...) pour qu'il cesse de mettre en premier ces pages vide. J'ai essayé par de nombreux moyens (liens, sitemap, fichier sitemap, liens en première page etc ...et MEME LE CANONICAL). Rien n'a fait.
    Mes pages "riches", sur la même rubriques n'apparaissaient jamais. Malgré un lien venant de celle pauvre du département pointant sue la page riche france entière, et pas l'inverse...

    J'ai dailleur une "théorie" sur ce point. En fonction de la "notoriété" ou note que Google attribue à un site, il cherche à le classer en fonction de la concurrence sur les requêtes ou les rubriques. Si le site est "de grande notoriété" , il classera ses pages sur des requetes concurrentielles en fonction des paramètres normal de l'algorithme , c'est a dire poids et richesse d'une page.
    Si le site a une "mauvaise note", il classera plutôt des pages "sur la longue traine" ou sur des requêtes rares, quitte à ce que cette page soit très pauvre (vraiment pauvre ...).

    BEN VOILA, il suffit que j'écrive pour que , en contrôlant, TOUT VIENS DE CHANGER ...
    Le classement de mes pages sur site:www.monsite.com viens d'être totalement chamboulé entre vendredi (et depuis des mois) et aujourd'hui. J'apparait désormais sur quelques requêtes ou domaines concurrentiels (ex meuble ancien en france = 1ere page vers le bas). A cette heure ou j'écris, mon trafic quotidien ne semble pas avoir augmenté toutefois.

    Bref, sur la théorie, c'est perfectible ... Mais comme je n'arrivais à virer les pages vides et mettre (par tous les moyens possibles) mes pages riches en avant, j'ai mis un fichier robots.txt n'autorisant que le chemin vers les pages riches.
    Et comme tout va changer, sauf ca, ce n'est pas un mal.

    Donc, j'ai tout viré de l'index, ne gardant que les 3000 pages des rubriques bien remplies sur la France entière.
    Je m'interroge qu'après 4 mois, il y a encore 33 000 pages indexé selon google...
     
Chargement...
Similar Threads - Google fichier robots Forum Date
Google ne lit-il pas mon fichier robots.txt ? Crawl et indexation Google, sitemaps 8 Décembre 2014
URL persistante dans Google malgré fichier robots.txt Débuter en référencement 22 Mars 2013
Les robots ne respectent plus le fichier robots.txt, google, bing, voilà Problèmes de référencement spécifiques à vos sites 11 Janvier 2013
Probleme fichier robots et google. Problèmes de référencement spécifiques à vos sites 10 Décembre 2012
Avis sur mon fichier robots.txt pour Google Débuter en référencement 4 Octobre 2012
Erreur rencontrée par googlebot dans fichier robots inexistant Crawl et indexation Google, sitemaps 19 Août 2012
Fichier robots.txt indexé dans Google Crawl et indexation Google, sitemaps 22 Juin 2012
Sitemap et fichiers Robots.txt des sites.google.com Débuter en référencement 10 Mars 2012
Mis à jours du fichier robots et google Référencement Google 6 Décembre 2011
Mise à jour du fichier robots.txt : dire à Google qu'il doit modifier le contenu indexé Crawl et indexation Google, sitemaps 4 Novembre 2010
Index google et fichier robots.txt ? Référencement Google 21 Août 2008
Les fichiers robots.txt avantagent Google Référencement Google 21 Novembre 2007
Google ne reconnait pas mon fichier robots.txt Crawl et indexation Google, sitemaps 28 Mars 2006
Fichier Robots pas suivi par GoogleBot Crawl et indexation Google, sitemaps 10 Janvier 2006
Limites du fichier robots.txt 100 lignes pour GOOGLE Crawl et indexation Google, sitemaps 16 Juillet 2005
Ajout d'un fichier robots.txt après référencement par Google Débuter en référencement 14 Janvier 2005
Que veut dire ce fichier reçu de Google ? Administration d'un site Web 2 Août 2021
Erreur d'indexation Google pour mes fichiers PDF Crawl et indexation Google, sitemaps 17 Septembre 2020
Google Image, url des fichiers et traduction YouTube, Google Images et Google Maps 4 Juin 2020
WordPress Désindexation des fichiers "attachements" dans Google ? Référencement Google 2 Novembre 2018