Google passe outre mon fichier robots.txt , pages ré-indexées

WRInaute passionné
Bonjour,

mon site étant en chantier, j'ai bloqué les robots sur 99% du contenu, avec des doubles fichiers robots.txt.
d"une part à la racine du site, ensuite dans les répertoires a désindexer. j'ai aussi utilisé la suppression directe avec l'outil webmaster, j'ai mis des noindex dans les méta, rechargé mon fichier sitemap.xml épuré... La totale, pour ne conserver que les 3000 pages les plus importantes sur 100 000.

Les premiers mois, la desindexation s'est bien faite, 80 000, 50 000,30 000, 15 000 puis 8 000 ... puis au bout de 3 moins, petit a petit, le nombre a remonté ... et ne cesse depuis. Il m'affiche désormais "Environ 33 300 résultats (0,08 secondes) " sur la reque site:www.monsite.com , et quand j'arrives a la 58eme page qui liste mes urls, il me dis afficher les "580" résultats les plus pertinent.

Ce qui me chiffonne, c'est la première réponse, les 33 300 et pourquoi cela remonte-t-il?
Comme si il n'avais pas totalement effacé les anciennes pages ... ou un vieux data qui a repris des données anciennes?
ce n'est pas ponctuel, depuis le 15 juin, ca ne cesse de remonter chaque jour ....

Quelqu'un a un avis éclairé? que dois-je en déduire?
 
WRInaute accro
longo600 a dit:
mon site étant en chantier, j'ai bloqué les robots sur 99% du contenu, avec des doubles fichiers robots.txt.
d"une part à la racine du site, ensuite dans les répertoires a désindexer.
il ne peut y avoir qu'un seul robots.txt : à la racine
 
WRInaute passionné
f_trt a dit:
Que peux tu analyser avec les webmaster tools de google ?

il me donnes simplement Restricted by robots.txt ‎(39,997)‎ ...
Quelques part, il n'efface pas tout semble-t-il. Cela dis, seules les pages qui ne sont pas interdites par le fichier robots.txt reçoivent de la visite. Il n'y a rien de vital dans ma question et préoccupation, c'est juste une curiosité.

Certains produisent tous les efforts pour être indexés, moi c'est pour me dé-indexer , et c'est aussi dur ! :mrgreen:
En ait, je vais éclater en sous domaines, et je suis prudent du gros changement. D'ou la restriction. Ensuite, je mettrais des redirections 301 à la place des noindex.
 
Olivier Duffez (admin)
Membre du personnel
Si tu mets un disallow dans le robots.txt, le robot ne peut plus venir voir tes pages pour constater que tu as ajouté une meta robots noindex. Conclusion : il n'a aucune raison de désindexer tes pages. En effet, il obéit à ta 1ère demande qui est de ne plus venir te voir...

Essaie de supprimer les interdictions dans le robots.txt et vérifie que tu as bien mis les balises meta robots noindex sur les pages concernées.

Regarde aussi combien de pages distinctes de ton site te génèrent des visites via le SEO (c'est un indicateur intéressant d'ailleurs).
 
WRInaute passionné
Si le site est en chantier, il est préférable :

- de travailler en local
- (ou) de protéger le dossier par htaccess

Sinon +1 pour Leonick et Olivier...
 
WRInaute accro
WebRankInfo a dit:
Regarde aussi combien de pages distinctes de ton site te génèrent des visites via le SEO (c'est un indicateur intéressant d'ailleurs).
je ne suis pas sur de comprendre. Tu peux préciser, STP, Olivier ?
 
WRInaute accro
JanoLapin a dit:
WebRankInfo a dit:
Regarde aussi combien de pages distinctes de ton site te génèrent des visites via le SEO (c'est un indicateur intéressant d'ailleurs).
je ne suis pas sur de comprendre. Tu peux préciser, STP, Olivier ?
comme le but, à terme, est de rediriger ces pages en 301, si, actuellement ces pages n'amènent aucun visiteur, ça n'est pas génant de continuer à les avoir dans l'index de gg. Ca sera plus facile de les rediriger rapidement ensuite. Car si on les désindexe, le retour dans les serp se fera plus lentement.
 
WRInaute passionné
Il est clair qu'en théorie, le premier fichier robots.txt doit suffire à lui seul, le reste n'est donc que superflus.

Pour la stratégie de restructuration, ces désindexations de pages n'étaient pas nécessaires. Je l'ai fait car ces pages (rubrique sur 1 département) étaient très pauvres, voire sans fiche et ne comportaient qu'un lien vers le total des fiche sur toute la france.
Rien de bon pour l'internaute que de tomber sur une fiche vide ...

Surtout que Google s'est entété a indexer surtout les pages vide et les classer en premier dans les serp ! incroyable mais j'ai du me battre (...) pour qu'il cesse de mettre en premier ces pages vide. J'ai essayé par de nombreux moyens (liens, sitemap, fichier sitemap, liens en première page etc ...et MEME LE CANONICAL). Rien n'a fait.
Mes pages "riches", sur la même rubriques n'apparaissaient jamais. Malgré un lien venant de celle pauvre du département pointant sue la page riche france entière, et pas l'inverse...

J'ai dailleur une "théorie" sur ce point. En fonction de la "notoriété" ou note que Google attribue à un site, il cherche à le classer en fonction de la concurrence sur les requêtes ou les rubriques. Si le site est "de grande notoriété" , il classera ses pages sur des requetes concurrentielles en fonction des paramètres normal de l'algorithme , c'est a dire poids et richesse d'une page.
Si le site a une "mauvaise note", il classera plutôt des pages "sur la longue traine" ou sur des requêtes rares, quitte à ce que cette page soit très pauvre (vraiment pauvre ...).

BEN VOILA, il suffit que j'écrive pour que , en contrôlant, TOUT VIENS DE CHANGER ...
Le classement de mes pages sur site:www.monsite.com viens d'être totalement chamboulé entre vendredi (et depuis des mois) et aujourd'hui. J'apparait désormais sur quelques requêtes ou domaines concurrentiels (ex meuble ancien en france = 1ere page vers le bas). A cette heure ou j'écris, mon trafic quotidien ne semble pas avoir augmenté toutefois.

Bref, sur la théorie, c'est perfectible ... Mais comme je n'arrivais à virer les pages vides et mettre (par tous les moyens possibles) mes pages riches en avant, j'ai mis un fichier robots.txt n'autorisant que le chemin vers les pages riches.
Et comme tout va changer, sauf ca, ce n'est pas un mal.

Donc, j'ai tout viré de l'index, ne gardant que les 3000 pages des rubriques bien remplies sur la France entière.
Je m'interroge qu'après 4 mois, il y a encore 33 000 pages indexé selon google...
 
Discussions similaires
Haut