Robots.txt et pourtant.

Nouveau WRInaute
bonjour,

j'ai des sites en lignes qui me servent ou de test avant mise ligne sur le principal, ou une vieillie version pour mémoire que je ne souhaite pas voir indexer.

Jusqu'a présent il ne l'était pas et j'ai mis un robots.txt contenant User-agent: *
Disallow: /
et depuis coincidence ou pas ils sont maintenant indexer par google. c'est curieux non?
 
WRInaute occasionnel
curieux, mais le site n'est de toute façon pas indexé ni archivé (il y a juste l'entête.)
si tu veux qu'elle disparaisse, envoies un mail à googlebot@google.com en expliquant la chose.

C'est peut être du au fait que le site était déjà stocké sur un des datascenter, et qu'un "autre" googlebot est passé et a indexé ton robots.txt par la suite.

(https://www.google.fr/intl/fr/webmasters/ pour + d'infos.)
 
Nouveau WRInaute
La gestion des robots.txt par Google est hors-normes, hors-standards, hors de toute transparence également. D'après mes tests, ils interprètent mal les robots.txt. Après échanges de mails avec eux, et réponses à côté de la question pour noyer le poisson, j'en reste convaincu.
Marin
 
WRInaute occasionnel
marin,
je ne comprends pas pourquoi tu affirmes celà. En tout cas, sans aucune preuve ou explication, je ne suis pas du tout enclin à te croire.
Comme le fait remarquer tada, Google fournit une page d'aide pour les fichiers robots.txt
Ils respectent la norme, à laquelle ils ont ajouté des particularités intéressantes (les expressions régulières). Vu qu'un fichier robots.txt contient des sections d'instructions pour chaque robot, on peut aisément isoler le code "amélioré" pour Google (si jamais on en utilise) du code standard pour tous les autres robots.

Je suis impatient de savoir ce qu'il y a à reprocher à Google pour la gestion des fichiers robots.txt

Jocelyn
 
WRInaute occasionnel
Djails,
j'ai vérifié ton fichier robots.txt et ça paraît correct.
Il faut savoir que Google ne vérifie pas les fichiers robots.tx à chaque requête, ce serait un énorme gâchis. Si tu as modifié ton fichier robots.txt alors que Google avait déjà commencé à visiter ton site (donc déjà vérifié ton fichier robots.txt), les dernières modifications ne sont pas prises en compte.
D'autre part, les données qui apparaissent maintenant dans les résultats de Google sont souvent (sauf sites à fort PR et dont le contenu change souvent) des données provenant d'un crawl de Google plusieurs semaines auparavant.

Donc :
- si tu veux que tes pages disparaissent tout de suite des résultats de Google, tu leur envoies un mail
- sinon, tu laisses faire, GoogleBot reviendra voir le fichier robots.txt et n'indexera plus le site

Jocelyn
 
Nouveau WRInaute
Entre ce que Google dit et ce que Google fait, il y a un écart assez important.
D'après mes tests, l'introduction des expressions régulières par Google provoque des interprétations fausses. Il lui arrive de confondre User-agent: * avec Disallow: *
Je suis en train d'écrire un topo sur les problèmes de Google, mais avant je dois finir les tests et c'est assez long, puisqu'il y a le temps d'inertie normal pour le moteur.
J'enverrai un argumentaire complet, basé sur les expériences réalisées sur les 17 sites que je gère, dès que possible.
Marin
 
Nouveau WRInaute
bien, merci à tous

je vais donc je pense dans un premier temps attendre et voir si les pages ne sont plus indéxées, et sinon j'écrirais (en tous cas yahoo suit parce qu'il indexe mes pages d'essai.. :(

a bientot


Djails
 
WRInaute discret
Djails a dit:
en tous cas yahoo suit parce qu'il indexe mes pages d'essai.. :(

Yahoo est un annuaire pas un moteur de recherche.
Si tu parle du moteur de recherche présent sur le site de Yahoo, en fait c'est Google.
 
Nouveau WRInaute
Adam-Xero a dit:
Yahoo est un annuaire pas un moteur de recherche.
Si tu parle du moteur de recherche présent sur le site de Yahoo, en fait c'est Google.

ceci expliquant cela, je me disait bien que la présentation était tres proche ;)
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut