Indexation de pages malgré robots.txt

NOche · 17 Septembre 2004

Bonjour,
Il y a plus d'un mois et demi j'ai mis en place un fichier robots.txt sur le site miseauto.com afin de ne plus permettre l'indexation des pages du répertoire /scripts. Voici le fichier :

Code:

User-agent: *
Disallow: /scripts/
Disallow: /cgi-bin/

Malgré cela les pages apparaissent toujours...

Ce qui est d'autant plus bizarre c'est que ces pages n'ont pas de contenu et ne font qu'insérer des données dans la base et/ou rediriger avec un header('location:...') vers d'autres pages.
Si quelqu'un sait pourquoi google s'obstine à indexer ces pages, je suis preneur.

saofe · 17 Septembre 2004

Salut,
Le robots.txt est la juste pour empecher le robot de crawler les pages.

A priori, GG respecte cette regle de la netiquette ...

Par contre, il lui arrive de faire entrer dans son index des pages qu'il n'a pas vu,
(elles s'affichent avec juste l'url), c'est des liens qui pointent vers ces pages qui lui ont permis de les connaitre.

C'est un debut d'explication.

Ca pourrait etre aussi que GG n'a pas encore mis a jour la demande de non passage des robots ...

faut verifier dans les logs du serveur web si le robot GG passe sur ces pages ...
mais, ca serait etonnant.

NOche · 17 Septembre 2004

Merci, je pensais qu'il n'indexait que les pages qu'il avait visité.
Il y a en effet des liens vers ces pages sur la home, ça doit être la raison...

WebRankInfo · 17 Septembre 2004

tu devrais aller sur http://services.google.com:8882/urlcons ... tcmd=login (infos : https://www.google.com/remove.html ) pour demander à Google de prendre en compte rapidement les modifs de ton fichier