Indexation de pages malgré robots.txt

N
NOche
Guest
Bonjour,
Il y a plus d'un mois et demi j'ai mis en place un fichier robots.txt sur le site miseauto.com afin de ne plus permettre l'indexation des pages du répertoire /scripts. Voici le fichier :
Code:
User-agent: *
Disallow: /scripts/
Disallow: /cgi-bin/
Malgré cela les pages apparaissent toujours...

Ce qui est d'autant plus bizarre c'est que ces pages n'ont pas de contenu et ne font qu'insérer des données dans la base et/ou rediriger avec un header('location:...') vers d'autres pages.
Si quelqu'un sait pourquoi google s'obstine à indexer ces pages, je suis preneur.
 
WRInaute discret
Salut,
Le robots.txt est la juste pour empecher le robot de crawler les pages.

A priori, GG respecte cette regle de la netiquette ...

Par contre, il lui arrive de faire entrer dans son index des pages qu'il n'a pas vu,
(elles s'affichent avec juste l'url), c'est des liens qui pointent vers ces pages qui lui ont permis de les connaitre.

C'est un debut d'explication.

Ca pourrait etre aussi que GG n'a pas encore mis a jour la demande de non passage des robots ...

faut verifier dans les logs du serveur web si le robot GG passe sur ces pages ...
mais, ca serait etonnant.
 
N
NOche
Guest
Merci, je pensais qu'il n'indexait que les pages qu'il avait visité.
Il y a en effet des liens vers ces pages sur la home, ça doit être la raison...
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut