Problème avec le fichier robots.txt

Nouveau WRInaute
Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site http://www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci
 
WRInaute accro
RIACARO a dit:
Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site http://www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci

Tu devrais passer un coup de Xenu Link Sleuth sur ton site, afin de prendre connaissance de l'ensemble des url qui s'y trouve. EN général c'est souvent une faute de frappe qui a été oubliée dans le html.
 
Nouveau WRInaute
Salut, en effet l'ensemble des urls est abstrait. je m'explique, j'utilise un fichier php pour génerer les urls et il est clair que GG essaye toutes les combinaisons possibles. Mon probème actuellement se sont les urls qui contiennent deux slashs consécutives(le robots.txt n'arrive pas à bloquer l'indexation de ce type de page).
Merci pour le l'utilitaire Usagi, je suis entrain de le tester.
 
WRInaute accro
RIACARO a dit:
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg.
Ben, non!

robots.txt n'est pas la bonne solution pour enlever des pages de l'index de Google. Si une page inexistante renvoie un code 404 (not found), Google finira par la supprimer par lui-même. Si ton site ne renvoie pas de code 404 quand une page n'existe pas, ton problème va continuer à exister.

Et puis, pourquoi supprimer ces URL de l'index ? Tu pourrais les rediriger vers des URL existantes (redirection 301) plutôt que de gaspiller ces "mauvaises" URL indexées.

Jean-Luc
 
Nouveau WRInaute
Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense. je clarifie encore plus mon problème: le site propose des produits de séjours linguistiques et d'autres dérivés, les programmes changent toujours (ya quelques uns qui sont supprimés, d'autres modifiés...). Les urls sont la combinaison de champs dans la base de données et lorsque des champs sont supprimés l'url change automatiquement avec la même squelette du site.
Je vous donne des exemples:
http://www.nacel.org/cdlp/Work-Experien ... h-JUK2.php
ca correspond à un produit qui a été supprimé. Dans ce cas c seulement le contenu de la page qui est vide.
www.nacel.org/cdlp/Summer-Camps/United- ... glish-.php
pour ce cas la reference du produit n'existe plus mais l'url existe dans l'index.
Cela est un petit exemple de plusieurs centaines d'url resultante de toutes les combinaisons possibles
Merci
 
WRInaute accro
RIACARO a dit:
Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense.

Si ton problème est la présence de "double slash", il devrait suffire d'une ligne de redirection pour toutes les traiter. Un peu comme ceci:

Code:
RewriteRule ^(.*)\/\/(.*)$ $1/$2 [QSA,L,R=301]

(il y a probablement de meilleures regex, mais c'est pas mon fort).
 
Nouveau WRInaute
Merci infiniment HawkEye, je pense c'est ce que je cherchais.
Pouviez vous me recommander un article ou un site pour mieux voir le syntaxe de la redirection, je suis pas vraiment connaisseur.
Pour Jean Luc, pourquoi alors tou le monde utilise ce fameux fichier c quoi son réel rapport si on l'utilise.
Merci à tous
 
WRInaute accro
Le rôle principal de robots.txt est d'interdire aux robots honnêtes de visiter (crawler) certaines URL.

robots.txt ne sert pas à :
- sécuriser le site (les robots malveillants ne respectent pas les indications se trouvant dans le fichier; ils peuvent même les utiliser pour chercher des informations protégées)
- interdire l'indexation (c'est rare, mais il arrive qu'une page non crawlée soit indexée s'il y a assez de liens qui pointent vers la page)

Pourquoi interdire le crawl de certaines URL:
- pour économiser de la bande passante;
- pour éviter les problèmes de duplicate content.

Jean-Luc
 
Nouveau WRInaute
Merci Jean Luc, ca devient plus clair comme ca.
Sauf que mon objectif c GG pas les autres moteurs et d'ailleurs c interessant de bloquer ces moteurs malveillants et je pense que ca se fait grace au fichier .htaccess.
Merci
 
Nouveau WRInaute
Merci Marie Aude, j'ai essayer de faire ca et comme vous le saviez GWT ne supprime les urls que lorsqu'elles sont indiquées dans le robots ou l'entête http est rederigée en 404 ou l'ajout be balise meta robot. mon problème était à cause des slash dans le robots.txt.
Grace aux intervenants j'ai pu trouver une solution qui résoud mon prblème en utilisant les redirection 301 dans le fichier.htaccess.
Merci encore à tous le monde pour leur coopération.
 
Discussions similaires
Haut