|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 9:30 Sujet du message: problème avec le fichier robots.txt |
|
|
Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci |
|
| |
|
 |
UsagiYojimbo WRInaute accro

Inscrit le: 23 Nov 2005 Messages: 1843 Localisation: Lyon / Chalon sur Saône
|
Posté le : Jeu Mai 08, 2008 9:32 Sujet du message: Re: problème avec le fichier robots.txt |
|
|
| RIACARO a écrit: |
Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci |
Tu devrais passer un coup de Xenu Link Sleuth sur ton site, afin de prendre connaissance de l'ensemble des url qui s'y trouve. EN général c'est souvent une faute de frappe qui a été oubliée dans le html. |
|
| |
|
 |
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 9:48 Sujet du message: problème avec le fichier robots.txt |
|
|
Salut, en effet l'ensemble des urls est abstrait. je m'explique, j'utilise un fichier php pour génerer les urls et il est clair que GG essaye toutes les combinaisons possibles. Mon probème actuellement se sont les urls qui contiennent deux slashs consécutives(le robots.txt n'arrive pas à bloquer l'indexation de ce type de page).
Merci pour le l'utilitaire Usagi, je suis entrain de le tester. |
|
| |
|
 |
jeanluc WRInaute accro

Inscrit le: 03 Mai 2004 Messages: 2145 Localisation: Bruxelles
|
Posté le : Jeu Mai 08, 2008 10:15 Sujet du message: Re: problème avec le fichier robots.txt |
|
|
| RIACARO a écrit: |
| Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. |
Ben, non!
robots.txt n'est pas la bonne solution pour enlever des pages de l'index de Google. Si une page inexistante renvoie un code 404 (not found), Google finira par la supprimer par lui-même. Si ton site ne renvoie pas de code 404 quand une page n'existe pas, ton problème va continuer à exister.
Et puis, pourquoi supprimer ces URL de l'index ? Tu pourrais les rediriger vers des URL existantes (redirection 301) plutôt que de gaspiller ces "mauvaises" URL indexées.
Jean-Luc |
|
| |
|
 |
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 10:35 Sujet du message: problème avec le fichier robots.txt |
|
|
Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense. je clarifie encore plus mon problème: le site propose des produits de séjours linguistiques et d'autres dérivés, les programmes changent toujours (ya quelques uns qui sont supprimés, d'autres modifiés...). Les urls sont la combinaison de champs dans la base de données et lorsque des champs sont supprimés l'url change automatiquement avec la même squelette du site.
Je vous donne des exemples:
http://www.nacel.org/cdlp/Work-Experiences/United-Kingdom/English-JUK2.php
ca correspond à un produit qui a été supprimé. Dans ce cas c seulement le contenu de la page qui est vide.
www.nacel.org/cdlp/Summer-Camps/United-Kingdom/English-.php
pour ce cas la reference du produit n'existe plus mais l'url existe dans l'index.
Cela est un petit exemple de plusieurs centaines d'url resultante de toutes les combinaisons possibles
Merci |
|
| |
|
 |
HawkEye Modérateur

Inscrit le: 23 Fév 2004 Messages: 11330 Localisation: Google
|
Posté le : Jeu Mai 08, 2008 13:17 Sujet du message: problème avec le fichier robots.txt |
|
|
| RIACARO a écrit: |
| Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense. |
Si ton problème est la présence de "double slash", il devrait suffire d'une ligne de redirection pour toutes les traiter. Un peu comme ceci:
| Code: |
| RewriteRule ^(.*)\/\/(.*)$ $1/$2 [QSA,L,R=301] |
(il y a probablement de meilleures regex, mais c'est pas mon fort). |
|
| |
|
 |
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 13:39 Sujet du message: problème avec le fichier robots.txt |
|
|
Merci infiniment HawkEye, je pense c'est ce que je cherchais.
Pouviez vous me recommander un article ou un site pour mieux voir le syntaxe de la redirection, je suis pas vraiment connaisseur.
Pour Jean Luc, pourquoi alors tou le monde utilise ce fameux fichier c quoi son réel rapport si on l'utilise.
Merci à tous |
|
| |
|
 |
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 13:42 Sujet du message: problème avec le fichier robots.txt |
|
|
son réel apport je voulais dire. excusez
Merci |
|
| |
|
 |
jeanluc WRInaute accro

Inscrit le: 03 Mai 2004 Messages: 2145 Localisation: Bruxelles
|
Posté le : Jeu Mai 08, 2008 14:36 Sujet du message: problème avec le fichier robots.txt |
|
|
Le rôle principal de robots.txt est d'interdire aux robots honnêtes de visiter (crawler) certaines URL.
robots.txt ne sert pas à :
- sécuriser le site (les robots malveillants ne respectent pas les indications se trouvant dans le fichier; ils peuvent même les utiliser pour chercher des informations protégées)
- interdire l'indexation (c'est rare, mais il arrive qu'une page non crawlée soit indexée s'il y a assez de liens qui pointent vers la page)
Pourquoi interdire le crawl de certaines URL:
- pour économiser de la bande passante;
- pour éviter les problèmes de duplicate content.
Jean-Luc |
|
| |
|
 |
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 15:17 Sujet du message: problème avec le fichier robots.txt |
|
|
Merci Jean Luc, ca devient plus clair comme ca.
Sauf que mon objectif c GG pas les autres moteurs et d'ailleurs c interessant de bloquer ces moteurs malveillants et je pense que ca se fait grace au fichier .htaccess.
Merci |
|
| |
|
 |
Marie-Aude WRInaute accro

Inscrit le: 05 Juin 2006 Messages: 2196 Localisation: Maroc - Allemagne
|
Posté le : Jeu Mai 08, 2008 16:36 Sujet du message: problème avec le fichier robots.txt |
|
|
| Le fichier robots.txt + la demande de suppression d'url dans GWT c'est très rapide. |
|
| |
|
 |
RIACARO Nouveau WRInaute
Inscrit le: 07 Fév 2008 Messages: 9 Localisation: Espagne
|
Posté le : Jeu Mai 08, 2008 16:47 Sujet du message: problème avec le fichier robots.txt |
|
|
Merci Marie Aude, j'ai essayer de faire ca et comme vous le saviez GWT ne supprime les urls que lorsqu'elles sont indiquées dans le robots ou l'entête http est rederigée en 404 ou l'ajout be balise meta robot. mon problème était à cause des slash dans le robots.txt.
Grace aux intervenants j'ai pu trouver une solution qui résoud mon prblème en utilisant les redirection 301 dans le fichier.htaccess.
Merci encore à tous le monde pour leur coopération. |
|
| |
|
 |
| |
|
|