Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

problème avec le fichier robots.txt

Poster un nouveau sujet Imprimer cette discussion    Forum -> Référencement Google   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 9:30    Sujet du message: problème avec le fichier robots.txt

Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci
 
RIACARO
UsagiYojimbo
WRInaute accro
WRInaute accro

Inscrit le: 23 Nov 2005
Messages: 1843
Localisation: Lyon / Chalon sur Saône

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 9:32    Sujet du message: Re: problème avec le fichier robots.txt

RIACARO a écrit:
Bonjour tout le monde. Je viens de me rendre compte d'une énorme quantité de pages indéxées du site www.nacel.org sur google. Le problème est que plus que 50% de ces pages n'existent plus ou elles de la pure fabrication de google.
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg. j'ai réussi à trouver des formules pour ne pas avoir un fichier robots.txt volumineux mais je trouve des difficultés à enlever les pages du type xxxx.xx/x//xxxx.
J'ai essayé plusieurs solutions mais rien ne change le fichier robots.txt ne se rend pas compte de l'url qui contient 2 slashs et je ne sais pas comment google a pu créer ce type urls.
Pouvez vous m'aider si vous le voulez bien?
Merci


Tu devrais passer un coup de Xenu Link Sleuth sur ton site, afin de prendre connaissance de l'ensemble des url qui s'y trouve. EN général c'est souvent une faute de frappe qui a été oubliée dans le html.
 
UsagiYojimbo Visiter le site web du posteur
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 9:48    Sujet du message: problème avec le fichier robots.txt

Salut, en effet l'ensemble des urls est abstrait. je m'explique, j'utilise un fichier php pour génerer les urls et il est clair que GG essaye toutes les combinaisons possibles. Mon probème actuellement se sont les urls qui contiennent deux slashs consécutives(le robots.txt n'arrive pas à bloquer l'indexation de ce type de page).
Merci pour le l'utilitaire Usagi, je suis entrain de le tester.
 
RIACARO
jeanluc
WRInaute accro
WRInaute accro

Inscrit le: 03 Mai 2004
Messages: 2145
Localisation: Bruxelles

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 10:15    Sujet du message: Re: problème avec le fichier robots.txt

RIACARO a écrit:
Comme tous le monde le sais j'ai voulu utiliser le fichier robots.txt pour éliminer ces pages de l'index de gg.
Ben, non!

robots.txt n'est pas la bonne solution pour enlever des pages de l'index de Google. Si une page inexistante renvoie un code 404 (not found), Google finira par la supprimer par lui-même. Si ton site ne renvoie pas de code 404 quand une page n'existe pas, ton problème va continuer à exister.

Et puis, pourquoi supprimer ces URL de l'index ? Tu pourrais les rediriger vers des URL existantes (redirection 301) plutôt que de gaspiller ces "mauvaises" URL indexées.

Jean-Luc
 
jeanluc Visiter le site web du posteur
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 10:35    Sujet du message: problème avec le fichier robots.txt

Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense. je clarifie encore plus mon problème: le site propose des produits de séjours linguistiques et d'autres dérivés, les programmes changent toujours (ya quelques uns qui sont supprimés, d'autres modifiés...). Les urls sont la combinaison de champs dans la base de données et lorsque des champs sont supprimés l'url change automatiquement avec la même squelette du site.
Je vous donne des exemples:
http://www.nacel.org/cdlp/Work-Experiences/United-Kingdom/English-JUK2.php
ca correspond à un produit qui a été supprimé. Dans ce cas c seulement le contenu de la page qui est vide.
www.nacel.org/cdlp/Summer-Camps/United-Kingdom/English-.php
pour ce cas la reference du produit n'existe plus mais l'url existe dans l'index.
Cela est un petit exemple de plusieurs centaines d'url resultante de toutes les combinaisons possibles
Merci
 
RIACARO
HawkEye
Modérateur
Modérateur

Inscrit le: 23 Fév 2004
Messages: 11330
Localisation: Google

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 13:17    Sujet du message: problème avec le fichier robots.txt

RIACARO a écrit:
Je suis daccord mais si je vous dis que si je rederige les urls je vais avoir un fichier .htaccess enorme cequi va ralentir le serveur je pense.


Si ton problème est la présence de "double slash", il devrait suffire d'une ligne de redirection pour toutes les traiter. Un peu comme ceci:

Code:
RewriteRule ^(.*)\/\/(.*)$ $1/$2 [QSA,L,R=301]


(il y a probablement de meilleures regex, mais c'est pas mon fort).
 
HawkEye Visiter le site web du posteur
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 13:39    Sujet du message: problème avec le fichier robots.txt

Merci infiniment HawkEye, je pense c'est ce que je cherchais.
Pouviez vous me recommander un article ou un site pour mieux voir le syntaxe de la redirection, je suis pas vraiment connaisseur.
Pour Jean Luc, pourquoi alors tou le monde utilise ce fameux fichier c quoi son réel rapport si on l'utilise.
Merci à tous
 
RIACARO
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 13:42    Sujet du message: problème avec le fichier robots.txt

son réel apport je voulais dire. excusez
Merci
 
RIACARO
jeanluc
WRInaute accro
WRInaute accro

Inscrit le: 03 Mai 2004
Messages: 2145
Localisation: Bruxelles

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 14:36    Sujet du message: problème avec le fichier robots.txt

Le rôle principal de robots.txt est d'interdire aux robots honnêtes de visiter (crawler) certaines URL.

robots.txt ne sert pas à :
- sécuriser le site (les robots malveillants ne respectent pas les indications se trouvant dans le fichier; ils peuvent même les utiliser pour chercher des informations protégées)
- interdire l'indexation (c'est rare, mais il arrive qu'une page non crawlée soit indexée s'il y a assez de liens qui pointent vers la page)

Pourquoi interdire le crawl de certaines URL:
- pour économiser de la bande passante;
- pour éviter les problèmes de duplicate content.

Jean-Luc
 
jeanluc Visiter le site web du posteur
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 15:17    Sujet du message: problème avec le fichier robots.txt

Merci Jean Luc, ca devient plus clair comme ca.
Sauf que mon objectif c GG pas les autres moteurs et d'ailleurs c interessant de bloquer ces moteurs malveillants et je pense que ca se fait grace au fichier .htaccess.
Merci
 
RIACARO
Marie-Aude
WRInaute accro
WRInaute accro

Inscrit le: 05 Juin 2006
Messages: 2196
Localisation: Maroc - Allemagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 16:36    Sujet du message: problème avec le fichier robots.txt

Le fichier robots.txt + la demande de suppression d'url dans GWT c'est très rapide.
 
Marie-Aude Visiter le site web du posteur
RIACARO
Nouveau WRInaute

Inscrit le: 07 Fév 2008
Messages: 9
Localisation: Espagne

URL permanente de ce messagePosté le : Jeu Mai 08, 2008 16:47    Sujet du message: problème avec le fichier robots.txt

Merci Marie Aude, j'ai essayer de faire ca et comme vous le saviez GWT ne supprime les urls que lorsqu'elles sont indiquées dans le robots ou l'entête http est rederigée en 404 ou l'ajout be balise meta robot. mon problème était à cause des slash dans le robots.txt.
Grace aux intervenants j'ai pu trouver une solution qui résoud mon prblème en utilisant les redirection 301 dans le fichier.htaccess.
Merci encore à tous le monde pour leur coopération.
 
RIACARO
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Référencement Google Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

Définitions :

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort