Formation Google AnalyticsSavez-vous bien utiliser les outils de mesure d'audience ?
Effectuez-vous un calcul de ROI (Retour sur investissement) pour savoir comment améliorer vos campagnes emarketing ?
Savez-vous utiliser les bons outils pour booster votre taux de transformation ?
La formation Web Analytics de Ranking Metrics, présentée par un expert reconnu officiellement par Google Analytics, vous apportera les réponses à toutes vos questions !
===> Informations et inscriptions.

Lire un robots.txt

Poster un nouveau sujet Imprimer cette discussion    Forum -> Administration d'un site Web   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
Blini
WRInaute passionné
WRInaute passionné

Inscrit le: 29 Nov 2004
Messages: 506
Localisation: plutôt bonne

URL permanente de ce messagePosté le : Dim Fév 13, 2005 11:42    Sujet du message: Lire un robots.txt

Bonjour,

Un post pas très ancien ne m'a pas apporté de réponse claire. En plus, ce n'était pas le sujet principal du post, alors je me permets d'ouvrir celui-ci.
Voici la question...

Il faut que je lise un robots.txt. Supposons que je sois dans une section de "user-agent" qui va bien, et que j'ai stocké dans $pattern la chaîne de caractères indiquée en face d'un "Disallow:".
Quelle devrait être la regex à écrire pour comparer une url $url à ce $pattern ?
Je propose ceci, mais je n'en suis pas sûr:
Code:
$pattern = str_replace(array('+', '.', '*', '?'), array('\+', '\.', '.*', '\?'), $pattern);
$pattern = '@^'.$pattern.'@';
if (preg_match($pattern, $url))
   print('ça matche, donc à exclure'."\n");


Des avis ?
 
Blini Visiter le site web du posteur
Blini
WRInaute passionné
WRInaute passionné

Inscrit le: 29 Nov 2004
Messages: 506
Localisation: plutôt bonne

URL permanente de ce messagePosté le : Lun Fév 14, 2005 23:34    Sujet du message: Lire un robots.txt

Personne ?
 
Blini Visiter le site web du posteur
fbparis
WRInaute passionné
WRInaute passionné

Inscrit le: 01 Fév 2005
Messages: 636
Localisation: Formation logistique avec www.imtl.fr

URL permanente de ce messagePosté le : Lun Fév 14, 2005 23:41    Sujet du message: Lire un robots.txt

ok je vais le faire, patience Smile
tu fais un robot en php ? perso je te conseille python pour se genre de truc, c plus rapide et plus elegant je trouve..
 
fbparis Visiter le site web du posteur
Blini
WRInaute passionné
WRInaute passionné

Inscrit le: 29 Nov 2004
Messages: 506
Localisation: plutôt bonne

URL permanente de ce messagePosté le : Lun Fév 14, 2005 23:43    Sujet du message: Lire un robots.txt

Je l'ai fait, c'est juste que comme je trouve la doc officielle pas très claire, je voulais un avis sur la regex !! (sans compter Google qui reconnait maintenant des caractères génériques...)
 
Blini Visiter le site web du posteur
Didier_S
WRInaute passionné
WRInaute passionné

Inscrit le: 24 Aoû 2004
Messages: 561
Localisation: Paris

URL permanente de ce messagePosté le : Lun Fév 14, 2005 23:52    Sujet du message: Lire un robots.txt

fbparis a écrit:
ok je vais le faire, patience Smile

MDR tout le monde avait compris et personne a voulu s'y coller !
j'avoue, je me suis dit "si à minuit y'a rien, je m'y mets"
(ça tient toujours...)
(r'gardez, y'a fbparis qui se frotte les mains en se disant "j'lui laisse ?")
 
Didier_S Visiter le site web du posteur
fbparis
WRInaute passionné
WRInaute passionné

Inscrit le: 01 Fév 2005
Messages: 636
Localisation: Formation logistique avec www.imtl.fr

URL permanente de ce messagePosté le : Mar Fév 15, 2005 0:01    Sujet du message: Lire un robots.txt

bah je viens de verifier les specs, il semble que tu pourrais meme te passer de regex

genre pour chaque ligne de disallow il faut que :

strpos($host . $path, $host . $disallow) !== 0

ou $host est le domaine (www.example.com)
et $path la suite.. : / , /index.html, etc

oublis pas que pour un user-agent donné, il peut y avoir plusieurs lignes de disallow (mais pas de regex dans les disallow)

sinon je dirais que ton truc est bon, a condition que ton $url soit en fait seulement le path, non ?
 
fbparis Visiter le site web du posteur
Blini
WRInaute passionné
WRInaute passionné

Inscrit le: 29 Nov 2004
Messages: 506
Localisation: plutôt bonne

URL permanente de ce messagePosté le : Mar Fév 15, 2005 10:55    Sujet du message: Lire un robots.txt

Oui, pardon, j'ai extrait un bout de mon code, et effectivement, $url ne doit être que le path.
Sinon, je ne pense pas pouvoir me passer du regex puisque Google reconnait des patterns du type:
Disallow: /path/tata*
ou encore
Disallow: *.jpg$

Ce qui m'inquiète en fait, ce sont les caractères qui pourraient apparaître dans un disallow et qui ont une signification particulière pour la regex. Par exemple, le signe "+" que je dois échapper pour qu'il soit compris comme un caractère par la regex. Je pense avoir oublier des caractères dans le même genre...
 
Blini Visiter le site web du posteur
fbparis
WRInaute passionné
WRInaute passionné

Inscrit le: 01 Fév 2005
Messages: 636
Localisation: Formation logistique avec www.imtl.fr

URL permanente de ce messagePosté le : Mar Fév 15, 2005 12:10    Sujet du message: Lire un robots.txt

je pige pas bien ton probleme, que le google bot le fasse ou pas, ca change rien pour toi.. c'est mieux si ton robot respecte la norme pour robots.txt...

sinon tu remplaces "*" par ".*" dans ton pattern...
 
fbparis Visiter le site web du posteur
Blini
WRInaute passionné
WRInaute passionné

Inscrit le: 29 Nov 2004
Messages: 506
Localisation: plutôt bonne

URL permanente de ce messagePosté le : Mar Fév 15, 2005 12:54    Sujet du message: Lire un robots.txt

Mon seul souci, c'est de pas oublier un truc. Si un gars commence à mettre des wildcards pour le bot Google, il peut (je l'ai vu) se dire que c'est OK pour les autres bots, et utiliser aussi des wildcards pour les autres robots.
Mais bon, je me fais peut-être ch... pour rien, après tout, la faute au gars s'il n'est pas dans la norme, hein ?
Bon, dans ce cas, j'ai bien noté le coup du strpos plutôt que tu preg_match. Ça me facilitera la vie.
Merci pour votre aide Smile
 
Blini Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Administration d'un site Web Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

Autres sujets de discussion :

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort