| |
Savez-vous bien utiliser les outils de mesure d'audience ? Effectuez-vous un calcul de ROI (Retour sur investissement) pour savoir comment améliorer vos campagnes emarketing ? Savez-vous utiliser les bons outils pour booster votre taux de transformation ? La formation Web Analytics de Ranking Metrics, présentée par un expert reconnu officiellement par Google Analytics, vous apportera les réponses à toutes vos questions ! ===> Informations et inscriptions.
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
Blini WRInaute passionné

Inscrit le: 29 Nov 2004 Messages: 506 Localisation: plutôt bonne
|
Posté le : Dim Fév 13, 2005 11:42 Sujet du message: Lire un robots.txt |
|
|
Bonjour,
Un post pas très ancien ne m'a pas apporté de réponse claire. En plus, ce n'était pas le sujet principal du post, alors je me permets d'ouvrir celui-ci.
Voici la question...
Il faut que je lise un robots.txt. Supposons que je sois dans une section de "user-agent" qui va bien, et que j'ai stocké dans $pattern la chaîne de caractères indiquée en face d'un "Disallow:".
Quelle devrait être la regex à écrire pour comparer une url $url à ce $pattern ?
Je propose ceci, mais je n'en suis pas sûr:
| Code: |
$pattern = str_replace(array('+', '.', '*', '?'), array('\+', '\.', '.*', '\?'), $pattern);
$pattern = '@^'.$pattern.'@';
if (preg_match($pattern, $url))
print('ça matche, donc à exclure'."\n");
|
Des avis ? |
|
| |
|
 |
Blini WRInaute passionné

Inscrit le: 29 Nov 2004 Messages: 506 Localisation: plutôt bonne
|
Posté le : Lun Fév 14, 2005 23:34 Sujet du message: Lire un robots.txt |
|
|
| Personne ? |
|
| |
|
 |
fbparis WRInaute passionné

Inscrit le: 01 Fév 2005 Messages: 636 Localisation: Formation logistique avec www.imtl.fr
|
Posté le : Lun Fév 14, 2005 23:41 Sujet du message: Lire un robots.txt |
|
|
ok je vais le faire, patience
tu fais un robot en php ? perso je te conseille python pour se genre de truc, c plus rapide et plus elegant je trouve.. |
|
| |
|
 |
Blini WRInaute passionné

Inscrit le: 29 Nov 2004 Messages: 506 Localisation: plutôt bonne
|
Posté le : Lun Fév 14, 2005 23:43 Sujet du message: Lire un robots.txt |
|
|
| Je l'ai fait, c'est juste que comme je trouve la doc officielle pas très claire, je voulais un avis sur la regex !! (sans compter Google qui reconnait maintenant des caractères génériques...) |
|
| |
|
 |
Didier_S WRInaute passionné

Inscrit le: 24 Aoû 2004 Messages: 561 Localisation: Paris
|
Posté le : Lun Fév 14, 2005 23:52 Sujet du message: Lire un robots.txt |
|
|
| fbparis a écrit: |
ok je vais le faire, patience  |
MDR tout le monde avait compris et personne a voulu s'y coller !
j'avoue, je me suis dit "si à minuit y'a rien, je m'y mets"
(ça tient toujours...)
(r'gardez, y'a fbparis qui se frotte les mains en se disant "j'lui laisse ?") |
|
| |
|
 |
fbparis WRInaute passionné

Inscrit le: 01 Fév 2005 Messages: 636 Localisation: Formation logistique avec www.imtl.fr
|
Posté le : Mar Fév 15, 2005 0:01 Sujet du message: Lire un robots.txt |
|
|
bah je viens de verifier les specs, il semble que tu pourrais meme te passer de regex
genre pour chaque ligne de disallow il faut que :
strpos($host . $path, $host . $disallow) !== 0
ou $host est le domaine (www.example.com)
et $path la suite.. : / , /index.html, etc
oublis pas que pour un user-agent donné, il peut y avoir plusieurs lignes de disallow (mais pas de regex dans les disallow)
sinon je dirais que ton truc est bon, a condition que ton $url soit en fait seulement le path, non ? |
|
| |
|
 |
Blini WRInaute passionné

Inscrit le: 29 Nov 2004 Messages: 506 Localisation: plutôt bonne
|
Posté le : Mar Fév 15, 2005 10:55 Sujet du message: Lire un robots.txt |
|
|
Oui, pardon, j'ai extrait un bout de mon code, et effectivement, $url ne doit être que le path.
Sinon, je ne pense pas pouvoir me passer du regex puisque Google reconnait des patterns du type:
Disallow: /path/tata*
ou encore
Disallow: *.jpg$
Ce qui m'inquiète en fait, ce sont les caractères qui pourraient apparaître dans un disallow et qui ont une signification particulière pour la regex. Par exemple, le signe "+" que je dois échapper pour qu'il soit compris comme un caractère par la regex. Je pense avoir oublier des caractères dans le même genre... |
|
| |
|
 |
fbparis WRInaute passionné

Inscrit le: 01 Fév 2005 Messages: 636 Localisation: Formation logistique avec www.imtl.fr
|
Posté le : Mar Fév 15, 2005 12:10 Sujet du message: Lire un robots.txt |
|
|
je pige pas bien ton probleme, que le google bot le fasse ou pas, ca change rien pour toi.. c'est mieux si ton robot respecte la norme pour robots.txt...
sinon tu remplaces "*" par ".*" dans ton pattern... |
|
| |
|
 |
Blini WRInaute passionné

Inscrit le: 29 Nov 2004 Messages: 506 Localisation: plutôt bonne
|
Posté le : Mar Fév 15, 2005 12:54 Sujet du message: Lire un robots.txt |
|
|
Mon seul souci, c'est de pas oublier un truc. Si un gars commence à mettre des wildcards pour le bot Google, il peut (je l'ai vu) se dire que c'est OK pour les autres bots, et utiliser aussi des wildcards pour les autres robots.
Mais bon, je me fais peut-être ch... pour rien, après tout, la faute au gars s'il n'est pas dans la norme, hein ?
Bon, dans ce cas, j'ai bien noté le coup du strpos plutôt que tu preg_match. Ça me facilitera la vie.
Merci pour votre aide  |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|