Bonjour,
Je développe un petit crawler web basique, sans grande prétention, mais celui-ci ne cesse de s'engouffrer dans des méchants pièges (intentionnels ou pas ?) du style :
http://www.example.com/a/b/a/b/a...
ou
http://www.example.com/script.php?a=1&a=1&a=1...
La seule solution simple que j'ai trouvé est de compter le nombre de "/" ou de "?" dans l'URL et de bloquer les URL en comportant plus de 10 (par exemple). Avez-vous d'autres idées ou remarques ?
Merci d'avance,
PS : le problème suivant est d'éliminer, dans la liste des URL trouvées par le crawler, les URL qui référencent la même page.
[Edit kazhar : Le domaine de test, c'est example. Pas monsite]
Je développe un petit crawler web basique, sans grande prétention, mais celui-ci ne cesse de s'engouffrer dans des méchants pièges (intentionnels ou pas ?) du style :
http://www.example.com/a/b/a/b/a...
ou
http://www.example.com/script.php?a=1&a=1&a=1...
La seule solution simple que j'ai trouvé est de compter le nombre de "/" ou de "?" dans l'URL et de bloquer les URL en comportant plus de 10 (par exemple). Avez-vous d'autres idées ou remarques ?
Merci d'avance,
PS : le problème suivant est d'éliminer, dans la liste des URL trouvées par le crawler, les URL qui référencent la même page.
[Edit kazhar : Le domaine de test, c'est example. Pas monsite]