UserAgent "C4PC UserAgent/0.7"

WRInaute discret
Bonjour à tous,

Depuis 2 jours, j'observe un utilisateur/robot qui essai de charger toutes les pages et tous les fichiers de mon site. Le "crawl" se fait dans la douceur, environ 15 pages par heure, mais il ne s'arrête jamais...

Mes logs me disent que l'useragent utilisé est "C4PC UserAgent/0.7" et l'IP 91.121.4.63

J'ai trouvé quelques maigres infos sur l'IP : c'est un serveur dédié chez OVH.
Mais je n'arrive pas à trouver d'info sur l'useragent.

PS : par prudence, j'ai bloqué l'IP ce matin (j'ai plein de contenu non-libre de diffusion sur mon site, donc j'aime pas qu'on "aspire" sans raison valable). Les pages ont continué d'être chargées, générant plein d'erreurs 403 (ce qui est logique).

Vous avez déjà vu ça ?
 
WRInaute discret
J'avais trouvé la même page de forum que tu cites, mais on n'apprend malheureusement pas grand chose de plus :/

En tout cas, ca n'a donc rien à voir avec les services d'OVH.
Mon site étant sur un mutu OVH, je m'étais demandé si ce n'était pas un robot qui appartenait à OVH, servant à vérifier l'uptime des sites par exemple ... et donc un robot qu'il ne fallait pas bloquer.

J'ai fait un tour sur search.cloudsearch.com et cloudsearch.com ce sont des domaines en parking, donc je comprends pas trop à quoi bon ils utilisent un robot d'indexation (en supposant qu'il indexe ...)
 
WRInaute accro
j'ai scanné l'IP pour voir il y a pas grand chose dessus (j'ai pas gardé le log) en mode "brutasse épaisse" il y avait deux ports ouverts.
 
WRInaute discret
Nouvelles du front.

Après une journée de repos, le robot/crawler est revenu ... mais avec d'autres identificateur.
L'IP est maintenant 91.121.20.133 et l'useragent "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;)"

Je sais que c'est le même bot, parce que beaucoup de coïncidence sont présentes :
- même plage d'IP (le whois donne le même host : search4.cloud4search.com, et dit que c'est également un dédié chez OVH)
- même navigation dans le site : une 15ène de chargement de page par heure, tout au long de la journée, sans aucune cohérence dans la suite des pages chargées
- un useragent qui indique IE 6.0, typiquement un "vieux" aspirateur de site qui veut se faire passer pour un internaute lambda.

Ce qui est intéressant maintenant, ca serait de savoir si un humain a du intervenir sur ce crawler pour modifier l'user-agent/l'IP ... et puis pourquoi il s'acharne toujours à essayer d'indexer (?) tout mon site.

Si vous avez des idées ...
 
Haut