UserAgent "C4PC UserAgent/0.7"

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par 3ul3r, 25 Juillet 2010.

  1. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    Bonjour à tous,

    Depuis 2 jours, j'observe un utilisateur/robot qui essai de charger toutes les pages et tous les fichiers de mon site. Le "crawl" se fait dans la douceur, environ 15 pages par heure, mais il ne s'arrête jamais...

    Mes logs me disent que l'useragent utilisé est "C4PC UserAgent/0.7" et l'IP 91.121.4.63

    J'ai trouvé quelques maigres infos sur l'IP : c'est un serveur dédié chez OVH.
    Mais je n'arrive pas à trouver d'info sur l'useragent.

    PS : par prudence, j'ai bloqué l'IP ce matin (j'ai plein de contenu non-libre de diffusion sur mon site, donc j'aime pas qu'on "aspire" sans raison valable). Les pages ont continué d'être chargées, générant plein d'erreurs 403 (ce qui est logique).

    Vous avez déjà vu ça ?
     
  2. guicara
    guicara WRInaute passionné
    Inscrit:
    2 Février 2006
    Messages:
    1 558
    J'aime reçus:
    0
  3. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    J'avais trouvé la même page de forum que tu cites, mais on n'apprend malheureusement pas grand chose de plus :/

    En tout cas, ca n'a donc rien à voir avec les services d'OVH.
    Mon site étant sur un mutu OVH, je m'étais demandé si ce n'était pas un robot qui appartenait à OVH, servant à vérifier l'uptime des sites par exemple ... et donc un robot qu'il ne fallait pas bloquer.

    J'ai fait un tour sur search.cloudsearch.com et cloudsearch.com ce sont des domaines en parking, donc je comprends pas trop à quoi bon ils utilisent un robot d'indexation (en supposant qu'il indexe ...)
     
  4. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    j'ai scanné l'IP pour voir il y a pas grand chose dessus (j'ai pas gardé le log) en mode "brutasse épaisse" il y avait deux ports ouverts.
     
  5. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    Nouvelles du front.

    Après une journée de repos, le robot/crawler est revenu ... mais avec d'autres identificateur.
    L'IP est maintenant 91.121.20.133 et l'useragent "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;)"

    Je sais que c'est le même bot, parce que beaucoup de coïncidence sont présentes :
    - même plage d'IP (le whois donne le même host : search4.cloud4search.com, et dit que c'est également un dédié chez OVH)
    - même navigation dans le site : une 15ène de chargement de page par heure, tout au long de la journée, sans aucune cohérence dans la suite des pages chargées
    - un useragent qui indique IE 6.0, typiquement un "vieux" aspirateur de site qui veut se faire passer pour un internaute lambda.

    Ce qui est intéressant maintenant, ca serait de savoir si un humain a du intervenir sur ce crawler pour modifier l'user-agent/l'IP ... et puis pourquoi il s'acharne toujours à essayer d'indexer (?) tout mon site.

    Si vous avez des idées ...
     
Chargement...
Similar Threads - UserAgent C4PC UserAgent Forum Date
Que peut simuler un aspirateur de site ? UserAgent, IP Crawl et indexation Google, sitemaps 1 Septembre 2010
Nouvelle "Encyclopédie des Robots" et UserAgents Administration d'un site Web 20 Octobre 2005
les 3 UserAgent de Google Débuter en référencement 22 Septembre 2005
Extension UserAgent Switcher avec Firefox Le café de WebRankInfo 10 Août 2005