Crawler un site : ClicBox en Beta Test

Kaliiii · 7 Juillet 2013

Bonjour à tous !

J'ai mis a disposition un tool que j'utilise depuis des années : Un crawler perso.

Ce robot parcours un site web comme le ferait un robot de recherche et analyse la structure pour détecter les potentiels problèmes qu'un moteur de recherche pourrait rencontrer.

J'ai lancé le service il y a seulement quelques jours, il y a donc sûrement des choses a améliorer, n'hésitez pas a m'en faire part (perso, j'en trouve tous les jours).

N'hésitez pas également a faire des retours sur le rapport de crawl ! (graphiques supplémentaires souhaités, présentation etc).

Il y a également un webservice d'export a dispo (je dois ajouter un export CSV, mais celui-ci ne contiendra pas les liens).

Ce robot est adapté a des sites qui ont beaucoup de pages (plus de 500 au moins). Il n'a pas tellement d'utilité pour un site corporate, mais est particulièrement adapté a du e-commerce par exemple.

Il y a 5 crédits offerts a l'inscription, mais si vous avez besoin de plus, j'en offrirais ici pour les beta testeurs.

N'hésitez pas : http://www.clicbox.fr/

spout · 7 Juillet 2013

Tu le dis sur ton site, que ton bot n’interprète pas le JS, hors Googlebot se comporte plus comme un crawler webkit, donc pourquoi ne pas l'avoir développé à base de webkit ?

Il serait intéressant d'avoir accès à une démo d'un rapport (sans devoir s'inscrire).

Kaliiii · 7 Juillet 2013

Parce que l'objectif est surtout de faire du contrôle structurel (PrSculpting). Rien ne vaut un bon vieux href.

Cependant, j'ai prévu de le faire évoluer par la suite et d'implémenter une librairie type phantomJS pour interpréter également le JS. (donc, je garde le point !)

Kaliiii · 7 Juillet 2013

Quelques exemples issus du rapport :

spout · 7 Juillet 2013

Merci, c'est sympa

UsagiYojimbo · 7 Juillet 2013

Je n'ai certes pas un site e-commerce, mais un site de contenu de plus de 3000 pages, du coup je me suis inscrit pour tester. J'ai eu quelques soucis d'en-tête après mise en ligne de ma nouvelle version, ça me permettra de vérifier que tout est maintenant corrigé.

Kaliiii · 7 Juillet 2013

N'hésite pas a me dire si tu vois des choses étranges, je rectifierais le tir.

Kaliiii · 7 Juillet 2013

@spout

Je viens de faire quelques tests avec le rendu WebKit. Le problème, c'est que niveau performances de crawl, on va passer de ~1500 url's crawlées par H et par robot a environ 500 /600.

Je réfléchis a tout ça, pourquoi pas un traitement asynchrone.

patapon87 · 7 Juillet 2013

Perso impossible de valider le domaine malgré la mise en place du txt

Triixx · 7 Juillet 2013

Salut,

Quelques remarques :
Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
Il manque cruellement de texte sur cette page d'accueil ^^

Voila

UsagiYojimbo · 7 Juillet 2013

J'ai pu crawler une bonne partie de mon site, ce qui m'aura permis d'identifier quelques url qui n'avaient jamais été mis à jour et généraient du DC interne (ce qui est maintenant chose corrigé).

Par contre dans le rapport sur l'unicité sémantique, je ne suis pas sûr de comprendre pourquoi certains éléments sont marqués en doublon alors que lorsque j'affiche le détail, aucune url doublonnée n'est indiquée. De même, pour certains doublons la même url s'affiche deux fois.

Kaliiii · 7 Juillet 2013

Hello UsagiYojimbo !

Quand le robot affiche 2 fois la même url, cela signifie qu'il a trouvé une première url redirigée vers celle là. En fait, il garde toujours la première pour mémoire. Je vais ajouter de l'info pour que ce soit plus compréhensible.

Pour le coup des url's qui ne s'affichent pas, je pense que c'est un problème de caractère spécial lors de la recherche. Je vais fouiller.

Sinon, suite à la remarque de spout, j'ai implémenté webkit dans une certaine mesure, en l'occurence pour la découverte des liens. Et j'avoue, ça montre des choses intéressantes. Par contre, ça ralentit cruellement le crawl

Cocher WebKit ne consomme pas de crédit supplémentaire. Le fait que ce soit plus lent est déjà assez chiant a soi.

patapon87 > Je regarde

Kaliiii · 7 Juillet 2013

Worpress avait supprimée les balises P sur caroussel. Bizarre.

Triixx a dit:
Salut,

Quelques remarques :
Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
Il manque cruellement de texte sur cette page d'accueil ^^

Voila

baloo738 · 8 Juillet 2013

Bonjour,
Un trés bon outil, mais par contre il y'a un point qui m'embête :
Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

Il y'a par exemple un lien vers un produit du magasin guitarshop.
exemple :
http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

Cordialement

Kaliiii · 9 Juillet 2013

baloo738 a dit:
Bonjour,
Un trés bon outil, mais par contre il y'a un point qui m'embête :
Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

Il y'a par exemple un lien vers un produit du magasin guitarshop.
exemple :
http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant http://www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

Cordialement

Hello !

En fait, il a simplement suivi la redirection. Il faut que tu interdises la page /redirect* dans ton fichier robots.txt. Au final, le robot a eu le même comportement que Google, sauf que Google ne te le montre pas.

Je regarde quand même de mon coté pourquoi il a suivi la redirection via ton domaine au lieu du domaine cible. Il aurait du t'afficher des 302 et non des 404.

N'hésite pas a me MP si tu as des questions

Triixx · 9 Juillet 2013

Salut,

Concrètement on peut faire quoi avec 20crédits ?
Les données elles sont stockées où ?

Kaliiii · 9 Juillet 2013

Hello,

Une instance de robot pour une heure coûte 2 crédits. Donc avec 20 crédits, soit 10 robots pendant une heure, ou 1 robot pendant 10 heures, ou 5 robots pendant une heure avec enregistrement du contenu.

Les données sont stockée sur un index local.

Triixx a dit:
Salut,

Concrètement on peut faire quoi avec 20crédits ?
Les données elles sont stockées où ?

baloo738 · 9 Juillet 2013

Bonjour,
J'ai relancé un crawl du site, et il ne prend plus en compte les redirect de mon comparateur de prix.

Dans le rapport, y'a t'il possibilité d'avoir accés aux différents urls des stats.
Par exemple le rapport m'indique que 96% de mes reflinks sont en nofolow, est-il possible d'avoir une liste de ces urls ?

Triixx · 9 Juillet 2013

J'essayerai peut être ce Week End