Crawler un site : ClicBox en Beta Test

Discussion dans 'Demandes d'avis et de conseils sur vos sites' créé par Kaliiii, 7 Juillet 2013.

  1. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Bonjour à tous !

    J'ai mis a disposition un tool que j'utilise depuis des années : Un crawler perso.

    Ce robot parcours un site web comme le ferait un robot de recherche et analyse la structure pour détecter les potentiels problèmes qu'un moteur de recherche pourrait rencontrer.

    J'ai lancé le service il y a seulement quelques jours, il y a donc sûrement des choses a améliorer, n'hésitez pas a m'en faire part (perso, j'en trouve tous les jours).

    N'hésitez pas également a faire des retours sur le rapport de crawl ! (graphiques supplémentaires souhaités, présentation etc).

    Il y a également un webservice d'export a dispo (je dois ajouter un export CSV, mais celui-ci ne contiendra pas les liens).

    Ce robot est adapté a des sites qui ont beaucoup de pages (plus de 500 au moins). Il n'a pas tellement d'utilité pour un site corporate, mais est particulièrement adapté a du e-commerce par exemple.

    Il y a 5 crédits offerts a l'inscription, mais si vous avez besoin de plus, j'en offrirais ici pour les beta testeurs.

    N'hésitez pas : http://www.clicbox.fr/
     
  2. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 787
    J'aime reçus:
    240
    Tu le dis sur ton site, que ton bot n’interprète pas le JS, hors Googlebot se comporte plus comme un crawler webkit, donc pourquoi ne pas l'avoir développé à base de webkit ?

    Il serait intéressant d'avoir accès à une démo d'un rapport (sans devoir s'inscrire).
     
  3. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Parce que l'objectif est surtout de faire du contrôle structurel (PrSculpting). Rien ne vaut un bon vieux href.

    Cependant, j'ai prévu de le faire évoluer par la suite et d'implémenter une librairie type phantomJS pour interpréter également le JS. (donc, je garde le point !)
     
  4. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Quelques exemples issus du rapport :
    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]
     
  5. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 787
    J'aime reçus:
    240
    Merci, c'est sympa :)
     
  6. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 874
    J'aime reçus:
    71
    Je n'ai certes pas un site e-commerce, mais un site de contenu de plus de 3000 pages, du coup je me suis inscrit pour tester. J'ai eu quelques soucis d'en-tête après mise en ligne de ma nouvelle version, ça me permettra de vérifier que tout est maintenant corrigé.
     
  7. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    N'hésite pas a me dire si tu vois des choses étranges, je rectifierais le tir.
     
  8. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    @spout

    Je viens de faire quelques tests avec le rendu WebKit. Le problème, c'est que niveau performances de crawl, on va passer de ~1500 url's crawlées par H et par robot a environ 500 /600.

    Je réfléchis a tout ça, pourquoi pas un traitement asynchrone.
     
  9. patapon87
    patapon87 WRInaute passionné
    Inscrit:
    12 Janvier 2010
    Messages:
    1 135
    J'aime reçus:
    0
    Perso impossible de valider le domaine malgré la mise en place du txt
     
  10. Triixx
    Triixx WRInaute impliqué
    Inscrit:
    12 Mars 2011
    Messages:
    514
    J'aime reçus:
    1
    Salut,

    Quelques remarques :
    Le texte dans le slider (sous l'image) est trop sombre on le voit presque pas.
    Il manque cruellement de texte sur cette page d'accueil ^^

    Voila :)
     
  11. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 874
    J'aime reçus:
    71
    J'ai pu crawler une bonne partie de mon site, ce qui m'aura permis d'identifier quelques url qui n'avaient jamais été mis à jour et généraient du DC interne (ce qui est maintenant chose corrigé).

    Par contre dans le rapport sur l'unicité sémantique, je ne suis pas sûr de comprendre pourquoi certains éléments sont marqués en doublon alors que lorsque j'affiche le détail, aucune url doublonnée n'est indiquée. De même, pour certains doublons la même url s'affiche deux fois.
     
  12. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Hello UsagiYojimbo !

    Quand le robot affiche 2 fois la même url, cela signifie qu'il a trouvé une première url redirigée vers celle là. En fait, il garde toujours la première pour mémoire. Je vais ajouter de l'info pour que ce soit plus compréhensible.

    Pour le coup des url's qui ne s'affichent pas, je pense que c'est un problème de caractère spécial lors de la recherche. Je vais fouiller.

    Sinon, suite à la remarque de spout, j'ai implémenté webkit dans une certaine mesure, en l'occurence pour la découverte des liens. Et j'avoue, ça montre des choses intéressantes. Par contre, ça ralentit cruellement le crawl :(
    Cocher WebKit ne consomme pas de crédit supplémentaire. Le fait que ce soit plus lent est déjà assez chiant a soi.

    patapon87 > Je regarde
     
  13. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Worpress avait supprimée les balises P sur caroussel. Bizarre.

     
  14. baloo738
    baloo738 Nouveau WRInaute
    Inscrit:
    9 Décembre 2006
    Messages:
    34
    J'aime reçus:
    0
    Bonjour,
    Un trés bon outil, mais par contre il y'a un point qui m'embête :
    Mon site est doté d'un comparateur de prix, exemple sur cette page (onglet comparateur) :
    http://www.guitarezine.fr/pedale-effet/equalizer-booster/boss-ge-7-equalizer

    Il y'a par exemple un lien vers un produit du magasin guitarshop.
    exemple :
    http://www.guitarshop.fr/effets/effets_electriques/boss/produit-3505-g ... lizer.html

    Ton crawler à commencer à me crawler les urls de ce marchand, en remplacant www.guitarshop.fr par mon nom de domaine, du coup dans mon extension de SEO j'ai eu des milliers d'erreur 404.

    Cordialement
     
  15. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Hello !

    En fait, il a simplement suivi la redirection. Il faut que tu interdises la page /redirect* dans ton fichier robots.txt. Au final, le robot a eu le même comportement que Google, sauf que Google ne te le montre pas.

    Je regarde quand même de mon coté pourquoi il a suivi la redirection via ton domaine au lieu du domaine cible. Il aurait du t'afficher des 302 et non des 404.

    N'hésite pas a me MP si tu as des questions
     
  16. Triixx
    Triixx WRInaute impliqué
    Inscrit:
    12 Mars 2011
    Messages:
    514
    J'aime reçus:
    1
    Salut,

    Concrètement on peut faire quoi avec 20crédits ?
    Les données elles sont stockées où ?
     
  17. Kaliiii
    Kaliiii WRInaute occasionnel
    Inscrit:
    2 Mars 2005
    Messages:
    466
    J'aime reçus:
    0
    Hello,

    Une instance de robot pour une heure coûte 2 crédits. Donc avec 20 crédits, soit 10 robots pendant une heure, ou 1 robot pendant 10 heures, ou 5 robots pendant une heure avec enregistrement du contenu.

    Les données sont stockée sur un index local.

     
  18. baloo738
    baloo738 Nouveau WRInaute
    Inscrit:
    9 Décembre 2006
    Messages:
    34
    J'aime reçus:
    0
    Bonjour,
    J'ai relancé un crawl du site, et il ne prend plus en compte les redirect de mon comparateur de prix.

    Dans le rapport, y'a t'il possibilité d'avoir accés aux différents urls des stats.
    Par exemple le rapport m'indique que 96% de mes reflinks sont en nofolow, est-il possible d'avoir une liste de ces urls ?
     
  19. Triixx
    Triixx WRInaute impliqué
    Inscrit:
    12 Mars 2011
    Messages:
    514
    J'aime reçus:
    1
    J'essayerai peut être ce Week End :)
     
Chargement...
Similar Threads - Crawler ClicBox Beta Forum Date
Impact des crawlers sur le taux de rebond et le référencement Crawl et indexation Google, sitemaps 19 Septembre 2019
Crawler un site volumineux Crawl et indexation Google, sitemaps 4 Septembre 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
Comment trouver la vraie adresse IP d'un crawler ? Développement d'un site Web ou d'une appli mobile 13 Février 2019
Crawler des URLs depuis un CSV Crawl et indexation Google, sitemaps 30 Août 2018
Projet : Crawler de site pour mise en cache chez Fasterize Développement d'un site Web ou d'une appli mobile 7 Septembre 2017
Comment crawler la version mobile de mon site? Administration d'un site Web 13 Juillet 2017
Crawler un site mobile m.monsite.fr avec Xenu Link Sleuth? Crawl et indexation Google, sitemaps 10 Janvier 2017
Hide from backlink crawlers? Administration d'un site Web 27 Décembre 2016
Ne pas indexer ni faire crawler Crawl et indexation Google, sitemaps 10 Juin 2016
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice