Simuler un robot (crawl pages web)

WRInaute accro
Bonjour,

Je cherche un outil qui simulerait le passage d'un robot sur mon site et qui m'afficherait le nombre totals de pages trouvées, le nombre de liens existants, etc..

si quelqu'un avait ca dans ses tiroirs ?

en fait un peu l'equivallent d'un "aspirateur de site" mais je ne tiens pas a télécharger les pages, juste a avoir les statistiques..
 
WRInaute discret
Essaie :
http://home.snafu.de/tilman/xenulink.html .
Il est prévu à l'origine pour tester les liens (internes et externes), mais il il te permet d'exporter les stats de ton site au format CSV : niveau à partir de la page d'accueil, nombre de liens entrants / sortants par page, taille de chaque page, titre, temps d'accès, date de mise à jour...

amuse-toi bien :)
 
WRInaute impliqué
perso j'aime bien utiliser Lynx (sous linux) pour simuler l'agent googlebot et voir les sites qui font du cloaking ...

:wink:
 
WRInaute accro
Bonjour

"Search Engine Spider Simulator" == "Simulateur de Robot de Moteur de Recherche".

Comme dirait Langelot Agent Secret, en Anglais faut tout mettre à l'envers...

Jean Francois Ortolo
 
Nouveau WRInaute
ortolojf a dit:
Bonjour

"Search Engine Spider Simulator" == "Simulateur de Robot de Moteur de Recherche".

Comme dirait Langelot Agent Secret, en Anglais faut tout mettre à l'envers...

Jean Francois Ortolo

Merci pour la traduction simultanée mais ma question était : connaissez-vous un site en français qui offre les mêmes services que celui proposé ci-dessus 8)
 
WRInaute passionné
Chapeau pour Xenu, il marche très bien, très interessant puis qu'il m'a trouvé près de 3.000 pages (au sens adresse, ou hit), et qu'il est très complet.
et d'un anglais très abordable :
Adress - status - type - size - title- date - level- link out - link in

Merci donc pour l'adresse
 
WRInaute passionné
mahefarivony a dit:
Je cherche un outil qui simulerait le passage d'un robot sur mon site et qui m'afficherait le nombre totals de pages trouvées, le nombre de liens existants, etc..

Bonsoir,

Si cela te rend service, je peux lancer "Webtrends 7.0 Link analyzer" et t'envoyer les résultats en bal.

Dan
 
Nouveau WRInaute
outil interessant mais ne suit pas les liens javascripts....

je viens d'installer le soft mais je me rends compte que le lien javascript n'est pas suivi or celui ci ouvre sur une page asp contenant une de mes bases de données, comment faire ?
merci pour votre aide. (le lien à titre d'info est www.agenceavenue.com/html/selection.html et il faut cliquer sur propositions)
merci pour votre aide
 
WRInaute passionné
Bonjour Cohen,

Je n'ai pas très bien compris la raison de ce lien javascript, si ce n'est pour ouvrir une nouvelle fenêtre avec des dimensions précises. Cela pourrait être implémenté différemment.
De toutes façons, aucun moteur ne suit pour l'instant les liens javascript, pour la simple raison qu'ils ne savent pas les interpréter.
Tu devrais :
- soit remplacer ce lien par sa forme classique html
- soit le doubler, mais pas forcément sur la même page
- soit utiliser les balises <script>...</script><noscript> ton lien html ici </noscript>

Ce faisant, tu permettras aussi à tes visiteurs ayant désactivé javascript d'accéder à ta base.

Cordialement,

Dan
 
Nouveau WRInaute
raison du lien javascript ...

re bonjour
la raison est simple étant "webmaster" en "première année de webmaster", et utlisant 2 outils de programmation (netobjectfusion et codecharge pour le code asp), netobjectfusion ne sais pas integrer le code de codecharge pour pouvoir conserver le même design que le reste du site. Donc pour l'instant la seule solution est d'ouvrir une page à l'intérieur de l'autre qui lui "ressemble" (euh suis je clair ?...).
Ok que google ne suis pas les liens javascript et c'est dommage. Ca viendra. Par contre je vais essayer ton conseils avec cette balise <no script> c'est quoi exactement ce code ? ca fait la même chose ?
bon dimanche
 
WRInaute passionné
Cohen,

La balise <noscript> ... </noscript> permet d'inclure le code que tu veux pour les navigateurs qui ne supportent pas le langage de script mentionné dans la balise <script>... </script> qui précède.
Un peu comme la balise <noframe> pour les navigateurs qui ne supportent pas les cadres (frames). C'est le même principe.

En t'appuyant sur cela, tu peux afficher un message, un ou plusieurs liens... qui ne seront vu que par ceux qui ne supportent pas les scripts.

Si tu regardes la source de ma page d'accueil, cherches "noscript" et tu verras comment je l'utilise. Ce n'est bien sûr qu'un exemple. :wink:

Dan
 
Nouveau WRInaute
soft , vous avez dit soft

bonjour
tu t'adresses à moi ou à Hetzeld ? pour ma part je citais 2 softs dans mon post netobjectfusion et codecharge.
bonne matinée
 
WRInaute discret
Un coup de main ?

Un doute me gagne...

Je viens de lire ce topic fort intéressant
et j'ai testé mon site

http://www.delorie.com/web/lynxview.cgi ... dbe.com%2F

C'est tout blanc... bon signe, pas bon signe ? :?:

Et quand je teste celle de www.pimkie.fr, pourtant basé sur la même architecture de page, voilà ce que ça donne...

http://www.delorie.com/web/lynxview.cgi ... x_bas.php4

Ca semble déjà mieux.
Comment ça se fait ? Est-ce que ça veut dire que google ne peut pas lire mes pages...? argh.

merci d'avance pour votre contribution.
 
WRInaute discret
Voici le "texte" que voit google :

[euh coupé, c'était un peu porcelet de poster ça :wink: - c'est le simulateur lynx qui fonctionne mal avec ton site, je sais pas pourquoi]

:)
 
Discussions similaires
Haut