Petit crawler en C/C++/Java/Python

Discussion dans 'Le café de WebRankInfo' créé par ecocentric, 23 Septembre 2004.

  1. ecocentric
    ecocentric WRInaute accro
    Inscrit:
    10 Février 2004
    Messages:
    2 653
    J'aime reçus:
    0
    Bonjour,
    Je suis à la recherche d'un logiciel, éventuellement basique, capable de récupérer des pages HTML en grand nombre, voire de créer un index. Il pourrait être développé en C, C++, Java ou Python. Il doit être Open Source (possibilité de l'intégrer dans un projet plus grand). Quelqu'un a-t-il une idée ?
    RV.
     
  2. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    7 986
    J'aime reçus:
    0
    je cherche aussi....!! merci pour toute info !! :)
     
  3. rebirth
    rebirth WRInaute impliqué
    Inscrit:
    18 Avril 2004
    Messages:
    732
    J'aime reçus:
    0
    De meme en elargissant meme au Perl...voire PHP....

    J'ai besoin d'un outil capable de recuperer les meta : title et keywords...
    J'ai quelques idees pour optimiser mes pages..

    Enfin si ca existe pas vraiment je le ferai en open, mais j'ai plein de projets en meme temps a finir :(
    Ca me plairait plus de trouver un truc open, prendre ce qu'il faut et hop !
     
  4. jerome347
    jerome347 WRInaute occasionnel
    Inscrit:
    19 Mars 2004
    Messages:
    468
    J'aime reçus:
    0
    En php il y a la fonction get_meta_tags.

    et pour récupérer le title, un petit parser de ce genre suffit :

    Code:
    function GetBetween($file, $debut, $fin)
    	{
    	$file = file($file);
    	$retour = implode('', $file);
    	$retour = explode($debut, $retour);
    	$retour = explode($fin, $retour['1']);
    	return $retour['0'];
    	}
    
     
  5. shrom
    shrom WRInaute impliqué
    Inscrit:
    5 Juillet 2004
    Messages:
    781
    J'aime reçus:
    0
    Tu as une liste des moteurs de recherche open source ici:
    http://www.searchtools.com/tools/tools-opensource.html

    Dans la liste, je connais surtout nutch ( devait servir de base à mozdex, mais mozdex semble définitivement fermé ) qui a un indexer assez puissant et mnoGoSearch qui permet d'indexer les bases de données.
     
  6. ecocentric
    ecocentric WRInaute accro
    Inscrit:
    10 Février 2004
    Messages:
    2 653
    J'aime reçus:
    0
    Je m'amuse un peu avec ça : http://seo.ecocentric.be/meta.php . Eventuellement, contacte-moi en MP pour le code.
     
  7. ecocentric
    ecocentric WRInaute accro
    Inscrit:
    10 Février 2004
    Messages:
    2 653
    J'aime reçus:
    0
    Intéressant. Je ne connaissais pas.
     
  8. ecocentric
    ecocentric WRInaute accro
    Inscrit:
    10 Février 2004
    Messages:
    2 653
    J'aime reçus:
    0
    Nutch est déjà un gros logiciel. Je cherche plutôt quelque-chose de très simple, compact au niveau de code, très facilement installable. L'idée n'est pas de pouvoir concurrencer Google ;-), plutôt de pouvoir traiter en continu quelques centaines de sites, voire quelques milliers, avec une bonne stabilité et une rapidité correcte, et d'appliquer des trairement sur ce qui a été crawlé. .

    Très bon ![/code]
     
  9. rebirth
    rebirth WRInaute impliqué
    Inscrit:
    18 Avril 2004
    Messages:
    732
    J'aime reçus:
    0
    Ok merci a tous, pour tout ces liens :D

    Je connaissais pas cette fonction en PHP, enfin de l'autre cote, je m'y suis mis il y a pas trop longtemps....
    Ca me change pas trop du C/Perl, mais c'est cool pour le Web...
     
Chargement...
Similar Threads - crawler C++ Java Forum Date
Crawler une url présente dans un select Développement d'un site Web ou d'une appli mobile 28 Mars 2022
Liens internes invisibles pour les crawlers Demandes d'avis et de conseils sur vos sites 7 Décembre 2021
Signaler aux crawler de ne pas suivre un lien qui nécessite une connexion Crawl et indexation Google, sitemaps 9 Juin 2021
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
Comment éviter un piège à bots avec un crawler ? Crawl et indexation Google, sitemaps 3 Décembre 2020
Impact des crawlers sur le taux de rebond et le référencement Crawl et indexation Google, sitemaps 19 Septembre 2019
Crawler un site volumineux Crawl et indexation Google, sitemaps 4 Septembre 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
Comment trouver la vraie adresse IP d'un crawler ? Développement d'un site Web ou d'une appli mobile 13 Février 2019
Crawler des URLs depuis un CSV Crawl et indexation Google, sitemaps 30 Août 2018
Projet : Crawler de site pour mise en cache chez Fasterize Développement d'un site Web ou d'une appli mobile 7 Septembre 2017
Comment crawler la version mobile de mon site? Administration d'un site Web 13 Juillet 2017
Crawler un site mobile m.monsite.fr avec Xenu Link Sleuth? Crawl et indexation Google, sitemaps 10 Janvier 2017
Hide from backlink crawlers? Administration d'un site Web 27 Décembre 2016
Ne pas indexer ni faire crawler Crawl et indexation Google, sitemaps 10 Juin 2016
Crawler de site pour générer les pages en cache Administration d'un site Web 17 Septembre 2015
Crawler les pages en mode connecté Crawl et indexation Google, sitemaps 27 Août 2015
Google veut crawler des élèments qui n'existe pas sur mon serveur Crawl et indexation Google, sitemaps 26 Juin 2015
Spam crawler darodar Crawl et indexation Google, sitemaps 5 Janvier 2015
Script pour crawler un site Développement d'un site Web ou d'une appli mobile 28 Novembre 2014