Bonjour,
Je développe un crawler pour indexer des petites annonces.
J'ai mis au point les algo et les requêtes pour que le crawler puisse recueillir les informations recherchées.
Il va falloir maintenant lancer ces requêtes, les traiter etc...
Je n'ai aucune idée sur la façon de lancer ces requêtes... (je voudrais éviter d'utiliser un CRON...)...
Comment faire en sorte de ne pas surcharger le site en cours de crawl??? Quelles sont en général les règles à adopter pour que le crawl ne gêne pas le site crawlé?
Autre question aussi:
Existe-il des développements open à reprendre? Pour l'instant je ne trouve rien car la plupart du temps les outils d'indexation font une indexation full text et ce n'est absolument pas ce que je recherche, je fais moi même mon indexation maison avec génération des méta données...
Je développe un crawler pour indexer des petites annonces.
J'ai mis au point les algo et les requêtes pour que le crawler puisse recueillir les informations recherchées.
Il va falloir maintenant lancer ces requêtes, les traiter etc...
Je n'ai aucune idée sur la façon de lancer ces requêtes... (je voudrais éviter d'utiliser un CRON...)...
Comment faire en sorte de ne pas surcharger le site en cours de crawl??? Quelles sont en général les règles à adopter pour que le crawl ne gêne pas le site crawlé?
Autre question aussi:
Existe-il des développements open à reprendre? Pour l'instant je ne trouve rien car la plupart du temps les outils d'indexation font une indexation full text et ce n'est absolument pas ce que je recherche, je fais moi même mon indexation maison avec génération des méta données...