Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Développement d'un crawler - comment gérer la charge???

Poster un nouveau sujet Imprimer cette discussion    Forum -> Annuaires et moteurs   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
OJAL
WRInaute passionné
WRInaute passionné

Inscrit le: 10 Avr 2003
Messages: 778
Localisation: LYON (69)

URL permanente de ce messagePosté le : Sam Avr 21, 2007 15:46    Sujet du message: Développement d'un crawler - comment gérer la charge???

Bonjour,

Je développe un crawler pour indexer des petites annonces.
J'ai mis au point les algo et les requêtes pour que le crawler puisse recueillir les informations recherchées.
Il va falloir maintenant lancer ces requêtes, les traiter etc...
Je n'ai aucune idée sur la façon de lancer ces requêtes... (je voudrais éviter d'utiliser un CRON...)...
Comment faire en sorte de ne pas surcharger le site en cours de crawl??? Quelles sont en général les règles à adopter pour que le crawl ne gêne pas le site crawlé?

Autre question aussi:
Existe-il des développements open à reprendre? Pour l'instant je ne trouve rien car la plupart du temps les outils d'indexation font une indexation full text et ce n'est absolument pas ce que je recherche, je fais moi même mon indexation maison avec génération des méta données...
 
OJAL Visiter le site web du posteur
Ytz
WRInaute discret
WRInaute discret

Inscrit le: 21 Mar 2007
Messages: 74
Localisation: Grenoble

URL permanente de ce messagePosté le : Sam Avr 21, 2007 16:01    Sujet du message: Développement d'un crawler - comment gérer la charge???

"sleeping 1 seconde between each request..."

tu places un truc de ce genre sinon les serveurs n'aiment pas, c'est un minimum.

Ytz
 
Ytz Visiter le site web du posteur
biddybulle
WRInaute accro
WRInaute accro

Inscrit le: 30 Mai 2005
Messages: 1372

URL permanente de ce messagePosté le : Sam Avr 21, 2007 19:19    Sujet du message: Développement d'un crawler - comment gérer la charge???

tout dépend du site que tu crawl, il est sans doute probable que les gros sites n'y voit que du feu en terme de charge sauf si il tourne sur des serveurs à 4Mo de RAM et un 486 en CPU. Donc, c'est plutôt eux qui verront les limites de ta machine.

Enfin après si tu vises de nombreuses pages dans la même seconde avec des processus multiples de crawl, ils peuvent peut être sentir un ralentissement (imagines s'ils t'envoient 2000 annonces simultanément).

Ensuite si ils ont des outils adéquates et qu'il ne sont pas tellement d'accord par rapport à ce que tu fais. tu pourras être verrouillé complétement ou limité.
 
biddybulle Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Annuaires et moteurs Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

Autres sujets de discussion :

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort