Développement d'un crawler pour indexation petites annonces

WRInaute impliqué
Bonjour,

Je développe un crawler qui indexe les annonces de différents sites de petites annonces.
Pour ce faire, je n'ai à priori pas trouvé d'outils existants aussi, pour le moment c'est un développement php MySQL maison.
Le problème que je rencontre concerne le séquencement des requêtes exécutées... Je ne vois absolument pas comment règler ce point la...

La problématique est multiple:
Comment crawler un site sans risquer de l'effondrer...?
Comment exploiter au maximum les ressources que j'ai à disposition...?

Je pense que toutes les personnes qui ont un jour développé un crawler se sont posé ces questions et doivent avoir des éléments de réponse ;-)

D'avance merci pour vos conseils et commentaires ;-)
 
WRInaute occasionnel
tu crawles des partenaires? ou tu le fais sans leur avis ?
Dans le cas de partenaires pourquoi ne leur propose tu pas de mettre un flux à ta disposition que tu intégres dans ta BDD
 
WRInaute impliqué
annonces-vacances a dit:
tu crawles des partenaires? ou tu le fais sans leur avis ?
Dans le cas de partenaires pourquoi ne leur propose tu pas de mettre un flux à ta disposition que tu intégres dans ta BDD

Je crawl des sites sans leur avis. Je suis justement entrain de me rapprocher de certains pour étudier la mise en place de flux évitant tout ou partie du crawl...
 
WRInaute occasionnel
Je pense que tu as plus vite fait de passer par cette solution de plus, si tu n'as pas l'autorisation pour récupérer les annonces cela risque de poser des problématiques.
 
WRInaute impliqué
annonces-vacances a dit:
de plus, si tu n'as pas l'autorisation pour récupérer les annonces cela risque de poser des problématiques.
Tu connais des gens qui refusent du traffic???
GOOGLE demande-t-il l'autorisation à chqaue site crawlé? non...
Je ne pense pas qu'il y ait un réel débat sur ce point la tant que le crawl et l'indexation ne nuisent pas...
 
WRInaute impliqué
La presse belge a bien fait un procès à "google news" :) donc oui il y a des gens qui refusent du traffic.
Maintenant je trouve cela ridicule mais bon... chacun son truc.

A la limite tu peux proposer un outil aux webmasters ne désirant pas que les pages de leurs sites apparaissement sur le tien.
 
WRInaute impliqué
bozoleclown a dit:
La presse belge a bien fait un procès à "google news" :) donc oui il y a des gens qui refusent du traffic.
Maintenant je trouve cela ridicule mais bon... chacun son truc.

A la limite tu peux proposer un outil aux webmasters ne désirant pas que les pages de leurs sites apparaissement sur le tien.

Si un site souhaite ne plus être indexé, il ne le sera plus. Mais s'il n'y a pas d'arnaque et de volonté de nuire, les raisons pour lesquelles un site pourrait se plaindre sont maigres.
Ne voulant pas nuire, je voudrais justement par exemple que les crawls restent respectueux en terme de consommation... D'ou la question initiale du post ;-)
 
WRInaute discret
Je programme un crawler depuis un certain temps.

Je considère que la balise "noindex" est là pour ca...
De plus ca ne genere pas beaucoup de traffic.

Ytz
 
WRInaute occasionnel
slt

si toutes les annonces d'un site pompé sont affichées sur votre site quel interet pour le site pompé?

perso pour mes annonces animalieres je n'apprecierai vraiment pas de les voir ailleurs sans autorisation

dh
 
WRInaute discret
dh a dit:
slt

si toutes les annonces d'un site pompé sont affichées sur votre site quel interet pour le site pompé?

perso pour mes annonces animalieres je n'apprecierai vraiment pas de les voir ailleurs sans autorisation

dh

Oui bien sur, perso je parlais de crawl comme d'une indexation sémantique et pas une "aspiration de contenu" à grande échelle...

A propos de tout ca c'est vrai qu'il ya aussi le robots.txt à respecter...
 
WRInaute impliqué
dh a dit:
slt

si toutes les annonces d'un site pompé sont affichées sur votre site quel interet pour le site pompé?

perso pour mes annonces animalieres je n'apprecierai vraiment pas de les voir ailleurs sans autorisation

dh

Le crawl permet une indexation, les annonces ne sont en aucun cas pompées... Exactement comme GOOGLE...
Etes vous mécontent que GOOGLE indexe votre site???
Si un moteur de recherche spécialisé dans les animaux indexait votre site vous en seriez bien le premier satisfait non???
 
Nouveau WRInaute
dh a dit:
slt

si toutes les annonces d'un site pompé sont affichées sur votre site quel interet pour le site pompé?

perso pour mes annonces animalieres je n'apprecierai vraiment pas de les voir ailleurs sans autorisation

dh

absolument d'accord.

et Ojal tu dis :

OJAL a dit:
Tu connais des gens qui refusent du traffic???
GOOGLE demande-t-il l'autorisation à chaque site crawlé? non...

La comparaison avec Google n'est pas bonne , Google n'est pas un conçurent , alors que si ton site se développe beaucoup , ensuite pour gagner du temps les gens ne visiteraient même plus les sites originaux , ba oui pourquoi s’embêter a visiter plusieurs sites si tout est déjà regroupé sur ton site ? Et pour les sites originaux cette baisse de visiteur entrainerait une baisse de revenu publicitaire.

Je ne sais pas précisément ce que tu compte faire, mais saches que tout le monde n’est pas d’accord pour partager son contenu.

Amicalement.
 
WRInaute impliqué
calinette a dit:
La comparaison avec Google n'est pas bonne , Google n'est pas un conçurent , alors que si ton site se développe beaucoup , ensuite pour gagner du temps les gens ne visiteraient même plus les sites originaux , ba oui pourquoi s’embêter a visiter plusieurs sites si tout est déjà regroupé sur ton site ? Et pour les sites originaux cette baisse de visiteur entrainerait une baisse de revenu publicitaire.

Je ne sais pas précisément ce que tu compte faire, mais saches que tout le monde n’est pas d’accord pour partager son contenu.

Amicalement.

Je ne suis concurrent d'aucun site d'annonce! Je ne reprends pas les contenus, je les indexe simplement exactement à la façon de GOOGLE (en toute modestie lol!!!)
 
WRInaute occasionnel
OJAL a dit:
Je ne suis concurrent d'aucun site d'annonce! Je ne reprends pas les contenus, je les indexe simplement exactement à la façon de GOOGLE (en toute modestie lol!!!)

dans ce cas il faudrait etre clair car s'il n'y a que le titre de l'annonce et un lien vers le site, quel interet pour vous?


en attendant votre site en www est bardé d'erreurs sql

dh
 
WRInaute impliqué
dh a dit:
dans ce cas il faudrait etre clair car s'il n'y a que le titre de l'annonce et un lien vers le site, quel interet pour vous?
Quel est l'intérêt de GOOGLE à indexer vos sites??? L'intérêt est exactement le même...
Coté utilisateurs, plutôt que de rechercher sur différents sites, une seule recherche vous liste les différentes annonces correspondant à vos critères puis vous allez voir l'annonce sur les sites directement.
 
WRInaute occasionnel
rien a voir avec gg dans votre cas il va etre necessaire de creer une hyerarchisation des données pour exploiter les annonces
souvent une annnonce c'est 2 lignes et si vous ne captez pas tout rien ne sera exploitable donc a coup sur vous pomperez l'integralite de l'annonce

un exemple

champ titre vente chiot
champ race dobermann
champ departement 69
champ texte chiot disponible a partir du 20/05/07 tel xxxxxxxxxx


vous faites quoi avec ça?

dh
 
WRInaute impliqué
Tout simplement en indiquant à la personne qui a fait par exemple la recherche suivante sur notre index : dobermann dans le 69, les annonces correspondantes à ses critères.
La personne clique sur les liens en question, arrive sur l'annonce située sur votre site puis continue en appelant par exemple le venduer du chien...

Pas de différence avec GOOGLE (en toute modestie lol), sauf que nous n'indexons pas du full texte, nous associons des meta données aux annonces indexées...

Au pire, ce genre de moteur de recherche ne peut que vous apporter des visiteurs très qualifiés sur votre site... Je ne vois pas en quoi vous pouvez être perdant... :?:
 
WRInaute occasionnel
pas du tout convaincu désolé
dans le cas de l'exemple avant d'arrivé a vente de chiot il en fera des clics inutiles votre visiteur
va tomber sur dressage/pension/soins.....et j'en passe

dh
 
WRInaute occasionnel
Bah c'est exactement le principe d'un annuaire comme celui de wri par exemple.
je ne vois vraiment pas le probleme.

enfin bref'.
 
Discussions similaires
Haut