Développement d'un crawler pour indexation petites annonces

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par OJAL, 20 Avril 2007.

  1. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Bonjour,

    Je développe un crawler qui indexe les annonces de différents sites de petites annonces.
    Pour ce faire, je n'ai à priori pas trouvé d'outils existants aussi, pour le moment c'est un développement php MySQL maison.
    Le problème que je rencontre concerne le séquencement des requêtes exécutées... Je ne vois absolument pas comment règler ce point la...

    La problématique est multiple:
    Comment crawler un site sans risquer de l'effondrer...?
    Comment exploiter au maximum les ressources que j'ai à disposition...?

    Je pense que toutes les personnes qui ont un jour développé un crawler se sont posé ces questions et doivent avoir des éléments de réponse ;-)

    D'avance merci pour vos conseils et commentaires ;-)
     
  2. annonces-vacances
    annonces-vacances WRInaute occasionnel
    Inscrit:
    21 Mars 2007
    Messages:
    304
    J'aime reçus:
    0
    tu crawles des partenaires? ou tu le fais sans leur avis ?
    Dans le cas de partenaires pourquoi ne leur propose tu pas de mettre un flux à ta disposition que tu intégres dans ta BDD
     
  3. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Je crawl des sites sans leur avis. Je suis justement entrain de me rapprocher de certains pour étudier la mise en place de flux évitant tout ou partie du crawl...
     
  4. annonces-vacances
    annonces-vacances WRInaute occasionnel
    Inscrit:
    21 Mars 2007
    Messages:
    304
    J'aime reçus:
    0
    Je pense que tu as plus vite fait de passer par cette solution de plus, si tu n'as pas l'autorisation pour récupérer les annonces cela risque de poser des problématiques.
     
  5. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Tu connais des gens qui refusent du traffic???
    GOOGLE demande-t-il l'autorisation à chqaue site crawlé? non...
    Je ne pense pas qu'il y ait un réel débat sur ce point la tant que le crawl et l'indexation ne nuisent pas...
     
  6. bozoleclown
    bozoleclown WRInaute impliqué
    Inscrit:
    24 Novembre 2005
    Messages:
    693
    J'aime reçus:
    0
    La presse belge a bien fait un procès à "google news" :) donc oui il y a des gens qui refusent du traffic.
    Maintenant je trouve cela ridicule mais bon... chacun son truc.

    A la limite tu peux proposer un outil aux webmasters ne désirant pas que les pages de leurs sites apparaissement sur le tien.
     
  7. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Si un site souhaite ne plus être indexé, il ne le sera plus. Mais s'il n'y a pas d'arnaque et de volonté de nuire, les raisons pour lesquelles un site pourrait se plaindre sont maigres.
    Ne voulant pas nuire, je voudrais justement par exemple que les crawls restent respectueux en terme de consommation... D'ou la question initiale du post ;-)
     
  8. Ytz
    Ytz WRInaute discret
    Inscrit:
    21 Mars 2007
    Messages:
    65
    J'aime reçus:
    0
    Je programme un crawler depuis un certain temps.

    Je considère que la balise "noindex" est là pour ca...
    De plus ca ne genere pas beaucoup de traffic.

    Ytz
     
  9. dh
    dh WRInaute occasionnel
    Inscrit:
    1 Septembre 2003
    Messages:
    350
    J'aime reçus:
    0
    slt

    si toutes les annonces d'un site pompé sont affichées sur votre site quel interet pour le site pompé?

    perso pour mes annonces animalieres je n'apprecierai vraiment pas de les voir ailleurs sans autorisation

    dh
     
  10. Ytz
    Ytz WRInaute discret
    Inscrit:
    21 Mars 2007
    Messages:
    65
    J'aime reçus:
    0
    Oui bien sur, perso je parlais de crawl comme d'une indexation sémantique et pas une "aspiration de contenu" à grande échelle...

    A propos de tout ca c'est vrai qu'il ya aussi le robots.txt à respecter...
     
  11. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Le crawl permet une indexation, les annonces ne sont en aucun cas pompées... Exactement comme GOOGLE...
    Etes vous mécontent que GOOGLE indexe votre site???
    Si un moteur de recherche spécialisé dans les animaux indexait votre site vous en seriez bien le premier satisfait non???
     
  12. calinette
    calinette Nouveau WRInaute
    Inscrit:
    21 Avril 2007
    Messages:
    1
    J'aime reçus:
    0
    absolument d'accord.

    et Ojal tu dis :

    La comparaison avec Google n'est pas bonne , Google n'est pas un conçurent , alors que si ton site se développe beaucoup , ensuite pour gagner du temps les gens ne visiteraient même plus les sites originaux , ba oui pourquoi s’embêter a visiter plusieurs sites si tout est déjà regroupé sur ton site ? Et pour les sites originaux cette baisse de visiteur entrainerait une baisse de revenu publicitaire.

    Je ne sais pas précisément ce que tu compte faire, mais saches que tout le monde n’est pas d’accord pour partager son contenu.

    Amicalement.
     
  13. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Je ne suis concurrent d'aucun site d'annonce! Je ne reprends pas les contenus, je les indexe simplement exactement à la façon de GOOGLE (en toute modestie lol!!!)
     
  14. dh
    dh WRInaute occasionnel
    Inscrit:
    1 Septembre 2003
    Messages:
    350
    J'aime reçus:
    0
    dans ce cas il faudrait etre clair car s'il n'y a que le titre de l'annonce et un lien vers le site, quel interet pour vous?


    en attendant votre site en www est bardé d'erreurs sql

    dh
     
  15. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Quel est l'intérêt de GOOGLE à indexer vos sites??? L'intérêt est exactement le même...
    Coté utilisateurs, plutôt que de rechercher sur différents sites, une seule recherche vous liste les différentes annonces correspondant à vos critères puis vous allez voir l'annonce sur les sites directement.
     
  16. dh
    dh WRInaute occasionnel
    Inscrit:
    1 Septembre 2003
    Messages:
    350
    J'aime reçus:
    0
    rien a voir avec gg dans votre cas il va etre necessaire de creer une hyerarchisation des données pour exploiter les annonces
    souvent une annnonce c'est 2 lignes et si vous ne captez pas tout rien ne sera exploitable donc a coup sur vous pomperez l'integralite de l'annonce

    un exemple

    champ titre vente chiot
    champ race dobermann
    champ departement 69
    champ texte chiot disponible a partir du 20/05/07 tel xxxxxxxxxx


    vous faites quoi avec ça?

    dh
     
  17. OJAL
    OJAL WRInaute impliqué
    Inscrit:
    10 Avril 2003
    Messages:
    819
    J'aime reçus:
    0
    Tout simplement en indiquant à la personne qui a fait par exemple la recherche suivante sur notre index : dobermann dans le 69, les annonces correspondantes à ses critères.
    La personne clique sur les liens en question, arrive sur l'annonce située sur votre site puis continue en appelant par exemple le venduer du chien...

    Pas de différence avec GOOGLE (en toute modestie lol), sauf que nous n'indexons pas du full texte, nous associons des meta données aux annonces indexées...

    Au pire, ce genre de moteur de recherche ne peut que vous apporter des visiteurs très qualifiés sur votre site... Je ne vois pas en quoi vous pouvez être perdant... :?:
     
  18. dh
    dh WRInaute occasionnel
    Inscrit:
    1 Septembre 2003
    Messages:
    350
    J'aime reçus:
    0
    pas du tout convaincu désolé
    dans le cas de l'exemple avant d'arrivé a vente de chiot il en fera des clics inutiles votre visiteur
    va tomber sur dressage/pension/soins.....et j'en passe

    dh
     
  19. stoff
    stoff WRInaute occasionnel
    Inscrit:
    22 Août 2004
    Messages:
    270
    J'aime reçus:
    0
    Bah c'est exactement le principe d'un annuaire comme celui de wri par exemple.
    je ne vois vraiment pas le probleme.

    enfin bref'.
     
  20. loLOIIC
    loLOIIC Nouveau WRInaute
    Inscrit:
    24 Décembre 2009
    Messages:
    3
    J'aime reçus:
    0
    BONJOUR MOI j'AI UN SITE DE PETITES ANNONCES GRATUITES SI QUELQU'UN VEUT L'INTEGER A SONT SITE QU'IL ME CONTACTE MAIS POURQUOI PAS, JE D2MARRE ALORS
    http://www.west-annonces.fr
     
Chargement...
Similar Threads - Développement crawler indexation Forum Date
Développement d'un crawler - comment gérer la charge? Annuaires et moteurs 21 Avril 2007
Logiciel pour développement application pour Smartphone Développement d'un site Web ou d'une appli mobile 30 Octobre 2022
Commencer développement SEO au UK Référencement international (langues, pays) 21 Octobre 2021
Développement application mobile Développement d'un site Web ou d'une appli mobile 29 Janvier 2021
Conseils sites en cours de développement Débuter en référencement 2 Juillet 2019
VisBug : extension Chrome par Google, pour le développement Google : l'entreprise, les sites web, les services 16 Novembre 2018
Espace de developpement en multi-site chez ovh Administration d'un site Web 13 Août 2018
Nouveau type développement e-commerce Développement d'un site Web ou d'une appli mobile 25 Mai 2018
Que conseillez-vous à un vrai débutant en développement Web ? Développement d'un site Web ou d'une appli mobile 9 Juillet 2017
Développement nouveau site Développement d'un site Web ou d'une appli mobile 18 Décembre 2015
Quel plateforme utiliser pour partager le développement de scripts ? Développement d'un site Web ou d'une appli mobile 12 Février 2015
Mentions legales site en developpement Droit du web (juridique, fiscalité...) 5 Février 2015
Développement d'un site complet Développement d'un site Web ou d'une appli mobile 7 Janvier 2015
Comment gérer la pagination (développement) ? Développement d'un site Web ou d'une appli mobile 4 Décembre 2014
Cacher un site pendant son développement Développement d'un site Web ou d'une appli mobile 14 Septembre 2014
Plate-forme de développement : Remise à plat Développement d'un site Web ou d'une appli mobile 7 Mai 2014
développement simple de site sans connaissance Développement d'un site Web ou d'une appli mobile 22 Novembre 2013
developpement appli mobile Développement d'un site Web ou d'une appli mobile 27 Août 2013
Développement connecteur Développement d'un site Web ou d'une appli mobile 27 Juillet 2013
Facturation développement logiciel web Droit du web (juridique, fiscalité...) 12 Mai 2013