Recherche de script de crawler en php

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par marciv, 14 Novembre 2006.

  1. marciv
    marciv WRInaute discret
    Inscrit:
    21 Septembre 2005
    Messages:
    94
    J'aime reçus:
    0
    Bonjour tout le monde je sui sesepérement à la recherche d'un script ou d'une librairie phpsous licence GNU qui me permettrait de faire la chose suivant=>


    1) Crawl d'un site internet integral ou partiel.
    2) Extraction nom de pages, des liens y conduisant et du titre du lien.
    3) Generation de l'arborescence en flux XML ou dans une base SQL.
    4)Refonte des crawl partiels avec les résultats précédents.

    (Ou cas ou je devrait faire tout moi même En dehors de la norme sitemap de chez google existe t'il un autre moyen de représenter l'arborescence d'un site en concervant la page de provenance ?).

    Bon j suis dans le truc à Eplucher un peux tout c possible que je sois pas très clair mais si quelqu'un avait des pistes ou des script même différents de crawl (sans indexation des fichiers) je suis préneur.

    ++
     
  2. foodstyling
    foodstyling WRInaute discret
    Inscrit:
    1 Novembre 2002
    Messages:
    242
    J'aime reçus:
    0
    sphider est un script de moteur de recherche php
     
  3. marciv
    marciv WRInaute discret
    Inscrit:
    21 Septembre 2005
    Messages:
    94
    J'aime reçus:
    0
    script

    MErci pour ta réponse mais je voulais me reserver l'indexation :)

     
  4. oxman
    oxman WRInaute discret
    Inscrit:
    21 Juin 2004
    Messages:
    111
    J'aime reçus:
    0
    Ca va te servir à quoi ?
     
  5. marciv
    marciv WRInaute discret
    Inscrit:
    21 Septembre 2005
    Messages:
    94
    J'aime reçus:
    0
    a quoi ça sert

    Et bien entre autre à developper un moteur thématique avec une indexation de mon cru :wink: . pour cela il me faut un bon crawler rapide et efficace qui puisse comprendre les liens java et touner sur un PC classique.

    Pour l'instant je me suis fait un script tournant avec des regex mais cela le ralentit considérablement.

    Voici les regex :

    Code:
    echo "<strong>Extraction des liens</strong>:<br> ";
     			$links1=run_preg($buffer,
     			"/(?:(?:src|href|url)\s*[=\(]\s*[\"'`])".
       			"([\+\w:?=@&\/#._;-]+)(?:[\s\"'`])/i",$domaine);
      			//$links2=run_preg($buffer,
       			//"/(?:window.open\s*\(\s*[\w-]*\s*[,]\s*[\"`'])".
       			//"([\+\w:?=@&\/#._;-]*)(?:[\"'`]\s*)/i",$domaine);
    			//$links=array_unique(array_merge($links1,$links2)); // fusion de tous les liens
    donc je me penche sur strpos et stripos pour essayer de faire la même chose plus rapidement.

    J'ai l'impression de réinventer la roue ! C'est pourqoi j'épérait que d'autre que moi avait déjà développé des classes php pour crawler des sites dont j'aurait pu m'inspirer.

    Car de toute façon cela ne résout pas le problème pour les liens JAVA plus compliqués......

    La solution peut surement venir d'un applet pour interpréter les liens mais là je cale....
     
  6. marion17
    marion17 WRInaute occasionnel
    Inscrit:
    11 Novembre 2006
    Messages:
    412
    J'aime reçus:
    0
    phpdig fera ça a merveille

    par contre il te faut un serveru dédié, sur un mutualisé c de la folie douce un crawler
     
  7. marciv
    marciv WRInaute discret
    Inscrit:
    21 Septembre 2005
    Messages:
    94
    J'aime reçus:
    0
    crawler

    Effectivement un mualisé pour un dédié c'est de la folie je pense que je vais en profiter pour monter mon propre serveur WEB le problème viendra surtout d'une limitation de la bande passante...

    pour phpdig il me semble que le développement est au ralentit depuis longtemps

    sphider me semble plus sympatique avec en bonus une présentation à la google suggest. :wink:

    Néanmoins je ne pense pas que la pertinence du titre du lien soit pris par l'un ou l'autre ce que je trouve ennuyeux et de plus ils utilisent tout les deux des regex ce qui les ralentit énormément enfin je préfére développer ma propre indexation quitte à m'inspirer en fonction de la thématique du moteur je pense que c'est plus éfficace.
     
Chargement...
Similar Threads - Recherche script crawler Forum Date
Description Vide dans recherche Google Référencement Google 19 Janvier 2021
Présentation résultats de recherche : description longue au survol souris Référencement Google 15 Décembre 2020
Résultat de recherche google sans méta-description en fonction de la requête Problèmes de référencement spécifiques à vos sites 8 Février 2019
Recherche script simple avis Administration d'un site Web 23 Mai 2018
Pas de description dans les résultats de recherche Débuter en référencement 7 Avril 2015
recherche petit script blog+timeline Développement d'un site Web ou d'une appli mobile 25 Novembre 2014
Titre, meta balise et meta description en rapport avec recherche google Rédaction web et référencement 23 Novembre 2014
Description dans les résultats de recherche différente de la meta description Débuter en référencement 3 Novembre 2014
Recherche script de duplicate content Référencement Google 20 Juin 2014
à la recherche d'un bon script pour sitemap Débuter en référencement 12 Mai 2014
Recherche Script Développement d'un site Web ou d'une appli mobile 5 Mai 2013
Script moteur de recherche sur sites pre-défini ? Autres moteurs de recherche connus 21 Mars 2013
Recherche script ou cms un peu particulier Développement d'un site Web ou d'une appli mobile 16 Septembre 2012
Recherche de script pour gestion des demande. Développement d'un site Web ou d'une appli mobile 16 Février 2012
résultats de recherche: date qui apparaît avant la description Crawl et indexation Google, sitemaps 4 Octobre 2011
Description dans les pages de recherche Référencement Google 15 Septembre 2011
Liens affichés par javascript sont-t-ils lus par les robots des moteurs de recherche ? Netlinking, backlinks, liens et redirections 16 Juin 2011
Recherche de script de régie Développement d'un site Web ou d'une appli mobile 17 Janvier 2011
[recherche] Script pour quizz Développement d'un site Web ou d'une appli mobile 23 Décembre 2010
Recherche script d'envois d'emails Développement d'un site Web ou d'une appli mobile 10 Novembre 2010