Script de crawl de pages web

WRInaute passionné
Bonjour à tous,

Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ?

Merci d'avance
 
WRInaute discret
Ca s'écrit assez facilement en php ça:
fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties

et si tu connais pas, c'est un bon exercice pour apprendre :wink:
 
WRInaute discret
Voilà, visible ici pour qques temps:
http://www.esterel-technologies.com/flat.php
C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ...

Code:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<title>flattened page: https://www.webrankinfo.com/forum/viewtopic.php?p=551303#551303</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
</head>
<body>
<?php
$h = fopen('https://www.webrankinfo.com/forum/viewtopic.php?p=551303#551303', 'r');
$contents = '';
while (!feof($h)) {
  $contents .= fread($h, 8192);
}

fclose($h);
echo strip_tags($contents);
?>
</body>
</html>
 
WRInaute discret
Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là.
 
Discussions similaires
Haut