extraire les urls d'une page

WRInaute discret
BOnjour,
je souhaiterais un script qui extrait les urls d'une page
je sais que ce sont les expressions regulieres mais je pedales un peu dans la semoule
j'ai essayer avec preg eregi mais y as peut etre des script existants en php

?

voila mon script
$fichier_url ='';
$page=file_get_contents($fichier_url);
$url1 = explode ("<a" , $page);

for($y=0;$y<=120;$y++) {
$a=preg_match_all("`href=\">([^<]+)\"`i",$url1[$y],$out)?$out:false;

echo"--<pre>";print_r($a);echo"</pre>";
}

merci
 
WRInaute occasionnel
bonsoir

Bonsoir

pour ma part j'utilise
-http://www.spadixbd.com/extracturl/

en version essaie pas de soucie

copier coller les resultats :D
 
WRInaute accro
sauf que des fois il n'y a pas de " après href ou autrement un '
donc en tenir compte.
SInon, l'expression me parait correcte à première vue.
 
WRInaute discret
PAS mal tout ça mais payant
ou alors on peus recup que 5 ursl par 5 url
je vais etre a bout de souffle surtout qu'il scanne tout le site
donc on arrive vite a des milliers d'url
je vais donc essayer de developper moi meme si quelqu'un veus aider ... merci
 
WRInaute accro
si ça n'est pas pour automatiser, tu as la webdeveloper bar de FF qui permet d'afficher tous les liens d'une page
Autrement, Xenu qui fait la même chose sur un site entier, en vérifiant la validité des url : très intéressant pour créer un sitemap :wink:
 
WRInaute passionné
Pour moi il faut trois instructions PHP:

$x = loadHTMLFile("nom fichier");

$y = $x->getElementsByTagName("a");

$z = $y->getAttribute("href");

Tout cela de mémoire, voir pour le détail la doc DOM de PHP. (4 et 5 crois).
 
WRInaute discret
Slt

<?php

$doc = @DOMDocument::loadHTMLFile("chemin_page");

$tags_recherche = $doc->getElementsByTagName("a");

foreach ($tags_recherche as $tag){
$r = $tag->getAttribute("href");
$tags .= $r."<br>";
}
echo $tags
?>

Ca fonctionne sous php5, pas php4
J'ai mis le @ pour ne pas avoir les erreurs de tagsqui peuvent être sur la page
 
Nouveau WRInaute
bonjour

je voudrais savoir s'ils vous plait est ce qui il ya une stratégie pour avoir des sites internet actif pour pouvoir passer à un crawler d'un moteur de recherhe pour l'indexr
 
Discussions similaires
Haut