Récupérer la meta content charset et la meta refresh

Discussion dans 'Développement d'un site Web ou d'une appli mobile' créé par yule, 8 Août 2014.

Tags:
  1. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    320
    J'aime reçus:
    9
    Bonjour,

    Comment récupérer le bon charset et la redirection meta refresh pour des sites ou il n'y a pas de charset dans le header et ou curl est insuffisant pour la redirection

    Pour récupérer le charset avec curl, je fais ceci

    Code:
    $charset = curl_getinfo($ch, CURLINFO_CONTENT_TYPE);
    
        // Extraire juste le charset et pas le text/html..
    	if($charset){
    	$temp = explode("charset=",$charset);
    	if($temp[1])
    	$charset = $temp[1];
    	else
    	$charset = "";
    	}
    si maintenant il ne me retourne pas un charset, j'ai un else vide..., si tel est le cas, j'aimerais récupérer le charset dans le meta content et je ne sais pas comment faire, avec preg_match et file_get_contents (je suppose, mais j'ai pas trouvé d'exemple..)


    Pour la redirection, 301 et autre, je fais ceci

    Code:
    $lastUrl = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL); 
    echo "<strong>Original:</strong> $url <br><strong>Final:</strong> $lastUrl";
    Tout fonctionne parfaitement sauf que... ça prend pas en compte les redirections meta refresh. Donc pour ce cas également, comment récupérer l'url indiqué dans le meta refresh ? avez vous un exemple, certainement avec preg_match et file_get_contents ?

    J'ai découvert ces deux problèmes dans mon script en essayant d'extraire les infos pour ce site: h*tp://www.allo.ch qui n'a pas de chasert en header et qui a un meta refresh qui renvoi sur cette page
    h*tp://www.allo.ch/phpbb2/index.php

    D'avance merci
    Yule
     
  2. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 832
    J'aime reçus:
    246
    Semi HS: tu as pensé à la soluce en scrapant avec PhantomJS/CasperJS/SlimerJS au lieu de PHP ?
    Exemple mon screenshoter en PhantomJS n'a eu absolument aucun problème à suivre le meta refresh: -http://goo.gl/7wjLyX

    NB: Scrapy supporte aussi les redirections meta refresh.
     
  3. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    320
    J'aime reçus:
    9
    Sympa pour le tuyau mais comme je suis déjà limite dans mes connaissances en prog, me lancer dans un autre language c'est ma mort rire

    J'ai trouvé pour la meta refresh
    Code:
    preg_match("'<meta[\s]*http-equiv[^>]*?content[\s]*=[\s]*[\"\']?\d+;[\s]*URL[\s]*=[\s]*[\"\']?([^\"\']*?)[\"\']?>'i", file_get_contents($url), $matches); 
    $refresh = $matches[1];
    Me reste à trouver pour la meta content charset
     
Chargement...
Similar Threads - Récupérer meta content Forum Date
Existe il un logiciel permettant de récupérer tous les titles et metas d'une liste d'url ? Débuter en référencement 12 Août 2009
Attendre des années avant de récupérer l'argent amassé sur adsense AdSense 23 Novembre 2019
Comment récupérer variable dynamique pour GTM ? Google Analytics 30 Septembre 2019
SELECT COUNT avec PDO et récupérer le résultat Développement d'un site Web ou d'une appli mobile 27 Mai 2019
récupérer id en php sans lien Développement d'un site Web ou d'une appli mobile 25 Avril 2019
Récupérer events via API google analytics Google Analytics 6 Avril 2019
Récupérer un numéro d'un paragraphe Développement d'un site Web ou d'une appli mobile 13 Décembre 2018
Récupérer un argument passé en shell_exec dans un fichier js Développement d'un site Web ou d'une appli mobile 7 Octobre 2018
Logiciel ou script gratuit ou payant pour récupérer les mots clés !! Rédaction web et référencement 5 Juillet 2018
recupérer la balise title d'en bas Développement d'un site Web ou d'une appli mobile 16 Février 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice