WRInaute occasionnel
Hello,
J'ai un soucis en récupérant les métas de certain sites. Il y a des sites qui mentionnent un charset UTF-8 mais qui en réalité travail avec de l'iso-8859-1, c'est le cas par exemple avec le site h"tp://www.lequipe.fr
Donc et forcément, les caractères seront affiché comme suit pour la méta title - L'ÃQUIPE - L'actualité du sport en continu -
En général j'ai pas de soucis pour récupérer les métas, quelles soient en UTF-8, iso-8859-15, iso-8859-2 ou iso-8859-1 etc... Mais quant c'est trompeur comme avec le site mentionné ci-dessus, ben je me plante..
J'essaye ceci :
donc si je trouve ce caractère, j'en ferais par la suite un
Mais avec ce code, je test uniquement é , comment faire pour traiter è, Ã, ê, etc.. ?
Il y aurait une solution, ça serait de traiter uniquement sur le plaintext de la page (et pas sur le titre) ou je suis certain de trouvé un é (é), le hic est que çà peut être tompeur et pas refléter l'ensemble de la page s'il est trouvé une fois..
Eh bon, il y a peut-être autre solution dans cette gestion ?
D'avance merci
Yule
J'ai un soucis en récupérant les métas de certain sites. Il y a des sites qui mentionnent un charset UTF-8 mais qui en réalité travail avec de l'iso-8859-1, c'est le cas par exemple avec le site h"tp://www.lequipe.fr
Donc et forcément, les caractères seront affiché comme suit pour la méta title - L'ÃQUIPE - L'actualité du sport en continu -
En général j'ai pas de soucis pour récupérer les métas, quelles soient en UTF-8, iso-8859-15, iso-8859-2 ou iso-8859-1 etc... Mais quant c'est trompeur comme avec le site mentionné ci-dessus, ben je me plante..
J'essaye ceci :
Code:
$text = "L'ÃQUIPE - L'actualité du sport en continu";
// Le "i" après le délimiteur du pattern indique que la recherche ne sera pas sensible à la casse
if (preg_match("/é/i", "$text")) {
echo "Un résultat a été trouvé.";
}
else {
echo "Aucun résultat n'a été trouvé.";
}
donc si je trouve ce caractère, j'en ferais par la suite un
Code:
$text = utf8_decode($text);
Mais avec ce code, je test uniquement é , comment faire pour traiter è, Ã, ê, etc.. ?
Il y aurait une solution, ça serait de traiter uniquement sur le plaintext de la page (et pas sur le titre) ou je suis certain de trouvé un é (é), le hic est que çà peut être tompeur et pas refléter l'ensemble de la page s'il est trouvé une fois..
Eh bon, il y a peut-être autre solution dans cette gestion ?
D'avance merci
Yule