Si ce n'est pas de l'UTF8 ni ISO.

WRInaute discret
Sur mon annuaire, je récupère l'apercu du texte de la page.
Sur certains sites, c'est de l'UTF8, sur d'autres de l'ISO, et sur d'autres je ne sais pas.
par exemple : -http://www.compare-le-net.com/index.php?comparer=annuaire/affiche&id_site=538

Si je décode l'aperçu de la page avec uft8decode, c'est pire. Alors ma question est simple. Qu'est ce que c'est que ces caractères? Comment puis je les décoder? Comment je peux dédecter de façon automatique l'utf8, de l'iso, des autres type?
 
WRInaute discret
Ok pour les récupérer. par contre serais tu me dire ce qu'est cet encodage? Pour plusieurs sites de l'annuaire j'ai le même problème.

Comment se faît que lorsque je fais un utf8decode, le résultat est pire

sans l'utf8decode :
Code:
esserts-blay ce blog est hã©bergã© par haut et fort. crã©ez votre blog maintenant. esserts-blay recueil d'informations sur l'histoire du village d'esserts-blay, en savoie (73540) catã©gories01 .




avec l'utf8decode :
Code:
esserts-blay ce blog est h?erg?par haut et fort. cr?z votre blog maintenant. esserts-blay recueil d'informations sur l'histoire du village d'esserts-blay, en savoie (73540) cat?ories01
 
WRInaute discret
en fait je récupère le code source de la page du site, recherche le charset, et dans le cas de l'utf8, je decode le code source après avoir ôter les balises et tout ce qui ne ressemble pas à un texte.

Mais ca ne marche pas, j'ai donc virer l'utf8decode.

Le texte sans encodage ni decodage de ma part, je récupère ça :
Code:
esserts-blay ce blog est hã©bergã© par haut et fort. crã©ez votre blog maintenant. esserts-blay recueil d'informations sur l'histoire du village d'esserts-blay, en savoie (73540) catã©gories01 .

Mais là je peux plus rien faire, a moins qu'il y ait un autre utf8decode pour ce genre de caractère.
 
WRInaute passionné
le prob c'est que ca :
Code:
ã©
je crois que ce n'est pas décodable. C'est un autre problème.

Edit : je suppose que les caractères accentués que tu récupères ne sont pas codés correctement : é --> é etc ?
 
WRInaute discret
oui, la question c'est qu'est ce que c'est ou comment récupérer le code d'une autre façon...

Je crois qu'il va rester la solution balourd de la table de correspondance... mpais quand il faut, il faut :)
 
WRInaute discret
grrrr quand je regarde dans le code source, j'ai bien Catégories et nom pas Cat&execute;gories... donc je sais pas... Grrr (bien tenté, j'y croyais :) )
 
WRInaute passionné
sureau a dit:
grrrr quand je regarde dans le code source, j'ai bien Catégories et nom pas Cat&execute;gories... donc je sais pas... Grrr (bien tenté, j'y croyais :) )

Justement, il faut avoir Catégories et non pas catégories. Comme ca pas de problèmes d'interprétation des caractères accentués.
 
Discussions similaires
Haut