Charset=iso-8859-1 ou charset=utf-8 ?

metropoway · 21 Juin 2004

Bonjour,

Indépendamment de l'intérêt 'technique' de chacun de ces encodages (qui ferait préféré l'UTF-8), est-il préférable du point de vue du référencement d'utiliser l'un plutôt que l'autre ?

En effet, avec l'UTF-8 les caractères accentués semblent mal 'lus' par les moteurs.
Exemple : « Mer mÃ©ditÃ©rannÃ©e, Atlantique, plages de sable fin, cÃ´tes rocheuses, Corse, VendÃ©e, Bretagne, Espagne ou Italie ».

La même phrase, dans une page codée en iso-8859-1, est vue 'normalement' par les moteurs : « Mer méditérannée, Atlantique, plages de sable fin, côtes rocheuses, Corse, Vendée, Bretagne, Espagne ou Italie ».

Est-ce que cela a une incidence réele sur l'indexation et le positionnement d'une page ou bien cela est-il transparent pour les moteurs ?

Merci

SIBELIUS · 22 Juin 2004

Utf-8, c'est pour les caractères anglophones exclusivement (donc pas d'accent ou de caractères spéciaux)

iso-8859-1, c'est tout simplement le charset de l'Europe occidentale (chez nous quoi). Il faut donc l'utiliser celui là.

Remi L. · 22 Juin 2004

Je ne voudrais pas avoir l'air de te contredire, mais c'est à peu près exactement l'inverse... :?

UTF-8, c'est l'unicode. Comme son nom l'indique (presque), il permet de coder tous les caractères de toutes les langues de la terre dans un seul jeu.
8859-1 c'est l'ascii 7 bit au départt, donc pas de caactères accentués par exemple (il faut mettre les joyeusetés du genre &egrumbl

(ceci dit, on y est habiyué...)
Edit: "habiyué"... hmmm c'est de quel pays ça ?

SIBELIUS · 22 Juin 2004

Remi L. a dit:
Je ne voudrais pas avoir l'air de te contredire, mais c'est à peu près exactement l'inverse... :?

UTF-8, c'est l'unicode. Comme son nom l'indique (presque), il permet de coder tous les caractères de toutes les langues de la terre dans un seul jeu.
8859-1 c'est l'ascii 7 bit, donc pas de caractères accentués par exemple (il faut mettre les joyeusetés du genre &egrumbl (ceci dit, on y est habiyué...)
Edit: "habiyué"... hmmm c'est de quel pays ça ?

Ah bon, alors essaye :

iso :

Code:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<title></title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
<style type="text/css">
<!--

-->
</style>
</head>
<body>
et voilà
</body>
</html>

utf8 :

Code:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<title></title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<style type="text/css">
<!--

-->
</style>
</head>
<body>
et voilà
</body>
</html>

Le premier code (iso) affiche parfaitement l'accent.
Le second (utf-8) non.

Remi L. · 22 Juin 2004

Et tu as quoi dans le second cas, en UFT-8 ?
Parce que si tu as un Ã, le problème vient certainement du fait que ton explorer est bloqué en 8859-1. Va dans affichage-> codage et sélectionne "automatique".

Bobez · 22 Juin 2004

Euh, perso j'encode mes pages en iso-8859-1, et les caractères accentués passent tout à fait bien, même si je passe l'encodage de mon browser en utf-8

Remi L. · 22 Juin 2004

C'est normal...

par contre l'inverse n'est pas vrai puisque l'UTF-8 est par définition beaucoup plus vaste que le 8859-1.

Bon, mais je ne prône pas l'UTF-8... parce que son gros problème, c'est que 1 explorer sur 2 (pour ne pas dire plus) aura des problèmes à l'affichage à cause de son paramètrage. C'est embêtant...

(aucun problème avec mozilla)

SIBELIUS · 22 Juin 2004

Remi L. a dit:
Et tu as quoi dans le second cas, en UFT-8 ?
Parce que si tu as un Ã, le problème vient certainement du fait que ton explorer est bloqué en 8859-1. Va dans affichage-> codage et sélectionne "automatique".

En UTF-8, il m'affiche un caractère spérial : testé sur IE6, IE5.5, Opera 7 et Firefox.
Pas de soucis avec l'iso avec tous les caractères francophones spéciaux.

Tu es vraiment sûr de ton coup ?

Remi L. · 23 Juin 2004

J'ai fait un bloc avec ton exemple en UTF-8 et il s'affiche correctement.

Et quand tu vas sur Google fr, tu vois bien les lignes du bas ou pas ?(publicité... à propos de google) ...parce que la page est en utf-8.
Observe déjà avec explorer quel codage il prend (affichage->codage).

SIBELIUS · 23 Juin 2004

Remi L. a dit:
Observe déjà avec explorer quel codage il prend (affichage->codage).

J'ai testé sur ce forum.
Le navigateur m'affiche un encodage "occidenta"l (iso-8859-1).
Si je le passe en utf-8, il m'affiche les caractères spéciaux n'importe comment

Remi L. · 23 Juin 2004

Les pages de WRI sont en 8859-1.
Il faut que tu observes ce qui se passe sur une page en utf-8 : par exemple Google.fr ou dmoz

SIBELIUS · 23 Juin 2004

Remi L. a dit:
Les pages de WRI sont en 8859-1.
Il faut que tu observes ce qui se passe sur une page en utf-8 : par exemple Google.fr ou dmoz

En effet, c'est le phénomène inverse.

Bobez · 23 Juin 2004

De toute façon, si tu fais un site qui s'adresse exclusivement à des français, autant utiliser l'encodage iso-8859-1.

Monique · 23 Juin 2004

Bonjour,

Pas simple ces notions de charset, d'unicode :?
Je ne fait que découvrir en ce moment et je ne pourrais pas facilement résumer les explications données par Anubis.
Il faut quand même retenir que pour utiliser utf-8, il faut un éditeur capable d'enregistrer en utf-8 et il faut envoyer l'information correctement dans l'en-tête.

Amicalement,
Monique

Remi L. · 23 Juin 2004

C'est vrai que pour l'instant, il y a encore beaucoup de problèmes mais l'UTF-8 est une bonne solution quand on veut afficher plusieurs langues avec un même jeu de caractères. Une fois en utf-8, il n'y a théoriquement plus aucune limitation à l'affichage (si ce n'est sous windows de charger les jeux de caractères idoines).

C'est certainement pour cela que Google ou Dmoz sont passés en utf-8.

Bobez · 23 Juin 2004

Monique a dit:
Il faut quand même retenir que pour utiliser utf-8, il faut un éditeur capable d'enregistrer en utf-8

Exactement ! Même pour le iso-8859-1, il faut bien faire attention d'enregistrer les pages dans cet encodage. Perso, j'utilise BBEdit sous Mac OS X et c'est vraiment le pied

metropoway · 24 Juin 2004

Tous ces échanges, pour intéressants qu'ils soient, ne répondent cependant pas tout à fait à la question initiale : est-ce que l'encodage utilisé influe sur l'indexation des pages (sur Google et autres) ?

Merci

Remi L. · 24 Juin 2004

A priori: non.

thepaut · 26 Octobre 2004

la différence entre ISO-8859-1, UTF-8 et Windows-1252 ?

Je vous conseille vivement le site suivant, pour le respect des standards et pour la clareté de leur explications :
http://openweb.eu.org/articles/jeux_caracteres/

Vous saurez tout sur la différence entre ISO-8859-1, UTF-8 et Windows-1252 ...

zachbora · 29 Août 2005

J'ai effectué un test car je voulais savoir si il pouvais y avoir des différences entre les serveurs.

Je suis premièrement aller sur google et effectivement ils utilisent bien utf-8, et malgré le codage de IE placé sur UTF-8, les symboles sont là.

J'ai copier la source sur un de mes sites. http://members.lycos.co.uk/worldcretornica/test.html

Avec les mêmes options, les charactères sont différents.

C'est comme si il y avait une autre variable dépendante.

Je soupçonne le server d'y être pour quelque chose... Le serveur de google.fr est probablement 'français' tandis que mon host est anglais...

Une enquête approfondit s'impose.

jeanluc · 29 Août 2005

zachbora a dit:
J'ai copier la source sur un de mes sites. http://members.lycos.co.uk/worldcretornica/test.html

Avec les mêmes options, les charactères sont différents.

Bonjour,

Explication probable :
1. La page Google d'origine est codée en UTF-8.
2. Tu récupères la source et tu l'enregistres sur ton disque local en ISO-8859 ou équivalent.
3. Tu essaies de réafficher la page qui indique au navigateur UTF-8, mais qui est codée en ISO-8859.

Jean-Luc

nodom · 29 Août 2005

soyons logique
si une page est enrgistée en utf elle s'affiche bien en utf et mal en iso
si une page est enrgistée en iso elle s'affiche bien en iso et mal en utf
si une page est enrgistée en x elle s'affiche bien en x et mal en y

c'est tout à fait logique non? si une page comportant des accents est enrgistrée en utf. il s'affiche correctement en utf.

ceci est dit, je crois que les moteurs se débroillent bien pour retrouver les mots quel que soit l'encodage, mais l'affichage dépend de :
- du codage de la page
- de la confuguration du poste, navigateur et de la présentation de la page par le moteur.

maintenant mon avis:
vous pouvez travailler correctement avec utf, mais vous aurez des problèmes:
vous deveriez modifier toutes vos page et avoir un éditeur qui permet l'enrgisterement en utf (pas les tag) blocnote le permet.
après vous auriez quelque problèmes à régler avec mysql.
conseil: iso.

zachbora · 11 Novembre 2005

ce que j'ai fini par faire c'est de mettre toute mes page en UTF8 et de remplacer les characteres speciaux par leur equivalent html. Lorsque je place les infos dans ma DB je laisse les signes mais quand j'affichage, j'utilise une fonction php qui remplace tout les charactere speciaux.

touffy-chouchen · 20 Janvier 2006

Remi L. a dit:
C'est vrai que pour l'instant, il y a encore beaucoup de problèmes mais l'UTF-8 est une bonne solution quand on veut afficher plusieurs langues avec un même jeu de caractères. Une fois en utf-8, il n'y a théoriquement plus aucune limitation à l'affichage (si ce n'est sous windows de charger les jeux de caractères idoines).

C'est certainement pour cela que Google ou Dmoz sont passés en utf-8.

De plus certains lecteur css préconise l'utf8. Par exemple pour faire un lecteur de flux rss sous flash, il faut que celui ci soit encodé en utf8 pour etre lut correctement.

dgavarin · 26 Novembre 2009

je suis tombé par hasard sur ce fil de discussion, si je puis me permettre, on ne peut parler de charset de la page HTML sans parler de l'encoding du flux qui est balancé.

je m'explique, dans les exemple que j'ai vu plus haut, si un utilisateur lambda cree 2 fichiers textes (par exemple sous windows, avec TextPad ou autre), il va naturellement crée des fichiers "Texte", cad vraiment ANSI, et on aura beau spécifier un encoding "utf-8" les accents seront cassés, mais si par contre ce meme fichier sans rien changé dan le contenu, est maintenant enregistré en encoding "utf-8" alors là le navigateur saura bien interprété l'ensemble des caratères du fichier et là les accents ne seront plus cassés.

dgavarin

kenshuri · 14 Mai 2010

Re:

Le serveur de google.fr est probablement 'français' tandis que mon host est anglais...

en passant par là: Google est américain que soit .be, .fr, .co.uk etc.

smorge · 25 Juin 2010

donc j'ai du mal a suivre : je débute en html et j'ai pris l'habitude de mettre ma page en UFT-8 et de remplacer tous mes caractès comme ça ! Ca va ou ça sert à rien et mieux vaut que j'encode autrement :? ? (Sur tous les navigateurs et systèmes d'exploitation que j'ai testé ça fonctionne.)

luder · 25 Juin 2010

Si vous écrivez charset=utf-8 dans votre fichier index.html, il faut aussi modifier le codage de votre fichier index.html pour le passer en utf-8 ! donc le vrai problème est un problème d'éditeur de texte. En principe un bon éditeur sait faire une conversion, mais encore faut-il savoir comment faire. Je vous propose un test:
éditer un fichier avec juste deux lettres "éè", sauvegarder, et observer la taille.
en ISO8859-1 il fait 3 octets, deux lettres et un <EOT>
en utf-8 il fait 5 octets, deux lettres de deux octets et un <EOT>

Si vous savez le passer de 3 à 5 octets, et de 5 à 3 octets avec votre éditeur ... tout va bien pour vous.

christele2 · 7 Août 2010

Bonjour,
Nous vivons dans l'incompréhention totale , je sais combien cela est dur a concevoir,
mais il se dit dans ce sujet tant de choses erronées ...
Il faut revenir aux fondamentaux,

metropoway la réponse a ta question, est que les moteurs traduisent le code des pages en faisant si besoins
le réencodage entre celui de leur page et celui que tu annonces dans ta page web.

Alors pourquoi des "caractéres spéciaux curieux" chez google par exemple sur certaines pages ?
Toujours la même raison, Google passes sur une page déclarée par exemple:
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /> ,
alors que le texte a un autre encodage ! voila la raison ...

Donc retiens que dans 99% des cas les pages UTF8 ou iso-8859-1 ou autres ,
seront bien rendues chez google qui est tout UTF-8 si les pages annoncent leur encodage proprement.

Alors ces fondamentaux ?

La réalité est qu' en fait, nous représentons les caractéres selon notre gourmandise

Ou a l'ancienne, a savoir l'ASCII de base qui n'avait que 128 caractéres
ne comportant que les alphanumériques sans accents cédilles etc ...

Ou Gros progrés avec le CP850 des premiers DOS qui sont vite devenu CP850 puis CP1252 avec windows 3

Ou a cause de l' obligation de développer des jeux de caractéres par Pays par exemple notre iso-8859-1

Alors il fallait bien y arriver , un codage apparait , capable de tout inclure en un ...
Le répertoire complet unicode. l'UTF8 par exemple que tout le monde devrait adopter et qui est encore "boudé"
(par moi en premier) l'encodage unicode s'ouvre a 100.000 caractéres.

Quand SIBELIUS dit que
Utf-8, c'est pour les caractères anglophones exclusivement (donc pas d'accent ou de caractères spéciaux)

Je crois réver ...

Du reste toute l'ambiguitée de son test éclaire bien ce que je dis : apparament SIBELIUS
ne se demandes pas comment s'opére un copié/collé de son "voilà" bien lisible comme ici ,
je veux dire dans une page de notre forum qui est en UTF-8 que je saches 8O

Oui Oui entre le copié collé, l'OS qui le prends en mémoire, l'application qui la reçoit etc ...
il y a un long chemin, avec autant de passages par des réencodages :wink:

Tony Monast · 16 Août 2010

Bonjour,

Christele, juste comme ça, le message de Sibelius date d'il y a 6 ans, c'est un peu normal d'être étonné de sa réponse sur l'encodage.

Puis Sibelius, c'est notre bon vieux Raphael d'Alsacreations. Tu as déterré l'un de ses messages préhistoriques.

christele2 · 17 Août 2010

Tony Monast a dit:
Bonjour,
Christele, juste comme ça, le message de Sibelius date d'il y a 6 ans, c'est un peu normal d'être étonné de sa réponse sur l'encodage.
Puis Sibelius, c'est notre bon vieux Raphael d'Alsacreations. Tu as déterré l'un de ses messages préhistoriques.

Morte de rire j'étais retombé dessus par Google (concervateur)