encodage HTML vers ISO

WRInaute discret
Bonjour,

Je suis en train de changer sans aucune transition l'encodage de la totalité des textes de mon site. De HTML vers ISO.

J'ai lu (sur WRI je crois) qu'un changement ample et soudain sur un site (conception,présentation) pouvait entraîner une réaction défavorable de la part des moteurs.

La première question est de savoir si cette opération peut entrer dans le facteur de risque cité plus haut ?

La deuxième est de savoir si quelqu'un a observé des inconvénients à l'usage de ISO ?

En thérorie, je me dis que ISO est au moins aussi universel que HTML, mais la pratique m'intéresse plus que la théorie.

Merci d'avance pour vous retours d'expérience.

Et excellent week end
 
WRInaute discret
Bonjour seebz,

Non, c'est bien HTML. C'est à dire que tous les textes du site sont actuellement convertis en HTML pour affichage sur navigateur. Et mon projet est de convertir en charset=ISO-8859-1 les caractères hors ascii.

J'y vois deux avantages directs :

- l'outil de conversion dynamique des textes est plus rapide pour ISO que HTML

- Le volume de texte véhiculé sur le réseau est plus faible en ISO qu'en HTML.

Et je cherche à savoir s'il y a des inconvénients.

Merci en tout cas pour ta réponse.
 
WRInaute passionné
tu dois être la seule à diffuser des pages html avec l'integralité des textes html encodés

je pense que tu as tout à gagner à changer ton charset vers un iso

rog
 
WRInaute discret
Merci Rog pour ta réponse,

Mon site a commencé a bosser il y a plus de 10 ans. A l'époque je crois qu'il n'y avait pas grand chose d'autre que du HTML.

Le changement subit de HTML à ISO ne me pose pas de problème techniquement. Je m'interrogeais sur le risque de ce changement vu par les moteurs.

A terme je me dis que peut-être même l'encodage ISO pourrait être un facteur de meilleur positionnement, mais c'est juste un hypothèse et je ne compte pas dessus.

Bon week end
 
Nouveau WRInaute
Bonsoir,

Mais qu'est-ce que vous appelez HTML

HTML est un langage de balises, ce n'est pas un set de caractères (un jeu de caractères, un characters set).

Si vos "textes" (ce qui est visible dans le navigateur du visiteur, hors le code html qui est invariant), sont de la forme

Code:
%61%73%73%69%73%74%65%2e%66%72%65%65%2e%66%72
Vous êtes codés en "echappement %" (escape code)

Code:
& #108;& #101;& #032;& #102;& #111;& #110;& #100;& #032;& #100;& #101;& #032;
Vous êtes en unicode (j'ai ajouté un espace à chaque code

Code:
TGUgZm9uZCBkZSBsJ2FpciBlc3QgZnJhaXM=
Vous êtes en UUencode base 64

Prenons le symbole Euro (€)

Code:
& #128;
= Codage invalide (non normalisé) utilisé par Windows
Code:
& euro;
= Entité caractère normalisé
Code:
& #8364;
= Référence numérique normalisé

Windows, Internet et le codage de certains caractères
Vers le bas de cette page
http://assiste.com.free.fr/p/code_decod ... ement.html

Cordialement
 
WRInaute discret
Merci Pierre (aka Terdef) pour cette remarque pertinente

Effectivement j'ai manqué de précision. J'utilise une routine de conversion dont le nom est du genre text_to_html. Le signe de l'euro converti est bien & #8364; donc j'ai bien à faire à un encodage de type numérique normalisé. Tous mes textes sont encodés de cette manière.

Je pense qu'un texte encodé en ISO-8859-1 peut être 15 à 20% moins lourd qu'en numérique normalisé, ce qui peut compter. je crois aussi que le navigateur lit plus vite un texte en ISO qu'en numérique normalisé, mais je n'en suis pas sûr. J'ai vu aussi que la routine (ou méthode) qui convertit mes textes en ISO est 2x plus rapide que les autres (mais c'est dans ma configuration matérielle). Ce sont donc des éléments favorables à un changement d'encodage.

Ce que je souhaitais savoir c'est s'il y a des inconvénients. Notamment si google par exemple pourrait sanctionner un changement soudain d'encodage sur des dizaines de milliers de pages. Ou si une même page encodée en ISO pourraît être au contraire mieux positionnée qu'encodée en numérique normalisé.

Récits d'expériences bienvenus...

Très bon week end à tous.
 
WRInaute passionné
Les moteurs, voient la même chose que ce soit un caractère encodé html, iso, ou utf.

Si je peux te donner un bon conseil, quitte à changer, passe carrément à l'UTF-8.

Tu va peux-être galéré un peu mais tu t'y retrouvera à long terme
 
WRInaute discret
Merci Medium69 pour ta réponse,

Je comprends bien que les moteurs, voient la même chose que ce soit un caractère encodé html, iso, ou utf, puisqu'ils convertissent avant d'indexer.

Mais je crois savoir que le contenu n'est pas le seul critère, plein de choses (dont le secret est plutôt bien entretenu) contribuent à 'noter' une page et donc a en déterminer le positionnement. Et si l'encodage en numérique était dans ce cas moins bien noté que ISO-8859-1 ou autre, ce serait intéressant de le savoir.

Merci en tout cas.
 
WRInaute passionné
Songeur a dit:
Les moteurs, voient la même chose que ce soit un caractère encodé html, iso, ou utf.

Pas tout a fait d'accord, a tu des examples ?

Pour prendre un caractère propre aux langues latines : é

Que ce soit en html, é
en ISO 8859-1, é
ou en UTF-8, é

Le moteur verra toujours un é

Maintenant pour du chinois, 字 par exemple, tu n'as que l'UTF-8 qui l'affichera proprement.
 
Discussions similaires
Haut