Googlebot sais mieux parler arabe ou utf-8 ?

aladdin

WRInaute passionné
Bonjour
j'ai voulu optimiser mon site (arabe) en mettant les titre des articles du site dans la balise <title> resultat : pleins de pages derefferencés car apparement google ne sais pas lire ces titles

exemple :
regardez cette page : http://66.249.93.104/search?q=cache:UCy ... .net&hl=fr

et ce qu'elle devrait etre
-http://www.oujdacity.net/oujda-article-650-fr.html



du coup je suis entrain de retenter une optimisation: je transforme les titre en utf-8 et je les affiche en tan qu'html entities (du style & #1578; )

pensez vous que ça ira mieux ?
et est ceque google vas faire la correspendance entre les htmlentities et les caractères normaux des requetes de recherche ?
 

Bollore

WRInaute discret
Moi j'ai jamais eu de probleme car mon contenu sortais d'une base de donée et donc reconverti en unicode directement, mais oui, il faut que tu le mette en format uncode #323& etc.. et ça marche impect :)
 

jeanluc

WRInaute accro
Bonjour aladdin,

J'ai testé ta page avec mon simulateur Google. Regarde au bas de la page : on voit que les indications de l'en-tête HTTP (décidée par le serveur) et celle de la balise META "content-type" sont contradictoires, ce qui ne peut que poser des problèmes avec Google.

Quand le type de codage est défini explicitement par l'en-tête HTTP et par une balise META, il est indispensable que ce soit le même codage des deux côtés.

Jean-Luc
 

aladdin

WRInaute passionné
merci j'ai enlever l'encodage spécifié par header()
et maintenant j'obtient ça dans le simulateur
En-tête HTTP "Content-Type"
text/html

<META NAME="content-type" CONTENT=" ... ">
text/html; charset=utf-8

c'est bon comme ça ?
 

jeanluc

WRInaute accro
Maintenant c'est bon pour les indications de l'encodage.

Je suis étonné que le simulateur n'affiche pas correctement les caractères français accentués de la description. Je n'ai jamais constaté ce problème pour d'autres pages en UTF-8. Je ne sais pas si le problème est de mon côté ou du tien...

Pour la représentation des caractères arabes par le simulateur, je suis heureusement surpris. On dirait que ça marche, même si je n'ai jamais testé d'autres langues que le français et l'anglais. :wink:

Jean-Luc
 

aladdin

WRInaute passionné
bein pour les caractères arabes maintenant ya pas de raison pour que ça marche pas, en fait je les transforme en htmlentities maintenant, pour etre sur qu'ils passent partout

avant ça passait pas, regarde dans le cache que j'ai posté au debut de ce sujet
 

jeanluc

WRInaute accro
Tu as raison. Et en plus, comme ma page est aussi en UTF-8, c'est pas compliqué.

Par contre, pour les caractères accentués français, ça ne marche pas. Or, comme ma page est aussi en UTF-8, ça devrait donner le même résultat que sur ta page. Tu es sûr de tes codes pour les "é" et les "à" ?

Jean-Luc
 

aladdin

WRInaute passionné
bein je suis pas totalement sure pour les caractères accetués, mais en tout cas sur mon site et sur google ça passe bien : -https://www.google.fr/search?q=site%3Aoujdacity.net


en fait, vue que mon site contient de l'arabe et du français, j'ecrit le français en utf-8 et l'arabe en windows-1256 (car des utilisateurs qui postend des articles arabes le font sous cette encodage)

ensuite j'utilise les fonctions ob_* de php pour bufferiser la sortie et avant de l'afficher j'utilise une librairie opour réencoder les windows-1256 en entity utf-8

c'est un peut compliqu, mais c'est la seule methode qui m'a permis d'avoir du contenu mixte (arabe français) supportant les deux jeu de caractères sur la meme page
 

jeanluc

WRInaute accro
Dans la page http://oujdacity.net/, tu as ceci :
Code:
<META NAME="DESCRIPTION" CONTENT="Un portail sur Oujda et, la r& #1571;& #169;gion du maroc ...
...
Ce site & #224; & #233;t& #233; cr& #233;e ...
Dans la description, tu emploies & #1571; et & #169; pour faire un "é" et dans la page même, tu emploies & #233; pour un "é". Je pense que ce que tu emploies dans la page est correct, mais pas ce qui est dans la description.

J'ai ajouté des espaces pour que les codes soient visibles.

Jean-Luc

P.S. Il faudrait plutôt écrire Ce site a été créé.
 

Discussions similaires

Haut