Vocabulaire du référencement : noms de domaine et URL
Par Olivier Duffez, vendredi 24 août 2007
Dans une URL, savez-vous identifier un schéma, un hôte, un sous-domaine, un nom de domaine, un TLD, un ccTLD, le chemin d'accès, un identifiant de fragment ? Voici un aide-mémoire pour ceux qui découvrent ou qui ont oublié...
Je reprends l'idée de Matt Cutts qui a publié un article sur ce sujet, en le traduisant et en ajoutant des remarques...
Je reprends son exemple d'URL pour la décortiquer :
http://video.google.co.uk:80/videoplay?docid=-7246927612831078230&hl=en#00h02m30s
httpest le schéma, parfois appelé aussi protocole. On trouve parfoishttpspour les environnements sécurisés (qui peuvent très bien être indexés par les moteurs, il suffit qu'il n'y ait pas d'authentification obligatoire pour qu'ils y aient accès).video.google.co.ukest le nom d'hôte (hostname)- le sous-domaine est
video. On trouve parfois des sous-domaines contenant des points (et donc ce qu'on pourrait appeler dessous-sous-domaines
), par exemple danshttp://georgesbrassens.artistes.universalmusic.fr/,georgesbrassens.artistesest un sous-domaine deuniversalmusic.fr. Autre exemple : danswww.webrankinfo.com,wwwest un sous-domaine dewebrankinfo.com. - le nom de domaine est
google.co.uk - Remarque : j'ignore si l'exemple de Matt est correct à 100%...
googlene peut-il pas être considéré comme un sous-domaine deco.uk? Les spécialistes donneront leur avis dans les commentaires
ukest appelé TLD (domaine de premier niveau). Dans cet exemple il s'agit plus précisément d'un ccTLD (domaine national de premier niveau), car il concerne spécifiquement un pays. Dans un cas plus classique commewww.webrankinfo.com, le TLD estcom.co.ukest appelé SLD (domaine de second niveau).- le numéro de port est le 80. Dans cet exemple il est mentionné explicitement, mais dans la plupart des cas on ne l'indique pas, le port 80 étant le port par défaut d'un serveur web.
- le chemin d'accès (répertoires) est
/videoplay. Si on prend un exemple plus complet commehttp://www.webrankinfo.com/google/gmail/index.php, le chemin d'accès est/google/gmail/. Dans certains cas (utilisation d'URL Rewriting par exemple, comme dans l'URL du billet de Matt Cutts), on ne peut pas vraiment distinguer le chemin d'accès du nom de fichier. D'ailleurs le path inclut peut-être les répertoires et le nom du fichier, je ne sais pas trop... - cette URL est qualifiée de dynamique car elle contient des paramètres situés derrière le point d'interrogation. D'ailleurs tout ce qui suit
?jusqu'à la fin de l'URL (ou jusqu'au caractère#s'il est présent) est appelé query string. Le W3C recommande que la query string soit constituée d'une série de paires{nom de paramètre}={valeur du paramètre}, séparées par le signe&(ou le point-virgule). Dans l'exemple de Matts,hlest un paramètre dont la valeur esten. On appelle aussi ces paramètres des variables, et on dit qu'on lespasse dans l'URL
. S'il y a trop de paires dans l'URL, les moteurs risquent de ne pas indexer la page, c'est pourquoi on conseille soit de limiter leur nombre, soit de mettre en place la réécriture d'URL. Notons que Matt a indiqué récemment que Google traitait de la même façon les URL statiques et dynamiques : aucune n'est avantagée dans le référencement. #00h02m30sest appelé un identifiant de fragment ou parfois une ancre nommée. On utilise les identifiants de fragments dans les URL afin de pointer à un endroit précis de la page web (le fragment) identifiée par le reste de l'URL. Dans ces cas là, il est courant de trouver un lien d'une page vers elle-même, vers une ancre nommée particulière. Ce qui est intéressant dans l'article de Matt c'est qu'il précise que Google ignore les identifiants de fragments dans les URL (il ne semble pas vraiment catégorique mais c'est en effet ce qui est courramment retenu). Il faut préciser que dans cet exemple l'identifiant de fragment n'est pas valide car il ne doit pas commencer par un chiffre.
Matt termine son article en donnant sa définition des pages dynamiques : il s'agit pour lui de pages qui nécessitent un traitement du serveur web pour calculer
le contenu de la page, par opposition aux pages statiques. On ne peut en effet pas se baser sur la présence du signe ? dans une URL pour savoir si elle est dynamique car il y a des contre-exemples (Matt parle de http://news.google.com qui est une page dynamique, mais la réécriture d'URL peut aussi masquer le point d'interrogation). Je trouve sa définition intéressante, elle rejoint celle que je donne dans mes formations au référencement : une page statique existe en tant que fichier sur le serveur qui héberge le site, tandis qu'une page dynamique n'existe pas physiquement (mis à part sa version en cache), elle est générée à la volée. Sur les sites actuels, les pages statiques se font rares...
Pour revenir sur le référencement proprement dit, vous pouvez (re)lire mes conseils d'optimisation des URL pour le référencement.

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le vendredi 24 août 2007 à 16:17, par b_adele
2. Le samedi 25 août 2007 à 22:25, par Nurgle
3. Le mardi 28 août 2007 à 14:51, par alex de Référencement Blog
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Il y avait déjà un forum sur l'administration d'un site dans son ensemble, mais le secteur des noms de domaine est assez vaste pour mériter un forum noms de domaine.
Google vient d'annoncer qu'il allait commercialiser des noms de domaine au prix de 10$ par an. En réalité ce n'est pas Google qui va les vendre directement mais 2 partenaires (GoDaddy et eNom).
Le 21 juin 2006, Yahoo! a expédié à des centaines de propriétaires de noms de domaine une mise en demeure, les accusant de cybersquatting.
Le sujet fait couler moins d'encre que l'histoire du underscore comme séparateur, mais on voit souvent des discussions au sujet de l'intérêt des sous-domaines pour le référencement. Est-ce plus efficace que les répertoires ? Est-ce risqué vis-à-vis des moteurs ? Google a-t-il changé son algorithme récemment ? Voici quelques réponses...
Après l'épisode concernant le nom de domaine webrankinfo.com, j'avais indiqué que je ferai un petit retour d'expérience. J'ai enfin eu un peu de temps pour rédiger quelques conseils pour éviter aux webmasters de se faire voler leurs noms de domaine. Je fournis également quelques pistes pour récupérer un nom de domaine qui aurait été volé...
Google est accrédité registrar par l'ICANN depuis février 2005, ce qui lui donne accès à de nombreuses informations sur les propriétaires des noms de domaine. Les utilise-t-il ?
Je parlais récemment des changements d'adresse IP (déménagement de serveur ou d'hébergeur). Voici un article qui indique qu'un changement de nom de domaine peut avoir un effet néfaste sur le TrustRank.
Au milieu d'un post de son blog, Matt Cutts a laissé entendre que l'algo de Google intègre un indicateur qui se déclenche quand un site crée soudainement de nombreux sous-domaines...
Qui n'a pas été confronté à un problème de duplicate content (contenu dupliqué) sur son site ? Après un bref rappel de la définition du duplicate content, cet article présente 6 erreurs très répandues et bien entendu la façon de les corriger.