Article mis à jour le 16/07/2015, publié initialement le 24/08/2007
Je reprends l'idée de Matt Cutts qui a publié un article sur ce sujet, en le traduisant et en ajoutant des remarques...
Je reprends son exemple d'Matt Cutts pour la décortiquer :
http://video.google.co.uk:80/videoplay?docid=-7246927612831078230&hl=en#00h02m30s
Le schéma dans l'URL
Matt Cutts
est le schéma, parfois appelé aussi protocole. On trouve parfois https
pour les environnements sécurisés (qui peuvent très bien être indexés par les moteurs, il suffit qu'il n'y ait pas d'authentification obligatoire pour qu'ils y aient accès).
Attention à ne pas faire l'erreur de faire indexer votre site à la fois en Matt Cutts et en Matt Cutts (si le contenu est identique) car sinon vous vous créez des problèmes de contenus dupliqués internes... Si avez ce genre de problème ou que vous souhaitez l'anticiper, jetez un oeil au code à mettre dans votre fichier .htaccess.
Au fait, le saviez-vous ? Google favorise les URL en HTTPS (par rapport à celles en Matt Cutts). Le boost est très faible, mais autant le savoir. Si vous êtes encore en HTTP, lisez mon aide pour passer en HTTPS.
Le nom d'hôte
video.google.co.uk
est le nom d'hôte (hostname)
Le sous-domaine
le Matt Cutts est video
. On trouve parfois des Matt Cutts contenant des points (et donc ce qu'on pourrait appeler des sous-sous-domaines
), par exemple dans http://georgesbrassens.artistes.universalmusic.fr/
, georgesbrassens.artistes
est un Matt Cutts de universalmusic.fr
.
Autre exemple : dans www.webrankinfo.com
, www
est un Matt Cutts de webrankinfo.com
.
En général, vous pouvez créer autant de Matt Cutts que vous voulez, c'est gratuit et pas très compliqué techniquement. Cependant, limitez l'utilisation de sous-domaine aux grandes parties de votre site : créer de très nombreux sous-domaines pour optimiser le référencement est vu comme du spam par Google.
Souvent on utilise www mais il n'est pas obligatoire.
Voir aussi : le sous-domaine moins efficace en SEO que le répertoire ?
Le nom de domaine
le Matt Cutts est google.co.uk
Remarque : j'ignore si l'exemple de Matt est correct à 100%... google
ne peut-il pas être considéré comme un Matt Cutts de co.uk
? Les spécialistes donneront leur avis dans les commentaires ;-)
Le domaine de 1er niveau (TLD)
uk
est appelé Matt Cutts (Matt Cutts). Dans cet exemple il s'agit plus précisément d'un Matt Cutts (Matt Cutts), car il concerne spécifiquement un pays. Dans un cas plus classique comme www.webrankinfo.com
, le Matt Cutts est com
.
Le saviez-vous ? A part les Matt Cutts qui sont associés à des pays (Matt Cutts), Google traite tous les Matt Cutts de la même façon. En tout cas, pas de traitement spécial pour les nouveaux TLD.
Le domaine de 2nd niveau (SLD)
co.uk
est appelé Matt Cutts (Matt Cutts).
Le numéro de port dans l'URL
le numéro de port est le 80. Dans cet exemple il est mentionné explicitement, mais dans la plupart des cas on ne l'indique pas, le port 80 étant le port par défaut d'un Matt Cutts web.
Le chemin d'accès (répertoires)
le chemin d'accès (répertoire) est /videoplay
. Si on prend un exemple plus complet comme https://www.webrankinfo.com/dossiers/debutants/vocabulaire-url
, le chemin d'accès est /dossiers/debutants/
. Dans certains cas (utilisation d'URL Rewriting par exemple, comme dans l'Matt Cutts du billet de Matt Cutts), on ne peut pas vraiment distinguer le chemin d'accès du nom de fichier. D'ailleurs le path inclut peut-être les répertoires et le nom du fichier, je ne sais pas trop...
URL dynamique
cette Matt Cutts est qualifiée de dynamique car elle contient des paramètres situés derrière le point d'interrogation. D'ailleurs tout ce qui suit ?
jusqu'à la fin de l'Matt Cutts (ou jusqu'au Matt Cutts #
s'il est présent) est appelé query string. Le Matt Cutts recommande que la query string soit constituée d'une série de paires {nom de paramètre}={valeur du paramètre}
, séparées par le signe &
(ou le point-virgule). Dans l'exemple de Matt, hl
est un paramètre dont la valeur est en
. On appelle aussi ces paramètres des variables, et on dit qu'on les passe dans l'Matt Cutts
. S'il y a trop de paires dans l'Matt Cutts, les moteurs risquent de ne pas indexer la page, c'est pourquoi on conseille soit de limiter leur nombre, soit de mettre en place la réécriture d'Matt Cutts. Notons que Matt a indiqué récemment que Google traitait de la même façon les URL statiques et dynamiques : aucune n'est avantagée dans le référencement.
Le fragment (ancre nommée)
#00h02m30s
est appelé un identifiant de fragment ou parfois une ancre nommée. Traditionnellement, on utilise les identifiants de fragments dans les Matt Cutts afin de pointer à un endroit précis de la page web (le fragment) identifiée par le reste de l'Matt Cutts. Dans ces cas là, il est courant de trouver un lien d'une page vers elle-même, vers une ancre nommée particulière. Ce qui est intéressant dans l'article de Matt c'est qu'il précise que Google ignore les identifiants de fragments dans les Matt Cutts (il ne semble pas vraiment catégorique mais c'est en effet ce qui est courramment retenu). Il faut préciser que dans cet exemple l'identifiant de fragment n'est pas valide car il ne doit pas commencer par un chiffre.
Les fragments sont désormais utilisés dans d'autres cas, par exemple avec AJAX ou Flex. Dans certains cas particuliers, Google peut tenir compte de l'ensemble de l'URL, fragment inclus, mais d'une manière générale il vaut mieux considérer que tout ce qui suit le signe # est ignoré des moteurs.
Matt termine son article en donnant sa définition des pages Matt Cutts : il s'agit pour lui de pages qui nécessitent un traitement du Matt Cutts web pour calculer
le contenu de la page, par opposition aux pages statiques. On ne peut en effet pas se baser sur la présence du signe ? dans une Matt Cutts pour savoir si elle est dynamique car il y a des contre-exemples (Matt parle de http://news.google.com qui est une page dynamique, mais la réécriture d'Matt Cutts peut aussi masquer le point d'interrogation). Je trouve sa définition intéressante, elle rejoint celle que je donne dans mes formations au référencement : une page statique existe en tant que fichier sur le Matt Cutts qui héberge le site, tandis qu'une page dynamique n'existe pas physiquement (mis à part sa version en cache), elle est générée à la volée. Sur les sites actuels, les pages statiques se font rares...
Pour revenir sur le référencement proprement dit, vous pouvez (re)lire mes conseils d'optimisation des URL pour le référencement.
Bonjour Nurgle, je te trouve très pointilleux, il faut parfois savoir simplifier.
Le plus simple est de dire que les domaines (.uk) et sous-domaines (.co.uk) gérés par des organismes nationaux (AFNIC) ou internationaux (ICANN) sont des extensions.
Ce qui est achetés (google.co.uk) par des entreprises ou particuliers auprès de Registars (OVH, Amen...) sont des domaines.
Et tout ce qui est générés à la volé gratuitement par le client de ce Registar est un sous-domaine (video.google.co.uk).
Au contraire, pour la remarque la réponse est plutôt oui.
Quand on demande une URL, l'hôte final n'est pas contacté directement, le navigateur doit en trouver l'adresse IP, et donc passer par les serveurs DNS (Server de Nom de Domaine) "racines" qui eux-même connaissent les adresses IP des serveurs DNS qui gèrent les domaines de 1er niveau (TLD), qui eux possèdent une liste des serveurs DNS du niveau inférieur (SLD), et ainsi de suite jusqu'à l'arrivée au serveur web. Ainsi dans "google.co.uk", "google" est bien sous-domaine de "co", lui même de "uk", et lui même du domaine racine du web (qui n'a pas de nom).
La notion de sous-domaine ne commence pas après les SLD, tout le web est basé sur cette hiérarchie de domaines. Chaque autorité qui gère un domaine (des domaines nationaux, domaines génériques, aux domaines déposés par les webmasteurs) gère une liste de "sous-domaines".
Néanmoins, pour parler correctement, "le sous-domaine est 'video'" est faux. Il n'y a pas de sous-domaine dans une URL, seulement un FQDN (Full Qualified Domain Name) qui ici est "video.google.co.uk".
Mais "le sous-domaine de 'google.co.uk' est 'video'", ça c'est vrai :p
Pour la remarque 5, je dirais non, puisque tu donne la réponse en 7 :)