Je reprends l'idée de Matt Cutts qui a publié un article sur ce sujet, en le traduisant et en ajoutant des remarques...

Je reprends son exemple d'URL pour la décortiquer :

http://video.google.co.uk:80/videoplay?docid=-7246927612831078230&hl=en#00h02m30s

  • http est le schéma, parfois appelé aussi protocole. On trouve parfois https pour les environnements sécurisés (qui peuvent très bien être indexés par les moteurs, il suffit qu'il n'y ait pas d'authentification obligatoire pour qu'ils y aient accès).
  • video.google.co.uk est le nom d'hôte (hostname)
  • le sous-domaine est video. On trouve parfois des sous-domaines contenant des points (et donc ce qu'on pourrait appeler des sous-sous-domaines), par exemple dans http://georgesbrassens.artistes.universalmusic.fr/, georgesbrassens.artistes est un sous-domaine de universalmusic.fr. Autre exemple : dans www.webrankinfo.com, www est un sous-domaine de webrankinfo.com.
  • le nom de domaine est google.co.uk
  • Remarque : j'ignore si l'exemple de Matt est correct à 100%... google ne peut-il pas être considéré comme un sous-domaine de co.uk ? Les spécialistes donneront leur avis dans les commentaires ;-)
  • uk est appelé TLD (domaine de premier niveau). Dans cet exemple il s'agit plus précisément d'un ccTLD (domaine national de premier niveau), car il concerne spécifiquement un pays. Dans un cas plus classique comme www.webrankinfo.com, le TLD est com.
  • co.uk est appelé SLD (domaine de second niveau).
  • le numéro de port est le 80. Dans cet exemple il est mentionné explicitement, mais dans la plupart des cas on ne l'indique pas, le port 80 étant le port par défaut d'un serveur web.
  • le chemin d'accès (répertoires) est /videoplay. Si on prend un exemple plus complet comme http://www.webrankinfo.com/google/gmail/index.php, le chemin d'accès est /google/gmail/. Dans certains cas (utilisation d'URL Rewriting par exemple, comme dans l'URL du billet de Matt Cutts), on ne peut pas vraiment distinguer le chemin d'accès du nom de fichier. D'ailleurs le path inclut peut-être les répertoires et le nom du fichier, je ne sais pas trop...
  • cette URL est qualifiée de dynamique car elle contient des paramètres situés derrière le point d'interrogation. D'ailleurs tout ce qui suit ? jusqu'à la fin de l'URL (ou jusqu'au caractère # s'il est présent) est appelé query string. Le W3C recommande que la query string soit constituée d'une série de paires {nom de paramètre}={valeur du paramètre}, séparées par le signe & (ou le point-virgule). Dans l'exemple de Matts, hl est un paramètre dont la valeur est en. On appelle aussi ces paramètres des variables, et on dit qu'on les passe dans l'URL. S'il y a trop de paires dans l'URL, les moteurs risquent de ne pas indexer la page, c'est pourquoi on conseille soit de limiter leur nombre, soit de mettre en place la réécriture d'URL. Notons que Matt a indiqué récemment que Google traitait de la même façon les URL statiques et dynamiques : aucune n'est avantagée dans le référencement.
  • #00h02m30s est appelé un identifiant de fragment ou parfois une ancre nommée. On utilise les identifiants de fragments dans les URL afin de pointer à un endroit précis de la page web (le fragment) identifiée par le reste de l'URL. Dans ces cas là, il est courant de trouver un lien d'une page vers elle-même, vers une ancre nommée particulière. Ce qui est intéressant dans l'article de Matt c'est qu'il précise que Google ignore les identifiants de fragments dans les URL (il ne semble pas vraiment catégorique mais c'est en effet ce qui est courramment retenu). Il faut préciser que dans cet exemple l'identifiant de fragment n'est pas valide car il ne doit pas commencer par un chiffre.

Matt termine son article en donnant sa définition des pages dynamiques : il s'agit pour lui de pages qui nécessitent un traitement du serveur web pour calculer le contenu de la page, par opposition aux pages statiques. On ne peut en effet pas se baser sur la présence du signe ? dans une URL pour savoir si elle est dynamique car il y a des contre-exemples (Matt parle de http://news.google.com qui est une page dynamique, mais la réécriture d'URL peut aussi masquer le point d'interrogation). Je trouve sa définition intéressante, elle rejoint celle que je donne dans mes formations au référencement : une page statique existe en tant que fichier sur le serveur qui héberge le site, tandis qu'une page dynamique n'existe pas physiquement (mis à part sa version en cache), elle est générée à la volée. Sur les sites actuels, les pages statiques se font rares...

Pour revenir sur le référencement proprement dit, vous pouvez (re)lire mes conseils d'optimisation des URL pour le référencement.