Questions URL canonique, crawl et indexation

Nouveau WRInaute
Salut la communauté Web Rank Info !

J'ai une question peut être idiote mais je m'emmêle un peu les pinceaux sur les histoires d'URL canoniques.

Mes 2 questions sont :

=> une URL canonique peut-elle être détectée mais non indexée ?


=> une URL canonique peut-elle être explorée (crawlée) mais non indexée ?

En gros, le fait de déclarer un URL canonique pour éviter du duplicate content a-t-il un rapport avec le fait qu'elle va être détectée, crawlée ou indexée ?

merci pour vos lumières ;)
++Olivier
 
WRInaute impliqué
le fait de déclarer un URL canonique pour éviter du duplicate content a-t-il un rapport avec le fait qu'elle va être détectée, crawlée ou indexée ?

Non, aucun.

Le seul apport d'une canonique dans ce cas est que, si le référenceur la considère comme valable, il indexera la page avec l'url canonique plutôt que la page qui "renvoie" à une canonique distincte.

Comme corollaire, cela le dissuade d'indexer la page dont la canonique déclarée se réfère à une autre page.
 
Nouveau WRInaute
Petite précision utile pour plus de clarté après quelques recherches supplémentaires :
Une page non canonique ne signifie pas qu’elle ne sera pas indexée. ll s'agit essentiellement d'un "signal", pas d'une directive absolue.
 
WRInaute impliqué
Le terme de "page non canonique" est impropre, ce n'est pas la page qui est, ou non, canonique, mais son URL, son adresse. Une URL canonique est l'adresse "de référence" pour une ressource donnée (qui peut en voir plusieurs).

Le "truc", c'est que l'URL absolue est de facto, une manière d'identifier une ressource. Dans le principe, il s'agit d'une manière d'identifier une ressource par la manière d'y accéder, et il n'est pas exclu qu'une ressource (une page web dans notre cas) puisse être accédée de différentes façons.

Or, il y a bien un truc que les moteurs de recherches n'aiment pas, c'est identifier deux fois la même chose. Ils vont donc s'efforcer d'identifier du contenu unique, et ne l'indexer qu'une seule fois (c'est le premier intérêt de la lutte contre le duplicate, bien qu'il s'étende depuis au contenu recopié et sans apport).

C'est tout l'intérêt de la canonique : faciliter le travail de l'indexateur en lui indiquant que tel contenu est en fait identique à tel autre (et qu'il est donc inutile de l'indexer deux fois), et que le créateur a une préférence pour qu'on y accède par telle adresse de manière permanente.

Mais une fois encore, c'est l'adresse, l'URL, qui est canonique, pas la page, le contenu.

Maintenant, et comme je le disais dans l'autre fil de discussion :

La notion de "non-canonique" peut vouloir dire deux choses :
  • une page qui ne déclare pas de canonique ; elle a en effet toutes les chances d'être indexée (ce n'est en rien un critère d'indexation)
  • une page qui déclare une autre URL comme étant "sa" canonique.
C'est exactement le sens d'une canonique : cette URL n'est qu'une manière différente d'accéder à ce contenu qui est accessible depuis plusieurs adresses et pour lesquelles ils faut préférer l'adresse déclarée en canonique.

Dans ce second sens, il arrive que les pages soient néanmoins indexées, mais elles ne devraient pas l'être sous cette URL (au risque de me répéter, c'est le sens d'une canonique). La raison est simple : le robot finit par ignorer la canonique lorsqu'elle considère qu'elle est cramée (deux pages partageant la même canonique mais a priori différentes).

En fait, dans ce cas, on en revient à la première hypothèse, c'est comme s'il n'y avait pas de canonique de déclarée.
 
WRInaute impliqué
Une fois encore ça dépend de ce qu'on appelle "URL non canonique".

Si on parle d'une URL renvoyant vers une ressource qui déclare une autre URL comme canonique, elle ne devrait pas l'être. Ça ne veut pas dire qu'elle ne le sera pas, notamment parce que Google (par exemple) essaye de déterminer quelle pourrait être la version canonique d'une page à partir d'une pluralité d'indices.

La présence d'une balise rel=canonical est un indice du point de vue de Google, pas une directive.

Mais Google peut passer outre cet balise, soit parce que la page accédée depuis l'adresse canonique lui semble trop distincte de celle explorée, soit parce que le sitemap en définit une autre, soit pour d'autres raisons encore.
 
Discussions similaires
Haut