Contenu dupliqué OU vitesse d'indéxation?

Nouveau WRInaute
Article publié originalement sur mon blogue www.encoreungeek.com, mais vu le peu de réposes je me suis dit que je pourrais transférer la discussion ici!

voici :

Depuis plusieurs années la comunauté des webmasters analyse et étudie le fameux filtre de contenu dupliqué sur Google, ainsi que les conséquences sur l'indéxation des contenus originaux.

Avec le web 2.0 et l'ère des mash-ups, il semble que Google aie manifestment de la difficulté à reconnaître le contenu original. Cela entraîne donc des problèmes pour le contenu original qui n'est pas reconnu par Google comme celui qui a "l'autorité" sur le titre de l'article.

Ne pas tout mélanger: contenu dupliqué, autorité et contenu original

Je ne pense pas qu'il s'agisse dans ce cas précis de contenu dupliqué, je pense qu'il s'agit plutôt de vitesse d'indéxation... Si un blogue ne poste pas très régulièrement il est possible que Google ne vienne pas tout de suite 'indéxer' le nouveau contenu. Par contre, sur un agrégateur comme Geekomatik.com, Google passe beaucoup plus souvent ce qui fait que le contenu republié peut-être indexé avant le contenu original!

Je suis convainu que si Google indéxait l'article original en premier le problème de l'autorité sur le contenu serait reglé. Il est donc important pour le webmaster soucieux de garder l'autorité sur son contenu de s'assurer que son contenu est bel et bien indéxé avant de le distribuer sur le web. Geekomatik par exemple n'indexe jamais un blog instantanément, cela peut quelques fois predre quelques jours si le webmaster ne vient pas mettre à jour son flux RSS directement sur le site, donc en théorie cela laisse assez de temps à Google pour indéxer le contenu original!

Google webmaster tools

S'il est clair que Google n'est pas encore capable de reconnaître le contenu original d'un contenu republié, malgré le fait que la copie pointe directement sur l'original comme sur Geekomatik ou sur paperblog.com, il semble que les webmasters ont la responsabilité d'utiliser tous les moyens mis à leur disposition par Google afin de s'assurer d'une indéxation optimale. Personnellement je recommande

tout les blogueurs sérieux de s'assurer que leur site est naviguable facilement par Google en utilisant par exemple des urls "réecrites" qui ne comportent pas de variables dynamiques... Je crois aussi qu'il est extrêment important d'avoir un site map XML qui se mets à jour instantanément et qui est directement branchée sur les moteurs de Google sur le Google webmaster tools. Vous pouvez même donner un sitemap a Google directement à partir de votre flux rss.

Et le contenu dupliqué?

Mais si les problèmes des blogueurs sont plus souvent reliés à l'autorité sur leur contenu, qu'est ce qu'on entends pas contenu dupliqué? Selon Vanessa Fox, Google n'a pas de pénalité pour le contenu dupliqué, mais c'est bel et bien un 'filtre' qui s'applique principalement à un site (pages internes dupliquées) et pas nécessairement à différents sites entre eux.

Si deux sites postent le même contenu il semble que ce soit plutôt les notions d'autorité et éventuellement la vitesse de publication qui compte pour Google. Bref, encore une fois mon conseil serait de m'assurer que je suis bien indexé avant de faire circuler mon contenu sur le web, en ayant un site map directement dans Google, ce qui assure une indéxation très rapide.

Pour ce qui est de Geekomatik, je vais tester dès la semaine prochaine de ne plus publier le contenu entier des articles agrégés sur le site, afin d'aider Google à identifier la source originale, de manière à ne pas nuire aux sites qui sont sur notre plateforme.

En terminant, quelques vidéos intéressants dont une entrevue avec Vanessa Fox, la responsable de Google Webmaster Tools qui détaille sur la perception du contenu dupliqué chez Google.

Voir les videos sur le texte original : http://encoreungeek.com/contenu-dupliqu ... sur-google
 
Nouveau WRInaute
Oui le concept de paperbl*g est le même que celui de Geekomatik.com.

Par contre, sur le long terme je pense qeu c'est risqué pour les blogueurs parce que les agrégateurs sont crawlés très rapidement et google ne sait plus quel est le contenu original.

Pour cette raison dès la semaine prochaine Geekomatik ne publiera plus le contenu en entier sur le site, mais bien seulemetn un extrait avec 2-3 liens en dur vers l'original pour être certain que Geekomatik aide les blogueurs et non l'inverse...

Alexis
 
WRInaute occasionnel
Oui, j'ai lu la news... donc, perso, je conserve Geekomatik mais pas paperbl*g que j'ai supprimé, hier...
 
Nouveau WRInaute
Bonjour,
Il y a un autre problème, dans mon cas je recois, des infos des organisations, des centres culturels pour publication. Ces organismes envoient ces infos à d'autres sites aussi, mème si je met l'info avant les autres sites, google à toujours tendance à prendre mes contenu comme Duplicate, bien que c'est effectivement le cas, mais là c'est un peu légitime, je ne vais pas prendre ces infos sur d'autres site.
 
Discussions similaires
Haut