Duplicate content
Dans les dossiers :
Dans : - Par Olivier Duffez, le Lundi 16 février 2009
Le problème des contenus dupliqués (duplicate content) est un des sujets les plus récurrents dans le domaine du référencement : il y a d'ailleurs beaucoup d'incompréhensions sur ce sujet mais ceci fera l'objet d'un autre article. Aujourd'hui, nous allons analyser la nouvelle proposition commune de Google, Yahoo et Live Search pour essayer de résoudre les problèmes de contenus dupliqués (à l'intérieur d'un site) : la balise spéciale link rel=canonical qui décrit l'URL canonique d'une page (c'est-à-dire son URL officielle).
Dans : - Par Olivier Duffez, le Lundi 4 août 2008
La règle numéro un est sans conteste d'avoir un site au réel contenu. Cela paraît tout simple mais il est primordial d'avoir un contenu utile et original (je vous déconseille de développer un projet bâti sur la réutilisation de contenu en marque blanche ou tout autre contenu déjà publié ailleurs sur le web, car Google détecte désormais très bien les contenus dupliqués). Cette règle ne s'applique d'ailleurs pas qu'à Google mais à toute création de site pour lequel on cherche à créer du trafic : il faut intéresser le visiteur !
Dans : - Par Olivier Duffez, le Vendredi 11 mai 2007
Fort utilisés, les blogs DotClear, dans leurs versions 1.2.x, possèdent bien des qualités en terme de référencement (titres des billets, écriture des URL, propreté et organisation du code…) ; néanmoins ils s'avèrent relativement pauvres au niveau de l'optimisation des balises descriptives que l'on trouve dans l'entête de la page HTML générée. Ainsi, par défaut la balise TITLE contient systématiquement (s'il existe) le nom du billet ou le nom de la catégorie, suivi du nom du blog. En clair, cela signifie qu'hormis les pages affichant le contenu des billets et le contenu des catégories, toutes les pages se « contentent» d'une balise TITLE identique !
Dans : - Par Olivier Duffez, le Mardi 13 mars 2007
Qui n'a pas été confronté à un problème de duplicate content (contenu dupliqué) sur son site ? Après un bref rappel de la définition du duplicate content, cet article présente 6 erreurs très répandues et bien entendu la façon de les corriger.
Dans : - Par Olivier Duffez, le Mardi 6 mars 2007
Si vous êtes webmaster ou référenceur, vous avez sans doute déjà essayé de connaître le nombre (et la liste) de pages indexées de votre site avec la commande site: de Google. Voici une précision à connaître…
Dans : - Par Olivier Duffez, le Mercredi 3 janvier 2007
Google vient d'obtenir un brevet sur les calculs de similarité qui pourraient servir à la détection de contenu dupliqué.
Dans : - Par Olivier Duffez, le Vendredi 29 septembre 2006
Le problème se pose pour tous les sites et tous les moteurs qui doivent les indexer : faut-il indexer un site (en nom de domaine) avec www ou sans ? Dans la plupart des cas, même si le webmaster a prévu que son site devait être consulté sous la forme www.example.com et non example.com, il est possible que quelque part sur le web quelqu'un fasse un lien sans www. Dans ce cas, le robot d'un moteur de recherche qui suit ce lien risque d'indexer tout le site example.com sans www, ce qui crée un doublon puisque le site peut déjà être indexé avec www (problème de duplicate content).
Dans : - Par Olivier Duffez, le Mercredi 26 octobre 2005
La plupart des webmasters n'y font pas attention, mais leur site est souvent accessible en tapant le nom de domaine avec ou sans le sous-domaine www. Ceci peut poser des problèmes car les moteurs pourraient indexer un duplicata du site. Explications…
Lectures recommandées sur ce thème :
- Détection de pages similaires
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages).
Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation...
Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués.