Bonjour à tous,
Je souhaiterai avoir votre avis concernant des problèmes remarqués sur un site internet que j'administre.
Il s'agit d'un site avec une partie articles et une partie forum, tous les contenus sont créés par les utilisateurs (publication d'articles par certains contributeurs, et le fonctionnement normal d'un forum).
Problème 1 - Duplicate content interne :
Pour chaque article, chaque sujet du forum, il existe une version .pdf de l'article ou du sujet. Ces pdf sont crawlés par googlebot, une partie est indexée et génère du trafic. Le trafic est cependant minime (1% du trafic du site).
Sur les 1000 requêtes générant le plus de clics vers les .pdf, 282 contiennent le terme "pdf". Ça signifie donc que potentiellement pour les 718 autres requêtes la version "normale" de la page et sa version pdf se font concurrence.
On est donc face à du duplicate content massif et potentiellement des urls qui se cannibalisent.
Je pensais donc :
Qu'en pensez vous ?
Problème 2 - Contenu "pauvre" généré par l'utilisateur :
Comme je le disais, tout le contenu est créé par les utilisateurs. Il faut également savoir que le site date de 2008-2009. Il y a donc énormément de sujets du forum/articles publiés il y a quelques années qui sont pauvres en contenus.
Par exemple : des sujets avec aucune ou peu de réponses, ou bien des articles très courts et/ou dont le contenu n'est plus du tout d'actualité.
Ces pages n'intéressent pas Google, qui ne les indexe pas. On gaspille ainsi du budget crawl et par ailleurs, le site abordant des thématiques YMYL, je crains que ça n'affecte l'image générale du site aux yeux de Google (j'entend par là que ça nuirait à notre EAT, parmi ces dizaines de milliers d'urls il y a forcément des contenus à la qualité douteuse).
J'ai pensé à faire quelque chose comme ça : si la page date d'il y X années + qu'elle a moins de X vues, alors no-index.
Pensez-vous que ça soit pertinent ?
Merci pour votre attention,
Rankienb
Je souhaiterai avoir votre avis concernant des problèmes remarqués sur un site internet que j'administre.
Il s'agit d'un site avec une partie articles et une partie forum, tous les contenus sont créés par les utilisateurs (publication d'articles par certains contributeurs, et le fonctionnement normal d'un forum).
Problème 1 - Duplicate content interne :
Pour chaque article, chaque sujet du forum, il existe une version .pdf de l'article ou du sujet. Ces pdf sont crawlés par googlebot, une partie est indexée et génère du trafic. Le trafic est cependant minime (1% du trafic du site).
Sur les 1000 requêtes générant le plus de clics vers les .pdf, 282 contiennent le terme "pdf". Ça signifie donc que potentiellement pour les 718 autres requêtes la version "normale" de la page et sa version pdf se font concurrence.
On est donc face à du duplicate content massif et potentiellement des urls qui se cannibalisent.
Je pensais donc :
- désindexer les pdf via l’entête HTTP X-Robots-Tag comme l'indique Olivier dans son article https://www.webrankinfo.com/dossiers/indexation/x-robots-tag
- ou bien, indiquer que la page à partir de laquelle est générée le pdf est l'originale via https://www.webrankinfo.com/dossiers/indexation/url-canonique-http
- ou alors, mais ça me semble bien plus impactant, arrêter de proposer des version pdf et faire des redirections 301 vers les pages à partir desquelles sont générés les pdf.
Qu'en pensez vous ?
Problème 2 - Contenu "pauvre" généré par l'utilisateur :
Comme je le disais, tout le contenu est créé par les utilisateurs. Il faut également savoir que le site date de 2008-2009. Il y a donc énormément de sujets du forum/articles publiés il y a quelques années qui sont pauvres en contenus.
Par exemple : des sujets avec aucune ou peu de réponses, ou bien des articles très courts et/ou dont le contenu n'est plus du tout d'actualité.
Ces pages n'intéressent pas Google, qui ne les indexe pas. On gaspille ainsi du budget crawl et par ailleurs, le site abordant des thématiques YMYL, je crains que ça n'affecte l'image générale du site aux yeux de Google (j'entend par là que ça nuirait à notre EAT, parmi ces dizaines de milliers d'urls il y a forcément des contenus à la qualité douteuse).
J'ai pensé à faire quelque chose comme ça : si la page date d'il y X années + qu'elle a moins de X vues, alors no-index.
Pensez-vous que ça soit pertinent ?
Merci pour votre attention,
Rankienb
Dernière édition: