Duplicate content avec pdf et contenu pauvre créé par les utilisateurs

Rankienb · 1 Mars 2020

Bonjour à tous,

Je souhaiterai avoir votre avis concernant des problèmes remarqués sur un site internet que j'administre.

Il s'agit d'un site avec une partie articles et une partie forum, tous les contenus sont créés par les utilisateurs (publication d'articles par certains contributeurs, et le fonctionnement normal d'un forum).

Problème 1 - Duplicate content interne :

Pour chaque article, chaque sujet du forum, il existe une version .pdf de l'article ou du sujet. Ces pdf sont crawlés par googlebot, une partie est indexée et génère du trafic. Le trafic est cependant minime (1% du trafic du site).

Sur les 1000 requêtes générant le plus de clics vers les .pdf, 282 contiennent le terme "pdf". Ça signifie donc que potentiellement pour les 718 autres requêtes la version "normale" de la page et sa version pdf se font concurrence.

On est donc face à du duplicate content massif et potentiellement des urls qui se cannibalisent.

Je pensais donc :

désindexer les pdf via l’entête HTTP X-Robots-Tag comme l'indique Olivier dans son article https://www.webrankinfo.com/dossiers/indexation/x-robots-tag
ou bien, indiquer que la page à partir de laquelle est générée le pdf est l'originale via https://www.webrankinfo.com/dossiers/indexation/url-canonique-http
ou alors, mais ça me semble bien plus impactant, arrêter de proposer des version pdf et faire des redirections 301 vers les pages à partir desquelles sont générés les pdf.

Qu'en pensez vous ?

Problème 2 - Contenu "pauvre" généré par l'utilisateur :

Comme je le disais, tout le contenu est créé par les utilisateurs. Il faut également savoir que le site date de 2008-2009. Il y a donc énormément de sujets du forum/articles publiés il y a quelques années qui sont pauvres en contenus.
Par exemple : des sujets avec aucune ou peu de réponses, ou bien des articles très courts et/ou dont le contenu n'est plus du tout d'actualité.

Ces pages n'intéressent pas Google, qui ne les indexe pas. On gaspille ainsi du budget crawl et par ailleurs, le site abordant des thématiques YMYL, je crains que ça n'affecte l'image générale du site aux yeux de Google (j'entend par là que ça nuirait à notre EAT, parmi ces dizaines de milliers d'urls il y a forcément des contenus à la qualité douteuse).

J'ai pensé à faire quelque chose comme ça : si la page date d'il y X années + qu'elle a moins de X vues, alors no-index.

Pensez-vous que ça soit pertinent ?

Merci pour votre attention,
Rankienb

John13 · 1 Mars 2020

Bonsoir,

Je ne suis pas sûr que google gaspille du temps à crawl ce genre de vielle page, sans contenu ou presque. Je ne pense donc pas que le budget crawl soit impacté pas ce genre de chose.

Concernant l'image du site, je pense que Google est suffisamment "intelligent" pour faire la part des choses dans ce genre de situation, mais cela n’empêche pas dans un souci de clarté de faire un peu de tri oui.

Pour ce qui est du problème 1, je dirais que dans ce cas une url canonique est suffisante pour éviter les soucis de duplicate.

Je ne suis pas expert en la matière donc mon avis n'engage que moi.

Bonne soirée.

John.

indigene · 2 Mars 2020

Problème 1 : le duplicate content interne ne pénalise pas
la preuve :

Problème 2 : le budget crawl est un ajustement par google de sa fréquence de crawl en fonction de la popularité de la page, de sa fréquence de mise à jour, de sa fraicheur, etc...
Ce n'est pas en supprimant (les mettant en noindex) les pages qui sont rarement crawlées que ça va apporter plus de budget aux autres pages qui resteront ajustées comme google l'a décidé

Problème numéro 3 : on va bientôt passer plus de temps sur archive.org que sur google si tout le monde met ses pages en noindex sous prétexte qu'elles ne font pas le buzz. Google c'est un moteur de recherche. En tant qu'utilisateur d'un moteur de recherche j'aime bien trouver ce que je cherche. Mais pour trouver il faut au moins que ce soit dans l'index.

indigene · 2 Mars 2020

Par contre, oui, le contenu pauvre pénalise énormément. Mais ça n'a strictement rien à voir avec le budget crawl qu'on met à toutes les sauces aujourd'hui.
Rien a voir non plus avec les pages zombies dont certains parlent aussi à tout bout de champ et dont je doute que ce concept existe.
Il y a une époque on parlait de la masse noire. C'était des pages dont on ne se doute même pas de l'existence et qui sont présentes sur le site et sont indexées alors qu'elles ne devraient même pas exister ou ne servent à rien. Ça c'est un fait et il faut effectivement leur faire la chasse.
Les pages pauvres sont aussi à proscrire. Pas en les supprimant, mais en les enrichissant.

Et ce n'est pas parce qu'une page est peu consultée que ça signifie qu'elle n'est pas riche et ne mérite pas d'être indexée.

John13 · 2 Mars 2020

indigene a dit:
Par contre, oui, le contenu pauvre pénalise énormément.

Bonjour,

@indigene Tu parles des pages concernées ou du site en général qui serait pénalisé ?

Et qu'entends tu par "contenu pauvre" ?

Merci.

John.

indigene · 2 Mars 2020

le site entier qui est pénalisé si le taux de pages pauvres est trop élevé

Un contenu pauvre c'est par exemple la page de wikipedia quand tu cherches maskilili

John13 · 2 Mars 2020

Il y a pourtant tout un tas de sites très connus qui ont de nombreuses pages au contenu pauvre.

Je prends un exemple qui n'est peu être pas le bon, car FB, c'est FB, mais quand un visiteur est sur son profil, le contenu est de la page est pauvre.

Une fois de plus, l'exemple n'est sans doute pas le meilleur, mais ce ne sont pas les exemples du genre qui manquent.

Comment l'expliques-tu ?

John.

theunholy · 2 Mars 2020

indigene a dit:
le site entier qui est pénalisé si le taux de pages pauvres est trop élevé

Un contenu pauvre c'est par exemple la page de wikipedia quand tu cherches maskilili

Il faut voir par rapport à quoi.
Si les autres pages sur le même sujet sont globalement "pauvres" aussi, la page de Wikipedia, par effet de comparaison, cesse de l'être.
De plus, comme les sites dans ce genre de thématique sont rares par manque d'intérêt de la part du grand public, leur autorité est faible, alors que l'autorité de Wikipedia est par nature élevée puisque nourrie par les sujets plus généralistes, ce qui lui permet de rafler la mise avec pas grand chose dans ce type de niche.

corinaburri · 11 Juin 2022

Bonjour Rankienb
Problème 1: J'avais le même problème et j'en ai demandé à John Müller de Google. Et oui, il confirme que la page et sa version pdf se font concurrence. Mais que en générale les PDFs ont une mauvaise ranking comparé avec la page:
"“For the most part, PDFs will probably be less visible because they’re less tied in with the rest of your website. In the internal linking, you’ll link to the web pages and then from one of those web pages you’ll link to the PDF so they’ll be a little bit kind of ‘deemphasised’“"