Duplicate content avec pdf et contenu pauvre créé par les utilisateurs

Nouveau WRInaute
Bonjour à tous,

Je souhaiterai avoir votre avis concernant des problèmes remarqués sur un site internet que j'administre.

Il s'agit d'un site avec une partie articles et une partie forum, tous les contenus sont créés par les utilisateurs (publication d'articles par certains contributeurs, et le fonctionnement normal d'un forum).


Problème 1 - Duplicate content interne :

Pour chaque article, chaque sujet du forum, il existe une version .pdf de l'article ou du sujet. Ces pdf sont crawlés par googlebot, une partie est indexée et génère du trafic. Le trafic est cependant minime (1% du trafic du site).

Sur les 1000 requêtes générant le plus de clics vers les .pdf, 282 contiennent le terme "pdf". Ça signifie donc que potentiellement pour les 718 autres requêtes la version "normale" de la page et sa version pdf se font concurrence.

On est donc face à du duplicate content massif et potentiellement des urls qui se cannibalisent.

Je pensais donc :

Qu'en pensez vous ?


Problème 2 - Contenu "pauvre" généré par l'utilisateur :

Comme je le disais, tout le contenu est créé par les utilisateurs. Il faut également savoir que le site date de 2008-2009. Il y a donc énormément de sujets du forum/articles publiés il y a quelques années qui sont pauvres en contenus.
Par exemple : des sujets avec aucune ou peu de réponses, ou bien des articles très courts et/ou dont le contenu n'est plus du tout d'actualité.

Ces pages n'intéressent pas Google, qui ne les indexe pas. On gaspille ainsi du budget crawl et par ailleurs, le site abordant des thématiques YMYL, je crains que ça n'affecte l'image générale du site aux yeux de Google (j'entend par là que ça nuirait à notre EAT, parmi ces dizaines de milliers d'urls il y a forcément des contenus à la qualité douteuse).

J'ai pensé à faire quelque chose comme ça : si la page date d'il y X années + qu'elle a moins de X vues, alors no-index.

Pensez-vous que ça soit pertinent ?


Merci pour votre attention,
Rankienb
 
Dernière édition:
WRInaute discret
Bonsoir,

Je ne suis pas sûr que google gaspille du temps à crawl ce genre de vielle page, sans contenu ou presque. Je ne pense donc pas que le budget crawl soit impacté pas ce genre de chose.

Concernant l'image du site, je pense que Google est suffisamment "intelligent" pour faire la part des choses dans ce genre de situation, mais cela n’empêche pas dans un souci de clarté de faire un peu de tri oui.

Pour ce qui est du problème 1, je dirais que dans ce cas une url canonique est suffisante pour éviter les soucis de duplicate.

Je ne suis pas expert en la matière donc mon avis n'engage que moi.

Bonne soirée.

John.
 
WRInaute accro
Problème 1 : le duplicate content interne ne pénalise pas
la preuve :
fairedushour.JPG


Problème 2 : le budget crawl est un ajustement par google de sa fréquence de crawl en fonction de la popularité de la page, de sa fréquence de mise à jour, de sa fraicheur, etc...
Ce n'est pas en supprimant (les mettant en noindex) les pages qui sont rarement crawlées que ça va apporter plus de budget aux autres pages qui resteront ajustées comme google l'a décidé

Problème numéro 3 : on va bientôt passer plus de temps sur archive.org que sur google si tout le monde met ses pages en noindex sous prétexte qu'elles ne font pas le buzz. Google c'est un moteur de recherche. En tant qu'utilisateur d'un moteur de recherche j'aime bien trouver ce que je cherche. Mais pour trouver il faut au moins que ce soit dans l'index.
 
WRInaute accro
Par contre, oui, le contenu pauvre pénalise énormément. Mais ça n'a strictement rien à voir avec le budget crawl qu'on met à toutes les sauces aujourd'hui.
Rien a voir non plus avec les pages zombies dont certains parlent aussi à tout bout de champ et dont je doute que ce concept existe.
Il y a une époque on parlait de la masse noire. C'était des pages dont on ne se doute même pas de l'existence et qui sont présentes sur le site et sont indexées alors qu'elles ne devraient même pas exister ou ne servent à rien. Ça c'est un fait et il faut effectivement leur faire la chasse.
Les pages pauvres sont aussi à proscrire. Pas en les supprimant, mais en les enrichissant.

Et ce n'est pas parce qu'une page est peu consultée que ça signifie qu'elle n'est pas riche et ne mérite pas d'être indexée.
 
WRInaute accro
le site entier qui est pénalisé si le taux de pages pauvres est trop élevé

Un contenu pauvre c'est par exemple la page de wikipedia quand tu cherches maskilili
 
WRInaute discret
Il y a pourtant tout un tas de sites très connus qui ont de nombreuses pages au contenu pauvre.

Je prends un exemple qui n'est peu être pas le bon, car FB, c'est FB, mais quand un visiteur est sur son profil, le contenu est de la page est pauvre.

Une fois de plus, l'exemple n'est sans doute pas le meilleur, mais ce ne sont pas les exemples du genre qui manquent.


Comment l'expliques-tu ?

John.
 
WRInaute impliqué
le site entier qui est pénalisé si le taux de pages pauvres est trop élevé

Un contenu pauvre c'est par exemple la page de wikipedia quand tu cherches maskilili

Il faut voir par rapport à quoi.
Si les autres pages sur le même sujet sont globalement "pauvres" aussi, la page de Wikipedia, par effet de comparaison, cesse de l'être.
De plus, comme les sites dans ce genre de thématique sont rares par manque d'intérêt de la part du grand public, leur autorité est faible, alors que l'autorité de Wikipedia est par nature élevée puisque nourrie par les sujets plus généralistes, ce qui lui permet de rafler la mise avec pas grand chose dans ce type de niche.
 
Nouveau WRInaute
Bonjour Rankienb
Problème 1: J'avais le même problème et j'en ai demandé à John Müller de Google. Et oui, il confirme que la page et sa version pdf se font concurrence. Mais que en générale les PDFs ont une mauvaise ranking comparé avec la page:
"“For the most part, PDFs will probably be less visible because they’re less tied in with the rest of your website. In the internal linking, you’ll link to the web pages and then from one of those web pages you’ll link to the PDF so they’ll be a little bit kind of ‘deemphasised’“"
 
Discussions similaires
Haut