Duplicate content avec pdf et contenu pauvre créé par les utilisateurs

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par Rankienb, 1 Mars 2020.

  1. Rankienb
    Rankienb Nouveau WRInaute
    Inscrit:
    1 Mars 2020
    Messages:
    1
    J'aime reçus:
    0
    Bonjour à tous,

    Je souhaiterai avoir votre avis concernant des problèmes remarqués sur un site internet que j'administre.

    Il s'agit d'un site avec une partie articles et une partie forum, tous les contenus sont créés par les utilisateurs (publication d'articles par certains contributeurs, et le fonctionnement normal d'un forum).


    Problème 1 - Duplicate content interne :

    Pour chaque article, chaque sujet du forum, il existe une version .pdf de l'article ou du sujet. Ces pdf sont crawlés par googlebot, une partie est indexée et génère du trafic. Le trafic est cependant minime (1% du trafic du site).

    Sur les 1000 requêtes générant le plus de clics vers les .pdf, 282 contiennent le terme "pdf". Ça signifie donc que potentiellement pour les 718 autres requêtes la version "normale" de la page et sa version pdf se font concurrence.

    On est donc face à du duplicate content massif et potentiellement des urls qui se cannibalisent.

    Je pensais donc :

    Qu'en pensez vous ?


    Problème 2 - Contenu "pauvre" généré par l'utilisateur :

    Comme je le disais, tout le contenu est créé par les utilisateurs. Il faut également savoir que le site date de 2008-2009. Il y a donc énormément de sujets du forum/articles publiés il y a quelques années qui sont pauvres en contenus.
    Par exemple : des sujets avec aucune ou peu de réponses, ou bien des articles très courts et/ou dont le contenu n'est plus du tout d'actualité.

    Ces pages n'intéressent pas Google, qui ne les indexe pas. On gaspille ainsi du budget crawl et par ailleurs, le site abordant des thématiques YMYL, je crains que ça n'affecte l'image générale du site aux yeux de Google (j'entend par là que ça nuirait à notre EAT, parmi ces dizaines de milliers d'urls il y a forcément des contenus à la qualité douteuse).

    J'ai pensé à faire quelque chose comme ça : si la page date d'il y X années + qu'elle a moins de X vues, alors no-index.

    Pensez-vous que ça soit pertinent ?


    Merci pour votre attention,
    Rankienb
     
    #1 Rankienb, 1 Mars 2020
    Dernière édition: 1 Mars 2020
  2. John13
    John13 WRInaute discret
    Inscrit:
    6 Janvier 2020
    Messages:
    69
    J'aime reçus:
    1
    Bonsoir,

    Je ne suis pas sûr que google gaspille du temps à crawl ce genre de vielle page, sans contenu ou presque. Je ne pense donc pas que le budget crawl soit impacté pas ce genre de chose.

    Concernant l'image du site, je pense que Google est suffisamment "intelligent" pour faire la part des choses dans ce genre de situation, mais cela n’empêche pas dans un souci de clarté de faire un peu de tri oui.

    Pour ce qui est du problème 1, je dirais que dans ce cas une url canonique est suffisante pour éviter les soucis de duplicate.

    Je ne suis pas expert en la matière donc mon avis n'engage que moi.

    Bonne soirée.

    John.
     
  3. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 162
    J'aime reçus:
    174
    Problème 1 : le duplicate content interne ne pénalise pas
    la preuve :
    [​IMG]

    Problème 2 : le budget crawl est un ajustement par google de sa fréquence de crawl en fonction de la popularité de la page, de sa fréquence de mise à jour, de sa fraicheur, etc...
    Ce n'est pas en supprimant (les mettant en noindex) les pages qui sont rarement crawlées que ça va apporter plus de budget aux autres pages qui resteront ajustées comme google l'a décidé

    Problème numéro 3 : on va bientôt passer plus de temps sur archive.org que sur google si tout le monde met ses pages en noindex sous prétexte qu'elles ne font pas le buzz. Google c'est un moteur de recherche. En tant qu'utilisateur d'un moteur de recherche j'aime bien trouver ce que je cherche. Mais pour trouver il faut au moins que ce soit dans l'index.
     
  4. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 162
    J'aime reçus:
    174
    Par contre, oui, le contenu pauvre pénalise énormément. Mais ça n'a strictement rien à voir avec le budget crawl qu'on met à toutes les sauces aujourd'hui.
    Rien a voir non plus avec les pages zombies dont certains parlent aussi à tout bout de champ et dont je doute que ce concept existe.
    Il y a une époque on parlait de la masse noire. C'était des pages dont on ne se doute même pas de l'existence et qui sont présentes sur le site et sont indexées alors qu'elles ne devraient même pas exister ou ne servent à rien. Ça c'est un fait et il faut effectivement leur faire la chasse.
    Les pages pauvres sont aussi à proscrire. Pas en les supprimant, mais en les enrichissant.

    Et ce n'est pas parce qu'une page est peu consultée que ça signifie qu'elle n'est pas riche et ne mérite pas d'être indexée.
     
  5. John13
    John13 WRInaute discret
    Inscrit:
    6 Janvier 2020
    Messages:
    69
    J'aime reçus:
    1
    Bonjour,

    @indigene Tu parles des pages concernées ou du site en général qui serait pénalisé ?

    Et qu'entends tu par "contenu pauvre" ?

    Merci.

    John.
     
  6. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    4 162
    J'aime reçus:
    174
    le site entier qui est pénalisé si le taux de pages pauvres est trop élevé

    Un contenu pauvre c'est par exemple la page de wikipedia quand tu cherches maskilili
     
  7. John13
    John13 WRInaute discret
    Inscrit:
    6 Janvier 2020
    Messages:
    69
    J'aime reçus:
    1
    Il y a pourtant tout un tas de sites très connus qui ont de nombreuses pages au contenu pauvre.

    Je prends un exemple qui n'est peu être pas le bon, car FB, c'est FB, mais quand un visiteur est sur son profil, le contenu est de la page est pauvre.

    Une fois de plus, l'exemple n'est sans doute pas le meilleur, mais ce ne sont pas les exemples du genre qui manquent.


    Comment l'expliques-tu ?

    John.
     
  8. theunholy
    theunholy WRInaute occasionnel
    Inscrit:
    6 Août 2013
    Messages:
    361
    J'aime reçus:
    51
    Il faut voir par rapport à quoi.
    Si les autres pages sur le même sujet sont globalement "pauvres" aussi, la page de Wikipedia, par effet de comparaison, cesse de l'être.
    De plus, comme les sites dans ce genre de thématique sont rares par manque d'intérêt de la part du grand public, leur autorité est faible, alors que l'autorité de Wikipedia est par nature élevée puisque nourrie par les sujets plus généralistes, ce qui lui permet de rafler la mise avec pas grand chose dans ce type de niche.
     
Chargement...
Similar Threads - Duplicate content contenu Forum Date
Un contenu serait publié deux endroits/URLs différents, comment éviter le duplicated content ? Référencement Google 2 Octobre 2019
Duplicate Content : 5 sites pour 5 villes avec contenu identique Rédaction web et référencement 16 Mai 2019
Duplicate content, 2 sites, même contenu. Comment limiter les dégâts ? Débuter en référencement 17 Juin 2014
Duplicate content et qlq lignes de contenus Débuter en référencement 12 Septembre 2011
Duplicate content, "échange contenu" contre visibilité" Débuter en référencement 26 Février 2011
Canonical, pour éviter le duplicate content mais si le contenu est semi unique Débuter en référencement 26 Décembre 2010
Duplicate content/ contenu dupliqué c'est quoi ? Débuter en référencement 13 Octobre 2010
Outil de vérification de plagiat ou de duplication de contenu (duplicate content) Demandes d'avis et de conseils sur vos sites 24 Juillet 2010
Les plateformes Vidéo et le Contenu Dupliqué (Duplicate Content) YouTube, Google Images et Google Maps 14 Mai 2010
Optimisations SEO si : déménagement + peu de contenu (duplicate content ?) + multilingue Débuter en référencement 8 Février 2010