Syndication de contenus : quelle stratégie éviterait d'être pénalisé pour duplication ?

Nouveau WRInaute
Bonjour à tous,

Je suis webmaster de deux sites internet, l'un qui est un extranet (site 1) fermé et nécessitant une connexion pour la cible A et l'autre site internet (site 2)complètement ouvert pour la cible B.
Le site 1 génère beaucoup de contenus quotidien poussé par une lettre quotidienne vers la cible A, cible qui est principalement constituée de conseillers de la cible B (du site 2). Une syndication des contenus du site 1 est actuellement possible mais n'est faite que pour des extranets fermés, sans délai de rétention des contenus.
Le site 2 récupère une partie des contenus du site 1 et d'autres contenus sont construits spécifiquement pour le site avec une mise en ligne de contenu hebdomadaire et un contenu poussé par newsletter hebdomadaire vers la cible B.
Ainsi, nous mettons à disposition du contenu depuis le site 1 fermé aux conseilleurs (cible A) tout le début de la semaine en leur laissant le temps de diffuser l'info auprès de la cible B, et nous donnons ensuite une partie de l'information en fin de semaine à la cible B.
Nous avons maintenant des demandes pour mettre en place des syndications de contenus (RSS par exemple) de notre site 1 sur des sites internet complètement ouverts et accessibles. Nous avons plusieurs demandes. Seulement, puisque notre site 2 reprend en partie du contenu du site 1 en fin de semaine, nous aurons le problème d'indexation de contenus duppliqués, dont nous sommes propriétaires.
L'information que nous produisons est jugée comme étant de bonne ou très bonne qualité sur le fond, riche et utile pour nos cibles. J'ai donc lu les articles et les infos présentes à cette adresse : https://www.webrankinfo.com/dossiers/techniques/dupliquer-avec-autorisation et je cherche à voir comment éviter les problèmes de duplication de contenus.
Mon premier (plus gros problème je pense) est que le contenu "dupliqué" et mis à disposition sur les autres sites ouverts va arriver et se faire indexer avant qu'il ne soit sur le site 2.
Hypothèse 1 : on demande aux sites qui bénéficient des syndications de mettre en place tout ce qui est cité dans le dossier des contenus dupliqués (lien source vers le site 1, auteur, etc...) mais le contenu qui arriverait sur le site 2 serait vu comme contenu dupliqué (alors que nous cherchons à bien le référencer). De plus, comme le site 1 n'est pas publique, Google ne peut pas confirmer la source des articles mis à disposition sur les autres sites. On pourrait également mettre sur le site 2 le sourcing de l'information et indiquer que les infos "dupliquées" proviennent du site 2.
--> les sites partenaires/clients et le site 2 seraient tous vus comme utilisant du contenu possiblement dupliqué, mais dont le source n'est pas vérifiable car non accessible.
Hypothèse 2 : pour les sites que l'on alimenterait en contenu, s'ils sont en accès libre, alors le site 1 (privatif) ne peut pas fournir de contenu, seul le site 2 peut le faire pour être le moins pénalisé (avec tout ce qu'il faut sur les sites récupérateurs pour indiquer que le contenu vient du site 2).
--> on maîtrise mieux l'aspect source et propriété de l'information que l'on propose, mais on perd en rapidité de mise à disposition de cette information, et donc de sa valeur intrinsèque (information fortement liée au temps et pouvant se périmer rapidement).
Hypothèse 3 : il n'est pas possible de tout avoir, c'est à dire de pouvoir pousser des contenus sur d'autres sites partenaires/clients ouverts à tout le monde et ensuite, avec un délai de plusieurs jours, sur le site 2 sans avoir des gros problèmes de contenus dupliqués et de propriété relevés par Google.
--> Choisir entre la notoriété et le référencement du site 2 et la valeur que l'on peut retirer d'une diffusion plus rapide des infos du site 1 sur les sites tiers (on ne peut pas avoir le beurre, l'argent du beurre, le sourire de la crémière, etc...).

Y aurait-il une hypothèse que j'aurai oubliée ? un moyen de pouvoir autre permettant de ne pas pénaliser notre site ouvert à tous et permettant également de proposer un partie de son contenu avant qu'il soit accessible sur des sites tiers ?

Je pense que j'ai déjà un peu la réponse (hypothèse 3), mais il y a peut-être d'autres solutions.

Je vous remercie par avance de vos retours.

Cordialement

ME45
 
WRInaute accro
syndiquer du contenu non "public" c'est déjà un contresens à la base ... :wink: Bref tu ne peux syndiquer que ce qui est sur le site 2. Ensuite je t'invite a rédiger tes flux de façon a ne pas reproduire ce qui émane du site 2 du coup pas de descriptions dupliquées chez toi mais une incitation rédigée tout exprès qui sera dupliquée ailleurs éventuellement (mais c'est leur problème) et des liens qui conduisent vers du contenu intégral public ...

Si tu veux en revanche avoir une certaine primeur et prendre en compte l'altération de l'info fait le par un autre canal que les flux RSS comme les mails par exemple qui eux ne sont pas sujet a l'indexation et qui peuvent sous tendre une connexion au site 1.

Une autre approche serait de rendre public une partie du site 1 (une partie des pages) pour que tu puisse le lier via ton flux et ne donner tout le contenu qu'a des utilisateurs connectés.
 
Nouveau WRInaute
Bonjour,

Merci pour cette première réponse. Syndiquer du contenu non public n'est pas forcément un contresens si cette syndication est soumise à une contractualisation entre les deux parties.
Dans l'actuelle syndication, vers des sites tiers privatifs avec qui nous avons contractualisé la syndication, il y a un flux RSS qui part du site 1 et le détail des infos n'est consultable que sur une page "marque blanche" de notre site 1 mais pour laquelle il y a une connexion (automatique mais nécessaire) pour voir le contenu.
Ce que recherchent certains de nos clients et partenaires potentiels, c'est de récupérer du contenu de qualité, abondés de façon très fréquente (quotidienne si possible) pour inciter leurs propres internautes à venir chez eux et à trouver presque tout ce qui les intéressent au même endroit mais sur un site ouvert à tous (c'est là qu'est le problème...).
Donc, la seule solution que l'on peut raisonnablement envisager serait de faire une syndication du contenu du site 2 pour les sites tiers qui seraient ouverts et de ne pas mettre les balises référencement dans le flux rss ou plus spécifique de la syndication pour éviter d'avoir les mêmes contenus des champs "title" et "description" (que nous remplissons consciencieusement en même temps que nos articles) ?
Par contre, forcément, le contenu issu du site 2 ne pourra pas être mis en primeur sur les sites tiers avant leur publication effective sur le site 2. La meilleure solution serait donc d'avoir 2 syndications différentes car il y a deux objectifs différents en fonction du type des sites tiers :
- site extranet avec accès privatif : proposer du contenu frais, en avant première par rapport à ce qui est publique et permettant une valorisation auprès de la cible B avant que cette cible ne trouve l'info sur notre site 2.
- site tiers ouvert à tous : faire attention à ce que Google nous voit comme étant auteur de notre information et à ne pas déréférencer l'information que nous produisons avec celle que nous envoyons chez nos partenaires/clients.

Y aurait il d'autres pistes ou solutions ?
 
WRInaute accro
ME45 a dit:
faire attention à ce que Google nous voit comme étant auteur de notre information
A mon avis le vrai souci il est là à la base, car il n'y a a priori aucun moyen de baliser un contenu web pour se proclamer "auteur", sauf a le publier bien en amont de toute copie donc d'être crawlé le premier et d'avoir assez de "trustrank" pour rester le premier présent sur ce contenu.

Sinon je ne vois pas de solution évidente a titre perso.
 
Nouveau WRInaute
Même si nous avons une certaine notoriété et autorité dans notre domaine, pour être sûr d'être vu comme propriétaire d'un contenu chez Google, si nous mettons en place une syndication sur le contenu du site 2 (ouvert à tous), il nous faut provoquer une visite des googlebot dès la parution d'une info chez nous, via un partage de notre info avec Google+ et peut-être une petite période de rétention de l'info avant diffusion chez des tiers.
Ce serait la meilleure des solutions ? ou la moins mauvaise ?
 
WRInaute accro
ME45 a dit:
il nous faut provoquer une visite des googlebot dès la parution d'une info chez nous, via un partage de notre info avec Google+ et peut-être une petite période de rétention de l'info avant diffusion chez des tiers.
Ce serait la meilleure des solutions ? ou la moins mauvaise ?
Partage oui c'est une bonne idée (j'ai pas vérifié si cela provoquait un passage du bot d'indexation), perso j'ajoute toujours les nouveautés a l'accueil (lien vers la nouvelle pages car accueil plus crawlé que le reste), la période de rétention est une bonne idée (histoire de se donner de la marge et en pas casser une primo publication "buzz"), tu peux aussi assortir ton contenu d'un lien interne (si il est repris avec du contenu ça renforce la notion de source), quand a dire si c'est la meilleure ou la moins mauvaise c'est délicat ce qui ressort du forum pour moi c'est qu'on est plusieurs a se faire copier volontairement, ou pas, et que c'est la notoriété du site (par rapport au thème du contenu) qui fait la différence... :?
Note aussi que les vieux outils comme pingomatic peuvent intervenir pour induire l'indexation ... (là encore même si je ping manuellement encore mes nouveautés je n'ai pas vérifié que les bots passaient tous derrière)

Le cas du DC est en revanche plus délicat et je me demande si tu as les moyens ou pas car une solution simple serait de te réserver l'original de l'article et de ne diffuser a tes partenaires que des versions spinnées (de qualité bien sur donc avec un master spinn fait a la main et portant sur des tournures de phrases plus que de simple synonymes).
Certes cette idée apporte un surcout de production non négligeable, en revanche elle permet de mettre en place une plus value importante au niveau de tes partenariats donc par ricochet une grosse plus value vis a vis de tes espérances SEO ... Je pense en effet que trouver des partenaires pour publier un contenu pertinent inédit (car bien spinné) sont plus facile a trouver que de simple relais de contenu syndiqué et que par là même tu peux relever d'un cran tes prétentions SEO en demandant du linking très performant et varié a loisir ...
 
Nouveau WRInaute
Les nouveaux contenus sont accessibles rapidement depuis la page d'accueil du site et de façon automatique sans avoir besoin de les pousser. Nous pratiquons aussi beaucoup le maillage interne au site (maillage qui apporte de la pertinence à ce que l'on dit bien sûr) et vers des sites satellites.
Nous faisons déjà un vrai effort au niveau de la rédaction pour produire des contenus créés par des spécialistes de notre domaines et retravaillés par des journalistes qui mettent en ligne l'information, ainsi que le référencement. Utiliser une mécanique de "spinnage" me paraît vraiment délicat, d'autant que les termes techniques que nous utilisons sont souvent peu remplaçables pour les contextes dans lesquels ils sont utilisés.
Nous mettons souvent des images explicatives, des graphiques ou des tableaux complexes en images dans nos articles et les contenus hébergés sur des sites tiers appellent ces images sur nos serveurs. Est-ce que cela encouragerait Google a nous voir en tant que propriétaire de l'information "globale" de l'article en syndication ?
En digérant un peu tout ce qui a été dit, un des moyens de pouvoir à la fois répondre à la demande de nos clients/partenaires et à continuer à augmenter notre référencement serait de proposer des articles "publiques" en syndication avec une valeur modérée (mais reconnue) et de mettre dans ces contenus dupliqués des liens vers des contenus de notre site à forte valeur ajoutée, non dupliqué, et ainsi augmenter le référencement de ces contenus stratégiques. Cela permettrait de répondre à peu près aux différentes attentes, ai-je tout compris ?
 
Nouveau WRInaute
Les duplications de textes sont interdites et pénalisées. Il faut donc rédiger soi-même ses articles pour être sûr de ne pas faire de copier-coller. Car même si l'on s'inspire juste quelquefois nous sommes tentés de recopier certaines phrases.
 
Nouveau WRInaute
On ne peut pas dire que les duplications de textes soient interdites entre deux parties, surtout si elles se sont mises d'accord et que les mentions des sources étant dans cet accord sont respectées et mises en place sur le site récupérant les informations de la syndication.
En balayant de nouveau le site WRI, j'ai donc vu ces article sur la syndication, les balises meta et les données structurées :
- https://www.webrankinfo.com/dossiers/google-news/syndication-source-original-source
- https://www.webrankinfo.com/dossiers/techniques/guide-balises-meta
- https://www.webrankinfo.com/dossiers/indexation/schema-org

Je pense que pour bien faire les choses, je n'échapperai pas à un certain nombre d'éléments à mettre en place sur mes sites, et à demander à ce que certaines choses soient sur les sites récupérant les contenus en syndication.
Voici ce que je compte mettre en place :
- balise url canonique (surtout pour éviter d'avoir du contenu dupliqué sur mes sites entre les urls techniques et les urls réécrites, ce qui est un peu le cas en ce moment)
- balise meta syndication-source sur les pages dont le contenu peut être en syndication
- mise en place du http://schema.org/NewsArticle pour les contenus afin d'accentuer dans le référencement de google les articles (contenus mis en syndication) les éléments à indexer (titre, auteur, date de publication, etc...)

Je demanderai aux webmasters des sites récupérant notre contenu via une syndication de mettre :
- la balise meta syndication-source
- un lien actif au minimum en bas du contenu repris vers le contenu source

Est-ce que j'aurai oublié des choses importantes à mettre en place ou sur lesquelles je dois faire très attention ?

Je vous remercie de vos retours.

Bonne journée
 
Discussions similaires
Haut