Scrapping TheMovieDataBase et duplicate content

JocelynH · 20 Octobre 2019

Bonjour,

Je met en place un site sur le thème "disney+" (le service Vidéo). Site en construction.
Sur une partie du site, on retrouvera le catalogue complet de ce qui sera sur la plateforme. Afin de gagner énormément de temps, les infos de chaque film, série, acteur sont scrappés via l'API de TheMovieDataBase.
Mes questions sont donc:
- Le risque de Duplicate Content est évident. Comment faire pour dire à Google de ne pas tenir compte du contenu scrappé via l'api ?
- Au pire, si google met une pénalité, c'est juste sur les fiches infos des films, séries, acteur.. ou c'est sur tout le domaine?

Merci d'avance pour votre aide!
ps: url du site si besoin: https://programme-dplus.com/

passion · 20 Octobre 2019

© 2019 programme-dplus. All Rights Reserved.

Un site qui pompe le contenu des autres et qui veut protéger ses données !

JocelynH · 20 Octobre 2019

Merci pour cette réponse.
Le "all right reserved" est dans le thème que j'ai acheté et, comme précisé, site en construction (d'ailleurs ça se voit je pense. Je n'ai donc pas encore modifié plein de truc.
Le scrapp de TMDB avec leur API est autorisé, justement par TMDB. Ce n'est donc pas du pompage et je ne revendique pas du tout que c'est mon travail. (il faut par contre effectivement que je pense à mettre la source quelques part dans le footer).
Autre point, ce n'est justement pas ces fiches scrappées, mais le reste du site (donc les news, faq,... que je rédigerais. Je souhaite effectivement que le contenu que j'aurais rédigé moi-même ne soi pas pénalisé.
Merci d'avance pour l'aide

WebRankInfo · 20 Octobre 2019

si 100% du contenu des fiches vient d'ailleurs, autant ne pas les laisser se faire crawler ni indexer

JocelynH · 20 Octobre 2019

Merci pour ce retour
Y a pas 100% car je met à jour les infos et rajoute quelques lien vers des bandes annonce ou autre, mais quand je vérifié les quelques pages déjà faites avec l'outil https://smallseotools.com/plagiarism-checker/, je tombe souvent entre 20 et 50% de plagiarism sur l'ensemble de la page.
Cela me va bien de ne pas les faire crawler. Il y a un moyen de faire ça pour un ensemble de pages (ex: toutes les url commençant par programme-dplus/film/*? Ou saisir les url une par une dans un fichier robot.txt?

passion · 20 Octobre 2019

Et tu es certaine que TMDB ont une véritable autorisation ? Ce n'est pas parce qu'il le propose que c'est légal.
Si tu es française, tu es sous la loi française donc même diffuser ce genre de contenus provenant d'un site tiers héberger à l'étranger, ne te dispense pas de respecter les lois françaises concernant la protection intellectuelle. En hébergeant sur TON espace, tu en deviens responsable.

A moins que Disney+ a une api d'affiliation pour afficher sur ton site leurs contenus, je doute fortement que ce genre de sites soient légal. Si tu résides en France, attends-toi à recevoir un courrier d'avocat.
C'est comme si tu récupérais le contenu de netflix, canal+ etc... tu joues avec le feu (je pense)

Rien que pour utiliser une musique connue, tu dois payer des droits de la sacem avec scrapper ce genre de contenus... hum... de doute façon, tu le verras bien

JocelynH · 20 Octobre 2019

https://www.themoviedb.org/documentation/api/terms-of-use
A priori je serais dans les clous des que je met leur logo et comme quoi il ne sont pas responsable du contenu.
Du coup je me tatte à payer un truc sur 5euros pour modifier toutes les fiches...
Vous me mettez le doute !

passion · 20 Octobre 2019

JocelynH a dit:
comme quoi il ne sont pas responsable du contenu.

Pour la justice, en cas de litige, il faudra bien un responsable. Le coup du "ah c'est pas moi ?! Je ne savais pas ?!".
Quand tu vois à quel point la cnil nous a fait chier avec les RGPD (protection des données) alors là. C'est un site US donc loi US mais toi, tu rapatries ça chez toi donc tu en es responsable.
Enfin bon, tu verras bien

Mais cela risque d'être beaucoup de travail pour prendre des risques aussi gros. As-tu vu d'autres sites francophones utilisant le même genre de procédés que toi ?
Ce sera déjà une bonne façon de voir si d'autres ont pris le risque. S'il y en a pas, dis-toi qu'ils se sont ravisés

Wait and see.

JocelynH · 20 Octobre 2019

Merci pour l'avertissement. Cela me donne à réfléchir.
Je vais déjà faire en sorte que cela ne soit pas crawlé par Google (si je trouve la méthode). Le temps de concevoir le site définitif me laisse un peu de temps de reflexion.

WebRankInfo · 20 Octobre 2019

JocelynH a dit:
faire en sorte que cela ne soit pas crawlé par Google

si toutes les URL à bloquer sont dans un répertoire /fiches/ et qu'il n'y a rien d'autre dans ce répertoire, alors ceci suffit (doublé d'une meta robots noindex dans les fiches par sécurité)
Disallow: /fiches/

au-delà de ce pb de duplicate et du pb juridique, il faut se demander si les autres contenus du site sont bien d'une très haute valeur ajoutée, afin de se donner des chances de succès

JocelynH · 20 Octobre 2019

Super merci pour cette info.
Pour le contenu, oui j'ai pas trop de doute, j'ai un autre blog sur un sujet similaire qui se place pas mal sur le thème des plateformes de VOD officielles. Je cherche donc à créer un site dédié Disney+, un peu plus complet.

Merci encore pour toutes les infos !