Duplicate Content risqué ?

WRInaute accro
Bonjour

Le Directeur de mon site partenaire -http://www.lescourses.com , m'a confié la programmation du site -http://www.lespronostics.com Je l'ai convaincu que je le fasse en SPIP ( 2.1 ).

Il m'a dit : "Ce deuxième site sera la deuxième vitrine de mes pronostics".

Ce nouveau site, est sur le même serveur que l'ancien site, et exploite la même base de données.

Les pronostics de ce site, seront éventuellement différents, avec d'autres Pronostiqueurs que ceux du premier site. ;)

Pour l'instant, j'ai mis en place la Page d'Accueil, ainsi que les Partanst et les Arrivées. L'apparence graphique n'est pas encore étudiée. Le Monsieur m'a dit de faire tout le site d'abord, et que l'on verrait ensuite pour l'apparence graphique.

Comme le site est en train d'être programmé, j'ai mis à la racine du site le fichier robots.txt qui va bien, contenant les lignes suivantes :

User-agent: *
Disallow: /

Ceci pour éviter que Google ne commence un référencement mal fait, le site n'étant pas fini.

Le problème, c'est que le Monsieur, veut que je mette le même contenu ( à part les Pronostics, qui seront avec d'autres Pronostiqueurs que le site de départ ) pour le nouveau site que pour l'ancien site.

Celà veut dire, qu'un grand nombre de pages de l'ancien et du nouveau site, vont être identiques.

Dans ce cas, n'y a-t-il pas Duplicate Content sérieux entre deux sites différents ( et de même adresse ip, car ils sont situés sur le même serveur dédié ) ?

D'autre part, la structure du site telle que le Monsieur me l'a spécifiée, donne aux listes des Courses Partants, et des Courses Arrivées, les mêmes contenus pour la même Course, avec deux urls différentes.

Dans ce cas, le Duplicate Content est avéré, pour ces pages précisément, pour un seul site.

Ma question est : Quand Google va référencer le nouveau site, ne va-t-il pas sanctionner sérieusement le premier site, puis le second ?

Comment faire pour résoudre ce problème ?

Actuellement, le premier site ( -http://www.lescourses.com ) ne me semble pas avoir de Duplicate Content pratiquement, mais il n'a pas non plus d'url canonique dans le code.

Devrais-je mettre des urls canoniques dans le deuxième site, ou le second site ?

A ce moment-là, ne vaut-il pas mieux, pour garder le bon positionnement du premier site, mettre des urls canoniques dans ce premier site, mais que va devenir le second site, si je n'y met pas d'urls canoniques, vu qu'il sera en Duplicate Content ?

Merci beaucoup de vos réponses.

J'ajoute : Le nouveau site a des urls avec url-rewriting, mais l'ancien site a des urls classiques sans url-rewriting, avec des paramètres get. Il y a peu de paramètres, donc Google peut référencer les pages de l'ancien site.

Bien à vous.

Amicalement.

Jean-François Ortolo
 
WRInaute accro
Déjà premièrement je ne me fierait pas à un simple robots.txt pour empêcher l'indexation d'un site en cours de dev. Un .htaccess avec accès restreint me semble bien plus efficace. Et au moins tu ne risques pas de l'oublier le jour de la mise en prod.

Pour le reste je ne vois pas bien l'intérêt de créer un nouveau site qui affiche exactement les même infos que le premier, et qui en plus génère de lui-même du duplicate content.

Déjà pour le duplicate content de lui-même, il me semble important de mettre en place une canonical depuis les pages similaires vers celle que tu juges être la plus représentative.

Pour le duplicate content entre les deux sites par contre, je pense que la solution serait d'ajouter du contenu en plus, spécifique pour chacune des cours en questions (ce qui en plus donnerait plus de grain à moudre aux robots). Du genre l'historique de la course en question, ...
 
WRInaute accro
UsagiYojimbo a dit:
Déjà premièrement je ne me fierait pas à un simple robots.txt pour empêcher l'indexation d'un site en cours de dev. Un .htaccess avec accès restreint me semble bien plus efficace. Et au moins tu ne risques pas de l'oublier le jour de la mise en prod.

Pour le reste je ne vois pas bien l'intérêt de créer un nouveau site qui affiche exactement les même infos que le premier, et qui en plus génère de lui-même du duplicate content.

Déjà pour le duplicate content de lui-même, il me semble important de mettre en place une canonical depuis les pages similaires vers celle que tu juges être la plus représentative.

Pour le duplicate content entre les deux sites par contre, je pense que la solution serait d'ajouter du contenu en plus, spécifique pour chacune des cours en questions (ce qui en plus donnerait plus de grain à moudre aux robots). Du genre l'historique de la course en question, ...


Bonjour UsagiYojimbo

Le blème, c'est que le dirlo doit pouvoir suivre le développement du site au fur et à mesure.

Or, ce Monsieur se connecte à partir de plusieurs endroits différents, la plupart du temps en Wifi.

A part ça, pour ce qui est du Duplicate Content, je me verrais bien mettre tout le site -http://www.lescourses.com avec des urls canoniques.

S'il est vrai que les contenus des listes des Courses Partants et Arrivées du nouveau site pour la même Course, sont identiques à celui des listes des Courses de l'ancien site, le fait de mettre des urls canoniques systématiquement sur l'ancien site, pourrait-il résoudre le problème ?

Sachant, que dans ce cas il y aurait trois contenus identiques : deux contenus du nouveau site, et un contenu de l'ancien site pour chaque Course.

Est-il possible de résoudre un problème de Duplicate Content entre deux sites, avec des urls canoniques ?

Merci beaucoup de ta réponse.

Amicalement.

Jean-François Ortolo
 
WRInaute accro
Le fait d'avoir un htaccess a accès restreint n'est à mon sens pas dérangeant, pour peu que le client ait les accès.

Pour le reste, l'utilisation de canonical va cependant avoir comme effet que seule l'adresse pointée via la canonical soit indexée. Donc au final que le contenu du nouveau site ne va pas (du moins concernant ces pages) être indexé.
 
WRInaute accro
Le monsieur en question sait-il que de faire un design après, coûte plus cher qu'un design avant ? D'autant que le design permet de mieux structurer le contenu, sémantiquement parlant.
Partant de là pour moi, ce projet est pris à l'envers, le problème de duplicate ne fait que le confirmer, c'est la première question à se poser quand on veut faire un site.
 
WRInaute discret
bproductiv a dit:
Partant de là pour moi, ce projet est pris à l'envers, le problème de duplicate ne fait que le confirmer, c'est la première question à se poser quand on veut faire un site.

Effectivement, la démarche, est, dans sa globalité, quelque peu surprenante.
 
WRInaute accro
HawkEye a dit:
milkiway a dit:
Je plussoie quand à l'utilisation (impérative) d'un .htaccess pendant le développement.

J'en rajoute une couche s'il faut: .htaccess !!!


Bonjour

Quant au .htaccess

Je suppose que vous voulez dire par là : filtrer par adresses ip ou par noms d'hôtes.

Si vous envisagez d'autres méthodes spécifiques pour éviter le référencement, merci de me le dire, je la mettrai en place immédiatement.

Donc effectivement, des urls canoniques sont les seules possibilités.

Sachant que les urls de l'ancien site sont avec des paramètres get sans urlrewriting ( peu de paramètres, mais... ;( ), pensez-vous que si je veux ajouter les indications d'urls canoniques sur tout l'ancien site, ce soit nécessaire d'url rewriter tout l'ancien site ?

Actuellement, un site:www.lescourses.com inurl:www.lescourses.com rend quand même 418000 résultats...

Celà ne vaut pas le coup de faire une urlrewriting du site maintenant ?

Quant au principe des urls canoniques, c'est la seule possibilité que je vois, et d'après vos réponses, cela devrait être efficace ?

Est-ce que quand une url sur un site, a un contenu similaire à une autre url sur un autre site, celle-ci canonisée, l'url non canonisée transmet ou non, le PR qu'elle reçoit, aux liens qu'elle contient ?

En d'autre termes, une url non canonisée de ce type, ne subit-elle que l'inconvénient de ne pas être indexée ?

Merci beaucoup de vos réponses.

Amicalement.

Jean-François Ortolo
 
WRInaute accro
milkiway a dit:
Code:
order deny,allow
deny from all
allow from xxx.xxx.xxx.xxx


Bonsoir milkiway

C'est bien ce que je pensais...

Je ne peux pas savoir à priori, de quelles adresses ip mon dirlo va visiter son nouveau site, vu qu'il utilise en général une connexion Wifi.

La solution .htaccess n'est donc pas faisable.

Bien à vous.

Amicalement.

Jean-François Ortolo
 
WRInaute accro
milkiway a dit:
Dans ce cas il faut lui donner un accès par identification apache.
Je te conseille la lecture de ce guide de protection pas mot de passe via htpasswd.


Bonsoir milkiway

Ok, l'identification Apache par .htaccess, je sais faire, c'est très facile.

Ca ne va pas plaire au dirlo, d'avoir à s'identifier pour visiter son site...

Et puis... Quel inconvénient réel, pour les quelques pauvres moteurs ( qui sont tous autres que Google ) qui ne respectent pas les robots.txt ?

Merci beaucoup de vos réponses.

Amicalement.

Jean-François Ortolo
 
WRInaute accro
Détrompe toi, même Google peut venir et zapper ton fichier robots.txt, ce ne sont que des indications, il fait ce qu'il veut de ce qu'il contient.

Si aucune de ces solutions ne conveiennent, places un cookie sur le/les machines de ton patron et vérifie sa présence sur chaque page du site en développement. Pas de cookie, pas de pages.

Et si ça ne convient pas, change de patron ;)
 
WRInaute accro
milkiway a dit:
Détrompe toi, même Google peut venir et zapper ton fichier robots.txt, ce ne sont que des indications, il fait ce qu'il veut de ce qu'il contient.

Si aucune de ces solutions ne conveiennent, places un cookie sur le/les machines de ton patron et vérifie sa présence sur chaque page du site en développement. Pas de cookie, pas de pages.

Et si ça ne convient pas, change de patron ;)


Bonsoir milkiway

Ce n'est pas mon patron.

Plus exactement, je ne suis pas salarié, je fais cela au noir pour un prix modique ( 600 euros net pour le site mis au point avec interface de paiement. ).

Ce Monsieur est le Directeur de mon site partenaire, et me donne accès ( accès facile ) à la base de données de son site pour mon site, contre le fait pour son site de disposer de mes pronostics, de manère quotidienne et automatique.

En fait, ce n'est pas un échange, car son autorisation écrite ne mentionne aucun service en échange, mais depuis que je connais ce Monsieur ( depuis environ Février 2002 où j'ai mis mon site sur le net ), je reconnais que ce Monsieur est très gentil, et m'a apporté des opportunités de services de programmation html + php que je lui ai faites, contre menu argent, ne dépassant pas 700 euros par an.

C'est un Monsieur très gentil et compréhensif, et notre partenariat m'a beaucoup apporté sur le plan psychologique, même si sur le plan financier, comme je l'ai dit, cela ne dépasse pas 700 euros/an.

J'ai mis cette limite de moi-même, car je n'avais pas la possibilité de gagner de l'argent déclaré, à cause du fait que mon Allocation Adulte Handicapé, est soumise à des conditions de ressources draconiennes, où le moindre centime déclaré par an, dminuerait mes revenus mensuels, d'un peu plus de 100 euros, qui est l'Allocation d'Autonomie. Sans compter le fait que l'A.A.H. est diminuée au prorata des sommes gagnées.

Sans vouloir être un "accro de la dernière heure" pour appeler ça comme ça, un cookie n'est pas viable ni sûr, d'abord parce que je n'ai pas accès à toutes les machines que le dirlo utilise, et ensuite, les navigateurs la plupart du temps, sont configurés pour "perdre" les cookies quand ils sont arrêtés.

Par ailleurs, la solution authentification Apache par .htaccess .htpasswd, ça pourrait être viable en s'arrangeant pour que le module de paiment Allopass soit compatible. Je dois implanter ce module ( même logique que pour l'ancien site ) dans quelques jours.

Je suis quand même content de constater d'après vos réactions, que la solution des urls canoniques soit fiable, même pour deux sites différents.

Enfin, c'est fort possible que je change d'ici peu le mode de sécurisation des logins de l'ancien site, pour éviter qu'un hacker trouve le moyen d'imposer la variable de session qui signe le fait d'être authentifié.

Merci beaucoup de vos réponses.

Amicalement.

Jean-François Ortolo
 
WRInaute discret
600€ pour le site ! Tu te brades, Pete.
Mais je comprends la démarche. Comme dit ci-dessus, tu devrais essayer de voir si le statut d'AE est pas compatible avec ton statut actuel.
 
WRInaute accro
artscoop a dit:
600€ pour le site ! Tu te brades, Pete.
Mais je comprends la démarche. Comme dit ci-dessus, tu devrais essayer de voir si le statut d'AE est pas compatible avec ton statut actuel.


Bonjour artscoop

Ben c'est comme ça... ;(

L'Allocation d'Autonomie, n'est versée que si j'ai le "taux plein", c'est-à-dire 0 euro de revenus imposable l'année précédente.

Dès 1 cent de revenu, j'ai 104 euros/mois en moins.

De plus, le montant de l'A.A.H. est calculé au prorata du revenu imposable de l'année précédente.

Celà veut dire en fait, que son montant annuel est diminué d'un montant pratiquement égal aux revenus imposables.

Sans compter, que si j'avais des revenus imposables, j'aurais des sur loyers l'année suivante, pour mon logement conventionné. Et une diminution de mon A.P.L.. ( Aide Personalisée au Logement ).

Celà, quel que soit le statut social de l'entreprise ( A.E. ou pas ) et quel que soit mon statut ( Travailleur Handicapé Catégorie B ).

Voilà...

J'ai BAC + 3 non achevées à l'ESME Sudria jusqu'en 1978, + 3 stages d'Informatique Bac+2, Bac+2 et Bac+4 tous excellent je suis compétent ( je crois ), mais aucune entreprise ne m'a jamais mis le pieds à l'étrier, à part la Sligos en 1982, trois mois de période d'essai terminés piteusement par un renvoi.

Ma deuxième expérience professionnelle ;( Le Directeur de cete boîte d'Analyse Biologique médicale, voulait que je fasse une base de Données Tri QuickSort... Sur un micro-ordinateur Commodore 8032 sous le système d'exploitation PET/CBM... Pas de disque dur à l'époque, que des disquettes... En langage BASIC.

Impossible de grouper les lectures/enregistrements de données en disquettes, à cause du langage BASIC qui ne le permettait pas. Donc Tri QuickSort impossible... J'ai donné ma démission, voyant le peu de dialogue à attendre du Grand Chef Sioux... ;)

Après ? Rien...

2 stages d'Informatique en 1993 et 1997 ( voir plus haut ).

Ce n'est pas de la discrimination... Je ne crois pas...

Bien à vous.

Amicalement.

Jean-François Ortolo
 
Discussions similaires
Haut