Load balancing et duplication de contenu

WRInaute discret
Hello la communauté :)

Je possède un blog qui propose de la video en stream. Pour des raisons de montées en charge mes vidéos sont dupliquées et hébergées sur des serveurs différents.
Une même vidéo est ainsi présente sur http://www.exemple.com/video1, www1.exemple.com/video1, www2.exemple.com/video1

Cette structure présente-t-elle à vos yeux une duplication de contenu et si oui comment avez-vous réglé ce problème ?

Je précise que chacune de mes pages possède sa balise canonique.
 
WRInaute discret
Oui il y a une duplication de contenu ;)

Pour résoudre se problème il faut faire le load balancing au niveau du serveur DNS c'est a dire que parfois pour le www il donne l'adresse d'une machine et l'autre fois il donne l'adresse d'une deuxième machine...
 
WRInaute occasionnel
tu peux peut être regarder du coté de haproxy qui devrait répondre à tes besoins. En cherchant (très) vite sur google j'ai vu qu'il y avait pas mal de tutorial. De mémoire, il est très puissant et "relativement" simple à faire fonctionner.
 
WRInaute accro
Effectivement, un load-balancing DNS ou via un reverse proxy (haproxy, pound...) est probablement une meilleure idée. Sinon dans le pire des cas tu peux utiliser une balise <link rel="canonical" href="urldebase"> sur chaque page (qui indique par exemple le www).

Jacques.
 
WRInaute accro
Jacques, www2 et www sont deux sites/domaines distincts pour Google et la balise canonical ne permet que de proposer une page en interne.
 
WRInaute accro
Ce n'est pas ce que dit Google:

https://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=139394 a dit:
Can rel="canonical" be used to suggest a canonical url on a completely different domain?

There are situations where it's not easily possible to set up redirects. This could be the case when you need to migrate to a new domain name using a web server that cannot create server-side redirects. In this case, you can use the rel="canonical" link element to specify the exact URL of the domain preferred for indexing. While the rel="canonical" link element is seen as a hint and not an absolute directive, we do try to follow it where possible.

Jacques.
 
WRInaute accro
Et bien je pense que c'est tout nouveau car jusque là, sauf erreur de ma part, ils indiquaient le contraire.
Il est d'ailleurs indiqué (ainsi que sur la version française) "updated 10/11/2010 / Mise à jour 10/11/2010".
 
WRInaute accro
Sur leur blog ils donnent la date de mise en place de cette évolution :

Can this link tag be used to suggest a canonical URL on a completely different domain?
**Update on 12/17/2009: The answer is yes! We now support a cross-domain rel="canonical" link element.**

Et il me semble en plus qu'on en avait parlé ici
 
WRInaute discret
Du coup quelle serait le contenu de ma balise canonique ?
Pour l'instant je mets :
<link rel="canonical" href="http://www.mondomaine.com/page.html" />
 
WRInaute passionné
Au niveau d'un Load Balancing style HAProxy (qui est génial) ça risque de ne pas être adéquate pour ton utilisation (le support du keep alive n'est que récent et pour le streaming il me semble que c'est beaucoup mieux). Tu vas aussi avoir des communications entre tes serveurs inutiles :
user => Load Balanceur => serveur choisi => vidéo => Load Balanceur User.

A mon avis tu aurais à gagner (pour ton évolution future) à ne pas dupliquer le contenu (des vidéos) sur les deux serveurs, mais plutôt à les mettre sur un seul. Après dans ta base de données tu rajoutes un TINYINT ayant pour valeur 1 ou 2 (pour le moment) et quand tu mets ton player, tu SELECT en plus cet integer.

Après ça va chercher sur le bon serveur.
Ainsi pour la suite, de gagne de la place en stockage.

Par contre si ton site marche très bien, tu pourrais mettre en place un Load Balanceur pour le site en lui même, pas les fichiers.
 
WRInaute discret
jcaron a dit:
Sinon dans le pire des cas tu peux utiliser une balise <link rel="canonical" href="urldebase"> sur chaque page (qui indique par exemple le www).

Du coup quelle serait le contenu de ma balise canonique ?
Pour l'instant je mets : <link rel="canonical" href="http://www.mondomaine.com/page.html" />

Julia41 a dit:
A mon avis tu aurais à gagner (pour ton évolution future) à ne pas dupliquer le contenu (des vidéos) sur les deux serveurs.
Je vais en parler à l'admin des serveurs. Mais je ne pense pas que cela soit possible. La consommation dépasserait les 100Mbps sur un seul serveur
 
WRInaute passionné
Je vais en parler à l'admin des serveurs. Mais je ne pense pas que cela soit possible. La consommation dépasserait les 100Mbps sur un seul serveur
Non, justement, tu économiserais même en BP. Tu n'aurais pas à mettre tes fichiers sur 2 serveurs (tu gagnes donc un transfert, mais à ton niveau ça doit être minime).
Le principe, tu links tes vidéos en:
-www<numéro du serveur ici>.ton domaine.
Là où tu vas "t'amuser" c'est par contre "ajuster tes vidéos en fonction de leurs audiences":
si toutes les vidéos qui fonctionnent sont sur le serveur1, le serveur 2 ne servira pas ;)
Après c'est au moment de l'INSERT de jouer avec, mais normalement le "aléatoire" devrait marcher de lui même.
 
WRInaute discret
Je me permets de relancer le sujet. La personne en charge des serveurs va lire ce post et me faire son retour. De mon côté j'aimerais creuser cette histoire de balise canonique.

Avez-vous une idée à quoi pourrait ressembler ma balise canonique en tenant compte de mon premier post :

Zodiaque a dit:
Une même vidéo est ainsi présente sur http://www.exemple.com/video1, www1.exemple.com/video1, www2.exemple.com/video1

.. et sachant qu'actuellement chacun des billets de mon blog possède déjà sa balise canonique.
 
WRInaute passionné
C'est sur ta vidéo elle-même :
-www2.exemple.com/video1
ta canonical sera : -www2.exemple.com/video1
Pas sûr que ça soit possible.
 
WRInaute accro
Euh... Le canonical de chaque page "dupliquée" doit être le même. Donc si la page -www/page est dupliquée sur -www1/page et -www2/page, sur les 3 pages tu mets le même canonical qui indique -www/page

Jacques.
 
Discussions similaires
Haut