Comportement de google vis à vis des pages "imprimables

Oncle Tom · 16 Juillet 2003

Je me pose une question sur le comportement de google face à ce sujet.
Actuellement j'ai un site mais sur chaque page, il y a un lien vers la même mais en "light", sans image ni rien pour imprimer.
Google ne considère pas ça comme du contenu identique ou doublon ?

Ces pages sont tout de même indexées cependant j'ai un doute quand même ^^

Et ces pages imprimables, aident elles au positionnement du site ou pas ? enfin si quelqu'un en connait les vertus positivies ou négatives sur le référencement, chuis preneur.

Qaghan · 16 Juillet 2003

Je me suis limite a ta page d'accueil, mais j'imagine que les autres sont du meme ordre... Tes pages imprimables sont a mon avis suffisament differentes des origninales pour qu'il n'y ait pas de risque de duplicate content (le menu est absent, le nombre de liens est fortement inferieur, la taille du fichier est different, ...). Je ne sais pas quelle heuristique google utilise pour determiner d'eventuels duplicate content, mais comme il ne peut pas comparer 2 a 2 les 4 Mds de pages de son index, il doit utiliser des donnees numeriques afin reduire les comparaisons...

Puisque ces pages imprimables augmentent artificiellement le nombre de tes pages, l'effet sur le PR de ta page d'accueil ne peut-etre que benefique, leger peut-etre mais benefique quand meme...

Olivier,

Oncle Tom · 17 Juillet 2003

OK merci pour la réponse

ça répond bien à ce que je me demandais.
Et pis vaut mieux avoir plus de pages référencées que peu.

GusTav · 17 Juillet 2003

Je suis de l'avis de Qaghan : si le contenu est suffisament différent Google ne pensera pas à du duplicate content.
Par contre cela soulève un autre problème : les versions imprimables sont alors classées dans Google. N'ayant pas envie que les visiteurs tombent directement sur ces pages (mise en forme très pauvre, logo en noir et blanc, pas d'images, pas de menu) j'ai ajouté :
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
sur les version imprimables.

Une autre solution est le recours au feullile de styles "print css", c'est encore mieux mais il faut coder html 4.01 et css 2 valides. :?

Suede · 17 Juillet 2003

GusTav a dit:
Une autre solution est le recours au feullile de styles "print css", c'est encore mieux mais il faut coder html 4.01 et css 2 valides. :?

Bah justement, dans ce cas là, le contenu est présent mais en mode "hidden" donc pour Google, il est là et il n'y a pas de différence entre les deux pages. Ou bien je me trompe quelque part?

François

GusTav · 17 Juillet 2003

Non, une 'css print' est juste une css alternative différente de la feuille de style 'générale'. Elle ne se déclenche que lorsque le navigateur utilise la commande 'imprimer'.
Donc pas de danger, à moins que Google garde un exemplaire imprimé des 4 milliards de pages visitées :wink:

Plus d'infos sur les print css :
http://openweb.eu.org/articles/css_impression/

Mies Van der Rohe · 18 Juillet 2003

ou alors tu mets un lien javascript pour "imprimer".

spidetra · 23 Juillet 2003

Qaghan a dit:
Je ne sais pas quelle heuristique google utilise pour determiner d'eventuels duplicate content, mais comme il ne peut pas comparer 2 a 2 les 4 Mds de pages de son index, il doit utiliser des donnees numeriques afin reduire les comparaisons...
Olivier,

Si Google nous copie :lol: , il doit utiliser une clé de type MD5 ou autre.
Nous arrivons à détecter des duplicate content sur nos index avec des méthodes assez simple :
- Calcul de la clé MD5 de chaque page
- Calcul du % de différence entre deux pages
- Déclenchement sur des seuils d'alerte.

Notre méthode est assez "simplete". Mais elle est suffisante dans notre cas.

La principale difficulté dans la recherche de duplicate content ets de ne pas se "laisser berner" par des différences qui n'en sont pas.
Exemple typique : une banière de pub.

Donc, pour gagner en efficacité, le calcul de la clé MD5, ne doit pas sur faire sur la totalité du code HTML (ou text), mais sur le "coeur" de la pafe. La partie ayant réellement un sens.
Toute la difficulté étant bien sûr de définir le "coeur" de la page.

Petite indication suplémentaire :
Dans notre cas pour déterminer des duplicate content, nous ne basons pas sur le code HTML, mais sur le contenu textuel indexable.
Donc, la première action de nos scripts est de sucrer tout le code HTML et ensuite de comparer les pages.

Si Google nous copie (je l'aime bien celle-là, je sent que je vais la placer souvent 8) ), tes 2 versions de pages seront identiques.

Maintenant, pas de panique !
Ton site est comme ça "naturellement", tu as 2 versions de la même page. Et alors ?
dans le pire des cas Google n'indexera qu'une page sur deux. ou est le pb ?

Perso, j'ai deux site mirroir sous 2 urls différentes. là c'est du vrai duplicate content. pas pour faire du spam ou être mieux positionné. Juste par fainéantise de faire deux sites différents.

Les deux sites sont indexés et les 2 sites sont positionnés dans google sur de nombreuses requêtes.

J'ai l'exemple (A NE PAS SUIVRE) d'un site qui utilise à outrance le Duplicate Content (5 ou 6 urls) avec le même contenus (à quelques chouillas près), tout ces sites sont très bien postionnés et squattent 4 à 5 positins sur la première page de Google avec un nombre impressionnant de requêtes.

Donc les 2 pages identiques ne posent AMHA, aucun pb pour le référencement dans Google.
a+,
--
Philippe

Qaghan · 23 Juillet 2003

Si Google nous copie :lol: , il doit utiliser une clé de type MD5 ou autre.
Nous arrivons à détecter des duplicate content sur nos index avec des méthodes assez simple :
- Calcul de la clé MD5 de chaque page
- Calcul du % de différence entre deux pages
- Déclenchement sur des seuils d'alerte.

C'est un peu ce que j'avais en tete, mais de qui tu parles en disant nous ?
Si tu parles de spidetracker, j'ai pas lu que vous etiez dans l'indexation de documents pour sur le web...

Vous comparez vraiment tous les documents de votre index 2 a 2 ?
Ce qui me gene c'est qu'une fonction de hachage comme MD5 est justement faite pour que 2 documents voisins aient des signatures tres differentes... Avec Google, on veut au contraire que 2 documents proches renvoient une clef proche. On peut ainsi eliminer rapidement les documents qui n'ont rien a voir... La taille correspond a ce critere bien qu'elle ne soit pas assez fine...

Olivier,

spidetra · 23 Juillet 2003

Qaghan a dit:
C'est un peu ce que j'avais en tete, mais de qui tu parles en disant nous ?
Si tu parles de spidetracker, j'ai pas lu que vous etiez dans l'indexation de documents pour sur le web...

Nous, c'est la société qui à implémenter spide.
Spide n'indexe pas de documents, même s'il crée un "index" de plusieurs millions de lignes.
L'index de spide est vraiment différent d'un "inverted index". les 2 concepts n'ont rien à voir.
Par contre pour des clients nous devons détecter des Duplicated Content.

Qaghan a dit:
Vous comparez vraiment tous les documents de votre index 2 a 2 ?
Ce qui me gene c'est qu'une fonction de hachage comme MD5 est justement faite pour que 2 documents voisins aient des signatures tres differentes...
Olivier,

C'est pour ça que j'ai mis un

et que j'ai expliqué que notre procédure était "simplete"
Notre jeux de documents est bc plus petit que celui de Google (quelques centaines de milliers de documents à chaque fois), et on sait ce qu'on cherche.
Le crawl est dirigé et contrôlé en amont par des humains.
Pour notre problématique la clé MD5 s'applique à merveille, couplé à des algorithmes de comparaison de similitude de documents.
On ne compare 2 à 2 tout nos documents mais des sous-ensemble dans lesquels les chances de découvrir des duplicate Content est très forte.

Il me semble que aspseek à une procédure de détection de doublons. tu peux peut-être trouvé plus d'infos dans leur code source sur les algos employés. Autres avantages aspseek utilise l'algo du PR pour faire son ranking.
http://www.aspseek.org
a+,
--
philippe

spidetra · 23 Juillet 2003

MAIS, ça marche pas URL !
Bon ben va falloir que je lise le mode d'emploi du forum
a+,
--
Philippe

iconso · 24 Juillet 2003

Je ne vois pas comment Google peut pénaliser le duplicate content concrètement... surtout depuis que des pages statiques peuvent en fait etre des pages dynamiques, etc...

Prenons un cas très classique : donner sur une page la possibilité aux visiteurs de trier des éléments d'un tableau généré dynamiquement.... Le contenu sera le meme, seule sa disposition change. Vous allez me dire que ce n'est pas du duplicate content, et c'est vrai

Pourtant, prenez un site de comparaison de prix, regardez la différence de la page de résultat selon que vous classiez par "Prix sans port" ou "Prix avec port", la différence est souvent inexistante... On a donc bien deux pages identiques avec deux noms différents, le candidat ideal pour un duplicate content, mais ces pages sont extrêmenent bien rankées (évidemment il y a d'autres facteurs).

Je suis assez d'accord avec spidetra, Google virera les pages s'ils les detecte, mais cela n'affectera en rien le positionnement du site.

Fred

cdpdf · 24 Juillet 2003

moi je vois un site qui a plus de 360 fois la meme page

le seul truc qui les différenties c'est l'url avec la session sid

et avec cela il a plus de 39 000 pages.
moi je trouve cela vraiment emmerdant

iconso · 24 Juillet 2003

Et oui c'est énervant...
Je vois parfaitement de quel site tu veux parler, d'ailleurs je pensais il y a peu de temps que ton site était un "duplicate content" de ce site pour beaucoup de tes catégories. 8)

Fred