Comportement de google vis à vis des pages "imprimables

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Oncle Tom, 16 Juillet 2003.

  1. Oncle Tom
    Oncle Tom WRInaute impliqué
    Inscrit:
    31 Mars 2003
    Messages:
    720
    J'aime reçus:
    0
    Je me pose une question sur le comportement de google face à ce sujet.
    Actuellement j'ai un site mais sur chaque page, il y a un lien vers la même mais en "light", sans image ni rien pour imprimer.
    Google ne considère pas ça comme du contenu identique ou doublon ?

    Ces pages sont tout de même indexées cependant j'ai un doute quand même ^^

    Et ces pages imprimables, aident elles au positionnement du site ou pas ? enfin si quelqu'un en connait les vertus positivies ou négatives sur le référencement, chuis preneur.
     
  2. Qaghan
    Qaghan WRInaute discret
    Inscrit:
    11 Juin 2003
    Messages:
    245
    J'aime reçus:
    0
    Je me suis limite a ta page d'accueil, mais j'imagine que les autres sont du meme ordre... Tes pages imprimables sont a mon avis suffisament differentes des origninales pour qu'il n'y ait pas de risque de duplicate content (le menu est absent, le nombre de liens est fortement inferieur, la taille du fichier est different, ...). Je ne sais pas quelle heuristique google utilise pour determiner d'eventuels duplicate content, mais comme il ne peut pas comparer 2 a 2 les 4 Mds de pages de son index, il doit utiliser des donnees numeriques afin reduire les comparaisons...

    Puisque ces pages imprimables augmentent artificiellement le nombre de tes pages, l'effet sur le PR de ta page d'accueil ne peut-etre que benefique, leger peut-etre mais benefique quand meme...

    Olivier,
     
  3. Oncle Tom
    Oncle Tom WRInaute impliqué
    Inscrit:
    31 Mars 2003
    Messages:
    720
    J'aime reçus:
    0
    OK merci pour la réponse ;) ça répond bien à ce que je me demandais.
    Et pis vaut mieux avoir plus de pages référencées que peu.
     
  4. GusTav
    GusTav WRInaute discret
    Inscrit:
    24 Juillet 2002
    Messages:
    66
    J'aime reçus:
    0
    Je suis de l'avis de Qaghan : si le contenu est suffisament différent Google ne pensera pas à du duplicate content.
    Par contre cela soulève un autre problème : les versions imprimables sont alors classées dans Google. N'ayant pas envie que les visiteurs tombent directement sur ces pages (mise en forme très pauvre, logo en noir et blanc, pas d'images, pas de menu) j'ai ajouté :
    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
    sur les version imprimables.

    Une autre solution est le recours au feullile de styles "print css", c'est encore mieux mais il faut coder html 4.01 et css 2 valides. :?
     
  5. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Bah justement, dans ce cas là, le contenu est présent mais en mode "hidden" donc pour Google, il est là et il n'y a pas de différence entre les deux pages. Ou bien je me trompe quelque part?

    François
     
  6. GusTav
    GusTav WRInaute discret
    Inscrit:
    24 Juillet 2002
    Messages:
    66
    J'aime reçus:
    0
    Non, une 'css print' est juste une css alternative différente de la feuille de style 'générale'. Elle ne se déclenche que lorsque le navigateur utilise la commande 'imprimer'.
    Donc pas de danger, à moins que Google garde un exemplaire imprimé des 4 milliards de pages visitées :wink:

    Plus d'infos sur les print css :
    http://openweb.eu.org/articles/css_impression/
     
  7. Mies Van der Rohe
    Mies Van der Rohe WRInaute passionné
    Inscrit:
    7 Décembre 2002
    Messages:
    1 178
    J'aime reçus:
    0
    ou alors tu mets un lien javascript pour "imprimer".
     
  8. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    Si Google nous copie :lol: , il doit utiliser une clé de type MD5 ou autre.
    Nous arrivons à détecter des duplicate content sur nos index avec des méthodes assez simple :
    - Calcul de la clé MD5 de chaque page
    - Calcul du % de différence entre deux pages
    - Déclenchement sur des seuils d'alerte.

    Notre méthode est assez "simplete". Mais elle est suffisante dans notre cas.

    La principale difficulté dans la recherche de duplicate content ets de ne pas se "laisser berner" par des différences qui n'en sont pas.
    Exemple typique : une banière de pub.

    Donc, pour gagner en efficacité, le calcul de la clé MD5, ne doit pas sur faire sur la totalité du code HTML (ou text), mais sur le "coeur" de la pafe. La partie ayant réellement un sens.
    Toute la difficulté étant bien sûr de définir le "coeur" de la page.

    Petite indication suplémentaire :
    Dans notre cas pour déterminer des duplicate content, nous ne basons pas sur le code HTML, mais sur le contenu textuel indexable.
    Donc, la première action de nos scripts est de sucrer tout le code HTML et ensuite de comparer les pages.

    Si Google nous copie (je l'aime bien celle-là, je sent que je vais la placer souvent 8) ), tes 2 versions de pages seront identiques.

    Maintenant, pas de panique !
    Ton site est comme ça "naturellement", tu as 2 versions de la même page. Et alors ?
    dans le pire des cas Google n'indexera qu'une page sur deux. ou est le pb ?

    Perso, j'ai deux site mirroir sous 2 urls différentes. là c'est du vrai duplicate content. pas pour faire du spam ou être mieux positionné. Juste par fainéantise de faire deux sites différents.

    Les deux sites sont indexés et les 2 sites sont positionnés dans google sur de nombreuses requêtes.

    J'ai l'exemple (A NE PAS SUIVRE) d'un site qui utilise à outrance le Duplicate Content (5 ou 6 urls) avec le même contenus (à quelques chouillas près), tout ces sites sont très bien postionnés et squattent 4 à 5 positins sur la première page de Google avec un nombre impressionnant de requêtes.

    Donc les 2 pages identiques ne posent AMHA, aucun pb pour le référencement dans Google.
    a+,
    --
    Philippe
     
  9. Qaghan
    Qaghan WRInaute discret
    Inscrit:
    11 Juin 2003
    Messages:
    245
    J'aime reçus:
    0
    C'est un peu ce que j'avais en tete, mais de qui tu parles en disant nous ?
    Si tu parles de spidetracker, j'ai pas lu que vous etiez dans l'indexation de documents pour sur le web...

    Vous comparez vraiment tous les documents de votre index 2 a 2 ?
    Ce qui me gene c'est qu'une fonction de hachage comme MD5 est justement faite pour que 2 documents voisins aient des signatures tres differentes... Avec Google, on veut au contraire que 2 documents proches renvoient une clef proche. On peut ainsi eliminer rapidement les documents qui n'ont rien a voir... La taille correspond a ce critere bien qu'elle ne soit pas assez fine...

    Olivier,
     
  10. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    Nous, c'est la société qui à implémenter spide.
    Spide n'indexe pas de documents, même s'il crée un "index" de plusieurs millions de lignes.
    L'index de spide est vraiment différent d'un "inverted index". les 2 concepts n'ont rien à voir.
    Par contre pour des clients nous devons détecter des Duplicated Content.

    C'est pour ça que j'ai mis un :D et que j'ai expliqué que notre procédure était "simplete"
    Notre jeux de documents est bc plus petit que celui de Google (quelques centaines de milliers de documents à chaque fois), et on sait ce qu'on cherche.
    Le crawl est dirigé et contrôlé en amont par des humains.
    Pour notre problématique la clé MD5 s'applique à merveille, couplé à des algorithmes de comparaison de similitude de documents.
    On ne compare 2 à 2 tout nos documents mais des sous-ensemble dans lesquels les chances de découvrir des duplicate Content est très forte.

    Il me semble que aspseek à une procédure de détection de doublons. tu peux peut-être trouvé plus d'infos dans leur code source sur les algos employés. Autres avantages aspseek utilise l'algo du PR pour faire son ranking.
    http://www.aspseek.org
    a+,
    --
    philippe
     
  11. spidetra
    spidetra WRInaute passionné
    Inscrit:
    7 Juillet 2003
    Messages:
    1 216
    J'aime reçus:
    0
    MAIS, ça marche pas URL !
    Bon ben va falloir que je lise le mode d'emploi du forum
    a+,
    --
    Philippe
     
  12. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    358
    J'aime reçus:
    0
    Je ne vois pas comment Google peut pénaliser le duplicate content concrètement... surtout depuis que des pages statiques peuvent en fait etre des pages dynamiques, etc...

    Prenons un cas très classique : donner sur une page la possibilité aux visiteurs de trier des éléments d'un tableau généré dynamiquement.... Le contenu sera le meme, seule sa disposition change. Vous allez me dire que ce n'est pas du duplicate content, et c'est vrai :)
    Pourtant, prenez un site de comparaison de prix, regardez la différence de la page de résultat selon que vous classiez par "Prix sans port" ou "Prix avec port", la différence est souvent inexistante... On a donc bien deux pages identiques avec deux noms différents, le candidat ideal pour un duplicate content, mais ces pages sont extrêmenent bien rankées (évidemment il y a d'autres facteurs).

    Je suis assez d'accord avec spidetra, Google virera les pages s'ils les detecte, mais cela n'affectera en rien le positionnement du site.

    Fred
     
  13. cdpdf
    cdpdf WRInaute impliqué
    Inscrit:
    11 Mars 2003
    Messages:
    732
    J'aime reçus:
    0
    moi je vois un site qui a plus de 360 fois la meme page

    le seul truc qui les différenties c'est l'url avec la session sid

    et avec cela il a plus de 39 000 pages.
    moi je trouve cela vraiment emmerdant
     
  14. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    358
    J'aime reçus:
    0
    Et oui c'est énervant...
    Je vois parfaitement de quel site tu veux parler, d'ailleurs je pensais il y a peu de temps que ton site était un "duplicate content" de ce site pour beaucoup de tes catégories. 8)

    Fred
     
Chargement...
Similar Threads - Comportement google imprimables Forum Date
Comportement inconnu dans google images pour une redirection YouTube, Google Images et Google Maps 3 Septembre 2015
Statistiques "Google et le comportement des internautes" Référencement Google 27 Mai 2015
Comportement incompréhensible de Google, besoin d'explications Problèmes de référencement spécifiques à vos sites 25 Mars 2013
Question comportement Google et autres moteurs Développement d'un site Web ou d'une appli mobile 13 Mars 2013
simuler sur un serveur de Dev le comportement du bot Google Crawl et indexation Google, sitemaps 10 Décembre 2012
Analyse comportementale d'une campagne emailing avec TrackReports et Google Analytics Google Analytics 20 Novembre 2011
Un bien étrange comportement de Google ... Crawl et indexation Google, sitemaps 14 Septembre 2011
Comportement étrange de Google Alerte Débuter en référencement 18 Mai 2011
Le comportement des internautes avec serps google map Débuter en référencement 16 Octobre 2010
Comportement différent de deux Googlebot ? Crawl et indexation Google, sitemaps 11 Février 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice