Tout savoir sur le filtre Duplicate Content de Google

Discussion dans 'Techniques avancées de référencement' créé par WebRankInfo, 22 Mars 2010.

  1. ybet

    ybet WRInaute accro

    Inscrit:
    22 Novembre 2003
    Messages:
    9 059
    J'aime reçus:
    0
    [quote="lafeeperle Merci encore pour ces réponses et l'intérêt que çà soulève.[/quote]
    PS: la répétition des posts
     
  2. lafeeperle

    lafeeperle Nouveau WRInaute

    Inscrit:
    7 Août 2009
    Messages:
    23
    J'aime reçus:
    0
    Une info importante qui pourrait vous intéresser et que je viens de recevoir, je vais à ce sujet ouvrir un nouveau post, car vous êtes les acteurs du web, et êtes appelés à participer (bien que l'annonce du débat soit bien discrète). Mme Nathalie Kosciusko-Morizet lance une consultation publique , voir ici
     
  3. Neillys

    Neillys WRInaute occasionnel

    Inscrit:
    15 Juillet 2008
    Messages:
    478
    J'aime reçus:
    0
    fort fort interressant, bravo pour la rédaction.
    J'ai moi m^me un site qui en ce moment est filtré pour duplicate interne, si j'arrive à le sortir je vous tiens au courant de mes conclusions
     
  4. lafeeperle

    lafeeperle Nouveau WRInaute

    Inscrit:
    7 Août 2009
    Messages:
    23
    J'aime reçus:
    0
    Finalement, après un mois de recul, je vous tiens au courant de l'avancée de nos pérégrinations.
    Avoir avoir alerté, les pouvoirs publics, la gendarmerie qui n'a pas su qualifier notre plainte, contacté la DGCCRF, être allée jusqu'au cabinet de Madame la Ministre de l'économie numérique, contacté la FEVAD ou la plupart des gros vendeurs et autres comparateurs de prix ( qui se sont engagés auprès du gouvernement à respecter la charte déontologique imposée à leurs membres), tout ceci sans grand succès je dois dire, nous avons décidé de signaler à google via spamreport : https://www.google.com/webmasters/tools/spamreport?hl=fr_FR , une série de liens et de sites qui continuent à utiliser nos textes et images, pour rediriger via plate formes d'affiliations et market place, vers d'autres "GROS SITES" que nous ne citerons pas ici.
    La situation a évolué et notre site reprend petit à petit la place qu'il mérite, avec 4000 références et plus de perles, nous le vallons bien , non?
    Nous ne pouvons que conseiller à tous les sites victimes de duplicate, de signaler à google que leurs pages contiennent des données fausses ou érronées.

    Merci de l'aide qu'ont pu nous apporter les membres de WRI, notamment à Patrick: http://forum.webrankinfo.com/ybet-u3722/et...
    Rendez-vous dans quelques semaines pour faire un nouveau point.
     
  5. phfle1

    phfle1 Nouveau WRInaute

    Inscrit:
    22 Juin 2010
    Messages:
    1
    J'aime reçus:
    0

    Allo,

    J'ai aussi lu qu'il était mieux de mettre rel="canonical" et d'enlever les NO-INDEX, NO-FOLLOW. Toutefois, j'ai une question sur les urls canoniques : Peut-on mettre comme url canonique l'url de la page courrante? Le truc, c'est que nous avons beaucoup de contenu dupliqué qui utilisent tous le même gabarit. Je mettrais l'url canonique dans le gabarit et ça affecterait toutes les variations de la page, mais ça toucherais aussi la page qui est pointée par l'URL canonique. Quelqu'un a essayé ça?

    Merci,

    Phil
     
  6. polweb

    polweb WRInaute accro

    Inscrit:
    18 Octobre 2006
    Messages:
    4 051
    J'aime reçus:
    0
    Très bien cet article de wri sur le DC.

    Merci.
     
  7. zeb

    zeb WRInaute accro

    Inscrit:
    5 Décembre 2004
    Messages:
    13 577
    J'aime reçus:
    0
    j'ai eu du mal a arriver au bout c'était long mais instructif. Ce qui au passage viens de mettre a mal le sujet de Hibou57 en fichant une claque a la moyenne (humour bien sur)

    petites parties de pages voire des petites parties de phrases Avec ça et les limites liées a notre érudition, je pense qu'il y a un risque de saturation un jour car le vocabulaire n'est pas sans limite et la toile assez grande pour avoir toutes les combinaisons de mots possible.

    Je serais curieux de savoir si une expérience du style "générateur de texte aléatoire" basé sur les, disons 15 000 mots de base de la langue française d'un 'erudi', monté de façon virale (url a accroissement automatique) donnerait un bon retour dans google.
     
  8. ybet

    ybet WRInaute accro

    Inscrit:
    22 Novembre 2003
    Messages:
    9 059
    J'aime reçus:
    0
    tes
    Au départ, c'est pas le duplicate content que GG a essayé de casser mais bien leslogiciels de traductions mal fait (l'idée semble de casser les "bricoleurs" au départ, c'est ensuite que le duplivate s'est fait casser).

    C'est ensuite nque la similitude a cassé les sites.

    Le référencement devient de plus en plus compliqué
     
  9. carole heinz

    carole heinz WRInaute accro

    Inscrit:
    28 Février 2007
    Messages:
    2 886
    J'aime reçus:
    0
    600 mots, oui, pour le quidam moyen peut-être mais le webmaster n'est pas le quidam moyen, il connaît son site, son activité, son marché et est donc en mesure d'employer des mots très peu utilisés par le non-spécialiste (exemple de l'éleveur de chats, du botaniste, du développeur php ou n'importe quoi d'autre en fait!). à cela il faut rajouter les noms de marques, les noms propres etc. qui ne font pas partie des 60.000 entrées du Robert!

    statistiquement on pourrait parler de p-liste; le nombre théorique de phrases de 250 mots différentes que l'on peut obtenir avec 600 mots = 600^250 (600 puissance 250 càd 600x600x600x...x600) ce qui est déjà tout à fait gigantesque voire astronomique (bien sur toutes ces phrases ne sont pas syntaxiquement/sémantiquement correctes loin de là)

    donc, même avec 600 mots et une seule langue, la toile est très, très loin d'être assez grande pour contenir toutes ces possibilités ;)
     
  10. sr

    sr WRInaute passionné

    Inscrit:
    15 Mai 2003
    Messages:
    1 303
    J'aime reçus:
    0
    @ Carole

    Très belle démo !
    Et j'adhère totalement.
     
  11. vivreadjerba

    vivreadjerba WRInaute discret

    Inscrit:
    12 Juillet 2010
    Messages:
    53
    J'aime reçus:
    0
    Super article.
    J'ai pas lu les 8 pages de la discussion, mais j'ai 2 question :

    1. L'article ne parle pas des pages de TAGS
    Les pages de tags sur un site genre monsite.com/tags/vacances monsite.com/tags/voyages monsite.com/tags/soleil etc vont lister les memes articles tagés sur plusieurs tags, et vont donc produire des centaines de pages de duplicate content ou near duplicate content

    Que se passe til dans ce cas la ? Faut il limiter les TAGS pour limiter le dc ?

    2. Pouvez vous confirmer que si on cite le lien de la source sur notre page quand on a fait un gros copié/collé, Google ne prend pas ca comme du dc?

    THX
     
  12. Leonick

    Leonick WRInaute accro

    Inscrit:
    8 Août 2004
    Messages:
    22 709
    J'aime reçus:
    0
    tu aurais du
    évidemment
    je ne vois pas pourquoi ça ne serait pas du duplicate. En plus, du copier/coller sans autorisation, c'est du vol et ça, adsense, n'aime pas et tu risques d'être grillé
     
  13. damiano

    damiano Nouveau WRInaute

    Inscrit:
    27 Avril 2010
    Messages:
    10
    J'aime reçus:
    0
    Bonjour,

    J'ai réfléchis de mon côté au Dupplicate Content, et même si je partage dans la plupart des cas les avis de Sylvain, Olivier, Patrick, Denis L.Jee, il est un phénomène que j'ai grand mal à expliquer, et peut-être l'un d'entre vous aura une explication.

    Il s'agit des médias publicitaire pour les agences immobilières. Vu qu'en plus de concevoir des sites et de les référencer, on a créer un logiciel immobilier, je me permets de vous expliquer en deux mots le principe de la multidiffusion.

    Différents éléments saisis dans le logiciel, comme le prix, la ville, la surface, et une seule et unique description. En moyenne sur nos logicielle, elle est composée de 500 mots. Ensuite à travers le logiciel, on diffuse vers en moyenne 8 médias publicitaires tels que Logic Immo, SeLoger, A vendre à Louer, Topannonces, Le Bon Coin et autres déclinaisons. Un format standart a été défini pour transférer les annonces appelé Polaris, ce qui fait que tous les sites ont a disposition les même informations.

    Ma question est donc la suivante: sachant que ces différents sites trustent les premières pages des SERPs, est-ce que cela sous-entends qu'ils seraient considéré comme les créateurs des différents contenus, mais dans ce cas, le site individuel de chaque agence ne devrait-il pas descendre en flèche? Si j'en suis la logique du dupplicate, ils devraient être pénalisés car leurs pages sont composés à 85% de contenus dit "dupliqués". Or il se trouve que ce n'est clairement pas le cas, et que les agences ont le plus grand mal à passer devant sur un nombre de requête conséquent, du fait de la quantité de biens dont-ils dispose sur une ville.

    Qu'en pensez-vous?
     
  14. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    Oui les très gros sites qui récupèrent ces contenus peuvent sortir devant et ne pas subir de pb de contenus dupliqués, en partie grâce à leur bonne notoriété aux yeux de Google.

    Pour le reste de la question je n'ai pas compris car d'une part tu dis
    "[les sites des agences] devraient être pénalisés [...] Or il se trouve que ce n'est clairement pas le cas"

    et aussi :
    "les agences ont le plus grand mal à passer devant "
     
  15. damiano

    damiano Nouveau WRInaute

    Inscrit:
    27 Avril 2010
    Messages:
    10
    J'aime reçus:
    0
    Je comprends la logique, mais du coup n'est-ce pas une remise en cause (même partielle) du DC, sachant qu'à partir d'un certain seuil de trustrank, cela signifierait que le site peut se permettre d'avoir énormément de contenu dupliqué. Ou faut-il y voir une forme de classification des sites, et une certaines tolérances pour les sites "médias" ou comparatifs. Question induite, quelle serait la conséquence pour un site comme WRI de dupliquer du contenu? Est-ce davantage pour se prévenir contre les "prochaines avancées" de google en matière de DC que vous préférez le bannir?

    Ce que je voulais dire avec ma seconde question était la chose suivante: les sites des agences immobilière qui reprennent également ces même descriptions mais pour une centaine de bien et avec des fréquentation proche de 4000 visiteurs mensuels, ne pourraient-ils pas être sanctionné au niveau d'une page d'annonce car cette dernière existe également sur ces médias?

    Le dernier élément était la conséquence du raisonnement pour vérifier que je ne commets aucune erreur. Un site qui possède 25 biens répartis sur 5 agences immobilière différentes sur un mot clef de type acheter maison Soultz aura plus de contenu et donc plus de chance d'obtenir les premières places sur des moteurs de recherche que la page "similaire" d'une agence qui n'aura que 5 biens de ce type dans cette ville.
     
  16. Leonick

    Leonick WRInaute accro

    Inscrit:
    8 Août 2004
    Messages:
    22 709
    J'aime reçus:
    0
    dans le cas des sites sur lesquels l'agence met ses annonces, cela ne change rien que le visiteur passe par eux ou non, vu que les agences paient déjà pour se retrouver sur ce site. L'important étant d'avoir de la visibilité, que le visiteur vienne en direct ou non.
    Après, le problème qui se pose c'est que si l'internaute ne trouve pas que l'annonce (sur laquelle les serp l'on conduit) correspond à ses souhaits, les gros sites vont le renvoyer sur d'autres annonces y ressemblant et ça peut être celle d'un concurrent.
    Ensuite, sur une même requête, comme gg ne permet que 2 pages par site (sauf sitelink), le fait d'avoir son annonce qui apparait sur les gros sites fait qu'il restera moins de place pour la concurrence sur ce gros site.
     
  17. damiano

    damiano Nouveau WRInaute

    Inscrit:
    27 Avril 2010
    Messages:
    10
    J'aime reçus:
    0
    Entièrement d'accord avec toi, mais compte 200 à 300 € par média et par mois, 500 pour les plus chères,avec grosso modo, 8 gros acteurs sur le marché... ce qui fait que les clients essayent de plus en plus d'attirer un maximum de visiteur en direct.

    La conclusion à laquelle on en est arrivé est assez simple, on va nous aussi lancé un support média, mais je m'interrogeais par rapport à ces différentes problématiques pour trouver le meilleur compromis, on a même pensé à demander deux descriptions différentes dans le logiciel, mais il n'est pas certain que cela porte ses fruits.
     
  18. L.Jee

    L.Jee WRInaute accro

    Inscrit:
    11 Décembre 2007
    Messages:
    7 346
    J'aime reçus:
    0
    Certains sites, on en connait des gros qui ont vu le trou à cause du duplicate content. Donc apparaitrait quand même que cela puisse être dangereux. Pourquoi, comment ? Aucune idée cependant, il y a a creuser ici. A vu de nez je taperai dans la proportion que représente ce contenu sur le site.
     
  19. damiano

    damiano Nouveau WRInaute

    Inscrit:
    27 Avril 2010
    Messages:
    10
    J'aime reçus:
    0
    Merci pour ta réponse L.Jee, et surtout, merci d'avoir partagé tes stats G.A avec nous. Je vais essayer d'inscrire nos 80 sites sur costaud, je pense en avoir pour 2, 3 mois de travail :)
     
  20. cupidonbe

    cupidonbe WRInaute discret

    Inscrit:
    17 Juin 2009
    Messages:
    133
    J'aime reçus:
    0
    Concernant le contenu dupliquéje vous invite à lire les derniers développements
     
  21. Leonick

    Leonick WRInaute accro

    Inscrit:
    8 Août 2004
    Messages:
    22 709
    J'aime reçus:
    0
    ce ne sont que des effets d'annonces, le spamindex en DC fonctionne encore très bien, malheureusement
     
  22. epistle

    epistle Nouveau WRInaute

    Inscrit:
    18 Mai 2011
    Messages:
    7
    J'aime reçus:
    0
  23. epistle

    epistle Nouveau WRInaute

    Inscrit:
    18 Mai 2011
    Messages:
    7
    J'aime reçus:
    0
    Merci pour ta réponse L.Jee, et surtout, merci d'avoir partagé tes stats G.A avec nous. Je vais essayer d'inscrire nos 80 sites sur costaud, je pense en avoir pour 2, 3 mois de travail :)
     
  24. loubna77

    loubna77 Nouveau WRInaute

    Inscrit:
    25 Mars 2010
    Messages:
    5
    J'aime reçus:
    0
    Merci olivier pour ce dossier :)
     
  25. annec935

    annec935 Nouveau WRInaute

    Inscrit:
    19 Janvier 2012
    Messages:
    2
    J'aime reçus:
    0
    Re: Tout savoir sur le filtre Duplicate Content de Google. Pb d'indexation!!!

    Bonjour,

    message aux experts du SEO ;-)
    Du fait de la construction un peu particulière de notre site, nous avions un très grand nombre de pages indexées, beaucoup plus importants que le nombre de pages réelles. Problème : les query

    Nous avons modifier le robot txt pour exclure ce paramètre + paramètres webmaster tools.

    Depuis nous sommes passés en 1 mois de 45 000 pages à 6 000 (objectif 1500).
    Depuis décembre le chiffre stagnait à 6000 et depuis 1 semaine, il est à nouveau en train de remonter : lundi 13 000 et ce jour (jeudi 19 01 2012) : 18 000.

    Auriez vous une solution, une réponse? nous ne comprenons plus rien...

    Merci d'avance
     
  26. JTH

    JTH WRInaute occasionnel

    Inscrit:
    10 Décembre 2011
    Messages:
    303
    J'aime reçus:
    0
    En relisant l'article, j'ai trouvé une faute de frappe,
    je cite:
    Dans la partie "Contenus presque dupliqués internes"
    Vu que le sujet a été déterrer, j'en profite :)
     
  27. alain099

    alain099 Nouveau WRInaute

    Inscrit:
    10 Janvier 2012
    Messages:
    5
    J'aime reçus:
    0
    Bonjour,

    J'ai deux question sur les liens crées sur les communiqués de presse.

    Déjà est-ce vrai qu'à présent les backlinks et le pagerank d'un site est beaucoup moins important qu'avant pour un bon référencement?

    Aussi, On m'a dit qu'il fallait que j'écrive des communiqués de presse en créant des liens vers mon site sur des sites de communiqué de presse dont le pagerank est le plus élevé afin que les liens créés ont plus de valeur.

    Or, lorsque j'écris un communiqué sur un site dont le PR de la home page est par exemple de 4, mon article (et donc mes liens) ne se retrouve jamais sur cette home page dont le PR est de 4, mais mon article se retrouve toujours sur une page du site de PR 0.

    Est ce que mes liens ont quand même de la valeur dans la mesure ou mon article se situe dans l'une des page d'un site dont la page home est de 4 ou c'est seulement la page dans laquelle est publié mon site qui compte et dans ce cas là mes liens n'ont pas de valeur puisqu'ils se situent sur une page de PR0?

    Merci de vos réponse. Alain.
     
  28. zeb

    zeb WRInaute accro

    Inscrit:
    5 Décembre 2004
    Messages:
    13 577
    J'aime reçus:
    0
    Qu'avant quoi ? "Avant" il était très important pour les ignorants, maintenant il est négligé même par les idiots.

    1/ les backinks sont le nerfs du positionnement et c'est pas prêt de changer (avec le social dans une moindre mesure aujourd'hui).
    2/ le Pagerank reste et a toujours été un indicateur flou de la notoriéte d'un site car fort PR = beaucoup de BL vers le site.

    Mais faire un bon référencement n'as jamais été une question de PR ou de nombre de lien. il est surtout important d'être référencé chez les "pointures" de ton thème et ceci de façon variée.

    la propagation du PR dans un site ne se fait pas en temps réel, le PR de ta page est impossible a connaitre a l'avance.
    Si on te conseille un site a fort PR c'est surtout car il y a plus de chance pour que le PR de la page ou se trouve ton lien soit plus élevé par la suite (le PR se répand dans le site via ses liens internes comme un fluide).

    Un lien n'a pas que la valeur du PR qu'il transmet. Pour le PR qu'il envoie a ton site c'est la page où il est qui compte, mais avoir un lien même sur une page PR 0 d'un site de référence est plus envieux que le même lien sur une page PR4 d'un site inconnue et pas du tout trusté.

    faut pas te focaliser sur le PR... c'est un peut un indicateur de vitesse sur une voiture, c'est bien pour savoir a combien tu roule mais ça ne détermine pas la qualité de ta conduite, c'est qu'un critère. Si maintenant tu veux "piloter" plus que "conduire" un compte tour moteur est plus important (bien qu'il ne face pas tout pour autant).

    Si tu veux référencer (au sens ontologique du terme) il faut te faire connaitre sur les sites qui sont complémentaires de ton activité. regarde la toile comme une communauté et débrouille toi pour être présent là ou cette communauté s'exprime et se trouve. Si tu applique ce principe, tu te rendra compte qu'il est plus important pour ton SEO de te concentrer sur l'utilisateur et ses besoins et de fait tu finira par comprendre que certains sites e CP ne sont jamais visités par une internaute normal, idem pour certains annuaires etc ... Tu comprendra donc qui est interessant pour ton référencement.

    Et met toi dans la tête pour finir qu'il y a des sites PR 1 ou 2 qui cartonnent sur leur secteur ... Bref le PR ...
     
  29. lecouti

    lecouti WRInaute passionné

    Inscrit:
    3 Janvier 2009
    Messages:
    1 561
    J'aime reçus:
    0
    Tu réponds à un post de 2 ans qui a du être remonté par un spam ;)
     
  30. zeb

    zeb WRInaute accro

    Inscrit:
    5 Décembre 2004
    Messages:
    13 577
    J'aime reçus:
    0
    et m*rd* ... c'est pas ma journée :)
     
  31. Marie-Aude

    Marie-Aude WRInaute accro

    Inscrit:
    5 Juin 2006
    Messages:
    18 363
    J'aime reçus:
    0
    La discussion a ENCORE été remontée par un spam :)
     
  32. web proxy

    web proxy WRInaute discret

    Inscrit:
    28 Mai 2014
    Messages:
    217
    J'aime reçus:
    0
    Bonjour
    je sais pas si ma question sera prise comme spam car c'est un ancien sujet.
    bref : je demande si je fait la traduction d'un texte pour un site multilingue mon centenu sera pris par les moteurs de recherche autant que dupliqué?
    merci
     
  33. HawkEye

    HawkEye WRInaute accro

    Inscrit:
    23 Février 2004
    Messages:
    18 166
    J'aime reçus:
    0
    Pourquoi serait-ce "dupliqué", si c'est une traduction ?
     
  34. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    non, le contenu traduit n'est pas du contenu dupliqué. A condition bien entendu d'avoir le droit de traduire le texte, et de le faire correctement (pas de traduction automatique)
     
  35. KARINOS

    KARINOS Nouveau WRInaute

    Inscrit:
    12 Novembre 2014
    Messages:
    1
    J'aime reçus:
    0
    Merci pour cet article
     
  36. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    As-t-on une idée de la longueur d'une chaine dans un mini texte de 400 caractères qui serait considérée comme DC?
    J'ai ce même texte en haut de page, explicatif pour l'internaute, et la seule chose qui le différencie des autres pages suivantes est le numéro de page …

    Je viens de prendre parti de le supprimer sur les pages suivantes, mais me reste ce meme texte entrecoupé du nom de la ville ou du département, soit deux chaines de 200 caractères identiques sur des centaines de pages.

    Je ne sais pas si Google prenait cela pour du DC avant sur les pages suivantes, et si c'est aussi possible après cette motif d'avoir encore du DC ?

    AVANT
    Le début du texte (200 carac) => la ville page 1 (50 caract) => la suite du texte (200 carac)
    Le début du texte (200 carac) => la ville page 2 (50 caract) => la suite du texte (200 carac)
    Le début du texte (200 carac) => le département page 1 (50 caract) => la suite du texte (200 carac)
    Le début du texte (200 carac) => le département page 2 (50 caract) => la suite du texte (200 carac)


    MAintenant
    - Le début du texte (200 carac) => la ville page 1 (50 caract) => la suite du texte (200 carac)
    - la ville page 2
    - Le début du texte (200 carac) => le département page 1 (50 caract) => la suite du texte (200 carac)
    - le département page 2

    Si vous avez faits des tests, ils sont les bienvenus ^^
     
  37. Haker777

    Haker777 Nouveau WRInaute

    Inscrit:
    9 Décembre 2014
    Messages:
    5
    J'aime reçus:
    0
    Je me posais la même question. Est-ce que quelqu'un aurait des observations à ce sujet?

    Merci
     
  38. zeb

    zeb WRInaute accro

    Inscrit:
    5 Décembre 2004
    Messages:
    13 577
    J'aime reçus:
    0
    50 caractère sur 450 soit 1.25% de changement sur 36 000 commune si c'est pas du DC c'est purement du contenu pauvre en tous cas qui passe pas les filtres de pages similaires.
     
  39. younesokok

    younesokok Nouveau WRInaute

    Inscrit:
    25 Janvier 2015
    Messages:
    1
    J'aime reçus:
    0
    Merci Olivier,

    après un premier coup d'œil, je sens qu'on va en renvoyer du monde sur ce dossier qui semble on ne peut plus clair :)
     
  40. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    ARF (modifié) ... sujet remonté par un spam ... a déplacer alors ou retirer ... on en parlera de tt façon ^^


    Bonjour,

    afin d'optimiser nos algorithmes de pertinence sur le moteur de recherche http://www.premsgo.fr , nous avons du faire "du ménage" dans les pages. Je ne sais pas si Google procède de la même façon, mais par logique, nous avons commencé a élaborer une approche en deux temps pour écarter le contenu dupliqué :
    préalablement, chaque page est découpé en balises (les DIV, P, TABLE, TR TD, UL, LI ...) :

    - chaque contenu entre deux balises est traité en MD5 (algo de cryptage qui réduit le contenu en une chaine de 32 caracteres toujour identique a celui ayant le meme contenu). Un ou des tableaux contient TOUS les contenus, sous forme de chaine MD5, un autre s'incrémente des chaines en double trouvé sur d'autres pages.
    - Chaque contenu entre chaque balise est compressé en BLOB (champ binaire), un tableau de blob avec le vrai contenu est ainsi construit en parallèle des contenu en MD5.
    - chaque balise est identifié (identifiant ID ou CLASSE, position ...)

    Dans un premier temp, les chaines MD5 (strictement identique) en double son eliminé des pages.
    Ensuite, un algo spécial tente de détecter dans les pages des contenus très proche. Si il y a trop de répétition, ce sont alors les blocs en BLOB qui sont comparés pour détecter des contenus très proches qui nous ont échapé.
    C'est souvent le cas pour des menus répétitifs, mais dont un signe d'une page a une autre change ce qui ne donne pas le même code MD5.

    Ces contenus entre balises identiques a 99% (ou plus) sont alors éliminé de toutes les pages.

    Il ne reste que du texte "brut", parfois répétitif, mais qui reflète plus le contenu "intéressant" de la page, surtout pour analyse sémantique. Ce n'est pas parfait mais deja pas mal ...

    Pour du DC a très grande échelle, il faut d'énormes ressources. Et puis a l'usage, on simplifie peu a peu. Nos 3 pauvres mac souffrent carrément ... on fait avec! Les disques SSD de 4To se remplissent vite, donc pour le DC inter-site, nous ne pouvons que nous limiter a l'exacte similitude des contenus dans des balises (comparaison des MD5).

    Google, avec ses 2 millions de serveurs peut probablement aller plus loin, mais il y a des limites quand même.
     
  41. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    PS: le moteur n'est pas accessible en ce moment est reste toujours dans sa première version de test basique de 2015 pour le public. Les modifs seront annoncées et mises en ligne courant Septembre / Octobre (de cette année , je précise ^^).
     
  42. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Re: Tout savoir sur le filtre Duplicate Content de Google. Pb d'indexation!!!

    Bonjour,
    Il y a de nombreux data center ou les données sont stockées, il est tres fréquent que les données fassent le yoyo dans les SERP (résultats), mais c'est peu probable dans webmastertools. Toutefois, Google a tendance a considérer les pages innaccessibles comme temporairement indisponible seulement, alors selon les algorithmes qui se succèdent, cela peut provoquer des retour en arrière temporaire. Il faut attendre 6 mois sur des gros sites pour que ca commence a se stabiliser, en général.