Brevet de Google sur le contenu dupliqué
Google vient d'obtenir un brevet sur les calculs de similarité qui pourraient servir à la détection de contenu dupliqué.
Déposé en décembre 2001, le brevet a été approuvé hier. Voilà le résumé en anglais :
A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.
En gros, la méthode identifie chaque document (page web) à analyser avec un vecteur, puis effectue des produits vectoriels pour comparer les documents entre eux. Pour les curieux qui souhaitent mieux comprendre sur quoi Google se base, il suffit
de lire la description complète du brevet…
Olivier Duffez, Mercredi 3 janvier 2007
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- Google Patents : moteur de recherche de brevets
- Analyse de pages similaires
- Google dépose 2 brevets pour AdSense
- Un brevet de Google pour de la publicité sur les téléphones mobiles
- Comment éviter les contenus dupliqués (avec/sans le www)
- Google traque les colis UPS ou FedEx
- Le système de crawl de Google en 2008
- Brevet de Microsoft sur l'analyse des textes de backlinks
- Prise en compte de la mise en page HTML par les moteurs de recherche
- link rel=canonical pour réduire les contenus dupliqués
- Contenu libre / Référencement / Duplicate content /
- Vente de contenu, risque de duplicate content ?
- Eviter le duplicate content (similarité du contenu)
- Echange de contenu : risque de duplicate content ?...
- <Title>, article, contenu: Duplicate content? (site X)
- Un point sur le Duplicate Content (contenu dupliqué)
- Duplicate content pour un site de contenu libre ?
- robots.txt et duplicate content - faut-il lister mon contenu
- Google + duplicate content
- google fait du duplicate content
- Cacher à Google du Duplicate Content
- Google: flux RSS=duplicate content?
- Quand Google fait du Duplicate Content....
- Backlink, Duplicate Content et google se trompe
- Mauvaise manipulation: sanction de Google duplicate content
Consultez la description détaillée des produits ou services de Google suivants : Google Patent Search, Google Search By Number
- Détection de pages dupliquées
Cet outil vous permet de calculer la similarité entre 2 pages web. L'algorithme utilisé repose sur l'analyse des occurrences des mots (mais pas sur leur positionnement dans les pages). Google utilise cette notion à certains endroits dans son algorithme, mais de façon bien plus évoluée que ce petit outil... Avoir des pages trop similaires peut entraîner des problèmes d'indexation... Cet outil vous permettra peut-être de résoudre certains problèmes de contenus dupliqués. - Calcul du taux de backlinks vers pages internes
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
5 commentaires sur “Brevet de Google sur le contenu dupliqué”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Concepteur Multimédia et design sonore à Montpellier
- Hotel restaurant Le Pont Neuf à Florac Lozère dans les Gorges du Tarn
- Organisation coordination de tout type d'évènement en Haute Savoie
- Agence immobilière Somacimmo - Somain
- Hôtel de Bordeaux à La rochelle
- Vente en ligne de cactus plantes grasses et tillandsia
- TETRADIS, Distributeur spécialisé solutions interconnexion très haut débit
- Cartes, faire-parts et articles de papeterie à imprimer soi-même
- 17WebStore - Achetez aujourd'hui la technologie de demain
- Location de musique DJ pour trouver chaque soirée
- Santé des chiens et des chats : des vétérinaires répondent à vos questions
- Outils interactifs pour un développement durable facile en entreprises
- Must Animation : Dj animateur, organisation et l'animation évènementielle
- Location de villa et appartement à koh Samui en Thailande
- Le club des amateurs et passionnés des jeux de grille



Peut-être encore un service Google qui se prépare ??
J’espère que l’ont pourras l’utiliser pour trouver les sites qui fonts de la copie de page sans rien changer !!
Va-ton voir des annuaires disparaitre?
Je pense que oui et de nombreux sites ont du soucis à se faire…
Le duplicate content est détécté par google depuis un moment, les annuaires risque peut être de souffrir, on verra ce que l’avenir nous réserve :)
Que va t’il se passer pour les annuaires qui propose des fiches détaillées ou le référencement des flux rss ?
Pas de panique, les sites qui ont du soucis à se faire sont ceux qui sont adeptes de la copie intégrale d’articles et qui n’apportent aucun contenu frais. En cas de copie, l’original n’a rien à craindre puisqu’il a (en théorie) été repiqué par les moteurs en premier.