Brevet de Google sur le contenu dupliqué
Par Olivier Duffez, mercredi 3 janvier 2007
Google vient d'obtenir un brevet sur les calculs de similarité qui pourraient servir à la détection de contenu dupliqué.
Déposé en décembre 2001, le brevet a été approuvé hier. Voilà le résumé en anglais :
A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.
En gros, la méthode identifie chaque document (page web) à analyser avec un vecteur, puis effectue des produits vectoriels pour comparer les documents entre eux. Pour les curieux qui souhaitent mieux comprendre sur quoi Google se base, il suffit
de lire la description complète du brevet...

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le mercredi 3 janvier 2007 à 16:09, par Laurent
2. Le mercredi 3 janvier 2007 à 17:06, par Audiofeeline
3. Le mercredi 3 janvier 2007 à 20:35, par site grenoble
4. Le jeudi 4 janvier 2007 à 22:04, par c00lman
5. Le mardi 9 janvier 2007 à 07:56, par Dan
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Inévitablement, nous aurons sans doute bientôt des publicités de Google dans nos téléphones portables... Google a déjà déposé un brevet !
Google a lancé la semaine dernière un nouveau service intitulé Google Patents, qui permet de chercher parmi 7 millions de brevets. Petite description...
Microsoft vient d'obtenir un brevet intitulé , qui décrit comme l'analyse des textes de liens peut aider un moteur de recherche à en savoir plus sur une page web mais aussi à créer des snippets pour les pages qui ont très peu de texte.
Après Microsoft et Google, c'est au tour de Yahoo de faire parler de lui au sujet de l'analyse de la mise en page des sites Internet disséqués par son robot d'indexation. Cet article résume les techniques décrites par ces 3 moteurs de recherche...
Même s'il part avec du retard sur ses concurrents, notamment Yahoo, Google s'intéresse de plus en plus à l'aspect social de la recherche d'informations, comme le montre ce brevet.
A lire dans le forum WebRankInfo