Méthode d'aspiration de Google

WRInaute occasionnel
Bonjour,

Je ne m'y étais jamais intéressé de près, mais en essayant de comprendre comment gg avait indexé mes sites, je me suis rendu compte que leur algorithme était quand même très intelligent ;)

Déjà, il arrive à repérer les zones répétées (par exemple la mise en forme). Si on fait un site avec un entête constant (exemple un tableau d'entête un menu de navigation etc...) gg n'en tient pas compte.

J'ai un site qui a été fait avant que j'arrive et dont aucune page ne comporte de balise titre. Et bien toutes les pages ont été référencées avec le corps de la page sans tenir compte de la mise en forme. GG a automatiquement zappé les liens pour rechercher du contenu.

A priori, pour ça, il ne tient vraiment compte que des mots et pas de la mise en forme.

Je suppose que c'est le duplicate content, mais ça veut dire que non seulement il le fait page par page, mais il est aussi capable de comparer 2 pages et de virer le duplicate pour ne garder que ce qui n'est pas duplicate pour l'indexer.

Voila, rien de révolutionnaire pour vous, je suppose, mais pour moi, c'est intéressant :)

++
 
WRInaute occasionnel
Je l'ai vu sur un site ancien, qui avait été aspiré naturellement par gg.

Comme je le disais, il n'y avait aucun <title> donc gg s'est entièrement basé sur le contenu des pages. En regardant comment ça a été fait, j'ai remarqué que les zones répétées dans les pages n'avaient pas été dupliquées.

le site s'appelle w*w.clim.com si tu veux regarder.

Il va être mis à jour bientôt.

++
 
Nouveau WRInaute
Je le confirme aussi, sans la balise meta TITLE gg prend le contenu, cela peut etre intéressant lorsque le contenu est conséquent ou dépendant d'une BDD.
Il faut bien veiller alors à le positionner le plus haut possible sur la page.
 
Discussions similaires
Haut