Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Réflexions sur l'indexation

Poster un nouveau sujet Imprimer cette discussion    Forum -> Indexation dans Google   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
duplex13
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 30 Juin 2005
Messages: 139
Localisation: Québec

URL permanente de ce messagePosté le : Jeu Jan 03, 2008 17:34    Sujet du message: Réflexions sur l'indexation

Bonjour,

Depuis quelques temps, je suis un peu dérouté par l'indexation de mon site principal sur Google : je suis passé en quelques semaines de 96 000 pages indexées à 56 000 puis 66 000 puis 76 000 etc ...

Ça n'arrête pas de monter et de descendre, alors que je ne supprime jamais de pages et que j'ai toujours plus de pages sur mon site. Je constate aussi que l'activité du bot de Google est toujours très active avec une moyenne de 11 000 pages vues par jour.

Du coup j'ai fait pas mal de recherches et en particulier sur ce forum : pourquoi Google fait tant d'effort avec son bot, alors que dans l'index de Google les pages n'apparaissent pas ou bien certaines pages apparaissent et d'autres disparaissent ?

Mes réflexions sont les suivantes :
- quelle est l'influence du sitemap : j'ai 61036 url dans ce fichier dont 51391 indexées et en ce moment, j'ai 76 200 pages dans l'index, soit près de 25 000 de plus que celles du sitemap. Ce sitemap peut-il être un facteur limitant dans le nombre de pages indexées ?
- une explication possible : le duplicate content. Mais avec autant de pages, il est bien difficile de savoir détecter le duplicate content.

J'ai donc pensé développer un outil "maison" pour détecter les pages en duplicate content. Mais je manque de matière première : je recherche des informations suivantes :
- comment un bot voit-il une page ? Suffit-il d'enlever les styles ? les images ? le javascript ?
- existe-il des algorithmes assez simples de comparaison de texte ?
- Est-ce qu'il faut faire une analyse plus fine : densité de mots clés, texte entre balises <b>, <h1> ...
- Est-il possible d'extraire les mots clés de la page en fonctions de l'url, titre, description et texte ? Ce serait intéressant de comparer les mots clés vu des moteurs de recherche avec le mot clé que l'on a associé à la page.

Par ailleurs mon site présente des résultats sportifs historisés : j'essaie de regrouper les résultats des principaux sports en essayant d'avoir un historique toujours plus important. Or rien ne ressemble plus qu'une page présentant les résultats de la 14ème journée d'un championnat avec celle présentant les résultats de la 15ème journée. Et à part les résultats bruts, je ne sais pas trop comment différencier ces pages.

Voilà, j'espère que ce post deviendra une base de travail pour des personnes qui se posent les mêmes questions que moi.

Vincent
 
duplex13
El-Cherubin
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 09 Déc 2007
Messages: 137
Localisation: France

URL permanente de ce messagePosté le : Ven Jan 04, 2008 10:39    Sujet du message: Réflexions sur l'indexation

Pour savoir de quelle façon fonctionne les bots tu peux peut etre deja essayer avec google webmaster tool & google analytics, ca te donne pas mal de stats et devraient te permettre d'y voir un peu plus clair sur le fonctionnement de google bot.

Apres, je suis surement pas le plus calé sur le sujet, donc je laisse soin aux spécialistes de WRI de completer tout ca.

Par contre, si tu parviens a developper un bon outil pour le duplicate content, et le distribue en open source, je suis preneur Wink
 
El-Cherubin Visiter le site web du posteur
duplex13
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 30 Juin 2005
Messages: 139
Localisation: Québec

URL permanente de ce messagePosté le : Ven Jan 04, 2008 15:42    Sujet du message: Réflexions sur l'indexation

En fait je suis content qu'il y ai une réponse, car je pense que le sujet est intéressant.

Il est possible que mon post soit mal présenté et trop brouillon. Ou alors il est possible que je sois le seul à avoir autant de page crawlée par google (environ 11000 par jour) sans avoir une augmentation constante du nombre de page indexées.

J'ai découvert sur WRI que l'on parlait d'outil de calcul de similarité textuelle entre 2 pages web (http://www.webrankinfo.com/forums/viewtopic_23295.htm) et j'ai commencé à faire des recherches sur l'algorithme Jaccard, mais si quelqu'un a des infos, je suis preneur.

C'est sur aussi que si je fais un outil satisfaisant qui me permet de détecter le duplicate content je pourrai le diffuser.
 
duplex13
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Indexation dans Google Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort