Problème d'indexation d'un site référençant des cartes à collectionner

Discussion dans 'Crawl et indexation Google, sitemaps' créé par z3r0, 4 Mai 2009.

  1. z3r0

    z3r0 Nouveau WRInaute

    Inscrit:
    4 Mai 2009
    Messages:
    6
    J'aime reçus:
    0
    Bonjour,

    Il y a plus d'un an, j'ai mis en ligne le site http://www.mtgaddict.net. J'ai pas mal travaillé sur le code HTML et le contenu avant d'ajouter le site sur Google en fin d'année 2008 :
    - toutes les pages sont accessibles en trois clics maximum
    - XHTML valide
    - URLs avec des noms pertinents : pas de paramètres ni de "_"
    - tous les liens ont des info-bulles
    - etc...

    Pour informations (je fais un parallèle avec un site ecommerce pour mieux cerner l'organisation du site) :
    - niveau 0 : page d'accueil
    - niveau 1 : page de la base de données des cartes (ie. catalogue)
    - niveau 2 : page de détail d'une extension (ie. catégorie)
    - niveau 3 : page de détail d'une carte (ie. produit)

    Au bout d'un mois, toutes les pages de niveau 2 étaient indexées mais aucunes pages de niveau 3 n'apparaissaient dans l'index de Google. Comme tous les liens vers les pages de niveau 3 sont accessibles seulement sur les pages de niveau 2 qui elles-mêmes contiennent plusieurs centaines de liens, je me suis dit que le problème venait de là.

    Comme les pages de niveau 3 ont des liens entre elles, j'ai alors ajouté sur la page d'accueil un lien vers une page de niveau 3 aléatoire pour voir http://www.mtgaddict.net/random une carte au hasard. Cependant, cela n'a pas amélioré l'indexation du site.

    J'ai donc décidé de créer un fichier http://www.mtgaddict.net/sitemap.xml contenant les plus de 28000 URLs du site. Google a alors commencé à indexer les pages de niveau 3. Cependant, ce processus est très lent. Il indexe en moyenne 20 pages par jour. Pourtant depuis le 8 janvier, seulement 460 URL indexées dans le sitemap. Et lorsque je consulte l'index Google, je ne trouve que 142 pages. A un moment, c'était monté à plus de 300 mais ce n'est rien comparé au 28000 pages du site !

    Voici les statistiques sur l'exploration de Google Webmaster Tools :
    Nombre de pages explorées par jour
    Maximum 91
    Moyen 21
    Minimum 1
    Nombre de kilo-octets téléchargés par jour
    Maximum 7 472
    Moyen 1 069
    Minimum 2
    Temps de téléchargement d'une page (en millisecondes)
    Maximum 45 871
    Moyen 2 689
    Minimum 887

    Je pense que mon site a un problème mais lequel ? Quelqu'un aurait-il une idée ?
    Merci votre aide ou vos conseils !
     
  2. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Alors en vrac :

    1. Les PHPSESSID dans les url, c'est à supprimer (suffit de mettre la bonne ligne dans le .htaccess)

    2. Le site est très long à s'afficher... (autant en cliquant sur le lien base de données des cartes qu'en faisant une recherche -basilic par exemple -recherche effectuée d'après mes mémoires d'ado joueur à MTG qui appréciait le basilic des halliers)

    3. Duplicate content massif : tes fiches de cartes ne font que reprendre le contenu des cartes, ce que font déjà une belle pelletée de sites : http://www.google.fr/search?q=Exaltation+(%C3%80+chaque+fois+qu%27une+ ... in+du+tour.)&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:fr-FR:eek:fficial&client=firefox-a

    Et autre conseil (sans rapport direct avec le ref mais qui peut t'aider à gagner voire conserver des visiteurs) : à quand une charte graphique ?
     
  3. Rod la Kox

    Rod la Kox WRInaute accro

    Inscrit:
    24 Juin 2008
    Messages:
    3 255
    J'aime reçus:
    0
    Alors en vrac :

    - Vire tes liens spam pour avoir des réponses.
     
  4. z3r0

    z3r0 Nouveau WRInaute

    Inscrit:
    4 Mai 2009
    Messages:
    6
    J'aime reçus:
    0
    Il n'y a des PHPSESSID dans l'URL que si le visiteur refuse les cookies. J'ai mis aussi une règle pour les robots (qui refusent les cookies) pour qu'ils n'aient pas de PHPSESSID n'ont plus.

    Ok, je vais essayer de travailler sur cette piste. Comme le site est basé sur Smarty, je sais que je peux activer le cache. Pour la recherche, je sais regarder du côté de la base de données si je peux faire quelques optimisations en mettant des indexes aux bons endroits. Quels sont les temps d'affichage acceptable pour une page ?

    Oui, il y a de nombreux sites qui proposent le même contenu mais je ne les trouvent pas pratiques. Je souhaitais apporter une nouvelle façon de parcourir les listes de cartes et surtout mieux intégrer les versions anglaises et françaises des cartes.

    Je voulais une interface dépouillée et minimaliste. Je sais, c'est un peu trop là. ;) Il faut que je trouve un web designer qui puisse m'aider sur ce point. :)

    En tout cas merci pour tes conseils !
     
  5. z3r0

    z3r0 Nouveau WRInaute

    Inscrit:
    4 Mai 2009
    Messages:
    6
    J'aime reçus:
    0
    Heu... Quels liens spams ? :?
     
  6. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    1. Je peux t'assurer que le lien en haut à gauche contient des id de sessions même avec les cookies activés

    2. Il y a pas franchement de règle en la matière. Perso j'essaie que mes pages soient accessible en-dessous de 2s.

    3. Si je te dis que de nombreux sites utilisent exactement le même contenu, c'est surtout que tu tombes direct dans le duplicate content, donc que tes pages ont très peu de chance de bien ressortir. Il faut du contenu qui te soit propre (quitte à ajouter un commentaire perso sur les cartes)

    4. Ouais enfin là dépouillé... je dirais plus qu'il n'y a aucune charte
     
  7. z3r0

    z3r0 Nouveau WRInaute

    Inscrit:
    4 Mai 2009
    Messages:
    6
    J'aime reçus:
    0
    Je suis toujours sous FF3. Je viens de tester avec IE6 et j'ai aussi les PHPSESSID. :( Je vais essayer de corriger ça mais je ne pense pas que le problème d'indexation vienne de là puisque quand le visiteur est un robot, je ne crée pas de session (car au début Google avait indexé mes pages avec le PHPSESSID et ce n'est plus le cas).

    C'est le temps de téléchargement de la page ou le temps d'affichage ? Car les temps de téléchargement des pages sont de l'ordre de la seconde. Par contre, l'affichage est plus long lors de la première visite à cause des fichiers Javascript à télécharger. Enfin, ça ne fera pas de mal si j'optimise tout ça. :wink:

    Je pensais que le duplicate content influait seulement sur le positionnement et pas sur l'indexation...

    Oui, je sais. :mrgreen:
     
  8. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    C'est bien ce que je dis. Tes pages vont très mal se positionner dans le sens où il y a déjà plein de pages sur le net avec le même contenu.
     
  9. z3r0

    z3r0 Nouveau WRInaute

    Inscrit:
    4 Mai 2009
    Messages:
    6
    J'aime reçus:
    0
    On est d'accord alors. :) Le problème du positionnement va venir mais aujourd'hui c'est surtout l'indexation qui m'ennuie. :(
     
  10. z3r0

    z3r0 Nouveau WRInaute

    Inscrit:
    4 Mai 2009
    Messages:
    6
    J'aime reçus:
    0
    J'ai corrigé le problème des PHPSESSID (ça se produisait avec IE lors de la première page consultée).

    J'ai optimisé le temps de chargement des pages en ajoutant un cache des pages HTML et en suivant les conseils de YSlow. Pour ceux que ça intéresse, j'ai fait un petit compte-rendu des optimisations faites grâce à YSlow (demandez et je mettrai le lien).

    Les temps de chargement et d'affichage se sont réduits. Je vais attendre un peu et voir si Google indexe mieux mon site.