Un mois de galère....

Nouveau WRInaute
Salut à tous, voilà plus d'un mois que je galère bêtement....

Après avoir fait une erreur dans un sitemap (les url indiquées ne pointaient pas vers les bons répertoires), Google continue de me détecter ces erreurs, tous les jours, alors que cela a été corrigé depuis fort longtemps.... Voici une page type d'erreurs données par google webmaster tools :

http://cjoint.com/?ltmcuIo02n

Comme on peut le constater, gg indique des erreurs 404 en précisant "accessible via" .... "non définie". Comment savoir sur quelles pages Google peut-il bien trouver ces erreurs ?

Merci de bien vouloir me répondre, j'en ai marre, j'ai cherché dans tous les forums, et je continue à galérer bêtement alors qu'il s'agit sûrement d'un truc tout bête.
Précision : après avoir fait mes modifs, Google ne m'affiche plus ces erreurs dans "erreurs dans les sitemaps".

Merci d'avance !

Gilles
 
WRInaute occasionnel
Le problème devrait se résorber d'ici peu...

En fait, en te trompant de chemins de répertoire pour les liens de ton sitemap, tu as induis Google en erreur, qui n'a détecté que des erreurs 404...

Je te conseille simplement de lui re-soumettre un sitemap avec les bons chemins, et ces erreurs vont disparaître d'ici peu... Google a toujours un léger décalage dans le traitement des informations que tu lui soumets... Voilà pourquoi il patauge un peu avec ton site... :wink:
 
Nouveau WRInaute
Merci de ta réponse,

j'ai effectivement déjà réenvoyé mon sitemap il y a plus d'une semaine, mais il continue encore à me détecter de nouvelles erreurs.... Comment est-ce possible ? A-t-il gardé l'ancien sitemap en cache quelque part ?
 
WRInaute occasionnel
Il faut être patient dans le milieu du référencement : comme je l'ai dit, Google Webmaster Tools est souvent en décalage et il lui faut parfois plusieurs semaines pour tout réactualiser...

Quel âge a ton site ?
 
Nouveau WRInaute
Plusieurs années.... mais les nouvelles pages (les 160 000 nouvelles pages) datent de 2 mois environ. Pour l'instant, GWT ne m'en détecte que 300... snif
 
WRInaute occasionnel
Attention : un sitemap ne t'assure en aucun cas l'indexation de l'intégralité de tes pages... Il permet seulement d'indiquer à Google les pages existantes de ton site. Google détermine ensuite les pages qu'il souhaite ou non indexer...
 
Nouveau WRInaute
Oui oui.... mais bon je ne pense pas que ce soit ça puisqu'il me trouve quand même quelques centaines de pages quasi identiques à celles qui ne sont pas encore indexées. Par contre, que signifie "non disponible" dans GWT ? (voir image ci dessus). Au moins, quand il y a une page indiquée, je sais ou faire la correction, mais là je ne sais même pas ou chercher les erreurs éventuelles....
 
WRInaute accro
pour un certain nombre de pages où il n'existe aucune liste de professeur, ça ne correspond pas aux guidelines de gg, ça ressemble pour lui à du spamindex
 
Nouveau WRInaute
Bonsoir,
Gilles, si le sitemap est corrigé, il n'y a plus d'erreur... Page "indisponible" signifie que la page n'existe pas (tu as indiqué dans ton sitemap des URLs que GoogleBot n'a pu retrouver en crawlant ton site).
Ensuite la mise à jour des GWT est mensuelle dans la plupart des cas, donc tu risques de voir ces erreurs pendant quelques temps!
Pour finir, le nombre de nouvelles pages est très important, il te faudra sans doute patienter plusieurs semaines, sinon plusieurs mois.
Cordialement
 
WRInaute accro
Gilles FABRE a dit:
Plusieurs années.... mais les nouvelles pages (les 160 000 nouvelles pages) datent de 2 mois environ. Pour l'instant, GWT ne m'en détecte que 300... snif
combien y avait-il de pages avant cette salve ?
 
Nouveau WRInaute
Merci à tous pour vos réponses, je vais essayer de préciser un peu.

Leonick, au sujet des pages sans liste de professeurs : j'ai justement supprimé les listes de professeurs sur les pages des communes (ne les gardant qu'à l'échelon "préfectures") afin que gg n'estime pas que ces listes étaient quasi identiques (les listes de professeurs de communes avoisinantes étant très semblables). J'ai donc décidé de ne mettre dans le texte que la seule vraie information pour l'internaute, à savoir que ma boîte dispense bien des cours dans la commune voulue, et en précisant les matières principales qui peuvent être proposées. J'espérais ainsi que le fait qu'il y ait peu de texte mais du texte différent entre chaque page soit plus approprié pour gg. Mauvaise idée ?

En fait, pour l'instant, je cherche seulement à faire indexer les pages principales (les préfectures : 16/95 pour l'instant) et les pages de listes de communes (pages intermédiaires entre les préfectures et les communes : 302/6460). J'ai donc carrément supprimé les liens de ma page d'accueil vers les sitemaps des communes afin de privilégier l'indexation vers les pages principales. Je n'ai cependant pas supprimé les sitemaps des communes dans mon répertoire, peut-être aurais-je dû.

Enfin, avant cette "salve", le site ne contenait que l'échelon "communes", donc en gros 110 ou 120 pages au total.

philastral a dit:
Gilles, si le sitemap est corrigé, il n'y a plus d'erreur... Page "indisponible" signifie que la page n'existe pas (tu as indiqué dans ton sitemap des URLs que GoogleBot n'a pu retrouver en crawlant ton site).

Ok, je comprends.Googlebot trouve des url dans mon sitemap, la page n'existe pas, donc il marque "indisponible", contrairement à un lien cassé ou ggbot indique dans quelle page le lien est cassé. Mais est-il normal qu'il continue à me trouver de nouvelles pages indisponibles alors que le sitemap a été corrigé il y a 8 jours ? De plus, GWT indique qu'il n'y a plus d'erreurs dans les sitemaps, les erreurs sont uniquement mises dans la partie "introuvable".
 
WRInaute accro
Gilles FABRE a dit:
J'ai donc décidé de ne mettre dans le texte que la seule vraie information pour l'internaute, à savoir que ma boîte dispense bien des cours dans la commune voulue, et en précisant les matières principales qui peuvent être proposées. J'espérais ainsi que le fait qu'il y ait peu de texte mais du texte différent entre chaque page soit plus approprié pour gg. Mauvaise idée ?
quelles différences ? juste le fait de changer le nom de la ville et/ou du département ? d'après les guidelines de gg, il faut les regrouper, sinon il considère ça comme du spamindex. Alors tu auras peut-être toutes tes pages indexées, mais la quasi totalité sera filtrée.
Même si cette méthode fonctionne encore sur des gros sites (anciens), je ne pense pas qu'elle puisse fonctionner avec de nouveaux sites
 
Nouveau WRInaute
Il me semblait que d'après les desiderata de Mr Google, c'était la proportion de texte différent par rapport au nombre global de mots qui importait. D'où l'idée de supprimer le maximum de texte commun à toutes les pages afin d'avoir un meilleur ratio texte différent / texte identique. ça pas être bon ?
 
Discussions similaires
Haut