Google ignore 95% des pages de mon site. Pourquoi?

ualvarez

WRInaute discret
J'ai mis en ligne il y a deux mois un site de petites annonces gratuites.
www.anuncios-gratuitos.com (désolé, c'est un site en espagnol)

Début avril, je n'avais en ligne que la page d'accueil et deux pages d'annoces ou je faisais des tests. Donc, les liens de ma page d'accueil pointaient vers des pages encore innexistantes (c'est sur, je n'ai pas été très malin, j'aurais du faire pointer ces liens vers une page "en traveaux"). GoogleBot a visité mon site en avril : il a indexé la page d'accueil et les deux pages d'annonces qui existaient déja a l'époque. Mais pour le reste des liens : erreur 404...

Depuis, GoogleBot visite fréquement ma page d'accueil et les deux autres pages mais il ignore complètement les centaines d'autres pages qui sont aujourd'hui en ligne.

Que faire dans ce cas de figure? Merci d'avance à tous.
 

dcz

WRInaute impliqué
lo

J'ai eu un cas similaire rescemment, et j'ai reussi à accelerer le processus en mettant en place une sitemap(une semaine plus tard et toutes mes pages sont en cache). A creuser...

++

dcz
 

ualvarez

WRInaute discret
Merci beaucoup dcz, je vais tester le sitemap. Je crois que pour l'instant je vais me limiter a faire un sitemap en "txt" parce que je me perd un peu dans les explications du sitemap generator...

Tu as utilisé quel format de sitemap?

*Encore merci :)
 

dcz

WRInaute impliqué
exemple

Pour ma part j'utilise ce mod pour generer une sitemap assez sommaire pour phpbb (il existe des formes plus complexes, décrite dans la partie de google reservé aux sitemap.
Le resultat est le suivant, tu dois pouvoir en faire une au pire en la hard codant et en respectant la synthaxe choisie.
La mienne.

++

dcz
 

ualvarez

WRInaute discret
Si j'ai bien compris, ton generator est spécifique a phpbb...

Tu ne connaitrais pas par hasard un sitemap generator SIMPLE et FIABLE pour un site en php.

J'aurais voulu utiliser le "sitemap_gen.py" mais mon hébergeur ne m'autorise pas a accéder au SSH du serveur web. Et donc, a ma connaisance, je n'ai pas façon de lancer le script python...

Merci bcp pour ton aide
 

dcz

WRInaute impliqué
heu

Désolé, mais je ne connais pas assez le php pour t'aider sur ce coup.

Peut être que tu peux reprendre une partie du code du mode que j'utilise (la partie qui affiche effectivement la sitemap) en bricolant d'autres critères pour construire la liste de tes pages. Cela ne doit pas être trop compliquer si tu codes en php, parce qu'il suffit de trouver les url de toutes tes pages sans notions de profondeur dans le site (à part peut être pour ajouter des notions de priorité plus adaptés ce qui n'est pas primordiale et que tu peut effectuer differemment, par exemple en créant une regle pour que toutes tes pages sans ? dans l'url aient une priorité différentes de celles sans), la sitemap de ce mode met toutes les url au même niveau, ce qui marche très bien pour google.

Au pire, tu peux entrer tes pages manuellement dans un fichier qui respecte la synthaxe donnée en exemple ou même en t'inspirant des synthaxes plus complexes (avec des notions de profondeur) proposé dans les différents formats que reconnait google.

Perso en une semaine d'utilisation (après insciption et soumission au systeme google) j'ai ça, alors que depuis deux mois je n'avais que trois pages en cache.

Voili

++

dcz
 

dcz

WRInaute impliqué
bah alors

bah alors si tu as ce fichier txt, il ne doit pas etre trop compliquer de s'inspirer du code de mon mod pour sortir le resultat sous la même forme. Le plus dur c'est de créer la list des url.

Il est le code ;)

++

dcz
 

ualvarez

WRInaute discret
J'essaye d'être patient mais ... les choses ne changent toujours pas.

- J'ai créé un google sitemap en txt et aussi un google sitemap en xml (merci dcz!!!). Ils ont été acceptés par google et sont téléchargés par GoogleBot plusieurs fois par jour.
- Ma page d'accueil est maintenant visitée et mise en cache tous les jours par GoogleBot : voir le cache

Mais malgré cela, je continue à n'avoir que deux pages référencées sur Google : voir

GoogleBot "arrive" sur mon site, visite la page d'accueil et s'en va... Je suis désespéré... Quelqu'un a des idées? Mes pages se ressemblent trop? J'ai des problèmes dans les liens? je ne sais plus...

Par contre, d'autres moteurs comme msn commencent a indexer le contenu de mon site : voir
 

Conc3pt

WRInaute discret
J'ai le meme soucis que toi et pareil le sitemap n'y change rien... Il arrive sur l'index et repart aussi tot et ce tous les jours :evil:

Par contre msn yahoo ca avale sans problème.

Juste un detail pour le site
Code:
http://www.marsatak.org/

Tu dis j'ai fait mon sitemap et hop je suis indexé. A mon avis coincidence parce que les pages qui sont idexées dans google ne sont pas celles présentes dans ton sitemap.php...

Mais je comprend pas tout le monde dit (et je le pense ou plutot le pensais) que google est le meilleur moteur de recherche mais je commence sérieusement à avoir des doutes sur l'efficacité de ses mises à jour. Vu le temps qu'il mets pour crawler un site...
 

ualvarez

WRInaute discret
C'est clair, je frôle la dépression !!!!

On dit toujours qu'il faut être patient avec google mais bon, il y a quand même des limites...

Ce qui m'ennerve le plus c'est que la seule fois où GoogleBot s'est "intéressé" aux pages de mon site (autre que la page d'accueil) c'était il y a 3 mois, quand les pages n'existaient pas encore (mais les liens vers ces pages existaient malheureusement en page d'accueil...).

Combien de temps faut-il pour être indexé par google ? Je ne demande pas d'être dans les premiers résultats de recherche, je demande juste que google indexe les pages du site surlequel j'ai travaillé des nuits entières...
 

HawkEye

WRInaute accro
Conc3pt:

J'ai démarré un site au 1er Juin
Crawlé par GBot 3 jours plus tard
Dans les résultats 5 jours après

Depuis j'ai apporté pas mal de modifs, principalement aux title, desc et kw, et le nombre de pages a augmenté.

Je te citerai comme seul exemple celui d'une page qui a été créée dimanche soir... et qui est référencée depuis ce matin...

Donc il ne met pas tant de temps que ça à crawler un site ;)

D'autrepart, je ne pense pas que tant de gens disent que GG est le meilleur moteur de recherche... simplement le plus gros ;)
 

Conc3pt

WRInaute discret
Bah t'as eu de la chance parce que visiblement la proportion de gens qui juste leur page d'accueil indexée en 3 mois me parait supérieur à ceux dont tout le site est crawlé en 5 jours :lol:
 

ualvarez

WRInaute discret
Salut HawkEye_TpfH

Tu as de la chance! (ou tu doit vraiment t'y connaitre!!).

Tu aurais des explications de ce qui m'arrive? Tu as procédé de quelle façon pour être aussi bien référencé par Google?

Merci
 

HawkEye

WRInaute accro
ualvarez:

Premièrement, je me suis assuré qu'il était "crawlable", qu'il n'y avait pas de dead links, d'erreurs à la 404, etc... (pour éviter que GG n'indexe une première fois (rapidement) un truc cochonné, puis devoir attendre pour qu'il réindexe et supprime les pages erronnées (ou que j'aie à les virer moi même via l'interface de Google ou par des redirection 301)

Deuxièmement, j'ai fait un Google Sitemap (initialement à la main dans un fichier texte) sommaire qui reprenait les pages les plus importantes, mais je ne l'ai pas soumis.

Troisièmement, j'ai soumis l'url à Google, une seule fois, et uniquement la principale.

Une fois le passage de Gbot spotté dans mes logs, j'ai attendu.

Lorsque la première page est apparue, j'ai uploadé le sitemap, et j'ai commencé à faire des backlinks en proposant mon site à quantité d'annuaires (j'ai encore des poches sous les yeux). Je ne voyais pas l'intérêt de faire des BLs ou de soumettre un sitemap pour un site qui n'était pas encore dans la db de GG.

Et voilà...

Depuis, j'ai mis 3 sitemaps différents sur Google (un sitemap principal incluant l'architecture du site), un sitemap secondaire reprenant les pages de moindre importance uniquement, et un troisième dont je conserverai le secret tant que je n'ai pas évalué si il a un réel impact :roll:

Note pour les sitemaps: j'ai fait des sitemaps pour 3 sites différents, et les sitemaps de ces 3 sites ont été indexés dans les 1 à 12 heures maxi. J'en ai fait un en changefreq=weekly, un en changefreq=always, et un sans aucune autre info que les url (pas de changefreq, pas d'importance de page, etc...

résultat similaire pour les 3 sites (ça doit avoir autant de poids que le tag revisit-after :mrgreen: )

PS: Normalement (et sous réserve de bon fondement des outils utilisés), je devrais passer d'un PR=0 à un PR=4 au prochain update. Vu qu'il n'y a pas encore grand chose sur ce site (295 sites inscrits à ce jour), je trouve ça pas mal... Vivement un peu plus de contenu néanmoins ;)

PPS: J'ai dit que j'étais correctement indexé, ce qui ne signifie pas que je sois correctement positionné bien entendu... 'va d'abord falloir sortir du sable :?
 

Conc3pt

WRInaute discret
ouai ben moi mon sitemap il l'avale pas...

Par ocntre ca m'interesse quand tu qu'on peut virer les pages dont les liens sont cassés car le site ayant été refait ya des pages indexées qui n'existent plus.

et pourrais tu me dire si mon fichier sitemap te semble valide?

Code:
http://www.vakarm.net/sitemap.xml

sachant que google me dit ok mais n'indexe rien pour autant:/

Sinon bah j'ai tout verif ya pas de 404 sur mon site sauf dans un profil du forum, je dois corriger ca (pb d'url rewriting et de caracteres mal nettoyés)
 

Thierry Bugs

WRInaute accro
Pour le crawl, ça dépend vraiment des sites...
Unalvarez, je viens de visiter ton site, une petite remarque
ta page d'accueil est très chargée en url, du coup comme on peut le voir les Adsences sont des annonces gratuites. A l'inverse, quand on choisie une catégorie, moins de liens, des annonces normales. J'en déduit que tes pages ont plus de valeur que ta page index (trop d'url= perte de pagerank). Pour tes problèmes, cherche peut etre dans ce sens là.
 

HawkEye

WRInaute accro
conc3pt, comme dit plus haut: lastmod, changefreq et priority n'ont pas montré d'influence particulière chez moi...

Il y avait une page sur mon site qui était complètement orpheline (mais vraiment hein...), et qui s'est retrouvée sur mon sitemap (j'utilise autositemap.com).

3 jours après download de mon sitemap par GG, elle était indexée.

Je l'ai virée du sitemap (autositemap.com/manag.orig.html): quelques jours après elle n'était plus là...

Pour l'instant, il me d/l mes sitemaps 1x par jour en moyenne... :)

par contre, depuis quelques jours, je le sens beaucoup moins rapide... (note qu'on est peut-être de plus en plus nombreux à utiliser google sitemaps... :mrgreen:)
 

Conc3pt

WRInaute discret
Ah oui ca j'ai vu ce générateur de sitemap.

J'essaierai ce soir pour voir.

Mais pourquoi il telechargerait ce sitemap et pas celui que j'ai fait moi?

Tout de meme une question : Je mets régulierement mon sitemap a jour (tous les jours) alors peut etre que google n'aime pas trop qu'on lui change le sitemap tous les jours et du coup repars de zero a chaque nouvelle soumission. (en gros je refais la queue)
 

Startide

WRInaute discret
Il y a plein de raisons qui font qu'un site n'est pas bien référencé.

Essayez de faire des liens depuis d'autres sites vers d'autres pages que l'accueil pour tenter de commencer à débloquer la situation ^^
 

HawkEye

WRInaute accro
Startide a dit:
Il y a plein de raisons qui font qu'un site n'est pas bien référencé.

Essayez de faire des liens depuis d'autres sites vers d'autres pages que l'accueil pour tenter de commencer à débloquer la situation ^^

Je fais ça 3 heures par jour :roll:
 

Conc3pt

WRInaute discret
Moi quand meme pas 3 h par jour mais je passe du temps aussi... Le seul truc que je faisais pas c'est de varier les adresses, je mets toujours l'url de la page d'accueil (ce qui me paraissait logique mais bon...) :roll:
 

alfred99

WRInaute occasionnel
j'ai trouve un bon generateur de sitemap sous licence gpl. voici l'adresse :
http://enarion.net/google/. Je l'ai teste en local, c'est parfait, car il est facile a utiliser et cree une belle page xml.
mais chez ovh mutualise, je ne sais pas quoi mettre dans : path of your site on local file system of your server. j'ai rien mis et ca a fait une surcharge du serveur et je me suis fait crier par ovh. si quelqu'un a la solution.
 

ualvarez

WRInaute discret
Bonjour à tous,

Excusez mon absence mais j'ai "déconnecté" quelques jours.

je voudrais vous remercier à tous pour vos réponses et spécialement à HawkEye_TpfH et Thierry Bugs.

Thierry Bugs : en effet, j'avais déja constaté que les liens sur ma page d'acceuil sont surement trop nombreux. Mais j'aime cette effet "journal" de la page d'accueil à partir de laquelle on peut accéder à toutes les catégories d'annonces. Je vais encore attendre un p'tit peu et sinon, je vais t'écouter et faire une page d'accueil plus "soft".

alfred99 : moi aussi j'ai utilisé le sitemap generator disponible sur http://enarion.net/google/. En effet, il est extrèmement simple à utiliser mais je n'arrive pas à qu'il prenne en compte les pages avec une variable dans l'adresse (ex : toto.php?code=tutu). Tu as le même problème?

Mondiani : est ce que le sitemap generator de http://topflood.free.fr/generateur_de_sitemap.html prend en compte les pages avec une variable dans l'adresse (ex : toto.php?code=tutu) ??? Merci

Bonne nouvelle : ma page d'accueil a un pagerank de 1. Mais Googlebot continue à visiter uniquement cette page. Patiente...
 

M.o.n.d.i.a.n.i

WRInaute occasionnel
ualvarez a dit:
Bonjour à tous,

Mondiani : est ce que le sitemap generator de http://topflood.free.fr/generateur_de_sitemap.html prend en compte les pages avec une variable dans l'adresse (ex : toto.php?code=tutu) ??? Merci

Bonne nouvelle : ma page d'accueil a un pagerank de 1. Mais Googlebot continue à visiter uniquement cette page. Patiente...

Non ce code liste les pages d'un dossier (à la maniere d'un dir en dos)
Il ne crawle pas le site...

Cela dit si tu t'y connais un minimun en php tu devrais pouvoir ecrire une sitemap directement à partir de ta base de données. C'est tout simple.
Mais est ce que c'est bien nécessaire? Je ne sais pas. Si tu le fais il faudra regenerer la sitemap à chaque ajout-suppression d'un element de page.

De toute facon essaies toi à la réécriture d'url pour les liens dynamiques. Google n'en tient pas compte pour les sites en dessous d'un certain PR.

Ca fait moins d'une semaine que j'ai ajouté ma sitemap et la réecriture de lien - pour l'instant google ne va pas plus loin que la 1ere page.

Comme toi j'ai eu 6 MOIS une page d'attente (mais sans liens morts) J'ai viré cette page là debut juin. Ajouter une redirection 404 une sitemap et l'url rewriting. Là je peaufine ma stratégie de linking.

Voila voila
 

Discussions similaires

Haut