[réglé] robots.txt

WRInaute impliqué
Hello,
J'ai fait une ommission dans mon robots.txt d'un forum phpbb url rewrité, et je l'ai donc mis reéllement en service que très rescemment. Google se met donc à ne plus mettre en cache les pages interdites, seulement, il semble ne pas mettre des pages qui devraient être autorisées.

Code:
User-agent: *
Disallow: /forum/posting
Disallow: /forum/profile
Disallow: /forum/privmsg
Disallow: /forum/viewonline
Disallow: /forum/groupcp
Disallow: /forum/memberlist
Disallow: /forum/search
Disallow: /forum/login
Disallow: /forum/faq
Disallow: /forum/post-
Disallow: /forum/updates-topic
Disallow: /forum/stop-updates-topic
Disallow: /forum/ptopic
Disallow: /forum/ntopic
Disallow: /forum/sutra
Disallow: /forum/setopic
Disallow: /forum/mforum
Disallow: /forum/index.php?
Disallow: /forum/viewtopic.php?
Disallow: /forum/viewforum.php?

Par exemple les pages dont l'url finit par forum1,2,3,... php ne sont pas mis en cache alors qu'elle sont précisemment celle que j'aimmerais voir référencé. De plus ggbot semble ne pas référencer du tout les ftopic1,2,3,...php alors que ce serait bien.

https://www.google.fr/search?hl=fr&q=sit ... ogle&meta=

Si vous avez une idée sur la question cela me permettrait d'être de nouveau référencé et ce serait très gentil ;)
++
 
Membre Honoré
Sur ton site pas mal de topic et de pages sont PR0 sur ma toolbar mais pas forcément visible sur google ...
Essaye d'avoir des liens vers ton forum pour bouger un peu le bot.
Et un espèce de plan du forum aussi sa peut aider :lol:
 
WRInaute accro
Code:
Disallow: /forum/index.php?

Ce ne serait pas cette ligne qui pose problème.

Sur le principe de l'url rewriting ce n'est pas l'index qui pose problème mais dès que le robot commence à naviguer il créé une requête donc obtient un id puis sur chaque page qu'il visite une adresse style forum/viewtopic.php?f=14&t=240513 qui peut empécher une bonne indexation.

La page index du forum n'ayant aucune variable et aucun sid ne devrait à mon sens par avoir de problème d'indexation.

A mon avis il faut donc sortir cette exclusion du robots.txt, c'est ce que j'ai fait et mon forum est indexé (du moins pour partie).
 
Membre Honoré
serval2a a dit:
Code:
Disallow: /forum/index.php?
Ce ne serait pas cette ligne qui pose problème.
Joli coup d'oeil :lol:

mais les pages :
-http://www.marsatak.org/marsforum/forum9.php
-http://www.marsatak.org/marsforum/forum1.php
et compagnie sont indexés (je me suis pas trop casser la tête a chercher) :oops:
 
WRInaute impliqué
et oui

je sais bien, mais ces pages ne sont pas sensé ne pas y être. De plus les page non cachés ne semblent pas être disponible pour une recherche par mot clef..
 
WRInaute accro
Re,

C'est peut-être con mais bon je me lance.

Je constate une différence entre les URL indexées par google et le fichier robots.txt.

marsforum/viewonline.php
Disallow: /forum/viewonline


Tu es allé jusqu'à faire un rewriting du dossier ?

Si la réponse est non remplace forum par marsforum dans le fichier txt.
 
WRInaute impliqué
héhé

Merci pour cette remarque pertinante, mais mon vrai robots.txt à bien un marsforum à la place de forum, c'était pour rendre le problème un peu plus universel, mais j'aurais du le dire ;)
 
WRInaute impliqué
news

Donc,

Sur http://phpbb-fr.com/ , un membre m'a dit qu'il avait le même robots.txt et que google référancait bien toutes ses pages, donc cela doit venir d'autre chose.
Peut être que j'ai un peu "faché" le bot en lui interdisant d'un coup des pages et qu'il se "venge" en ne mettant pas en cache des pages qu'il devrait pourtant indexer normalement, comme -http://www.marsatak.org/marsforum/forum9.php [edit : devenue http://www.marsatak.org/marsforum/marsnews-vf9.html], et en ne suivant pas les lien autorisés comme -http://www.marsatak.org/marsforum/ftopic18.php [edit : devenue http://www.marsatak.org/marsforum/elekt ... -vt18.html].
( https://www.google.fr/search?hl=fr&q=sit ... ogle&meta= )

J'espère que cela va rentrer progressivement dans l'ordre....
On verra bien...

PS : les articles (les ftopic1,2,3,etc.php) ne sont plus accessible via une recherche par mot clefs dans google contrairement à précédemment (elektronika download rc4 me plassait dans les trois premier resultats...), seul les pages mise en cache semblent être rechercheable (clef : vj t34m)....

++
 
WRInaute impliqué
ben non

Ben,
comme c'est un forum il y des doublons.
C'est justement l'objet de mon robots.txt : indiquer à google les liens à prendre et à ne pas prendre en compte.
Mon problème c'est que google ne met plus que deux pages en cache (et donc accessibles à la recherche) alors qu'il devrait en mettre certaines qu'il visite (les pages dont l'url se termine en forum1,2,3...php) et qu'il en ignore d'autres completement (celles dont l'url se termine en ftopic1,2,3...php).

Enfin, on verra si ça finit par rentrer dans l'ordre, mais quelqu'un à une idée, j'aimerai bien comprendre.

++
dcz
 
WRInaute impliqué
suite...

Donc, je viens de dire à google de bien prendre en compte mon robots.txt, via l'interface "retirer des url" et je lui ait dit de re crawler mon site via www.google.com/addurl.html on verra bien ce que ça donne.
En même temps, d'ici à l'ouverture officiel de mon site d'ici un mois cela devrait rentrer dans l'ordre tout seul, mais bon, je suis encore à la recherche de compréhension...
++
dcz
 
WRInaute impliqué
bon

Ca commence à être un peu inqiétant que google ne mette pas en cache les forum.php et qu'il ne visite pas les ftopic.php.
Pourtant le bot passe....
si vous avez une idée...
Merci
DCZ
 
WRInaute impliqué
idem

une semaine de plus, 8 visites du googlebot, et toujours pas de mise en cache des forum.php ni visite des ftopic.php.....
raaa...
;)
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut