Robots.txt et pages dynamiques

WRInaute occasionnel
Apparement si je fais un "disalow: page.php" dans mon fichier robots.txt, ca n'empèche pas les robots de scruter page.php?param=toto

normal ou pas ??

c'est un peu con comme truc....
 
WRInaute occasionnel
heuuu désolé je me suis complètement planté de forum....
Si un modérateur pouvait passer par là et rectifier le tir...

Sinon pour revenir au sujet, je trouve pas ça logique du tout. Imagine une page dans un annuaire pour suggerer un nouveau site.
Il va y avoir par exemple un paramètre pour savoir dans quelle catégorie tu veux ajouter le site (annuaire style dmoz par exemple)
Et bien tu ne pourras pas exclure cette page des robots... car il va y avoir une indéfinité de possibilité (une pour chaque catégorie). Alors que son référencement n'apportera rien puisque quelque soit la valeur de la variable passée en paramètre, la page sera toujours identique ou presque...
 
WRInaute accro
si, en rewritant ton url pour qu'elle soit de la forme domaine.tld/inscription/index.php?... par exemple.

mais dans le cas contraire, un site composé d'une unique page (index.php?module=...") ne serait pas indexable en partie
 
WRInaute accro
easyzik a dit:
Apparement si je fais un "disalow: page.php" dans mon fichier robots.txt, ca n'empèche pas les robots de scruter page.php?param=toto

normal ou pas ??

c'est un peu con comme truc....


disalow: page.php

va emepècher d'indexer

page.php
page.php?param=toto


etc...

si tu veu indexer "page.php" mais pas les paramètres tu devra mettre ceci :

disalow: page.php?


on peu aussi plus loin ;-)
 
WRInaute discret
Donc, pour aller plus loin, si on met :

disalow: page.php?name=page_a_ne_pas_indexer?

Es ce que toutes les pages :
page.php?name=page_a_ne_pas_indexer&param=1
page.php?name=page_a_ne_pas_indexer&param=1
page.php?name=page_a_ne_pas_indexer&param=1

ne seront plus indexer ?

et es ce que :
page.php?name=page_A_INDEXER
restera dans GG ?
 
WRInaute occasionnel
heuuuu.. pour ma part, j'ai bien mis page.php sans le '?' dans mon fichier et robotstat m'indique le passage de robots sur page.php?param=toto

Une hypothèse ?
 
WRInaute occasionnel
le robot n'est pas repassé sur le robots.txt? Ce n'est qu'une hypothèse, mais je ne pense pas qu'il vérifie dans le robots.txt à chaque indexation de fichier et qu'il faut un moment avant qu'il le reprenne en compte...
 
WRInaute occasionnel
il faut verifier egalement que c'est pas le robot adsense ou un robot ne respectant pas robots.txt
 
WRInaute occasionnel
et si je fait :
Code:
User-agent: RobotA
Disallow: /rep1/

User-agent: *
Disallow: /rep2/
Disallow: /rep3/

Est-ce que le robot A ira lire les repertoires 2 et 3 ???
 
WRInaute occasionnel
Et ben MSN à pas l'air de l'entendre de cette façon....

Car mon fichier resemble à ça :
Code:
User-agent: Msnbot
Disallow: /common/

User-agent: *
Disallow: /common/erreur/
Disallow: /divers/contact.php

et il fait que de me scanner mes pages /divers/contact.php?param=blablabla

Et ça fait plusieurs jours que ça continue...
 
WRInaute occasionnel
Je vais modifier mon fichier en :

Code:
User-agent: Msnbot
Disallow: /common/
Disallow: /common/erreur/
Disallow: /divers/contact.php

User-agent: *
Disallow: /common/erreur/
Disallow: /divers/contact.php

et je vais voir si ça continue...
 
WRInaute discret
snowalpes a dit:
Donc, pour aller plus loin, si on met :

disalow: page.php?name=page_a_ne_pas_indexer?

Es ce que toutes les pages :
page.php?name=page_a_ne_pas_indexer&param=1
page.php?name=page_a_ne_pas_indexer&param=1
page.php?name=page_a_ne_pas_indexer&param=1

ne seront plus indexer ?

et es ce que :
page.php?name=page_A_INDEXER
restera dans GG ?

Ca marche pas !! J'ai demandé a GG de repaser sur ces fichiers... ils n'a pas enlever tous les fichiers que je souhaitai...

Je vais chercher une solution en meta name...
 
WRInaute occasionnel
snowalpes a dit:
Ca marche pas !! J'ai demandé a GG de repaser sur ces fichiers... ils n'a pas enlever tous les fichiers que je souhaitai...
Essaye d'enlever le dernier point d'interogation

Code:
disalow: page.php?name=page_a_ne_pas_indexer
 
WRInaute discret
Quelques messages au dessus, on m'a indiqué de mettre ce ? a la fin, pour indiquer à GG d'enlever toutes les pages ayant le même debut...
 
WRInaute impliqué
non c'était pour la chaine de caractères....
le "?" n'est pas un caractère spécial

disalow: page.php?name=page_a_ne_pas_indexer
 
WRInaute occasionnel
et au final ça a donné quoi cette histoire ?

J'ai lancé un site hier, je suis en train de rédiger mon robots.txt et je me pose la question.

On est bien d'accord que

Disallow: /inspiration/news.aspx?

ne va pas interdire l'accès à /inspiration/news.aspx

?
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut