Technique robots.txt

WRInaute discret
Bonjour à tous

Ayant appliqué depuis peu de l'url rewriting, je souhaiterai à présent dire à google de ne plus indexer toutes mes pages php (je dirai même idéalement de les déindéxer mais sans passer par de la redirection celà me parait inconcevable).

Auriez vous donc par hasard la syntaxe à appliquer dans mon robots.txt (sans doutes proche de :
Ainsi :
 
WRInaute discret
User-agent: *
//supprimer page -http://www.monsite.com/perso.html avec
Disallow: /perso.html
//supprimer page -http://www.monsite.com/perso/index.html avec
Disallow: /perso/index.html
//supprimer tout le dossier -http://www.monsite.com/perso/ dont index.html avec
Disallow: /perso/

J'avais déla lu la syntaxe pour robots.txt mais je ne vois pas comment l'adapter pour dire à google de ne plus indexer toutes les pages du type
*.php

J'ai l'impression que celà n'est pas possible à partir de ce fichier robots, peut faut t-il se servir de l'htaccess pour l'informer que ces pages de doivent plus être indéxées... mais la encore je ne vois pas la synthaxe :?:
 
WRInaute accro
Le fichier robots.txt interdit soit une page soit un repertoire par conséquent il est sensé interdire :
avec l'instruction suivante Disallow: /fichier.php l'indexation de la page
/fichier.php et de toutes ses variables comme /fichier.php&1-mnop-255
Par conséquent, il ne devrait pas interdire l'indexation de /fichier-var1-val1-var2-val2.html puisque la suite ne contient pas fichier.php

Pour t-prod tu peux utiliser :
User-agent: *
Disallow: /?mavariable=mavaleur2
Disallow: /?mavariable=mavaleur3

Les autres pages (comme ?mavariable=mavaleur4) seront indexées.
 
WRInaute accro
Logiquement et sans garanties il ne devrait pas y avoir de problème.

Je viens de jeter un coup d'oeil sur ton site et il me semble que ton problème vient d'un possible "duplicate content" suite à un URL rewriting entre les pages qui ont affichées avec l'URL ré-écrite et celles qui le sont sans URL ré-écrite.

Si c'est bien le cas, on peut faire un parallèle avec un fichier robots.txt placé pour éviter le duplicate lors du rewitre d'un forum phpbb2 tel que celui-ci :

Code:
User-agent: *
Disallow: /dossierphpbb/post-
Disallow: /dossierphpbb/updates-topic
Disallow: /dossierphpbb/stop-updates-topic
Disallow: /dossierphpbb/viewtopic.php?
Disallow: /dossierphpbb/viewforum.php?
Disallow: /dossierphpbb/index.php?
Disallow: /dossierphpbb/error.php
Disallow: /dossierphpbb/-br
Disallow: /dossierphpbb/mark
Disallow: /dossierphpbb/image-
Disallow: /dossierphpbb/1-
Disallow: /dossierphpbb/next
Disallow: /marsforum/arreter
Disallow: /marsforum/voir

qui est conseillé dans ce post là : https://www.webrankinfo.com/forum/t/url-rewriting-titres-pour-phpbb-v2-solution-globale.31831/

Tu constates l'interdiction Disallow: /dossierphpbb/viewforum.php? or si la page /dossierphpbb/viewforum.php?f=1 ne sera par conséquent pas indexée, la même page avec l'adresse ré-écrite le sera (exemple /dossierphpbb/forum-1-presentation.html).
 
WRInaute discret
Je viens de jeter un coup d'oeil sur ton site et il me semble que ton problème vient d'un possible "duplicate content" suite à un URL rewriting entre les pages qui ont affichées avec l'URL ré-écrite et celles qui le sont sans URL ré-écrite.

Si c'est bien le cas, on peut faire un parallèle avec un fichier robots.txt placé pour éviter le duplicate lors du rewitre d'un forum phpbb2 tel que celui-ci :

Je pense que tu as tout a fait raison et c'est pour celà que nous sommes en train de plancher sur le robots.txt pour régler ce pb de duplicate content.

Nous avons mis en ligne hier soir cette version de notre robot :
User-agent: *
Disallow: /images
Disallow: /themes
Disallow: /logs
Disallow: /cache
Disallow: /sql
Disallow: /forum.php
Disallow: /friend.php
Disallow: /index.php
Disallow: /pollBooth.php
Disallow: /powerpack.php
Disallow: /print.php
Disallow: /reviews_critiques.php
Disallow: /static.php
Disallow: /tri.php
Disallow: /user.php
Disallow: /viewforum.php
Disallow: /viewtopic.php

Celà devrait logiquement éliminer toutes les anciennes url non rewritées, et tout particulièrement les milliers de pages tri.php encore présentes dans l'index de google.
Tu peux nous confirmer serval2a ?
 
WRInaute accro
Note: Ton robots.txt ne permettra certainement pas une désindexation rapide des pages que tu souhaites voir disparaître...

Google met un temps dingue à les désindexer comme ça.

Essaye de voir si tu ne peux pas assortir ton .htaccess d'une redirection 301 des anciennes vers les nouvelles... Il doit y'avoir moyen.

@+
 
WRInaute accro
Je suis du même avis que HawkEye_TpfH

Pour ce qui est du fichier si tu interdit tout un dossier du site il faut rajouter un / à la fin comme : Disallow: /images/ pour interdire /images/bille.jpg, /images/boule.jpg ...
 
WRInaute discret
Ton robots.txt ne permettra certainement pas une désindexation rapide des pages que tu souhaites voir disparaître

Question con mais par "pas rapide" tu penses a 1 semaine, 2semaines, 1 mois, 3 mois, 6 mois ou 1 an ? :?
 
WRInaute accro
J'ai encore des pages indexées d'il y'a 2 ans ;)

(sur un site sur lequel je n'ai plus la main, donc plus de possibilité d'action)
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut