aide robot.txt svp

Nouveau WRInaute
Salut, par les temps qui courent je me retrouve à faire des tâches que je ne fais pas habituellement comme le robot.txt, si je pouvais avoir une validation de votre part pour ne pas proposer une c*nnerie... J'ai crawlé le site en staging et j'ai ce genre de résultats que je souhaite ne pas indexer

site.com/fr/entreprises?filters%5Blisting_content_type%5D%5B0%5D="Restaurants"
site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
site.com/es/search?tab=event&filters%5Bthemes%5D%5B0%5D="bla%20blabla"
site.com/en/search?tab=content&filters%5Bneighbourhoods%5D%5B%5D="bla%20the%20bla"

Est ce que le robot.txt serait bien :

User-agent: *
Disallow: /fr/recherche?filter=*
Disallow: /es/search?filter=*
Disallow: /en/search?filter=*
Disallow: /fr/entreprises?filter=*

Je ne suis pas sure pour entreprises qui a plein de pages derrière. Je veux juste virer les filtres des pages entreprises. Merci de votre aide et bon courage!
 
WRInaute impliqué
robots.txt n'est pas adapté pour interdire une indexation, il interdit uniquement le crawl, une page déjà connue (ou connue autrement que le crawl) sera indexée. Le mieux reste les balises méta.

Et aucune des règles proposée ne bloquera le crawl sur "site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
 
WRInaute impliqué
Attention tout de même dans ce cas à procéder dans l'ordre, d'abord la désindexation, puis l'interdiction du crawl. Puisque si la page ne peut pas être crawlée, le moteur n'aura jamais connaissance de la requête en non indexation.

Après, je considère que, globalement, le filtrage par robots.txt des pages à crawler est inutile. Il ne devrait pas y avoir une grosse perte de "jus" de crawl pour des pages en no-index.
 
WRInaute accro
hey

Tu peux aussi passer par PHP
1) test googlebot
2) test l'uri
3) exit a ta manière

PHP:
<?php
 if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot") AND strstr( $_SERVER["REQUEST_URI"],'/fr/recherche?filter=' ) != FALSE ) 
  header('Location: https://tonsite.fr');
?>
 
  • Like
Reactions: oes
Olivier Duffez (admin)
Membre du personnel
à mon avis, tu as bien mieux à faire : améliorer le site en lui-même pour ne plus générer autant d'URL
 
Nouveau WRInaute
comme tu veux. Les problèmes seront pires plus tard.
bah malheureusement là c'est pas comme je veux mais comme je peux. Si ça ne tenait qu'à moi évidemment qu'on ne ferait pas ça. La réalité en agence surtout dans ce contexte particulier fait que c'est moins souple que lorsqu'on est consultant
 
Olivier Duffez (admin)
Membre du personnel
puisque tu ne peux pas semble-t-il empêcher que le site génère ces URL, je te conseille d'étudier si ces URL sont déjà indexées (dans ce cas tu dois d'abord te débrouiller pour les désindexer avant le pb du crawl)

ensuite, il faut bloquer le crawl. Pour bien le faire, il faut savoir quelles URL sont à bloquer. Si c'est tout ce qui utilise la recherche ainsi que /fr/entreprises, quels que soient les paramètres d'URL, alors tu peux utiliser ces règles :

Code:
User-agent: *
Disallow: /fr/recherche
Disallow: /fr/entreprises
Disallow: /es/search
Disallow: /en/search

sinon, il faut faire la liste des cas concernés

tu peux tester ton robots.txt avec l'outil de Google
 
Discussions similaires
Haut