aide robot.txt svp

oes · 26 Mars 2020

Salut, par les temps qui courent je me retrouve à faire des tâches que je ne fais pas habituellement comme le robot.txt, si je pouvais avoir une validation de votre part pour ne pas proposer une c*nnerie... J'ai crawlé le site en staging et j'ai ce genre de résultats que je souhaite ne pas indexer

site.com/fr/entreprises?filters%5Blisting_content_type%5D%5B0%5D="Restaurants"
site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
site.com/es/search?tab=event&filters%5Bthemes%5D%5B0%5D="bla%20blabla"
site.com/en/search?tab=content&filters%5Bneighbourhoods%5D%5B%5D="bla%20the%20bla"

Est ce que le robot.txt serait bien :

User-agent: *
Disallow: /fr/recherche?filter=*
Disallow: /es/search?filter=*
Disallow: /en/search?filter=*
Disallow: /fr/entreprises?filter=*

Je ne suis pas sure pour entreprises qui a plein de pages derrière. Je veux juste virer les filtres des pages entreprises. Merci de votre aide et bon courage!

emualliug · 26 Mars 2020

robots.txt n'est pas adapté pour interdire une indexation, il interdit uniquement le crawl, une page déjà connue (ou connue autrement que le crawl) sera indexée. Le mieux reste les balises méta.

Et aucune des règles proposée ne bloquera le crawl sur "site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"

oes · 26 Mars 2020

Oui là je veux interdire le crawl. il y aura des meta en plus

emualliug · 26 Mars 2020

Attention tout de même dans ce cas à procéder dans l'ordre, d'abord la désindexation, puis l'interdiction du crawl. Puisque si la page ne peut pas être crawlée, le moteur n'aura jamais connaissance de la requête en non indexation.

Après, je considère que, globalement, le filtrage par robots.txt des pages à crawler est inutile. Il ne devrait pas y avoir une grosse perte de "jus" de crawl pour des pages en no-index.

oes · 26 Mars 2020

C'est un nouveau site à sortir ! les urls ne sont donc pas indexées!

KOogar · 26 Mars 2020

hey

Tu peux aussi passer par PHP
1) test googlebot
2) test l'uri
3) exit a ta manière

PHP:

<?php
 if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot") AND strstr( $_SERVER["REQUEST_URI"],'/fr/recherche?filter=' ) != FALSE ) 
  header('Location: https://tonsite.fr');
?>

WebRankInfo · 27 Mars 2020

à mon avis, tu as bien mieux à faire : améliorer le site en lui-même pour ne plus générer autant d'URL

oes · 27 Mars 2020

WebRankInfo a dit:
à mon avis, tu as bien mieux à faire : améliorer le site en lui-même pour ne plus générer autant d'URL

gros site, on me demande ça à j-15 de la mise en ligne en urgence....

WebRankInfo · 27 Mars 2020

comme tu veux. Les problèmes seront pires plus tard.

oes · 27 Mars 2020

WebRankInfo a dit:
comme tu veux. Les problèmes seront pires plus tard.

bah malheureusement là c'est pas comme je veux mais comme je peux. Si ça ne tenait qu'à moi évidemment qu'on ne ferait pas ça. La réalité en agence surtout dans ce contexte particulier fait que c'est moins souple que lorsqu'on est consultant

WebRankInfo · 27 Mars 2020

puisque tu ne peux pas semble-t-il empêcher que le site génère ces URL, je te conseille d'étudier si ces URL sont déjà indexées (dans ce cas tu dois d'abord te débrouiller pour les désindexer avant le pb du crawl)

ensuite, il faut bloquer le crawl. Pour bien le faire, il faut savoir quelles URL sont à bloquer. Si c'est tout ce qui utilise la recherche ainsi que /fr/entreprises, quels que soient les paramètres d'URL, alors tu peux utiliser ces règles :

Code:

User-agent: *
Disallow: /fr/recherche
Disallow: /fr/entreprises
Disallow: /es/search
Disallow: /en/search

sinon, il faut faire la liste des cas concernés

tu peux tester ton robots.txt avec l'outil de Google