aide robot.txt svp

Discussion dans 'Débuter en référencement' créé par oes, 26 Mars 2020.

  1. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    33
    J'aime reçus:
    5
    Salut, par les temps qui courent je me retrouve à faire des tâches que je ne fais pas habituellement comme le robot.txt, si je pouvais avoir une validation de votre part pour ne pas proposer une c*nnerie... J'ai crawlé le site en staging et j'ai ce genre de résultats que je souhaite ne pas indexer

    site.com/fr/entreprises?filters%5Blisting_content_type%5D%5B0%5D="Restaurants"
    site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
    site.com/es/search?tab=event&filters%5Bthemes%5D%5B0%5D="bla%20blabla"
    site.com/en/search?tab=content&filters%5Bneighbourhoods%5D%5B%5D="bla%20the%20bla"

    Est ce que le robot.txt serait bien :

    User-agent: *
    Disallow: /fr/recherche?filter=*
    Disallow: /es/search?filter=*
    Disallow: /en/search?filter=*
    Disallow: /fr/entreprises?filter=*

    Je ne suis pas sure pour entreprises qui a plein de pages derrière. Je veux juste virer les filtres des pages entreprises. Merci de votre aide et bon courage!
     
  2. emualliug
    emualliug WRInaute occasionnel
    Inscrit:
    1 Février 2020
    Messages:
    499
    J'aime reçus:
    119
    robots.txt n'est pas adapté pour interdire une indexation, il interdit uniquement le crawl, une page déjà connue (ou connue autrement que le crawl) sera indexée. Le mieux reste les balises méta.

    Et aucune des règles proposée ne bloquera le crawl sur "site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
     
  3. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    33
    J'aime reçus:
    5
    Oui là je veux interdire le crawl. il y aura des meta en plus
     
  4. emualliug
    emualliug WRInaute occasionnel
    Inscrit:
    1 Février 2020
    Messages:
    499
    J'aime reçus:
    119
    Attention tout de même dans ce cas à procéder dans l'ordre, d'abord la désindexation, puis l'interdiction du crawl. Puisque si la page ne peut pas être crawlée, le moteur n'aura jamais connaissance de la requête en non indexation.

    Après, je considère que, globalement, le filtrage par robots.txt des pages à crawler est inutile. Il ne devrait pas y avoir une grosse perte de "jus" de crawl pour des pages en no-index.
     
  5. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    33
    J'aime reçus:
    5
    C'est un nouveau site à sortir ! les urls ne sont donc pas indexées!
     
  6. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 643
    J'aime reçus:
    82
    hey

    Tu peux aussi passer par PHP
    1) test googlebot
    2) test l'uri
    3) exit a ta manière

    PHP:
    <?php
     
    if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot") AND strstr$_SERVER["REQUEST_URI"],'/fr/recherche?filter=' ) != FALSE 
      
    header('Location: https://tonsite.fr');
    ?>
     
    oes apprécie ceci.
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 816
    J'aime reçus:
    826
    à mon avis, tu as bien mieux à faire : améliorer le site en lui-même pour ne plus générer autant d'URL
     
  8. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    33
    J'aime reçus:
    5
    gros site, on me demande ça à j-15 de la mise en ligne en urgence....
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 816
    J'aime reçus:
    826
    comme tu veux. Les problèmes seront pires plus tard.
     
  10. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    33
    J'aime reçus:
    5
    bah malheureusement là c'est pas comme je veux mais comme je peux. Si ça ne tenait qu'à moi évidemment qu'on ne ferait pas ça. La réalité en agence surtout dans ce contexte particulier fait que c'est moins souple que lorsqu'on est consultant
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 816
    J'aime reçus:
    826
    puisque tu ne peux pas semble-t-il empêcher que le site génère ces URL, je te conseille d'étudier si ces URL sont déjà indexées (dans ce cas tu dois d'abord te débrouiller pour les désindexer avant le pb du crawl)

    ensuite, il faut bloquer le crawl. Pour bien le faire, il faut savoir quelles URL sont à bloquer. Si c'est tout ce qui utilise la recherche ainsi que /fr/entreprises, quels que soient les paramètres d'URL, alors tu peux utiliser ces règles :

    Code:
    User-agent: *
    Disallow: /fr/recherche
    Disallow: /fr/entreprises
    Disallow: /es/search
    Disallow: /en/search
    sinon, il faut faire la liste des cas concernés

    tu peux tester ton robots.txt avec l'outil de Google
     
Chargement...
Similar Threads - aide robot svp Forum Date
Site maps/ robots et référencement de toutes les pages a l'aide svp ! Problèmes de référencement spécifiques à vos sites 13 Mars 2009
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
Aide pour réalisation d'un robots.txt restrictif Débuter en référencement 24 Octobre 2011
Aide sur le fichier robots.txt et sitemap Référencement Google 9 Octobre 2008
éliminer les pages .php à l'aide de robots.txt ? Crawl et indexation Google, sitemaps 10 Mars 2007
a l'aide avec le fichier robot.txt Crawl et indexation Google, sitemaps 2 Septembre 2006
Aider le robot AdSense au niveau du contenu AdSense 4 Octobre 2005
aide pour la creation d'un fichier robot.txt Débuter en référencement 17 Juillet 2005
Aide mémoire de fin d’étude Le café de WebRankInfo 12 Août 2022
Une aide pour une fonction récursive... Développement d'un site Web ou d'une appli mobile 18 Juillet 2022
Aide petite regex Développement d'un site Web ou d'une appli mobile 28 Juin 2022
Aide données structurées produits Woocommerce Débuter en référencement 4 Mai 2022
WordPress A l'aide ! Mon site est spammé, mon domain rating prend un sacré coup Débuter en référencement 26 Avril 2022
WordPress Concours SEO : aide pour référencer site sur Boinmadig Demandes d'avis et de conseils sur vos sites 31 Mars 2022
Pose de liens : Besoin d'aide d'ordre technique et besoin d'éclairage Netlinking, backlinks, liens et redirections 9 Mars 2022
De l'aide pour ma localisation dans les balises SEO Demandes d'avis et de conseils sur vos sites 23 Février 2022
Comparateur de prix de bien commun - Aide / partenariat Demandes d'avis et de conseils sur vos sites 23 Décembre 2021
Avis et aide sur quel-canape Demandes d'avis et de conseils sur vos sites 13 Décembre 2021
Besoin d'aide pour le lancement de mon Application Demandes d'avis et de conseils sur vos sites 12 Août 2021
Besoin d'aide pour la compréhension d'une application Développement d'un site Web ou d'une appli mobile 1 Août 2021