aide robot.txt svp

Discussion dans 'Débuter en référencement' créé par oes, 26 Mars 2020.

  1. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    23
    J'aime reçus:
    5
    Salut, par les temps qui courent je me retrouve à faire des tâches que je ne fais pas habituellement comme le robot.txt, si je pouvais avoir une validation de votre part pour ne pas proposer une c*nnerie... J'ai crawlé le site en staging et j'ai ce genre de résultats que je souhaite ne pas indexer

    site.com/fr/entreprises?filters%5Blisting_content_type%5D%5B0%5D="Restaurants"
    site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
    site.com/es/search?tab=event&filters%5Bthemes%5D%5B0%5D="bla%20blabla"
    site.com/en/search?tab=content&filters%5Bneighbourhoods%5D%5B%5D="bla%20the%20bla"

    Est ce que le robot.txt serait bien :

    User-agent: *
    Disallow: /fr/recherche?filter=*
    Disallow: /es/search?filter=*
    Disallow: /en/search?filter=*
    Disallow: /fr/entreprises?filter=*

    Je ne suis pas sure pour entreprises qui a plein de pages derrière. Je veux juste virer les filtres des pages entreprises. Merci de votre aide et bon courage!
     
  2. emualliug
    emualliug Nouveau WRInaute
    Inscrit:
    1 Février 2020
    Messages:
    40
    J'aime reçus:
    8
    robots.txt n'est pas adapté pour interdire une indexation, il interdit uniquement le crawl, une page déjà connue (ou connue autrement que le crawl) sera indexée. Le mieux reste les balises méta.

    Et aucune des règles proposée ne bloquera le crawl sur "site.com/fr/recherche?tab=content&filters%5Bitinerary_type%5D%5B%5D="5%20jours%20et%20plus"
     
  3. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    23
    J'aime reçus:
    5
    Oui là je veux interdire le crawl. il y aura des meta en plus
     
  4. emualliug
    emualliug Nouveau WRInaute
    Inscrit:
    1 Février 2020
    Messages:
    40
    J'aime reçus:
    8
    Attention tout de même dans ce cas à procéder dans l'ordre, d'abord la désindexation, puis l'interdiction du crawl. Puisque si la page ne peut pas être crawlée, le moteur n'aura jamais connaissance de la requête en non indexation.

    Après, je considère que, globalement, le filtrage par robots.txt des pages à crawler est inutile. Il ne devrait pas y avoir une grosse perte de "jus" de crawl pour des pages en no-index.
     
  5. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    23
    J'aime reçus:
    5
    C'est un nouveau site à sortir ! les urls ne sont donc pas indexées!
     
  6. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 635
    J'aime reçus:
    65
    hey

    Tu peux aussi passer par PHP
    1) test googlebot
    2) test l'uri
    3) exit a ta manière

    PHP:
    <?php
     
    if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot") AND strstr$_SERVER["REQUEST_URI"],'/fr/recherche?filter=' ) != FALSE 
      
    header('Location: https://tonsite.fr');
    ?>
     
    oes apprécie ceci.
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 425
    J'aime reçus:
    403
    à mon avis, tu as bien mieux à faire : améliorer le site en lui-même pour ne plus générer autant d'URL
     
  8. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    23
    J'aime reçus:
    5
    gros site, on me demande ça à j-15 de la mise en ligne en urgence....
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 425
    J'aime reçus:
    403
    comme tu veux. Les problèmes seront pires plus tard.
     
  10. oes
    oes Nouveau WRInaute
    Inscrit:
    10 Septembre 2019
    Messages:
    23
    J'aime reçus:
    5
    bah malheureusement là c'est pas comme je veux mais comme je peux. Si ça ne tenait qu'à moi évidemment qu'on ne ferait pas ça. La réalité en agence surtout dans ce contexte particulier fait que c'est moins souple que lorsqu'on est consultant
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 425
    J'aime reçus:
    403
    puisque tu ne peux pas semble-t-il empêcher que le site génère ces URL, je te conseille d'étudier si ces URL sont déjà indexées (dans ce cas tu dois d'abord te débrouiller pour les désindexer avant le pb du crawl)

    ensuite, il faut bloquer le crawl. Pour bien le faire, il faut savoir quelles URL sont à bloquer. Si c'est tout ce qui utilise la recherche ainsi que /fr/entreprises, quels que soient les paramètres d'URL, alors tu peux utiliser ces règles :

    Code:
    User-agent: *
    Disallow: /fr/recherche
    Disallow: /fr/entreprises
    Disallow: /es/search
    Disallow: /en/search
    sinon, il faut faire la liste des cas concernés

    tu peux tester ton robots.txt avec l'outil de Google
     
Chargement...
Similar Threads - aide robot svp Forum Date
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
Aide pour réalisation d'un robots.txt restrictif Débuter en référencement 24 Octobre 2011
Site entraide coronavirus Demandes d'avis et de conseils sur vos sites 26 Mars 2020
Aide référencement blog sur Wix Demandes d'avis et de conseils sur vos sites 29 Novembre 2019
Besoin d'aide pour comprendre mon Analyse Dareboost Débuter en référencement 24 Août 2019
WordPress Avis sur mon site + aide Demandes d'avis et de conseils sur vos sites 29 Juin 2019
Petit nouveau en quête de repères :) Merci de votre aide Demandes d'avis et de conseils sur vos sites 25 Juin 2019
Aide pour fichier XML e-commerce 28 Mars 2019
aidez moi a référencer mon blog Problèmes de référencement spécifiques à vos sites 31 Octobre 2018
Besoin d'aide pour configurer mon htaccess URL Rewriting et .htaccess 24 Octobre 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice