Bloquer l'accés à des "sous-liens" en utilisant robots.txt

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par Melimode, 5 Mars 2009.

  1. Melimode
    Melimode Nouveau WRInaute
    Inscrit:
    8 Mai 2008
    Messages:
    8
    J'aime reçus:
    0
    Bonjour,

    Je voudrai empêcher les robots (et principalement Google) de lire certaines pages de mon site. Habituellement j’utilise cette fonction dans le fichier robots.txt du site : Disallow: /contact_us.php

    MAIS ! Permettez-moi de vous exposer un peu plus en détail le problème :

    Sur mon site (oscommerce), j’ai des rayons comme celui-ci : http://www.monsite.fr/chemises-c-2.html et lorsque l’on clique sur le lien chemise par exemple, j’ai d’autres « sous-liens » qui s’affiche afin de permettre les clients de visualiser les chemises disponibles dans leur taille :

    Taille 36 ( http://www.monsite.fr/chemises-c-2.html?sizeRange=1 )
    Taille 38 ( http://www.monsite.fr/chemises-c-2.html?sizeRange=2 )
    Taille 40 etc… ( http://www.monsite.fr/chemises-c-2.html?sizeRange=3 )

    Du coup, dans mon interface de « Google gestion Webmaster », google m’indique que j’ai des balises titles et meta en double, car effectivement le même article peu s’afficher dans plusieurs taille.

    Pou faire simple je voudrai donc autoriser google à n’aller QUE dans le rayon principal des chemises, (car ce rayon affiche déjà toutes les tailles disponibles http://www.monsite.fr/chemises-c-2.html) et l’EMPECHER d’aller dans les sous-rayons de tailles qui comporte donc une variable « sizeRange ».

    Est-ce que je peu donc simplement indiquer ceci dans mon fichier robots.txt :

    Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange=1
    Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange=2
    Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange=3
    Ect .. ?

    Mais est ce que ceci ne va pas bloquer l’accès au lien http://www.monsite.fr/chemises-c-2.html ?

    Et dans le cas ou cela est possible, dois-je indiquer autant de « Disallow: » que j’ai de taille dans « sizeRange » ?

    J’espère que j’ai été assez clair dans la description de mon problème, et je vous souhaite à tous une agréable journée.
     
  2. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 684
    J'aime reçus:
    152
    Tu peux mettre un joker
    Disallow: /http://www.monsite.fr/chemises-c-2.html?* ou
    Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange*
     
  3. Melimode
    Melimode Nouveau WRInaute
    Inscrit:
    8 Mai 2008
    Messages:
    8
    J'aime reçus:
    0
  4. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 684
    J'aime reçus:
    152
    Oui, puisque ce n'est pas la même url . Et en cas de doute tu peux vérifier ton fichier dans GWT et tester des urls
     
  5. cedric_g
    cedric_g WRInaute accro
    Inscrit:
    18 Janvier 2006
    Messages:
    2 930
    J'aime reçus:
    2
    Bonjour

    Il faudra qu'un jour je me mette sérieusement à étudier le robots.txt (je n'en connais que les bases...) ; par contre avec cette méthode, cela sous-entend de gérer chaque page d'article avec des tailles séparément ?

    Ou y'a moyen d'inclure un "joker" pour les articles ?

    Sur les sites e-commerce que je gère je procède différemment : détection de la présence des variables "indésirables" (elles sont lisibles en PHP) et le cas échéant, notification pour positionner la balise META Robots à "noindex,follow".

    Fonctionne plutôt bien.
     
  6. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 684
    J'aime reçus:
    152
    Tu peux inclure un joker,si tu vas voir sur mon site j'avais fait un article sur le robots.txt des sites wordpress si c'est pour toi.
     
  7. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 858
    J'aime reçus:
    5
    Sinon il est aussi possible de vérifier si $_GET['sizeRange'] est renseigné, et d'envoyer un <meta name="robots" content="noindex" />.
     
  8. Melimode
    Melimode Nouveau WRInaute
    Inscrit:
    8 Mai 2008
    Messages:
    8
    J'aime reçus:
    0
    Merci,

    J'ai donc retenu 2 méthodes efficaces pour régler mon problème de multiple-référencement :

    1) Celle citée ci-dessus.
    2) Et la méthode joker (Disallow: /http://www.monsite.fr/chemises-c-2.html?sizeRange*).

    L'une de ces solutions est-elle plus "Propre, ou conventionnelle" que l'autre ou est-ce la même chose aux yeux de GoOgle ?

    Encore une fois, merci pour vos conseils.
     
Chargement...
Similar Threads - Bloquer accés liens Forum Date
Bloquer accès admin Google Analytics par adresse IP Google Analytics 19 Septembre 2019
Réseau de site backlinks : comment bloquer par htaccess ? Tests et études de cas 6 Juin 2019
bloquer l'accès au site à certains "mauvais'bots Administration d'un site Web 26 Mars 2018
Bloquer robot explorateurs .htaccess Crawl et indexation Google, sitemaps 17 Novembre 2014
Bloquer accès Admin Analytics si IP externe Google Analytics 2 Décembre 2013
2 adresses à bloquer dans le .htaccess URL Rewriting et .htaccess 17 Juillet 2013
Bloquer l'accès à sous.domaine.com mais pas à sous.domaine.com/pages URL Rewriting et .htaccess 8 Mars 2013
Bloquer accès à un répertoire : ne fonctionne pas ! URL Rewriting et .htaccess 9 Août 2012
Bloquer l'accès à certains robots et parseurs URL Rewriting et .htaccess 12 Juin 2012
bloquer un acces wifi parasite. Le café de WebRankInfo 26 Janvier 2011
Comment bloquer l'accès aux pages sans extensions de fichiers ? URL Rewriting et .htaccess 19 Novembre 2010
Bloquer le téléchargement d'une extension par htaccess (meme avec firefox) URL Rewriting et .htaccess 21 Mars 2010
HELP bloquer l accès à mon hébergement Administration d'un site Web 23 Septembre 2009
Bloquer une plage d'IP avec htaccess URL Rewriting et .htaccess 30 Août 2009
Comment" bloquer" l'accès à la racine de son serveur ? Administration d'un site Web 31 Juillet 2009
La Turquie décide de bloquer l'accès à Blogger.com [Résolu] Google : l'entreprise, les sites web, les services 26 Octobre 2008
[Résolu] Bloquer l'accès à l'url dynamique URL Rewriting et .htaccess 23 Septembre 2008
.htaccess bloquer des bots. URL Rewriting et .htaccess 4 Août 2008
Bloquer l'accès aux dossiers Développement d'un site Web ou d'une appli mobile 10 Mai 2008
Bloquer un ensemble d'IP par htaccess ? URL Rewriting et .htaccess 11 Novembre 2007