Utilisation de robots.txt pour bloquer les pages dynamiques

Discussion dans 'Crawl et indexation Google, sitemaps' créé par midnightfr, 20 Septembre 2004.

  1. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    Bonjour,
    Comment est il possible de bloquer les robots sur des pages avec un ? (parametre) pour que google ne les prennent pas comme un contenu dupliqué de mes pages rendues statiques avec de l'url rewriting?
     
  2. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    Je voulais dire en fait, est il possible d'utiliser des expressions regulieres dans robots.txt?

    Merci
     
  3. lou
    lou WRInaute occasionnel
    Inscrit:
    9 Mai 2004
    Messages:
    404
    J'aime reçus:
    0
    non mais il suffit de mettre des règles dans ton .htaccess pour que les ? renvoi vers les pages UR avec un code 301
     
  4. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    Non, ta solution n'est pas bonne, je veux faire cette redirection, ou une autre maniere d'enlever ce paramètre, pour Google et non pas pour tout le monde.
    Faire ca dans le .htaccess me le ferait pour tout les internautes.
     
  5. jeroen
    jeroen WRInaute passionné
    Inscrit:
    30 Août 2002
    Messages:
    2 131
    J'aime reçus:
    0
    Moi pas compendre...
    Si tu fais de l'UR, les internautre arriveront par des pages rewritées...
    Seuls les moteurs ayant les pages dans leur index tomberont sur le .htaccess ...

    Non ??
     
  6. Erazor
    Erazor WRInaute accro
    Inscrit:
    14 Février 2004
    Messages:
    3 839
    J'aime reçus:
    0
    en gros tu veux montrer une chose différente aux internautes et aux moteurs
    :evil: tu rentres dans le coté obscur
     
  7. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    355
    J'aime reçus:
    0
    Re: utilisation de robots.txt pour bloquer les pages dynamiq

    Mets le nom de ta page.extension tout court, et toutes les déclinaisons paramétrées ou non seront bloquées. Par exemple une page -http://www.site.com/rep/page.aspx?param1=aaa&param2=bbb peut être bloquée pour les robots quels que soient les paramètres en ajoutant une ligne contenant ceci dans ton robots.txt :

    Disallow: /rep/page.aspx

    Si tu veux autoriser la page sans paramètre mais bloquer avec, tu peux mettre :

    Disallow: /rep/page.aspx?

    Fred
     
  8. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    Non, vous avez pas compris
    Je m'explique :

    J'ai deja de l'url rewriting en place, les pages php ne sont pas accessible pour personne ca y a pas de pb.
    Néanmoins, pour du partenariat, j'ai des urls avec un parametre correspondant au partenaire.
    Si google enregistre ces urls( venant de partenaires avec un parametre) elles seront présentes dans l'index, et dans les resultats et ces visites seront attribuées aux partenaires alors que c'est une visite de google,(jusque la vous comprenez?)

    Pour l'instant je cache donc ces parametres avec du cloaking.
    Je cherche donc un moyen pour ne pas cloaker, de cacher automatiquement n'importe qu'elle url de mon site (pas une page en particulier) qui présente un parametre de type ?partenaire=xx

    voila, je pense avoir été plus clair ;)


    [/quote]
     
  9. Erazor
    Erazor WRInaute accro
    Inscrit:
    14 Février 2004
    Messages:
    3 839
    J'aime reçus:
    0
    j'ai été succint alors précision : j'ai compris ton truc mais "l'enfer est quelques fois pavé de bonnes intentions". Pour moi il est dangereux de ne pas montrer la même chose au moteur / internautes. Dans ton cas ce n'est pas une "triche" mais soit sur que GG va etre d'accord avec ça.J'ai un doute peut etre a tort
     
  10. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    c'est pour ca que je veux remplacer mon cloaking par une utilisation de robots.txt
     
  11. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    Est ce que cette syntaxe serait bonne :
    User-agent: *
    Disallow: *partenaire=*

    Pour permettre d'interdire à tous les moteurs de ne pas indexer les pages dont l'url contient partenaire=

    Merci
    Nicolas
     
  12. midnightfr
    midnightfr WRInaute occasionnel
    Inscrit:
    12 Mars 2004
    Messages:
    436
    J'aime reçus:
    0
    svp! aidez moi!
     
  13. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    355
    J'aime reçus:
    0
    midnightfr : as-tu lu mon message un peu plus haut ???

    Fred
     
  14. Jeff-44
    Jeff-44 WRInaute impliqué
    Inscrit:
    3 Septembre 2004
    Messages:
    512
    J'aime reçus:
    0
    Bonsoir
    iconso est-ce que ta technique fonctionne pour du php ?
    J'ai un système calcul de clique avec des pages du type goto.php?xxx.
    Je ne souhaite pas gg et msn (surtout msn qui ne référence que ça :() continue sur ces pages. Sinon je boost les visites de manière non réaliste.
    Est-ce que cela suffit :
    User-Agent: *
    Disallow:goto.php

    Merci de vos réponses
     
  15. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    355
    J'aime reçus:
    0
    Oui, l'exemple était donné en ASPX, mais il est valable pour toutes les extensions de fichiers, et même les débuts d'extension normalement (je n'ai pas testé, mais un disallow: /page.php doit empecher le crawl de /page.php3 par exemple). Ces URLs pourront se trouver dans l'index, mais ne seront ni visitées, ni complètement indexées par GG (et ne pourront donc à priori réagir sur aucun mot clef)

    Fred
     
  16. Jeff-44
    Jeff-44 WRInaute impliqué
    Inscrit:
    3 Septembre 2004
    Messages:
    512
    J'aime reçus:
    0
    une dernière question quand on disallow, il est pas nécessaire de allow ???
    merci
     
  17. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    355
    J'aime reçus:
    0
    L'usage du Allow est même déconseillé, car il n'est pas forcément supporté par tous les robots.. Il vaut mieux raisonner ainsi : tout ce qui n'est pas interdit est autorisé, et donc se contenter du Disallow.

    Fred
     
  18. Monoar
    Monoar Nouveau WRInaute
    Inscrit:
    6 Juillet 2012
    Messages:
    4
    J'aime reçus:
    0
    Bonjour,

    Le site commercial que je gère propose divers produits.
    Le produit1 peut-être vendu de diverses manières :
    - unitaire
    - lot de 2
    - lot de 3

    Pour éviter le duplicate content, j'ai imaginé rendre visible à google les produits vendus à l'unité uniquement.

    Pour cela, j'ai mis les lignes suivantes dans le robot.txt (pour cacher les produits vendus par lot) :
    Code:
    User-agent: *
    Disallow: *produitA-lot2-france*
    User-agent: *
    Disallow: *produitA-lot2-autre*
    User-agent: *
    Disallow: *produitA-lot3-france*
    User-agent: *
    Disallow: *produitA-lot3-autre*
    User-agent: *
    Disallow: *produitB-lot3-france*
    User-agent: *
    Disallow: *produitB-lot3-autre*
    
    Sachant que l'url est du type :
    http://www.monsite.fr/produit-lot2-france

    J'ai également mis en place un sitemap.xml qui contient la liste des produits que je veux afficher (à l'unité).

    Est ce que la syntaxe dans robot.txt est ok ?
    Avez-vous des suggestions à me faire ?
     
Chargement...
Similar Threads - Utilisation robots bloquer Forum Date
Utilisation de la balise meta robots : valeur nosnippet Crawl et indexation Google, sitemaps 15 Décembre 2010
Utilisation du fichier robots.txt Débuter en référencement 5 Août 2008
Questionnaire : limites de l'utilisation de l'IA en SEO Rédaction web et référencement 31 Mai 2022
Utilisations du signe + dans les noms composés de villes Référencement Google 29 Juillet 2021
Utilisation de sous domaines au lieu de noms de domaine propres Techniques avancées de référencement 18 Juin 2021
Aide utilisation twitter : gérer les commentaires Twitter 3 Mars 2021
Utilisation d'un nom de domaine alternatif Débuter en référencement 17 Février 2021
Utilisation d'une CMP pour les nuls Monétisation d'un site web 23 Janvier 2021
Utilisation des URL canoniques d'un sous domaine à un autre Référencement Google 10 Novembre 2020
Utilisation de AMP sur un petit site vitrine Référencement Google 3 Mars 2020
WordPress Optimisation et utilisation d'une page Auteur avec Bio Rédaction web et référencement 29 Octobre 2019
Utilisation de Adwords pour trouver des mots clés Débuter en référencement 23 Août 2019
Utilisation d'un service... 1700€ plus tard inquiétude... Netlinking, backlinks, liens et redirections 13 Juillet 2019
Duplicate content et instuction d'utilisation fiche produit Rédaction web et référencement 10 Avril 2019
Texte utilisation cookies et protection des données : pb de duplicate ? Débuter en référencement 8 Janvier 2019
Microsoft modifie ses conditions d'utilisation (CGU) Droit du web (juridique, fiscalité...) 20 Novembre 2018
Un article intéressant sur l'indexation des images et l'utilisation du "lazyload" Crawl et indexation Google, sitemaps 9 Novembre 2018
Utilisation de l'attribut "hreflang" Référencement international (langues, pays) 27 Septembre 2018
Utilisation de load (Jquery) sans impacter le SEO Développement d'un site Web ou d'une appli mobile 4 Août 2018
De l'intérêt des tags et de leur utilisation Débuter en référencement 1 Mai 2018