Optimisation robots.txt

Discussion dans 'Autres moteurs de recherche connus' créé par Leonick, 11 Février 2009.

  1. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    Bonjour,

    Dans le cadre de l'optimisation aux accès sur mes sites, voilà mon fichier robots.txt
    Code:
    # debut filtrage
    User-agent: *
    Disallow: /
    
    User-agent: Googlebot
    User-agent: Mediapartners-Google
    User-agent: Googlebot-Mobile
    User-agent: googlebot-Image
    User-agent: ng
    User-agent: exabot
    User-agent: msnbot
    User-agent: Teoma
    User-agent: voila
    User-agent: Slurp
    Disallow: /apropos
    Disallow: /contact
    Disallow: /soumission*
    Disallow: /confirmation*
    # fin filtrage 
    Disallow: /*.pdf
    Disallow: /*.doc
    
    Est-ce que ce robots.txt est bien sensé ne pas permettre l'accès à tous les robots sauf ceux dans la liste ?
     
  2. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    Exact.

    Mais il vaudrait mieux supprimer les deux * en fin de ligne devant # fin filtrage. C'est non standard et cela ne sera pas compris par certains robots.

    Jean-Luc
     
  3. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    si j'enlève le * à soumettre, tous les robots (autorisés) vont bien comprendre qu'il ne faut pas indexer soumettre_cat1, soumettre_cat2, etc... ?
     
  4. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    Yes. :wink:

    Jean-Luc
     
  5. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    Normalement, ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) aurait dû comprendre que je ne veut pas de lui sur mon serveur, non ?
     
  6. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    Oui, il est interdit par le robots.txt que tu as copié dans ton message.

    Jean-Luc
     
  7. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    Bon ben je crois que je vais sortir une liste des robots qui ne respectent pas les robots.txt des sites :evil:
     
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 804
    J'aime reçus:
    259
    as-tu essayé l'outil fourni par Google Webmaster Tools pour analyser ton robots.txt ?
     
  9. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    Oui, mais je me demandais si les autres robots le comprenaient de la même façon. D'autant plus qu'au début, je n'avais pas ajouté correctement Mediapartners et je m'en suis aperçu très rapidement, en voyant que mes adsenses ne s'affichaient plus sur un site, au fur et à mesure des tentatives de crawl.

    Sinon, j'ai un nouveau robot de chez microsoft MSR-ISRCCrawler qui ne tient pas compte du robots.txt et essaie de crawler ponctuellement. L'ip appartient bien à microsoft, mais le host renvoyé ne comprend pas microsoft

    Heureusement que j'ai d'autres blocages en plus de robots.txt. L'étape suivante va consister à bloquer ces robots ou blocs d'ip directement dans le htaccess, mais d'automatiser cette mise à jour pour tous mes sites via mon interface admin de chaque site.
     
  10. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    L'outil Google est utile, mais il ne montre que l'interprétation du fichier par Google et, comme Google accepte des directives non standard, le diagnostic donné par l'outil n'est pas nécessairement correct pour les autres robots.

    Jean-Luc
     
  11. gorchfock
    gorchfock WRInaute occasionnel
    Inscrit:
    23 Octobre 2006
    Messages:
    489
    J'aime reçus:
    0
    On est sur du bon sens des directives ?
    Je le demande car il me parait bizarre ce robots.txt

    Moi j'ai plutôt ceci chez moi :

    Dans ton cas moi j'aurai inversé ceci :

    Je ne sais pas si ça à une importance l'ordre. Je me pose donc la question 8)
     
  12. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    Tes exemples 1 et 2 sont équivalents. L'ordre des interdictions n'a pas d'importance.

    Ton exemple 3 n'est pas correct: la ligne vide avant le commentaire # fin filtrage n'est pas autorisée, car elle se trouve à l'intérieur d'une série d'interdictions.

    Jean-Luc
     
  13. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
  14. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
  15. gorchfock
    gorchfock WRInaute occasionnel
    Inscrit:
    23 Octobre 2006
    Messages:
    489
    J'aime reçus:
    0
    Merci Jeanluc, donc si je retire la ligne vide en question l'exemple 3 deviendrait correct ?

    En tout cas si les 2 premiers sont équivalents c'est tant mieux :D
     
  16. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
Chargement...
Similar Threads - Optimisation robots Forum Date
Optimisation de ROBOTS.TXT et blog WordPress Problèmes de référencement spécifiques à vos sites 1 Décembre 2008
Optimisation d'une campagne Smart Shopping AdWords 28 Mai 2019
Rech developpeur Wordpress pour optimisation perf Développement d'un site Web ou d'une appli mobile 16 Avril 2019
Maillage Interne et sur-optimisation Netlinking, backlinks, liens et redirections 1 Avril 2019
Optimisation des images dans Google PageSpeed Insights YouTube, Google Images et Google Maps 24 Janvier 2019
Optimisation du délai d'indexation de pages Crawl et indexation Google, sitemaps 12 Janvier 2019
Quel outil d'analyse de texte pour contrôler la sur-optimisation ? Rédaction web et référencement 5 Décembre 2018
Optimisation d'un champ sql Développement d'un site Web ou d'une appli mobile 17 Novembre 2018
test d'optimisation mobile : Page partiellement chargée Crawl et indexation Google, sitemaps 30 Octobre 2018
manque d'optimisation des pages profondes et trop de maillage interne Demandes d'avis et de conseils sur vos sites 4 Octobre 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice