Bloquer les aspirateurs avec robots.txt

Discussion dans 'Administration d'un site Web' créé par 3ul3r, 19 Août 2009.

  1. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    Bonjour à tous,

    Je cherche à bloquer les principaux aspirateurs/web copier/off-line browser et autre joyeusté qui bouffe ma bande passante (et peuvent causer des problèmes de droit d'auteur).
    J'ai vu que WRI him-self utilise en tant que barrière. Je peux directement copié-collé cette liste, elle ne contient que des user-agent d'aspirateurs ?

    PS : Je sais que certains aspirateurs permettent une option pour ignorer les règles de robots.txt, et que, si une personne veut à tout prix aspirer un site, elle y arrivera. Mais si les principaux aspirateurs sont bloqués par défaut, ca découragera la majorité, et je déjà serais content.
     
  2. Furtif
    Furtif WRInaute accro
    Inscrit:
    9 Août 2005
    Messages:
    2 994
    J'aime reçus:
    355
    cool le piege a robot...

    :mrgreen:
     
  3. skippyzrnr
    skippyzrnr WRInaute impliqué
    Inscrit:
    11 Janvier 2005
    Messages:
    518
    J'aime reçus:
    0
    Le robots.txt s'adresse au programmes qui jouent le jeu... et je suis pas si sûr que ces programmes d'aspiration le fasse.
    Une protection du même type dans un .htaccess est bien plus fiable, et pour ceux qui changent le user-agent, l'idéal est encore un blocage par ip...
    Mais comme tu le dis si bien si une personne veut à tout prix aspirer un site, elle y arrivera.
     
  4. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    Merci de vos réponses, je vais opter pour un blocage avec le htaccess, en plus du robots.txt
     
  5. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    On trouve un peu partout une liste des user-agents d'aspirateurs à bloquer, datant de 2005 (et provenant du site www.toulouse-renaissance.net, maintenant en parking).

    N'y aurait-il pas une liste plus récente ?
     
  6. 3ul3r
    3ul3r WRInaute discret
    Inscrit:
    22 Février 2009
    Messages:
    195
    J'aime reçus:
    0
    Je viens de lire une bonne partie des topics WRI parlant des blocages d'aspirateurs Web. La méthode la plus efficace ressortant est de limiter, avec un script PHP, le nombre de chargement de page par minute, et de bannir (au moins temporairement) l'IP si cette limite est dépassé.

    Cependant, le site web dont je suis admin contient énormément de petits documents PDF (dont une partie c'est faite aspirée pas plus tard que hier soir :/). Ce n'est donc pas une limitation des chargements de page qu'il me faudrait, mais une limitation du nombre de hits par minute, ou une limitation de bande passante allouée par minute et par IP.
    Comment mettre en place un tel système ? htaccess permet ça ?
     
Chargement...
Similar Threads - Bloquer aspirateurs robots Forum Date
Bloquer les SCAN BOTS, SPAM BOTS, aspirateurs, etc sur le serveur (iptables, etc...) Administration d'un site Web 12 Mai 2012
Bloquer les Aspirateurs de sites URL Rewriting et .htaccess 16 Novembre 2005
Astuce Bloquer ip utilisateur actions étranges sur mon site Le café de WebRankInfo 13 Août 2022
Bots scrapers et impact SEO : comment les bloquer ? Crawl et indexation Google, sitemaps 21 Mai 2022
Bloquer les IP d'un pays Administration d'un site Web 4 Mars 2022
Comment bloquer à coup sûr l'indexation par les moteurs de recherche Crawl et indexation Google, sitemaps 7 Décembre 2020
Chrome va bloquer les ressources HTTP sur pages HTTPS Référencement Google 5 Octobre 2019
Bloquer accès admin Google Analytics par adresse IP Google Analytics 19 Septembre 2019
Comment bloquer les vidéos automatiques ? Facebook 28 Juillet 2019
Réseau de site backlinks : comment bloquer par htaccess ? Tests et études de cas 6 Juin 2019
Bloquer une section dans mon fichier robots.txt Débuter en référencement 9 Novembre 2018
Chrome 70 va bloquer de nombreux sites web Google : l'entreprise, les sites web, les services 10 Octobre 2018
WordPress Bloquer ou non WP include dans le robots.txt ? Référencement Google 5 Septembre 2018
fichier robots.txt bloquer paramètre p= Crawl et indexation Google, sitemaps 4 Septembre 2018
Adsense - Impossible de bloquer des annonceurs ! AdSense 19 Avril 2018
bloquer l'accès au site à certains "mauvais'bots Administration d'un site Web 26 Mars 2018
Débloquer un modem, légal ou interdit ? Le café de WebRankInfo 6 Février 2018
Comment bloquer des URLs externes Crawl et indexation Google, sitemaps 4 Novembre 2017
Comment bloquer les voleurs de contenu ? Débuter en référencement 7 Juin 2017
Bloquer l'indexation de la recherche Débuter en référencement 18 Janvier 2017