Robots : n'autoriser que les 4 ou 5 moteurs de recherche principaux

Discussion dans 'Crawl et indexation Google, sitemaps' créé par django29, 15 Janvier 2021.

  1. django29
    django29 WRInaute discret
    Inscrit:
    2 Janvier 2008
    Messages:
    53
    J'aime reçus:
    1
    Bonjour
    Comment bloquer au plus haut niveau tous les autres robots que Google, Bing, Yahoo, et Qwant, qui surchargent inutilement nos serveurs et faussent les stats Google analytics.
    La plupart de ces robots nuisibles ne sont d'ailleurs pas pour des moteurs de recherche, mais envoyés par des espions à but lucratif (oui, je sais Google et Bing aussi, mais ils sont indispensables à notre référencement).
    Les robots malhonnêtes ne tiennent pas compte des directives de robots.txt.
     
  2. cthierry
    cthierry WRInaute passionné
    Inscrit:
    15 Janvier 2005
    Messages:
    2 280
    J'aime reçus:
    62
    Depuis le fichier robots.txt à condition qu'ils le respectent ;)
    Ou alors bloquer les ip en question depuis le fichier htaccess.
     
  3. django29
    django29 WRInaute discret
    Inscrit:
    2 Janvier 2008
    Messages:
    53
    J'aime reçus:
    1
    Je pense que la plupart des robots parasites (scrapers) ne respectent pas les restrictions demandées dans robots.txt, et je trouverais plus simple et plus efficace la solution de n'autoriser QUE les 4 ou 5 robots de moteurs de recherche principaux, en bloquant tout le reste, plutôt que de bloquer les IP de chaque robot indésirable (la liste est très longue).
    Ex de liste de robots nuisibles :
    DotBot .
    GiftGhostBot .
    Seznam .
    PaperLiBot .
    Genieo .
    Dataprovider/6.101 .
    Dataprovider Site Explorer .
    Dazoobot/1.0 .
    Diffbot .
    DomainStatsBot/1.0 .
    DotBot/1.1 .
    dubaiindex .
    eCommerceBot .
    ExpertSearchSpider .
    Feedbin .
    Fetch/2.0a .
    FFbot/1.0 .
    focusbot/1.1 .
    HuaweiSymantecSpider .
    HuaweiSymantecSpider/1.0 .
    JobdiggerSpider .
    LemurWebCrawler .
    Lipperhey Link Explorer .
    LSSRocketCrawler/1.0 .
    LYT.SR v1.5 .
    MiaDev/0.0.1 .
    Najdi.si/3.1 .
    Bountii Bot .
    Experibot_v1 .
     
  4. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    583
    J'aime reçus:
    77
    Les bots les plus malicieux ne s'annoncent pas comme tels et ignorent le robots.txt, comme le dit cthierry.
    Ta liste ne concerne (j'imagine) que ceux que tu as déjà rencontrés... mais bloquer tous les bots susceptibles de venir sur ton site est une tâche monstrueuse si tu t'y colles tout seul.
    Si tu veux vraiment faire quelque chose avant même que les bots ne passent chez toi, tu peux aller voir ce qui existe déjà, comme par exemple pour Apache : https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker
    près de 600 mauvais bots, plus de 200 faux GoogleBot, et pas loin de 7000 autres bloqués, ça fait déjà une base.

    Personnellement, j'ai un peu lâché cette approche. J'ai créé un script pour voir s'il y a des activités étranges, et je bloque quand ça devient insistant. Mais dans les listes de bots/serveurs existantes, la plupart ne viendront jamais sur mon site, et de nouveaux inconnus de ces listes viendront tenter de pourrir mon site. C'est comme ça :-/
     
Chargement...
Similar Threads - Robots autoriser moteurs Forum Date
Robots.txt: interdire un dossier mais autoriser une page de ce dossier Crawl et indexation Google, sitemaps 3 Février 2016
erreurs robots.txt Crawl et indexation Google, sitemaps 23 Décembre 2020
Google me dit que ma page est bien indexée mais bloquée par robots.txt Crawl et indexation Google, sitemaps 25 Novembre 2020
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 17 Octobre 2020
lien variable à bloquer sur robots Développement d'un site Web ou d'une appli mobile 3 Mai 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Robots.txt du site Kayak Débuter en référencement 11 Mars 2020
Search Console Indexée malgré le blocage dans robots.txt Crawl et indexation Google, sitemaps 26 Février 2020
Search Console Prestashop | Robot.txt bloque des URL mais Outil de test du fichier robots.txt l'Authorise... Crawl et indexation Google, sitemaps 21 Novembre 2019
Search Console Images bloquées ... malgré absence de robots.txt Crawl et indexation Google, sitemaps 31 Octobre 2019