Robots : n'autoriser que les 4 ou 5 moteurs de recherche principaux

Discussion dans 'Crawl et indexation Google, sitemaps' créé par django29, 15 Janvier 2021.

  1. django29
    django29 WRInaute discret
    Inscrit:
    2 Janvier 2008
    Messages:
    53
    J'aime reçus:
    1
    Bonjour
    Comment bloquer au plus haut niveau tous les autres robots que Google, Bing, Yahoo, et Qwant, qui surchargent inutilement nos serveurs et faussent les stats Google analytics.
    La plupart de ces robots nuisibles ne sont d'ailleurs pas pour des moteurs de recherche, mais envoyés par des espions à but lucratif (oui, je sais Google et Bing aussi, mais ils sont indispensables à notre référencement).
    Les robots malhonnêtes ne tiennent pas compte des directives de robots.txt.
     
  2. cthierry
    cthierry WRInaute passionné
    Inscrit:
    15 Janvier 2005
    Messages:
    2 323
    J'aime reçus:
    68
    Depuis le fichier robots.txt à condition qu'ils le respectent ;)
    Ou alors bloquer les ip en question depuis le fichier htaccess.
     
  3. django29
    django29 WRInaute discret
    Inscrit:
    2 Janvier 2008
    Messages:
    53
    J'aime reçus:
    1
    Je pense que la plupart des robots parasites (scrapers) ne respectent pas les restrictions demandées dans robots.txt, et je trouverais plus simple et plus efficace la solution de n'autoriser QUE les 4 ou 5 robots de moteurs de recherche principaux, en bloquant tout le reste, plutôt que de bloquer les IP de chaque robot indésirable (la liste est très longue).
    Ex de liste de robots nuisibles :
    DotBot .
    GiftGhostBot .
    Seznam .
    PaperLiBot .
    Genieo .
    Dataprovider/6.101 .
    Dataprovider Site Explorer .
    Dazoobot/1.0 .
    Diffbot .
    DomainStatsBot/1.0 .
    DotBot/1.1 .
    dubaiindex .
    eCommerceBot .
    ExpertSearchSpider .
    Feedbin .
    Fetch/2.0a .
    FFbot/1.0 .
    focusbot/1.1 .
    HuaweiSymantecSpider .
    HuaweiSymantecSpider/1.0 .
    JobdiggerSpider .
    LemurWebCrawler .
    Lipperhey Link Explorer .
    LSSRocketCrawler/1.0 .
    LYT.SR v1.5 .
    MiaDev/0.0.1 .
    Najdi.si/3.1 .
    Bountii Bot .
    Experibot_v1 .
     
  4. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    606
    J'aime reçus:
    85
    Les bots les plus malicieux ne s'annoncent pas comme tels et ignorent le robots.txt, comme le dit cthierry.
    Ta liste ne concerne (j'imagine) que ceux que tu as déjà rencontrés... mais bloquer tous les bots susceptibles de venir sur ton site est une tâche monstrueuse si tu t'y colles tout seul.
    Si tu veux vraiment faire quelque chose avant même que les bots ne passent chez toi, tu peux aller voir ce qui existe déjà, comme par exemple pour Apache : https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker
    près de 600 mauvais bots, plus de 200 faux GoogleBot, et pas loin de 7000 autres bloqués, ça fait déjà une base.

    Personnellement, j'ai un peu lâché cette approche. J'ai créé un script pour voir s'il y a des activités étranges, et je bloque quand ça devient insistant. Mais dans les listes de bots/serveurs existantes, la plupart ne viendront jamais sur mon site, et de nouveaux inconnus de ces listes viendront tenter de pourrir mon site. C'est comme ça :-/
     
Chargement...
Similar Threads - Robots autoriser moteurs Forum Date
Robots.txt: interdire un dossier mais autoriser une page de ce dossier Crawl et indexation Google, sitemaps 3 Février 2016
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 14 Juillet 2021
Les mots-clés de mon site ne sont pas détectés par les robots de référencement Problèmes de référencement spécifiques à vos sites 7 Juillet 2021
Wordpress et le robots.txt Débuter en référencement 21 Juin 2021
Search Console noindex détecté dans la balise Meta robots Débuter en référencement 21 Mai 2021
Urls filtrées indexées et crawl robots.txt Crawl et indexation Google, sitemaps 19 Mai 2021
erreurs robots.txt Crawl et indexation Google, sitemaps 23 Décembre 2020
Google me dit que ma page est bien indexée mais bloquée par robots.txt Crawl et indexation Google, sitemaps 25 Novembre 2020
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 17 Octobre 2020
lien variable à bloquer sur robots Développement d'un site Web ou d'une appli mobile 3 Mai 2020