Moteur qui ne tient pas compte du fichier Robots.txt

Discussion dans 'Autres moteurs de recherche connus' créé par throrgrulf, 15 Janvier 2015.

  1. throrgrulf
    throrgrulf Nouveau WRInaute
    Inscrit:
    15 Janvier 2015
    Messages:
    4
    J'aime reçus:
    0
    Bonjour à tous,

    Ma question est dans le titre ! :)

    En fait j'ai cherché sur le forum et il me semble avoir trouvé de vieux post qui parlent de moteurs de recherche (par exemple Pompos) qui ne prennent pas en compte le fichier robots.txt. Mais ces moteurs n'existent plus ou sont rentrés dans le rang :lol:

    En connaissez-vous?

    Je vous remercie d'avance pour votre aide.
     
  2. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    3 285
    J'aime reçus:
    0
    Bonjour throrgrulf,

    Pompos prétendait respecter robots.txt, mais il ne le faisait pas toujours. Je dirais que c'était dû à des "bugs".

    Quel est le but de ta recherche ? Ce sera plus facile de donner une réponse utile en connaissant le contexte de ta demande.

    Jean-Luc
     
  3. ybet
    ybet WRInaute accro
    Inscrit:
    22 Novembre 2003
    Messages:
    9 059
    J'aime reçus:
    0
    Un moteur qui ne respecte pas le robot.txt, ca s'appelle un robot pas catholique. Ca peux être un piqueur de contenu, un robot qui teste des failles de sécurité, toutes les séries de BROL actuels qui vérifient la e-réputation, les liens entre sites, ....
    -> Adresses IP à banir
     
  4. throrgrulf
    throrgrulf Nouveau WRInaute
    Inscrit:
    15 Janvier 2015
    Messages:
    4
    J'aime reçus:
    0
    Bonjour à tous les deux,

    Premièrement, merci pour vos réponses.

    En fait, les "conditions générales de ventes" et les page "partenaires" ou "crédit" ne sont pas toujours référencées et je suppose donc que les éditeurs des sites bloquent ces pages dans le fichier robots.txt.

    Le but de la manœuvre est que j'ai un ancien associé avec qui je ne travaille plus, et j'aimerai savoir s'il a récupérer des clients, ce qu'il n'a légalement et contractuellement pas le droit de faire. Hélas, j'ai des doutes sur sont honnêteté, et je voudrais vérifier dans les CGV ou autres pages généralement non-référencé, si son nom (commercial) apparaît.

    Le but de la manœuvre est aussi de ne pas chercher au compte goutte car nous avons travaillé avec énormément de clients pour des petites missions, et qu'il m'est impossible de me rappeler de tous... Donc 'j aurais espérer trouver un moteur de recherche avec lequel je pourrais chercher sur la totalité d'un site.

    Voila, j'espère que ça vous aidera a comprendre mon problème, et peut être m'apporter un autre solution à laquelle je n'aurais pas penser.

    Merci d'avance de votre aide,

    T
     
  5. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 742
    J'aime reçus:
    15
    Si t'as la liste de tous les sites des clients, scrape les :D
     
  6. throrgrulf
    throrgrulf Nouveau WRInaute
    Inscrit:
    15 Janvier 2015
    Messages:
    4
    J'aime reçus:
    0
    Bonjour Spout,

    Comme expliqué, il m'est impossible de me rappeler de tous les clients. Et le but est de pouvoir (dans la mesure du possible) faire la recherche dans le temps.

    Quelqu'un aurait une autre solution?

    Merci d'avance,
     
  7. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 742
    J'aime reçus:
    15
    Je n'ai pas parlé de les appeler, mais de scraper leurs sites.
     
  8. throrgrulf
    throrgrulf Nouveau WRInaute
    Inscrit:
    15 Janvier 2015
    Messages:
    4
    J'aime reçus:
    0
    Je n'ai pas non plus parler de les appeler :D
    Je ne me souviens juste pas de l'ensemble des clients avec qui nous avons travaillé.
     
  9. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    8 742
    J'aime reçus:
    15