GoogleBot : le vrai et les faux

Discussion dans 'Crawl et indexation Google, sitemaps' créé par jeanluc, 3 Août 2004.

  1. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Après les faux Rubens, les faux Picasso, voilà les faux GoogleBot :twisted:

    Mon site a été visité par quelqu'un qui s'identifie avec Googlebot/2.1 (+https://www.google.com/bot.html), mais qui n'est, en fait, qu'un browser trafiqué! L'adresse IP du visiteur ne permet aucun doute la-dessus.

    Avis donc à ceux qui disent qu'ils ont eu récemment des visites inhabituelles des Googlebot...

    Jean-Luc
     
  2. Bool
    Bool WRInaute passionné
    Inscrit:
    26 Février 2004
    Messages:
    1 546
    J'aime reçus:
    0
    Certains utilisent cette méthode pour aspirer les sites : beaucoup de webmasteurs ont peur de bloquer le GoogleBot et désactivent donc les protections en sa présence... :?
     
  3. achtungbaby
    achtungbaby WRInaute accro
    Inscrit:
    14 Juin 2004
    Messages:
    3 147
    J'aime reçus:
    1
    Comment on fait pour empêcher les aspirateurs de site ?

    Car on m'a déjà "aspiré plusieurs fois" déjà...
     
  4. Tex
    Tex WRInaute occasionnel
    Inscrit:
    9 Juillet 2004
    Messages:
    346
    J'aime reçus:
    0
    c'est tout simplement quelqun qui s'amuse a regarder les pages en cloacking...
     
  5. Le_Phasme
    Le_Phasme WRInaute passionné
    Inscrit:
    4 Juillet 2003
    Messages:
    1 131
    J'aime reçus:
    0
    Je pense aussi :)
     
  6. BadProcESs
    BadProcESs WRInaute passionné
    Inscrit:
    28 Juillet 2003
    Messages:
    1 841
    J'aime reçus:
    0
    Les scripts de protection existant ce base en général sur la "vitesse" de consultation des pages, un aspirateur de site étant facilement reconnaissable à sa très grande "gourmandise". Ensuite, l'ip est temporairement banni.
     
  7. Bool
    Bool WRInaute passionné
    Inscrit:
    26 Février 2004
    Messages:
    1 546
    J'aime reçus:
    0
    Mais attention : certains robots (dont celui de dir.com il me semble) peuvent consulter plusieurs milliers de pages par jour... et risquent d'être bloqués si le système est trop restrictif.
     
  8. BadProcESs
    BadProcESs WRInaute passionné
    Inscrit:
    28 Juillet 2003
    Messages:
    1 841
    J'aime reçus:
    0
    Pas les robots bien codés.
    Justement, si tu regarde tes logs tu verra que les robots respecte le site qu'il crawle, en ne demandant qu'une page toute les 45 secondes environ.
     
  9. Bool
    Bool WRInaute passionné
    Inscrit:
    26 Février 2004
    Messages:
    1 546
    J'aime reçus:
    0
    Il y a au moins un robot qui fait plusieurs milliers de page par jour sur mon site... s'il fait une page toutes les 10 secondes, ça passe encore.

    Généralement, je bloque à partir de 2 pages par secondes, sur un minimum de 100 pages.
     
  10. Earth Brian
    Earth Brian WRInaute discret
    Inscrit:
    9 Janvier 2004
    Messages:
    82
    J'aime reçus:
    0
    Oui tout simplement qq qui verifie que tu ne fais pas du cloaking ...
    Tu choisis le user agent que tu veux et tu te fais passer pour lui .. d'ou utilité de filtrer via ip ;)
     
  11. Le_Phasme
    Le_Phasme WRInaute passionné
    Inscrit:
    4 Juillet 2003
    Messages:
    1 131
    J'aime reçus:
    0
  12. Gralon
    Gralon WRInaute impliqué
    Inscrit:
    2 Novembre 2002
    Messages:
    534
    J'aime reçus:
    1
    ben moi quand j'utilises firefox je suis toujours avec le javascript désactivé et googlebot comme agent , au début j'avais oublié de remodifier mes paramètres mais maintenant je le laisse exprès.
    on voit pas mal de trucs bizarres :twisted:
     
  13. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    358
    J'aime reçus:
    0
    En fait je pense que ce paramètre est très variable. Je vois très souvent entre 5 et 10 pages demandées dans la meme seconde par le vrai Googlebot. En fait je pense que le temps de remontée de page à beaucoup d'importance pour Googlebot : si ton serveur sert les pages lentement, Googlebot ralenti, et inversement.

    Sinon pour en revenir aux faux Googlebot, la seule solution à peu près fiable pour les détecter reste l'IP, notamment pour ceux qui veulent exclure certains "utilisateurs" des restrictions imposées par un script anti-aspiration...

    Fred
     
  14. microbe
    microbe WRInaute discret
    Inscrit:
    29 Mars 2004
    Messages:
    68
    J'aime reçus:
    0
    Bonjour,

    Vous allez me trouver un peu « tombé de la dernière pluie »,
    mais pour moi, aspirer un site, c’était pouvoir le consulter hors connexion chez soi, donc rien de dramatique. J’ai même des personnes qui m’ont-dit avoir imprimé mon site ( deux ramettes de papier couché, car imprimé au format paysage pour ne rien perdre…) c’est encore mieux qu’un petit mot dans un livre d’or.
    Mais à voir vos messages, aspirer un site ne doit pas servir qu’à ça ! Alors, ils en font quoi des pages aspirées ?

    TC
     
  15. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 176
    J'aime reçus:
    0
    quel interet pourrait avoir une société commerciale d'aspirer les sites webs ? :)
     
  16. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    358
    J'aime reçus:
    0
    En fait tout dépend de ce que tu appelles "aspiration", et la vitesse de celle ci. Avec les lignes d'aujourd'hui, tu peux rapidement atteindre des niveaux gênants pour les serveurs, particulièrement pour ceux qui disposent d'un grand nombre de pages sur un mutualisé (bande passante et CPU consommés)

    Ensuite selon le type de site : je ne vois pas l'intérêt de certaines personnes qui m'aspirent plusieurs milliers de pages par jour, alors que les prix auront changé le lendemain, et donc l'information sera obsolète :) Perso je laisse faire pour le moment, mais je vais mettre en place quelques bridages dans le futur.

    Une utilisation concrète, est l'utilisation par les concurrents à l'aide d'outils de veille : ils peuvent par exemple voir tous les nouveaux liens créés depuis leur dernière aspiration, donc potentiellement trouver les nouveaux produits, etc.. :idea:

    Fred
     
  17. Bool
    Bool WRInaute passionné
    Inscrit:
    26 Février 2004
    Messages:
    1 546
    J'aime reçus:
    0
    [apparté sur l'aspiration]
    Sur certains sites (un site contenant beaucoup d'images par exemple), le gars va télécharger une très grosse quantité d'images (quelques centaines de Mo, voir plus) alors qu'au final 10% l'interesseront. Et ce gaspillage aura pour principal conséquence la surcharge inutile du serveur.... voir dans mon cas un "deni de service" pour les autres visiteurs...

    En gros, l'aspiration du site est tolérée, mais à un rythme décent : la gars avec sa ligne 5.5Mbits (freebox), il va vite me foutre mon serveur en rade s'il lance une aspiration "agressive". D'autant plus qu'il sera loin d'être le seul...

    Le problème reste entier pour les connexions bas débit, qui se servent de l'aspiration pour limiter les couts... Dans ce cas j'ai opté pour la solution FTP : d'ici peu je fournirait un Zip contenant les images de toute une galerie. Téléchargeable uniquement par FTP, avec débit un nombre de connexions par IP et total limité.

    [/apparté sur l'aspiration]

    voilou
     
  18. Bool
    Bool WRInaute passionné
    Inscrit:
    26 Février 2004
    Messages:
    1 546
    J'aime reçus:
    0
    arf iconso.... plus rapide que moi :D
     
  19. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 176
    J'aime reçus:
    0
    aspirer tes emails, aspirer tes fiches, aspirer tes données, aspirer tes images..

    on continue ? :lol:
     
  20. iconso
    iconso WRInaute occasionnel
    Inscrit:
    8 Avril 2003
    Messages:
    358
    J'aime reçus:
    0
    Ah ouais c'est clair il était sous-entendu : "pour une utilisation offline à la régulière" :lol:
    Le pire avec les aspirateurs, c'est que les gens ne savent pas forcément comment les utiliser et oublient de paramétrer un niveau de récupération max, etc... Du coup ca ressemble à du full crawl, mais la personne utilisera sans doute quelques pages sur les milliers téléchargées.

    Fred
     
Chargement...
Similar Threads - GoogleBot vrai faux Forum Date
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019
feuilles de styles non obtenues par Googlebot Crawl et indexation Google, sitemaps 28 Septembre 2018
Temps de réponse serveur googlebot Développement d'un site Web ou d'une appli mobile 23 Mai 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice