Des bots spéciaux pour les pages d'accueil ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Mirgolth, 13 Août 2003.

  1. Mirgolth
    Mirgolth WRInaute occasionnel
    Inscrit:
    14 Octobre 2002
    Messages:
    419
    J'aime reçus:
    0
    Bonjour,

    Depuis quelque temps j'ai l'impression qu'il y a des bots qui sont spécialisés pour les pages d'accueil ( je parle ici de la requête GET / sur un Host )
    C'est ce genre de stats qui m'ont attiré l'oeil :
    Une seule page crawlé par ce bot : L'accueil !

    Voilà une liste d'@ IP de bot qui n'ont été voir que ma page d'accueil ( et le robots.txt ):
    Observez vous le même phénomène et qu'en pensez vous ?

    Mirgolth
     
  2. xicor
    xicor Nouveau WRInaute
    Inscrit:
    21 Avril 2003
    Messages:
    13
    J'aime reçus:
    0
    salut Mirgolth,

    J'observe le même phénomène chez moi.

    le bot n'a été voir que ma page d'accueil malgré des liens vers mes pages "secondaires"

    IP: 64.68.82.168 - 64.68.82.41 - 64.68.82.18

    xicor
     
  3. loupeti
    loupeti WRInaute discret
    Inscrit:
    23 Avril 2003
    Messages:
    147
    J'aime reçus:
    0
    on pourrai faire une grande liste

    64.68.82.7
    64.68.82.28
    64.68.82.38
    64.68.82.168
    64.68.82.169

    pour moi depuis le début du mois

    donc j'ajoute a la liste :

    64.68.82.7
    64.68.85.10
    64.68.82.14
    64.68.82.18
    64.68.82.28
    64.68.82.38
    64.68.82.41
    64.68.82.167
    64.68.82.168
    64.68.82.169
    64.68.82.170

    allez continuer la liste !
     
  4. Mirgolth
    Mirgolth WRInaute occasionnel
    Inscrit:
    14 Octobre 2002
    Messages:
    419
    J'aime reçus:
    0
    Tu observe un comportement similaire, à savoir des bots qui crawl exclusivement la racine d'un site ? (les autres pages étant bien crawlées mais par d'autre adressses )

    Je me demandais si ce n'était pas simplement une conséquense de la structure pyramidale des sites...

    Mirgolth
     
  5. loupeti
    loupeti WRInaute discret
    Inscrit:
    23 Avril 2003
    Messages:
    147
    J'aime reçus:
    0
    oui j'observe la même chose,
    par contre maintenant il faudrai aller voir si la liste d'adresse ci dessus se retrouve pour d'autre page que la page d'accueil chez les autres...
     
  6. Qaghan
    Qaghan WRInaute discret
    Inscrit:
    11 Juin 2003
    Messages:
    245
    J'aime reçus:
    0
    Personnellement je rejetterais 41 car il a crawle 192 fois les pages de Mirgolth...

    Olivier,
     
  7. Mirgolth
    Mirgolth WRInaute occasionnel
    Inscrit:
    14 Octobre 2002
    Messages:
    419
    J'aime reçus:
    0
    Non, ça c'est standard : Seule ta page accueil à un PR suffissant pour être crawlée quotidiennement.

    Le phénomène que j'essaye d'analyser concerne les adresses IP des bot qui passent sur les pages d'acceuil pas la fréquence de passage ni, le nombre ne pages crawlées par jour.

    Mirgolth
     
  8. loupeti
    loupeti WRInaute discret
    Inscrit:
    23 Avril 2003
    Messages:
    147
    J'aime reçus:
    0
    - 41

    64.68.82.7
    64.68.85.10
    64.68.82.14
    64.68.82.18
    64.68.82.28
    64.68.82.38
    64.68.82.167
    64.68.82.168
    64.68.82.169
    64.68.82.170

    Quelles sorte d'outil pourrait t'on dévelloper avec ces infos ? Vous avez des idées ?
     
  9. ffaucouneau
    ffaucouneau Guest
    Ce qui est rigolo c'est qu'avec un simple PageRank de 3 et 2 sur les premier niveau, Google visite ma page d'accueil tous les jours.

    Il la met en cache du jour au lendemain 'je ne suis connaissais pas cette rapidité).

    Bref, je ne l'ai jamais vu aussi en forme GG.
     
  10. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Salut,

    Comment définir une page d'accueil et est-ce que cette notion a un sens pour Google ?
    Une page avec un lien externe?
    La page à la racine du site? (Que dire des sites sur hébergement gratuit).
    La page par défaut d'un répertoire (certains n'en ont pas)?

    François
     
  11. Mirgolth
    Mirgolth WRInaute occasionnel
    Inscrit:
    14 Octobre 2002
    Messages:
    419
    J'aime reçus:
    0
    Déjà il faudrait voir si c'est vérifé ou si c'est juste une coincidence. Je ne conçerve que 1 mois de logs sinon ma base dépasse les 25Megs. La periode est trop courte pour généraliser.
    J'y ai pensé aussi, et la racine d'un domaine est tout ce que Google peut distinguer.

    Pourquoi / et pas /index.html ? parce que c'est comme ça sur le net il y a des conventions.

    Pour ce qui est des sites chez des hebergeurs gratuits (au hasard Lycos :wink: ) et bien tant pis pour eux. Mais c'est déjà le cas aujourd'hui : lorsque tu fais une recherche, 2 sites chez wanadoo ou lycos sont considèrer comme faisant partie du même site ( cf le décalage de la 2nde URL ). Essaye de faire une recherche sur le site courant dans la toolbar sur un site hébergé dans un répertoire et tu auras les résultats sur tous les sites herbergés.

    Je n'affirme rien mais je constate. Dans mes logs RS certaines IP passent et repassent mais uniquement sur /... alors j'essayes de comprendre pourquoi.

    Mirgolth
     
  12. Suede
    Suede WRInaute passionné
    Inscrit:
    4 Octobre 2002
    Messages:
    2 474
    J'aime reçus:
    0
    Salut,

    Uniquement sur / ou aussi sur répertoire/ ???

    François
     
  13. Mirgolth
    Mirgolth WRInaute occasionnel
    Inscrit:
    14 Octobre 2002
    Messages:
    419
    J'aime reçus:
    0
    Juste / et ce malgré des millers de pages crawlées par d'autres bots.

    Regarde mes stats d'aujourd'hui :

    Et bien sûr, quelle est la page crawlée par cette adresse :
    Plutôt étonnant !

    Mirgolth
     
  14. galle
    galle WRInaute discret
    Inscrit:
    18 Juillet 2003
    Messages:
    80
    J'aime reçus:
    0
    Bonjour,

    à la requete : SELECT *
    FROM `table`
    WHERE REMOTE_ADDR
    LIKE '64.68.82.%'
    j'obtiens les 2 seules pages indexées par google. Ces pages sont
    2408 accueil 2003-06-11 11:55:52 Googlebot/2.1 (+http://www.googlebot.com/bot.html) 64.68.82.45 crawler11.googlebot.com
    4070 accueil 2003-07-28 16:16:19 Googlebot/2.1 (+http://www.googlebot.com/bot.html) 64.68.82.79 crawler12.googlebot.com

    Autrement dit, la meme page, l'index du site, mise en cache aux dates indiquées.

    Pourquoi ne serait-ce pas le serveur qui charge les pages en cache ?

    A+, Nico.
     
  15. Mirgolth
    Mirgolth WRInaute occasionnel
    Inscrit:
    14 Octobre 2002
    Messages:
    419
    J'aime reçus:
    0
    Salut,

    Pour moi ce n'est plus de la coincidence !
    Et bien sûr pour quelle page ? :
    Est ce que d'autres avec un nombre de pages crawlées important constatent aussi ce phénomène ?

    Mirgolth
     
  16. ccgv
    ccgv WRInaute discret
    Inscrit:
    9 Avril 2003
    Messages:
    225
    J'aime reçus:
    0
    Salut,
    pour ma part ayant passer la requette suivante (concernant ta première liste) :
    Je rejette les adresse suivante (ce n'est pas seulement ma page d'accueil qui a été crawlée) :
    64.68.82.14
    64.68.82.168
    64.68.82.28
    64.68.82.7

    A+
     
Chargement...
Similar Threads - bots spéciaux Forum Date
Search Console Images bloquées ... malgré absence de robots.txt Crawl et indexation Google, sitemaps 31 Octobre 2019
Aide sur le format de mon fichier robots.txt Crawl et indexation Google, sitemaps 25 Octobre 2019
Problèmes d'indexation et robots.txt Crawl et indexation Google, sitemaps 14 Octobre 2019
Réécriture et robots.txt Débuter en référencement 10 Octobre 2019
Page de test et fichier Robots.txt Crawl et indexation Google, sitemaps 9 Octobre 2019
Robots.txt et test url Crawl et indexation Google, sitemaps 9 Octobre 2019
Page d'accueil non indexée ? Conflit avec robots.txt Crawl et indexation Google, sitemaps 2 Octobre 2019
robots.txt pour site multilangue Crawl et indexation Google, sitemaps 1 Octobre 2019
Indexation malgré le robots.txt Problèmes de référencement spécifiques à vos sites 23 Septembre 2019
Search Console un fichier robots.txt pour chaque protocole Débuter en référencement 15 Août 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice