Googlebot invente-t-il des url ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Remi L., 29 Novembre 2003.

  1. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Bonjour,

    Je viens d'observer un truc bizarre dans mes logs:
    Sur une des mes pages on peut cliquer sur certains liens qui ont la forme classique :
    programme.php?prm=objet21
    J'ai un lien comme celui-ci pour les numéros 00, 21, 23 24 25 et 26.
    Le googlebot vient les lire régulièrement.

    Hier, il a essayé tous les autres numéros de 1 à 19...

    C'est à dire qu'il a extrapolé des liens existants pour s'en créer de nouveaux (car je suis absolument certain de n'avoir jamais utilisé ces numéros). Bizarrement, il n'a pas essayé le 20, ni le 22, ni poursuivi au delà de 26.

    Cela me paraît un peu étonnant. Avez-vous déjà eu cela ?
    L'autre explication serait qu'un site quelconque a placé des liens vers ces pages inexistantes. Comme il s'agit d'images, c'est possible qu'il s'agisse d'un des ces sites fouineurs d'images.
     
  2. perti
    perti WRInaute occasionnel
    Inscrit:
    22 Octobre 2003
    Messages:
    271
    J'aime reçus:
    0
    C'est quoi l'url d site dont tu parles ?
     
  3. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
  4. kilik
    kilik WRInaute discret
    Inscrit:
    4 Octobre 2003
    Messages:
    140
    J'aime reçus:
    0
    c bizarre, passke si encore c'etait la valeur du parametre... ex: prmobjet=21
    on pourrait penser qu'il improvise des chiffres

    mais si le parametre est prm=objet21 , je ne vois pas pourquoi google aurait été programmé pour tester des valeurs texte sur les urls...

    ca parait bizarre...
    pour ce qui est de liens externes pointant vers ces images, je ne sais pas, ca voudrait dire que le bot qui fouinerait serait programmé pour tester plein de valeurs...

    en tout cas c'est assez cocasse :)
     
  5. Kostik
    Kostik Nouveau WRInaute
    Inscrit:
    30 Novembre 2003
    Messages:
    3
    J'aime reçus:
    0
    Bonjour,

    Tout d'abord, permettez moi de remercier WRI et les forumeurs de ce site. Référencer un site réalisé avec Postnuke n'est pas chose facile, et c'est ici que j'ai découvert toutes les astuces qui m'ont permis de le faire. Le forum est une telle mine d'informations que je n'ai jamais eu besoin (depuis trois mois que je le consulte) d'y poser une seule question, la fonction recherche répondant à toutes mes interrogations.

    Remi L, j'ai constaté quelque chose de similaire sur mon site. Mes brèves sont disponibles en version imprimable, grace à une url de la forme /print.php?sid=x (comportement par défaut de Postnuke). Aujourd'hui et avant-hier, Googlebot a visité la page /print.php?sid=26, alors que je n'ai pas publié de brève n°26 (il y a bien une brève 25 et une brève 27). Il n'y a à ma connaissance aucun lien sur mon site vers cette page, et aucun lien externe qui ne soit enregistré dans l'index google.

    C'est assez étrange, et je suis aussi étonné de son acharnement. Il est rare que Google visite deux fois la même page en 48h chez moi - à part la page d'accueil bien sûr.
     
  6. puppetMaster
    puppetMaster WRInaute discret
    Inscrit:
    16 Octobre 2003
    Messages:
    154
    J'aime reçus:
    0
    Oula, nouvelle fonctionnalité de Google?

    Je ne crois pas franchement, mais c'est vrai que c'est bizarre, je vais voir les logs et je reviens si j'ai le même phénomène, pour l'instant, je n'ai jamais vu cela. Ca le fait uniquement avec PHPnuke, pour vous 2?
     
  7. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Je ne me sers pas de Phpnuke en ce qui me concerne, ni même de Sql d'ailleurs, mais amha cela n'entre pas en ligne de compte de toutes façons: Google traite des url.
     
  8. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Bon, donc apparemment, je suis le seul dans ce cas...

    Edit: Enfin pas tout à fait le seul, car l'exemple donné par Kostik est étonnant aussi.

    Donc, je vais supposer que quelqu'un a placé un lien vers cette url qui n'existe pas, car Googlebot continue de venir les lire, ou du moins d'essayer de les lire...

    Il faut que je modifie mon PHP pour qu'il lui retourne une belle 404 (avec jantes alus) sinon il ne va pas s'arrêter...
     
  9. Fire Wolf
    Fire Wolf WRInaute impliqué
    Inscrit:
    11 Décembre 2003
    Messages:
    701
    J'aime reçus:
    0
    moi j'ai jamais utilisé de php parceque :

    1- çà rencontre des problèmes
    2- C'est hyper dur
    3- J'y comprend rien


    Donc c'est sûr que cela ne và jamais m'arriver.
     
  10. pewhy
    pewhy Guest
    J'ai observé le meme phenomene, mais avec url-rewriting !!

    GG a essayé d'indexer les pages

    w_w.lapierrequivole.com/en/galerie_res_
    w_w.lapierrequivole.com/fr/galerie_res_

    alors que sur mon site les pages presentes sont de la forme
    w_w.lapierrequivole.com/fr/galerie_res_5_-1.php !!

    G cherché ou j'avais laissé ce genre d'url... apparement ca vient pas d'une erreur ds mes scripts :roll:
     
  11. kgb203
    kgb203 Nouveau WRInaute
    Inscrit:
    6 Juillet 2003
    Messages:
    20
    J'aime reçus:
    0
    Bonjour à tous !
    Je confirme le phénomène, qui se produit depuis plusieurs semaines. De mon côté, j'ai des adresses de type "page.php?num=xx" dont les numéros ne se suivent pas nécessairement.
    Cela n'empêche pas Google de "tester" les numéros inexistants...!
     
  12. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    C'est tout de même bizarre... car il a tout de même suffisamment de boulot comme ça pour ne pas s'amuser à tester les séries de numéros...

    De mon côté, cela s'est calmé:
    Il a arrêté d'essayer de les lire, mais c'est peut-être du au fait que je lui renvoie un 404 maintenant: ça calme...
    En tout il aura essayé chaque numéro 10-12 fois.
     
  13. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 079
    J'aime reçus:
    333
    ça ne serait pas par hasard le robot de AdSense ?
     
  14. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Non non, c'était le normal Googlebot/2.1, IP 64.68.84.xx
    Par contre, ces tentatives étaient groupées et il essayait plusieurs numéros en même temps avec plusieurs IPs. Et quand il faisait ces tentatives, il ne lisait jamais un fichier normal (existant) dans les minutes qui suivaient avec le même IP.
     
  15. Karbon
    Karbon WRInaute discret
    Inscrit:
    13 Novembre 2002
    Messages:
    125
    J'aime reçus:
    0
    oui moi aussi je me posais cette question

    sur un des sites en php quand je fais une analyse des liens suivi il me sort des url bizar du genre

    monsite.com/index.php?145fdtrrfgfgfhghghgghgh1hg4hg5hg1g2h1g5h4g1g2g5h4g5h4g1g25h4g5h

    et j'ai pas pas ces adresses la
     
Chargement...
Similar Threads - Googlebot invente Forum Date
GWT m'invente des pages (Googlebot for smartphones) Crawl et indexation Google, sitemaps 19 Août 2015
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019
feuilles de styles non obtenues par Googlebot Crawl et indexation Google, sitemaps 28 Septembre 2018
Temps de réponse serveur googlebot Développement d'un site Web ou d'une appli mobile 23 Mai 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice