Googlebot invente-t-il des url ?

WRInaute impliqué
Bonjour,

Je viens d'observer un truc bizarre dans mes logs:
Sur une des mes pages on peut cliquer sur certains liens qui ont la forme classique :
programme.php?prm=objet21
J'ai un lien comme celui-ci pour les numéros 00, 21, 23 24 25 et 26.
Le googlebot vient les lire régulièrement.

Hier, il a essayé tous les autres numéros de 1 à 19...

C'est à dire qu'il a extrapolé des liens existants pour s'en créer de nouveaux (car je suis absolument certain de n'avoir jamais utilisé ces numéros). Bizarrement, il n'a pas essayé le 20, ni le 22, ni poursuivi au delà de 26.

Cela me paraît un peu étonnant. Avez-vous déjà eu cela ?
L'autre explication serait qu'un site quelconque a placé des liens vers ces pages inexistantes. Comme il s'agit d'images, c'est possible qu'il s'agisse d'un des ces sites fouineurs d'images.
 
WRInaute discret
c bizarre, passke si encore c'etait la valeur du parametre... ex: prmobjet=21
on pourrait penser qu'il improvise des chiffres

mais si le parametre est prm=objet21 , je ne vois pas pourquoi google aurait été programmé pour tester des valeurs texte sur les urls...

ca parait bizarre...
pour ce qui est de liens externes pointant vers ces images, je ne sais pas, ca voudrait dire que le bot qui fouinerait serait programmé pour tester plein de valeurs...

en tout cas c'est assez cocasse :)
 
Nouveau WRInaute
Bonjour,

Tout d'abord, permettez moi de remercier WRI et les forumeurs de ce site. Référencer un site réalisé avec Postnuke n'est pas chose facile, et c'est ici que j'ai découvert toutes les astuces qui m'ont permis de le faire. Le forum est une telle mine d'informations que je n'ai jamais eu besoin (depuis trois mois que je le consulte) d'y poser une seule question, la fonction recherche répondant à toutes mes interrogations.

Remi L, j'ai constaté quelque chose de similaire sur mon site. Mes brèves sont disponibles en version imprimable, grace à une url de la forme /print.php?sid=x (comportement par défaut de Postnuke). Aujourd'hui et avant-hier, Googlebot a visité la page /print.php?sid=26, alors que je n'ai pas publié de brève n°26 (il y a bien une brève 25 et une brève 27). Il n'y a à ma connaissance aucun lien sur mon site vers cette page, et aucun lien externe qui ne soit enregistré dans l'index google.

C'est assez étrange, et je suis aussi étonné de son acharnement. Il est rare que Google visite deux fois la même page en 48h chez moi - à part la page d'accueil bien sûr.
 
WRInaute discret
Oula, nouvelle fonctionnalité de Google?

Je ne crois pas franchement, mais c'est vrai que c'est bizarre, je vais voir les logs et je reviens si j'ai le même phénomène, pour l'instant, je n'ai jamais vu cela. Ca le fait uniquement avec PHPnuke, pour vous 2?
 
WRInaute impliqué
Je ne me sers pas de Phpnuke en ce qui me concerne, ni même de Sql d'ailleurs, mais amha cela n'entre pas en ligne de compte de toutes façons: Google traite des url.
 
WRInaute impliqué
Bon, donc apparemment, je suis le seul dans ce cas...

Edit: Enfin pas tout à fait le seul, car l'exemple donné par Kostik est étonnant aussi.

Donc, je vais supposer que quelqu'un a placé un lien vers cette url qui n'existe pas, car Googlebot continue de venir les lire, ou du moins d'essayer de les lire...

Il faut que je modifie mon PHP pour qu'il lui retourne une belle 404 (avec jantes alus) sinon il ne va pas s'arrêter...
 
WRInaute impliqué
moi j'ai jamais utilisé de php parceque :

1- çà rencontre des problèmes
2- C'est hyper dur
3- J'y comprend rien


Donc c'est sûr que cela ne và jamais m'arriver.
 
P
pewhy
Guest
J'ai observé le meme phenomene, mais avec url-rewriting !!

GG a essayé d'indexer les pages

w_w.lapierrequivole.com/en/galerie_res_
w_w.lapierrequivole.com/fr/galerie_res_

alors que sur mon site les pages presentes sont de la forme
w_w.lapierrequivole.com/fr/galerie_res_5_-1.php !!

G cherché ou j'avais laissé ce genre d'url... apparement ca vient pas d'une erreur ds mes scripts :roll:
 
Nouveau WRInaute
Bonjour à tous !
Je confirme le phénomène, qui se produit depuis plusieurs semaines. De mon côté, j'ai des adresses de type "page.php?num=xx" dont les numéros ne se suivent pas nécessairement.
Cela n'empêche pas Google de "tester" les numéros inexistants...!
 
WRInaute impliqué
C'est tout de même bizarre... car il a tout de même suffisamment de boulot comme ça pour ne pas s'amuser à tester les séries de numéros...

De mon côté, cela s'est calmé:
Il a arrêté d'essayer de les lire, mais c'est peut-être du au fait que je lui renvoie un 404 maintenant: ça calme...
En tout il aura essayé chaque numéro 10-12 fois.
 
WRInaute impliqué
Non non, c'était le normal Googlebot/2.1, IP 64.68.84.xx
Par contre, ces tentatives étaient groupées et il essayait plusieurs numéros en même temps avec plusieurs IPs. Et quand il faisait ces tentatives, il ne lisait jamais un fichier normal (existant) dans les minutes qui suivaient avec le même IP.
 
WRInaute discret
oui moi aussi je me posais cette question

sur un des sites en php quand je fais une analyse des liens suivi il me sort des url bizar du genre

monsite.com/index.php?145fdtrrfgfgfhghghgghgh1hg4hg5hg1g2h1g5h4g1g2g5h4g5h4g1g25h4g5h

et j'ai pas pas ces adresses la
 
Discussions similaires
Haut