Les robots qui crawl les sites pourait il executer des script php ?

A
Anonymous
Guest
Salut tout le monde,

Voilà, j'ai lancé un site il y a 2/3 jours et je ne lui encore fait aucune promotion, le site accueil donc encore aucun visiteur.
Sur ce site, il y a un système de vote en php avec étoile, je fait passer le nombre de points par url ex : site.com/votes?pts=5.

Hier matin, vers 8 heure je me connecte au site et il y avais une trentaine de vote et 17 invités en ligne, j'ai trouvé ça étrange étant donné que comme dit plus haut, je ne lui ai pas encre fait de pub.
En regardant les ips qui ont votées, on peut voir qu'elle viennent toutes des Etats Unis alors que le site n'est quand fr.

Ma question est donc la suivante :
Est-ce qu'il est possible que ces votes viennent de robots qui crawl le site ou est-ce forcement des personnes ?

En même temps, autant de robot qui passerait sur le site à la même heure ça ferait beaucoup, non ?

Je vous remercie pour vos réponses.
 
WRInaute impliqué
Oui, c'est tout à fait possible que ce soit les robots.
Ils ont la particularité de suivre toutes les URLs.

Pour éviter cela, tu peux interdire l'accès à ces URLs via un fichier "robots.txt".
Même si cela permet déjà d'éliminer les principaux robots, rien ne les empêches de lire ces URLs, pour un raison ou une autre.

Comme ce sont des robots, ils ignorent les cookies. De ce fait, tu peux aussi gérer une variable de session qui te permettra de vérifier que ce n'est pas un robot (les variables de session dépendent des cookies, si tu effaces le cookie de session, tu perds toutes les variables de session).

Mais ces techniques sont loin d'être infaillible, tu ne seras pas protéger contre un utilisateur malveillant. Celui-ci peut très bien créer un robot spécialisé.
 
A
Anonymous
Guest
Merci pour vos réponses.

Est-ce qu'un rel="nofollow" dans le lien pourait suffir ?

Ou sinon, mes pages qui gere le script de vote n'ont pas d'entête html (<html><head><title></title>...), en le mettant et avec une meta balise noindex, ça pourait faire l'affaire éventuellement ?

Merci
 
WRInaute occasionnel
Non, un rel=nofollow sur tes liens ne suffit pas, loin de là, car en plus d'être moins efficace qu'un robots.txt, cela reste un lien accessible, rien n'empèche de suivre un lien ...

Imagines, tu sais que tu n'as pas le droit de passer quand le feu est rouge, pourtant tu as déjà du en griller un ou deux... tu ne le fais pas tout le temps, mais ça t'es déjà arrivé et ça t'arrivera encore.
 
A
Anonymous
Guest
Blount a dit:
Comme ce sont des robots, ils ignorent les cookies. De ce fait, tu peux aussi gérer une variable de session qui te permettra de vérifier que ce n'est pas un robot (les variables de session dépendent des cookies, si tu effaces le cookie de session, tu perds toutes les variables de session).

Si il ne prennent pas en compte les cookies (ce qui est logique en effet), le mieux est alors de créer un COOKIE lors de l'arrivé d'un visiteur sur le site et, si le cookie n'existe pas, alors le script ne peut pas être executé.
 
A
Anonymous
Guest
Lorsqu'il sagit de googlebot, il n'y a pas de vote de pris en compte, pourquoi des votes seraient pris en compte avec d'autres robots ?

Comment est-ce possible qu'autant de robots américains seraient passés dans les mêmes heures ?

Merci
 
WRInaute occasionnel
Tout simplement parce que pour activer un vote de plus, c'est un lien, comment un robot de crawl pourrait savoir que le lien qu'il suit est un script de vote et non pas une page de contenu s'il ne le suit pas ????...

C'est pas parce que le robot est américain que les sites français ne l'intéressent pas.
Après il faut se réveiller les gars, des robots de crawl, ça pullule sur le web, tous ont une tache précise (indexation, récup d'infos, de contenus,etc) et c'est pas parce qu'ils ont pour vocation d'alimenter un site américain ou autre, qu'il vont s'arrêter aux seuls sites de leur territoire.... Combien de sites en langue française sont hébergés à l'étranger ? énormément ...


Et puis, s'il n'y avait pas de robots de crawl, il n'y aurait pas de moteurs de recherche et autres, à nous de nous adapter, on ne peut pas avoir le beurre et l'argent du beurre, pas de crawl, beaucoup moins de visites. Beaucoup moins de visites, site inutile. Site inutile,... (on peut continuer et bifurquer sur un dialogue de Astérix Mission Cléopatre :mrgreen: )

Enfin voilà, tout est dit.

Pour revenir à la première question de ce post, à partir du moment ou tu fais un lien public (accessible sans identification ou autre) vers quoi que ce soit (ici un script php), oui il est normal qu'il soit exécuté par les robots au même titre qu'une page HTML, on voit bien des sites dont l'extension des pages est php, ce sont des pages HTML mais contenant des scripts php...
 
A
Anonymous
Guest
Djibou_Te@M a dit:
Tout simplement parce que pour activer un vote de plus, c'est un lien, comment un robot de crawl pourrait savoir que le lien qu'il suit est un script de vote et non pas une page de contenu s'il ne le suit pas ????...

C'est pas parce que le robot est américain que les sites français ne l'intéressent pas.
Après il faut se réveiller les gars, des robots de crawl, ça pullule sur le web, tous ont une tache précise (indexation, récup d'infos, de contenus,etc) et c'est pas parce qu'ils ont pour vocation d'alimenter un site américain ou autre, qu'il vont s'arrêter aux seuls sites de leur territoire.... Combien de sites en langue française sont hébergés à l'étranger ? énormément ...


Et puis, s'il n'y avait pas de robots de crawl, il n'y aurait pas de moteurs de recherche et autres, à nous de nous adapter, on ne peut pas avoir le beurre et l'argent du beurre, pas de crawl, beaucoup moins de visites. Beaucoup moins de visites, site inutile. Site inutile,... (on peut continuer et bifurquer sur un dialogue de Astérix Mission Cléopatre :mrgreen: )

Enfin voilà, tout est dit.

Pour revenir à la première question de ce post, à partir du moment ou tu fais un lien public (accessible sans identification ou autre) vers quoi que ce soit (ici un script php), oui il est normal qu'il soit exécuté par les robots au même titre qu'une page HTML, on voit bien des sites dont l'extension des pages est php, ce sont des pages HTML mais contenant des scripts php...


Ce n'est pas vraiment la question qui a été posé.

La question, c'est qu'avec googlebot ca ne contabilise pas de vote, alors ou est la différence ?

Pourquoi autant de robots se seraient connectés au site en même temps (17 invités en ligne soit 17 robots) ?
 
A
Anonymous
Guest
Merci pour vos réponses.

Autre chose, comment peut-on savoir s'il sagit réelement de robots ?

Vous parlez d'un système de vote en Ajax, et en javascript ça donne quoi ?

Merci
 
A
Anonymous
Guest
Mes urls pour le vote sont comme cela :
Ex pour la 6 eme etoile : site.com/vote.php?pts=6

Si je met dans le fichier robots.txt :
User-Agent: *
Disallow: /vote.php

C'est bon ?

Ou faut-il que je mette :
User-Agent: *
Disallow: /vote.php?pts=6
...
...
?

Merci
 
WRInaute accro
mr.zuppardo a dit:
Vous parlez d'un système de vote en Ajax, et en javascript ça donne quoi ?

Vu que tu sauvegardes (j'imagine) la donnée en base, tu ne peux pas juste le faire en javascript. L'idée c'est d'utiliser le javascript pour appeler un script php. Le JS n'étant pas interprété par les robots, tu n'auras pas de soucis à ce niveau. Utiliser le robots.txt à cet effet est pour moi sans intérêt, parce que tous les robots de crawl n'en appliquent pas les directives.
 
WRInaute occasionnel
Mr.zuppardo,

Quand je dis qu'il y a des tonnes de robots de crawl à travers le web, c'est parce qu'ils se comptent en dizaine voire centaines de milliers, et encore, je suis d'être loin du compte.

Ce n'est pas parce que la plupart des proprios de sites n'ont qu'un seul site, qu'il en va de même pour tout le monde. Beaucoup de sites ont des sites annexes, partenaires et autres avec qui ils échangent des infos.
Avoir 17 visites de robots dans la même tranche horaire, c'est possible surtout se ces derniers sont lancés à la même heure.
Ex : j'ai un robot de crawl, vaut-il mieux que je le lance dans la nature en pleine journée quand le site est bondé, ou vaut-il mieux attendre le soir vers minuit et être sur de ne pas surcharger le serveur du site en question ?

Après, minuit chez les américains c'est pas minuit ici en France, décalage horaire.

Comment savoir si ce sont des robots, il y a des IPs de robots communiquées sur le WEB.

Ton robots.txt n'empêchera pas tous les robots de crawler ton site, depuis tout à l'heure, on te propose de modifier ton script de vote, pour ne pas laisser les URLs pour voter directement accessibles.

Pour résumer, si tu veux être pénard, c'est pas avec ton robots.txt qu'il faut agir, mais avec ton script de vote et d'accès aux votes.
 
A
Anonymous
Guest
spout a dit:
En aussi passer la valeur du vote en _POST au lieu de _GET

Mais c'est clair en fait, elle est la la solution, il suffit d'utiliser des varialbe $_POST. Les moteurs ne pouront pas executer le script dans ce cas.
+1

N'est ce pas ?
 
Discussions similaires
Haut