Fonctionnement des robots d'indexation

dadovb · 14 Juin 2006

Bonjour à tous,

Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :

- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.

ou

- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.

Merci d'avance pour vos explications et eclaircissements.

jeroen · 14 Juin 2006

Un robot de crowl se comporte comme n'importe quel internaute : il parcourt les liens.

dadovb · 14 Juin 2006

tu es donc certain qu'il ne peut avoir accès à l'arborescence de fichiers du site ?

Donc si ma partie admin/ n'est présente ds le code source d'aucune page de mon site sauf celles se trouvant ds ce dossier, je n'ai pas besoin de configurer mon robots.txt avec un Disallow : /admin/

jeroen · 14 Juin 2006

Si tu n'a pas mis d'index dans ton répertoire, apache retourne l'arborescence, sinon aucun moyen pour le robot de connaitre cette arborescence.

Ta partie admin doit être protégée (ne serait-ce contre les pirates), même si elle n'est pas directement accessible par un lien :wink:

.htpasswd ou acces restreint via un language serveur

spationaute-troglodyte · 14 Juin 2006

Il vaut mieux etre prudent des fois que tu es un javascript qui traine ou meme un lien

si tu veux me rendre un petit service qui ne te coutera rien au passage

Code:

robots.php
<?php
$ua = getenv("HTTP_USER_AGENT");
$ip =  $_SERVER['REMOTE_ADDR'];
$refer = $_SERVER['HTTP_HOST']; //supprimez cette ligne si vous ne voulez pas etre dans les refererer
$include = "http://www.pagetronic.com/robots/distant.php?ua=" . $ua . "&ip=" . $ip . "&refer=" . $refer;
$include = ereg_replace(' ', '%20', $include);
@include($include);
header('Content-type: text/plain;');
?>
User-agent:*
Disallow:/amin/

à mettre en haut de vos robots.php avec une ligne dans votre htacess comme ça :
.htaccess

RewriteEngine On
RewriteBase /
RewriteRule ^robots.txt$ robots.php [L]

ca me permet d'avoir une liste à jour..
-http://www.pagetronic.com/robots/bots.xml
et du cout tu peux t'en servir

pour tricher

dadovb · 14 Juin 2006

ok pour la partie admin, si je comprends bien ca signifie quand même que google ne peut indexer les images qui ne sont pas présentes dans mon code source. Même si j'ai des images présentes dans mon code source dans le même repertoire (pictures/), GoogleBot Images n'indexera que celles qui apparaissent quelque part dans mon code source.
C'est ça ?

jeroen · 14 Juin 2006

yep !

maniT4c · 15 Juin 2006

prend quand même quelques précautions comme dit plus haut en rajoutant un htaccess qui restreindra l'accès à ta parti admin.

J'ai lu une petite breve dans une newletter il y à quelques mois, qui expliquait que google était passer dans la parti admin d'un webmaster et avait suivi les liens qui effacaient le contenu du site

.

Il faut avouer que dans ce cas la parti admin était peut être mal pensée mais la surprise devait être désagréable

.

lapi · 15 Juin 2006

il ya des robots pireates qui ne suivent pas les instruction de robots.txt et qui ne suivent pas les liens non plus mais qui scroll tout le site sans aucune limite

dadovb · 15 Juin 2006

donc si je mets en place un robots.php qui autorise de crawler mon rep images/ seulement si c'est googlebot ($ua = getenv("HTTP_USER_AGENT"); ), je devrais être trnaquille, avec en plus un .htpasswd pour l'admin.

spationaute-troglodyte · 16 Juin 2006

oui mais googlebot le user agent c'est pour dire que..