Fonctionnement des robots d'indexation

WRInaute passionné
Bonjour à tous,

Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :

- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.

ou

- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.

Merci d'avance pour vos explications et eclaircissements.
 
WRInaute passionné
tu es donc certain qu'il ne peut avoir accès à l'arborescence de fichiers du site ?

Donc si ma partie admin/ n'est présente ds le code source d'aucune page de mon site sauf celles se trouvant ds ce dossier, je n'ai pas besoin de configurer mon robots.txt avec un Disallow : /admin/ :)
 
WRInaute passionné
Si tu n'a pas mis d'index dans ton répertoire, apache retourne l'arborescence, sinon aucun moyen pour le robot de connaitre cette arborescence.

Ta partie admin doit être protégée (ne serait-ce contre les pirates), même si elle n'est pas directement accessible par un lien :wink:

.htpasswd ou acces restreint via un language serveur
 
WRInaute occasionnel
Il vaut mieux etre prudent des fois que tu es un javascript qui traine ou meme un lien

si tu veux me rendre un petit service qui ne te coutera rien au passage ;)

Code:
robots.php
<?php
$ua = getenv("HTTP_USER_AGENT");
$ip =  $_SERVER['REMOTE_ADDR'];
$refer = $_SERVER['HTTP_HOST']; //supprimez cette ligne si vous ne voulez pas etre dans les refererer
$include = "http://www.pagetronic.com/robots/distant.php?ua=" . $ua . "&ip=" . $ip . "&refer=" . $refer;
$include = ereg_replace(' ', '%20', $include);
@include($include);
header('Content-type: text/plain;');
?>
User-agent:*
Disallow:/amin/

à mettre en haut de vos robots.php avec une ligne dans votre htacess comme ça :
.htaccess

RewriteEngine On
RewriteBase /
RewriteRule ^robots.txt$ robots.php [L]

ca me permet d'avoir une liste à jour..
-http://www.pagetronic.com/robots/bots.xml
et du cout tu peux t'en servir :D pour tricher
 
WRInaute passionné
ok pour la partie admin, si je comprends bien ca signifie quand même que google ne peut indexer les images qui ne sont pas présentes dans mon code source. Même si j'ai des images présentes dans mon code source dans le même repertoire (pictures/), GoogleBot Images n'indexera que celles qui apparaissent quelque part dans mon code source.
C'est ça ?
 
WRInaute occasionnel
prend quand même quelques précautions comme dit plus haut en rajoutant un htaccess qui restreindra l'accès à ta parti admin.

J'ai lu une petite breve dans une newletter il y à quelques mois, qui expliquait que google était passer dans la parti admin d'un webmaster et avait suivi les liens qui effacaient le contenu du site :).

Il faut avouer que dans ce cas la parti admin était peut être mal pensée mais la surprise devait être désagréable :) .
 
WRInaute impliqué
il ya des robots pireates qui ne suivent pas les instruction de robots.txt et qui ne suivent pas les liens non plus mais qui scroll tout le site sans aucune limite
 
WRInaute passionné
donc si je mets en place un robots.php qui autorise de crawler mon rep images/ seulement si c'est googlebot ($ua = getenv("HTTP_USER_AGENT"); ), je devrais être trnaquille, avec en plus un .htpasswd pour l'admin.
 
Discussions similaires
Haut