Bonjour à tous,
Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :
- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.
ou
- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.
Merci d'avance pour vos explications et eclaircissements.
Je souhaiterais avoir quelques eclaircissements sur le fonctionnement des crawl des robots. Comment un robot index-t-il un site ? :
- Il arrive sur une page et lit le code source, il suit uniquement les liens indiqués dans le code source, il indexe uniquement les images indiquées dans le code source. Ce qui signifie, par exemple, qu'il ne pourrait pas référencer des images présentes dans mon répertoire web mais qui n'apparaissent dans aucun code source de page web.
ou
- Il a accès à tout le répertoire web en lecture et il crawl donc tous les fichiers du site en parcourant les répertoires physiquement présents dans le dossier web (www/ ou httpdocs / ...). Ce qui voudrait dire qu'il connaitrait tous les fichiers de mon site, même s'ils n'apparaissent dans le code source d'aucune page web du monde.
Merci d'avance pour vos explications et eclaircissements.