Indexation des pages par les moteurs de recherches

WRInaute discret
Bonjour à tous,

Sur mon site et comme la plupart des sites j'imagine, j'ai des pages du style "deconnexion.php", "confirmation_compte.php" etc...

Je me posais la question si tous ces styles de fichiers devraient être bloqués pour ne pas être indexés ?

Merci à vous !

Cordialement.
 
WRInaute discret
Oui c'est sur ! Une page de déconnexion n'aurait pas d'intérêt à se retrouver indexer !
Cela se fait par le biais de .htaccess ou de robots.txt ?

Merci !
 
WRInaute discret
Bonjour,

je remonte mon topic pour savoir si du coup, je devais également faire un fichier robots.txt si je met les meta noindex ?

Merci !
 
WRInaute accro
cyclone200 a dit:
également faire un fichier robots.txt
la no index interdit l'indexation, le fichier robots peut en plus bloquer le crawl ... a toi de voir, perso je trouve ça totalement inutile mais écologiquement crédible voir pertinent.
 
WRInaute discret
zeb a dit:
cyclone200 a dit:
également faire un fichier robots.txt
la no index interdit l'indexation, le fichier robots peut en plus bloquer le crawl ... a toi de voir, perso je trouve ça totalement inutile mais écologiquement crédible voir pertinent.

Je vois... Le crawl c'est la visualisation de la page c'est cela ? La différence c'est qu'avec le meta noindex, le bot va pouvoir visualiser la page ?

Merci encore pour ta réponse.
Bien cordialement.
 
WRInaute accro
Le crawl c'est le passage d'un bot pour récupérer la page (l'enregistrement de la version html de ta page)
Le noindex est une directive dans la page qui demande a ce que la page ne soit pas mise dans l'index de recherche.

Si tu interdit le crawl d'une page no index avant sa désindexation, le bot peut ne pas se rendre compte que tu ne veux pas qu'elle soit indexée et persister a la fournir dans les résultats a travers une vieille version déjà crawlée.
Si tu interdit le crawl avec le robots txt, après avoir désindexé avec un noindex il est probable que la page ne soit plu revisitée et qu'elle reste désindexée.
 
WRInaute discret
D'accord je comprend mieux. Merci de m'avoir éclairer sur ces deux notions.
Donc, le mieux serait de mettre un noindex et quelque temps après de bloquer la page avec robots.txt comme ça celle-ci reste désindexée.

Merci encore.
Cordialement.
 
WRInaute accro
cyclone200 a dit:
et quelque temps après de bloquer la page avec robots.txt ...
C'est l'idée qui me semble la plus adaptée en effet a ce cas.

J'ajoute une notion de conception de site qui m'est toute personnelle mais qui peut aider qqun en phase de conception. Toutes ces pages qui ont une vocation "technique" (connexion, recherche etc ...) sont chez moi dans un dossier particulier qui induit donc une url speciale > www.example.com/dossier/formulaire-script.php du coup c'est tout le dossier qui est géré a part avec une template spéciale (qui comprend le no-index) et il deviens alors facile dès le début d'interdire le crawl de ce type de scripts pas très utiles aux SERPs. Pour des raisons proches ce dossier est exclus de la mise en cache d'output car ce sont des scripts généralement dynamiques qui ne peuvent faire l'objet de ce traitement.
 
WRInaute discret
C'est exactement ce que j'ai fais. Et ensuite, j'interdit directement l'accès au dossier dans le fichier robots.txt

Merci encore.
Cordialement.
 
Discussions similaires
Haut