Robots.txt : bloquer un seul répertoire

WRInaute discret
Bonjour

Suite à des avis, je veux tester Wordpress...
Mais je ne veux pas que mes essais soient indexés...

Actuellement, j'ai ce robot.txt qui permet aux moteurs de visiter tout mon site :
User-agent: *
Allow: /


Mon répertoire wordpress est wp

Le code ci-dessous laissera-t il les moteurs indexer mon site, sauf le répertoire wp ?

User-Agent: *
Disallow: /wp/

Merci
 
WRInaute accro
Re: robot.txt

Tu mets ce robots.txt à la racine de ton dossier WP, pas à la racine principale. Ou mieux, tu paramètres ça depuis la zone d'administration de WP, qui permet de fermer l'accès à l'indexation.
 
WRInaute discret
Re: robot.txt

Curieux, voici la FAQ de WRI :

Est-il possible de créer un fichier robots.txt dans chaque répertoire ?

Non !
Le seul fichier robots.txt de votre site doit être situé à la racine
 
WRInaute discret
Re: robot.txt

Livres d enfants a dit:
je veux tester Wordpress...
Mais je ne veux pas que mes essais soient indexés...
Et pourquoi ne pas tester en local avec une installation en local avec wamp (ou mamp pour mac) ?
Il y a quelques tuto ou explications avec une rcherche sur google :
https://www.google.fr/search?q=tester+wordpress+en+local
Là, il n' y aura pas de pb d'indexation ...

Livres d enfants a dit:
Le seul fichier robots.txt de votre site doit être situé à la racine
+1
 
WRInaute accro
Re: robot.txt

Livres d enfants a dit:
Est-il possible de créer un fichier robots.txt dans chaque répertoire ?
UsagiYojimbo devait penser dossier "wp" car sous domaine de dev donc le robots txt se serait de fait retrouvé a la racine. J'ai pas connaissance de fichiers robots.txt qui soit pris en compte autre part qu'a la racine.

D'une façon générale le robots.txt est très loin d'être le meilleur truc pour développer en ligne. En effet certains robots n'auront pas la délicatesse de le respecter (la plupart des bots propres ne respectent d'ailleurs pas toutes les règles officielles) mais certains moins délicats encore s'en contrefichent royalement et peuvent causer des soucis (pompage, agrégation, divulgations d'url de test etc ...)

Le robots txt est une pancarte réglementant l'accès pas une serrure sur la porte garantissant le blocage.

Il est largement préférable et recommandable de procéder a une authentification via htaccess pour éviter toute intrusion non voulue ; c'est la seule solution qui garantie l'inviolabilité du site en cours de développement.

Et pourquoi ne pas tester en local avec une installation en local avec wamp (ou mamp pour mac) ?
Pour éviter de se retrouver avec une config locale différente de celle sur le serveur de production par exemple. Et aussi pour pouvoir travailler n'importe ou.
 
WRInaute occasionnel
Re: robot.txt

Le plus simple reste de cocher la case "ne pas laisser les robots indexer mon site" à l'installation de wordpress ou dans le backoffice.
Ou s'assurer que les pages aient la balise <meta name="robots" content="noindex,follow"/>
 
WRInaute accro
Re: robot.txt

Doubrovski a dit:
Ou s'assurer que les pages aient la balise <meta name="robots" content="noindex,follow"/>
C'est pareil que le robots txt ça ; la sécurité est au bon vouloir de celui qui visite la page mais pas du webmaster bref c'est du vent ...
 
WRInaute discret
Re: robot.txt

Doubrovski a dit:
Le plus simple reste de cocher la case "ne pas laisser les robots indexer mon site" à l'installation de wordpress ou dans le backoffice.
Ou s'assurer que les pages aient la balise <meta name="robots" content="noindex,follow"/>


Merci, j'ai choisi la solution d'empêcher l'indexation dans Wordpress !
 
WRInaute occasionnel
Re: robot.txt

C'est pareil que le robots txt ça ; la sécurité est au bon vouloir de celui qui visite la page mais pas du webmaster bref c'est du vent ...
Je suis d'accord avec ton précédent post. Si le but est que personne ne puisse accéder au site, il faut placer une protection .htaccess .htpasswd. Mais si le but est simplement de bloquer google bot, une balise meta name="robots" est a utiliser plutôt que le robots.txt (un fichier indexé ensuite bloqué par un robots.txt ne sera pas désindexé par google. Alors que la balise meta name="robots" laisse le robot inspecter, puis comprendre qu'il faut désindexer la page).

Ce que je voulais surtout dire, c'est que le robots.txt ne doit pas servir à bloquer des répertoires cachés. Il offre au contraire une piste à suivre pour trouver un répertoire, alors que personne n'avait l'adresse à la base. C'est souvent un bon moyen de trouver une faille sur un site (surtout quand le répertoire caché est une version du site en développement donc non sécurisée à 100%). Par exemple sur un wordpress non sécurisé, on remonte en 3 clics vers la liste des plugins installés et on peut continuer à chercher les failles.
 
WRInaute accro
Re: robot.txt

Doubrovski a dit:
Ce que je voulais surtout dire, c'est que le robots.txt ne doit pas servir à bloquer des répertoires cachés. ...
En effet la je partage ton avis. Moi de mon côté ce que je cherche a faire passer comme message (fréquent ici) c'est qu'il ne faut pas mégoter avec le dev d'un site sur un serveur exposé sur le net et que le tandem htaccess / htpasswd est le seul truc garanti.
Demains si Yandex se pointe sur -http://serge-passions.fr/wp/ je suis pas certains qu'il se prenne la tête avec le robots ou la méta et je parle pas des asiatiques qui adorent copier les sites dans leurs contrés pour faire du blé (ou du riz :D )

Bref c'est un peut comme les MST si tu veux être tranquille et rigoureux tu met une capote. :wink:

Sachant que serge n'est pas le gars a la pointe du web car c'est pas son job et qu'il apprend beaucoup et vite je préfère lui donner le truc simple et béton sans faire de subtilité.
 
Discussions similaires
Haut