Bloquer une section dans mon fichier robots.txt

WRInaute occasionnel
Bonjour à tous !

J'aimerais autoriser les bots à crawler mon site en entier sauf une section qui est /Profil/.
Est-ce que je dois faire comme cela :

Code:
User-agent: *
Allow: /
Disallow: /Profil/

Sitemap: https://www.nomDeMonsite.com/sitemap-index.xml

Est-ce que le Disallow est OK ? Donc toutes les pages dans profil ne seront pas crawlé ?
Ex:
/Profil/membre1
/Profil/membre2
/Profil/membre3
/Profil/membre4

Merci à tous et une belle journée à vous !

Pascal
 
Membre Honoré
Bonjour,

Le mieux est de ne pas utiliser le robots.txt et d'utiliser le noindex avec les pages déjà indexées.
En effet, vous devez désindexer déjà les pages indexées avant de faire un blocage.
Pour les exemples, il y a : example.com .

Temps de réponse : 5 minutes.
Cordialement.
 
Olivier Duffez (admin)
Membre du personnel
pour désindexer toutes les URL situées dans un répertoire, c'est direct via search console
ensuite un blocage robots.txt doit suffire
 
WRInaute occasionnel
Bonjour !

J'ai une autre question concernant mon premier message...
J'ai supprimé toutes les URL dans le dossier /Profil/ depuis Search Console.

Le lendemain, j'ai vérifié dans Google avec la commande SITE: et effectivement, tout est supprimé... cependant.. Ma question est au niveau des sitemaps...
J'ai laissé mes sitemap profils (J'en ai 5, car c'est max 50k URL chacun) pour vérifier si le nombre indexé deviendrait 0....

Sauf qu’au lieu de faire cela... j'ai des avertissements de Google... Voici les 2 types d'avertissements que j'ai dans la section des sitemap de la Search Console
  • Lors du test d'un échantillon des URL de votre sitemap, nous avons constaté que le fichier robots.txt du site bloquait l'accès à certaines URL. Si vous ne souhaitez pas bloquer l'accès à certaines URL contenues dans votre sitemap, vérifiez, à l'aide de notre outil d'analyse robots.txt, que Googlebot peut accéder aux URL. Toutes les URL accessibles seront envoyées.
  • Le sitemap contient des URL qui sont bloquées par le fichier robots.txt
Et le nombre d'URL indexées baisse très peu... peut-être +-50 URL en moins par jour en moins pour chaque sitemap...

Devrais-je faire différent ?

Merci et bonne journée à tous !

Pascal
 
Membre Honoré
Bonjour,
J'ai une autre question concernant mon premier message...
J'ai supprimé toutes les URL dans le dossier /Profil/ depuis Search Console.
Complément :
"A successful request lasts only about 90 days. After that, your information can appear on Google search results". Source : Google.
J'ai laissé mes sitemap profils (J'en ai 5, car c'est max 50k URL chacun) pour vérifier si le nombre indexé deviendrait 0....
Retirer du sitemap les pages à ne pas indexer.
j'ai des avertissements de Google...
Normal.
Et le nombre d'URL indexées baisse très peu... peut-être +-50 URL en moins par jour en moins pour chaque sitemap...
Cf. solution précédente et il faut du temps.

Temps de réponse : 10 minutes.
Cordialement.
 
WRInaute occasionnel
Bonsoir à tous !

Je reviens sur une question précédente... car j'ai reçu une alerte de Google Search Console... m'informant que mon fichier robots.txt bloque la section /Profil/ mais qu'il y a toujours des pages d'indexées dans Google....

Voici le message de Google !

Indexée malgré le blocage par le fichier robots.txt
Pages avec avertissement
Indexée malgré le blocage par le fichier robots.txt : malgré le blocage par le fichier robots.txt, la page a été indexée. Google respecte toujours le fichier robots.txt, mais si un autre site redirige vers la page, le blocage est contourné. Nous avons utilisé un avertissement, car nous ne sommes pas sûrs que vous souhaitiez bloquer la page dans les résultats de recherche. Si vous souhaitez la bloquer, le fichier robots.txt n'est pas le bon mécanisme pour éviter l'indexation. Pour éviter l'indexation, vous devez utiliser la directive "noindex" ou interdire l'accès anonyme à la page en demandant une authentification. Vous pouvez utiliser l'outil de test du fichier robots.txt pour déterminer quelle règle bloque cette page. En raison de la présence du fichier robots.txt, l'extrait affiché pour la page ne sera probablement pas optimal. Si vous ne souhaitez pas bloquer cette page, mettez à jour le fichier robots.txt pour la débloquer.

Comme expliquer, j'ai bel et bien ajouté le dossier /Profil/ dans Search Console -> URL à supprimé

Donc si je comprends bien... le fait d'avoir supprimé le dossier /Profil/ via Search Console.. n'a pas désindexé les pages qui sont dans /Profil/ mais les à que 'caché' ?

Qu'en pensez-vous ?

Merci
 
Membre Honoré
Bonjour,
le fait d'avoir supprimé le dossier /Profil/ via Search Console.. n'a pas désindexé les pages qui sont dans /Profil/ mais les à que 'caché' ?
"A successful request lasts only about 90 days. After that, your information can appear on Google search results". Source : Google.

Le mieux est de ne pas utiliser le robots.txt et d'utiliser le noindex pour les pages à ne pas indexer.

Temps de réponse : 10 minutes.
Cordialement.
 
Nouveau WRInaute
Bonjour,

Le fichier robots.txt est un fichier qui indique aux robots qui visitent ton blog ce qu'ils doivent indexer.

Peut-être que le fichier robots.txt interdit aux robots d'indexer ton blog ou qu'il comporte des erreurs.

Si tu as créé ton blog sur une plate-forme de blog, tu n'as probablement pas la possibilité de le modifier. Dans ce cas, demande à l'administrateur de la plate-forme de le modifier ou de le vérifier.
 
WRInaute accro
Mais ça n'empêche pas de les mettre en "no index". Si ces pages sont toujours en "index" c'est normal d'avoir un avertissement
 
Discussions similaires
Haut