Bloquer une section dans mon fichier robots.txt

pascal_22 · 9 Novembre 2018

Bonjour à tous !

J'aimerais autoriser les bots à crawler mon site en entier sauf une section qui est /Profil/.
Est-ce que je dois faire comme cela :

Code:

User-agent: *
Allow: /
Disallow: /Profil/

Sitemap: https://www.nomDeMonsite.com/sitemap-index.xml

Est-ce que le Disallow est OK ? Donc toutes les pages dans profil ne seront pas crawlé ?
Ex:
/Profil/membre1
/Profil/membre2
/Profil/membre3
/Profil/membre4

Merci à tous et une belle journée à vous !

Pascal

WebRankInfo · 9 Novembre 2018

oui c'est ça. Et le Allow ne sert à rien

pascal_22 · 9 Novembre 2018

Bonsoir WebRankInfo !!

Merci beaucoup ! C'est gentil !

bonne soirée !

Pascal

Madrileño · 9 Novembre 2018

Bonjour,

Le mieux est de ne pas utiliser le robots.txt et d'utiliser le noindex avec les pages déjà indexées.
En effet, vous devez désindexer déjà les pages indexées avant de faire un blocage.
Pour les exemples, il y a : example.com .

Temps de réponse : 5 minutes.
Cordialement.

WebRankInfo · 9 Novembre 2018

pour désindexer toutes les URL situées dans un répertoire, c'est direct via search console
ensuite un blocage robots.txt doit suffire

pascal_22 · 12 Novembre 2018

Bonjour @WebRankInfo et @Madrileño

Merci énormément !! En effet, j'ai découvert la section 'URL à bloqué' vendredi passé

Merci beaucoup pour vos réponses !!

Pascal

pascal_22 · 15 Novembre 2018

Bonjour !

J'ai une autre question concernant mon premier message...
J'ai supprimé toutes les URL dans le dossier /Profil/ depuis Search Console.

Le lendemain, j'ai vérifié dans Google avec la commande SITE: et effectivement, tout est supprimé... cependant.. Ma question est au niveau des sitemaps...
J'ai laissé mes sitemap profils (J'en ai 5, car c'est max 50k URL chacun) pour vérifier si le nombre indexé deviendrait 0....

Sauf qu’au lieu de faire cela... j'ai des avertissements de Google... Voici les 2 types d'avertissements que j'ai dans la section des sitemap de la Search Console

Lors du test d'un échantillon des URL de votre sitemap, nous avons constaté que le fichier robots.txt du site bloquait l'accès à certaines URL. Si vous ne souhaitez pas bloquer l'accès à certaines URL contenues dans votre sitemap, vérifiez, à l'aide de notre outil d'analyse robots.txt, que Googlebot peut accéder aux URL. Toutes les URL accessibles seront envoyées.
Le sitemap contient des URL qui sont bloquées par le fichier robots.txt

Et le nombre d'URL indexées baisse très peu... peut-être +-50 URL en moins par jour en moins pour chaque sitemap...

Devrais-je faire différent ?

Merci et bonne journée à tous !

Pascal

WebRankInfo · 15 Novembre 2018

ça ne sert plus d'avoir ce sitemap, toutes les URL sont désindexées

Madrileño · 15 Novembre 2018

Bonjour,

pascal_22 a dit:
J'ai une autre question concernant mon premier message...
J'ai supprimé toutes les URL dans le dossier /Profil/ depuis Search Console.

Complément :
"A successful request lasts only about 90 days. After that, your information can appear on Google search results". Source : Google.

pascal_22 a dit:
J'ai laissé mes sitemap profils (J'en ai 5, car c'est max 50k URL chacun) pour vérifier si le nombre indexé deviendrait 0....

Retirer du sitemap les pages à ne pas indexer.

pascal_22 a dit:
j'ai des avertissements de Google...

Normal.

pascal_22 a dit:
Et le nombre d'URL indexées baisse très peu... peut-être +-50 URL en moins par jour en moins pour chaque sitemap...

Cf. solution précédente et il faut du temps.

Temps de réponse : 10 minutes.
Cordialement.

pascal_22 · 15 Novembre 2018

Bonjour @WebRankInfo et @Madrileño !
D'accord, je vais retirer ces sitemaps !

Merci énormément de vos réponses.

Excellente soirée à vous

Pascal

pascal_22 · 21 Novembre 2018

Bonsoir à tous !

Je reviens sur une question précédente... car j'ai reçu une alerte de Google Search Console... m'informant que mon fichier robots.txt bloque la section /Profil/ mais qu'il y a toujours des pages d'indexées dans Google....

Voici le message de Google !

Indexée malgré le blocage par le fichier robots.txt
Pages avec avertissement
Indexée malgré le blocage par le fichier robots.txt : malgré le blocage par le fichier robots.txt, la page a été indexée. Google respecte toujours le fichier robots.txt, mais si un autre site redirige vers la page, le blocage est contourné. Nous avons utilisé un avertissement, car nous ne sommes pas sûrs que vous souhaitiez bloquer la page dans les résultats de recherche. Si vous souhaitez la bloquer, le fichier robots.txt n'est pas le bon mécanisme pour éviter l'indexation. Pour éviter l'indexation, vous devez utiliser la directive "noindex" ou interdire l'accès anonyme à la page en demandant une authentification. Vous pouvez utiliser l'outil de test du fichier robots.txt pour déterminer quelle règle bloque cette page. En raison de la présence du fichier robots.txt, l'extrait affiché pour la page ne sera probablement pas optimal. Si vous ne souhaitez pas bloquer cette page, mettez à jour le fichier robots.txt pour la débloquer.

Comme expliquer, j'ai bel et bien ajouté le dossier /Profil/ dans Search Console -> URL à supprimé

Donc si je comprends bien... le fait d'avoir supprimé le dossier /Profil/ via Search Console.. n'a pas désindexé les pages qui sont dans /Profil/ mais les à que 'caché' ?

Qu'en pensez-vous ?

Merci

Madrileño · 21 Novembre 2018

Bonjour,

pascal_22 a dit:
le fait d'avoir supprimé le dossier /Profil/ via Search Console.. n'a pas désindexé les pages qui sont dans /Profil/ mais les à que 'caché' ?

"A successful request lasts only about 90 days. After that, your information can appear on Google search results". Source : Google.

Le mieux est de ne pas utiliser le robots.txt et d'utiliser le noindex pour les pages à ne pas indexer.

Temps de réponse : 10 minutes.
Cordialement.

nateliv · 4 Décembre 2018

Bonjour,

Le fichier robots.txt est un fichier qui indique aux robots qui visitent ton blog ce qu'ils doivent indexer.

Peut-être que le fichier robots.txt interdit aux robots d'indexer ton blog ou qu'il comporte des erreurs.

Si tu as créé ton blog sur une plate-forme de blog, tu n'as probablement pas la possibilité de le modifier. Dans ce cas, demande à l'administrateur de la plate-forme de le modifier ou de le vérifier.

WebRankInfo · 4 Décembre 2018

nateliv a dit:
ce qu'ils doivent indexer.

non, pour être précis ça indique ce qu'ils doivent crawler ou éviter de crawler

indigene · 28 Décembre 2018

Mais ça n'empêche pas de les mettre en "no index". Si ces pages sont toujours en "index" c'est normal d'avoir un avertissement