Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt

planhub · 26 Avril 2022

Bonjour à tous,

Voici l’url de mon site : https://www.planhub.ca

J’ai un problème d’indexation sur un type de page (l’url est la suivante : mondomaine.com/en/go?xxxxx) que je ne souhaite pas faire indexer par les robots.

J’ai bien mis en place les processus habituels pour éviter ça :

J’ai indiqué dans le robot.txt un : Disallow: /*?

Il y a bien une balise meta : <meta name="robots" content="noindex,nofollow" /> présente sur la page

Pourtant google, ahref etc la crawl et je ne comprends pas pourquoi.

Sur la partie coverage de la search console je vois toutes ces url avec un “coverage indexed thought blocked by robots.txt”

bmXqZ3GPOpUtA8YNg3VYXs7mepQr98i0r7yAn0ukWt4glXr_4dZla-vUiqgmDry_h7Pn_qyWlLtphU0f1QrKz1qE2RaB9Lv_5V6F3N4A2sl1pjxx607HRw_97ZAv8w2RLOflQ3Gu

Et même si elle n’est pas présente dans les résultats de recherche sur google je la retrouve dans les premiers résultats sur certains moteurs de recherche comme AOL par exemple ce qui prouve bien qu’elle est indexée et crawlée.

Est ce qu’il y a un moyen supplémentaire pour interdire complètement l’indexation et le crawl de ce type de page?

Je vous remercie par avance pour votre aide, bonne journée à toute la communauté.

spout · 26 Avril 2022

Déjà commencer par renvoyer un 301 ou 302 au lieu d'un 200, quel est l'intérêt de passer par une page intermédiaire et ralentir la visite.

planhub · 26 Avril 2022

La page sert à lancer un événement à Analytics pour savoir que l'utilisateur a été redirigé.

spout · 27 Avril 2022

C'est faisable avec un onclick sans page intermédiaire.

UsagiYojimbo · 27 Avril 2022

J'aurai tendance à penser que tu as mis la meta robots après coup. Or, vu que tu bloques via le robots, le bot ne va plus voir les pages, pour constater la présence de cette meta. Il faudrait faire sauter le disallow le temps pour le bot de désindexer les pages. Mais en effet, comme le dit spout tu as tout intérêt à dégager ces pages.

WebRankInfo · 27 Avril 2022

je me demande si on n'est pas dans le cas où Google prétend qu'elles sont indexées, mais ne sortent que sur des requêtes avec site:
c'est pénible, mais à mon avis sans impact.
Je n'ai pas regardé si c'est déjà en place, mais une autre chose à faire est d'éviter de faire des liens internes vers ces URL.

planhub · 28 Avril 2022

spout a dit:
C'est faisable avec un onclick sans page intermédiaire.

Malheureusement on ne peut pas faire de onclick dans des emails par exemple...

planhub · 28 Avril 2022

UsagiYojimbo a dit:
J'aurai tendance à penser que tu as mis la meta robots après coup. Or, vu que tu bloques via le robots, le bot ne va plus voir les pages, pour constater la présence de cette meta. Il faudrait faire sauter le disallow le temps pour le bot de désindexer les pages. Mais en effet, comme le dit spout tu as tout intérêt à dégager ces pages.

Certaines pages ont été créées bien après que nous ayons mis en place le robots.txt et le meta et ont quand même été indexées par Google.
J'aimerai bien dégager ces pages mais je vois pas comment faire autrement. J'ai répondu à spout sur ce point.

planhub · 28 Avril 2022

WebRankInfo a dit:
je me demande si on n'est pas dans le cas où Google prétend qu'elles sont indexées, mais ne sortent que sur des requêtes avec site:
c'est pénible, mais à mon avis sans impact.
Je n'ai pas regardé si c'est déjà en place, mais une autre chose à faire est d'éviter de faire des liens internes vers ces URL.

Je n'ai effectivement vu aucunes de ces pages dans les résultats de Google. J'en ai vu dans AOL par contre:

https://search.aol.ca/aol/search;_y...ub+go&s_it=sb-top&v_t=comsearch&s_chn=prt_bon

Alors vous me direz "Oui mais qui va encore sur AOL?". C'est pas faux... mais je ne veux vraiment pas que des robots aillent sur ces pages.

Elles ressortent aussi dans Google Search Console et pas plus tard que vendredi j'avais encore des messages d'erreur dans GSC sur ces pages.

Comment se fait il que Google ne respecte pas le robots.txt? Comment faire pour que les utilisateurs passent par ces pages mais pas les robots?

UsagiYojimbo · 28 Avril 2022

Depuis un email, pour faire du tracking, tu utilises des paramètres utm (si l'objectif est de faire du tracking sur les personnes accédant au site depuis des emails).

Ça fait des mois / années que Google peut décider, s'il estime qu'il y a lieu, de passer outre le robots.txt pour aller voir ce qu'il y a derrière.