Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt

Nouveau WRInaute
Bonjour à tous,

Voici l’url de mon site : https://www.planhub.ca

J’ai un problème d’indexation sur un type de page (l’url est la suivante : mondomaine.com/en/go?xxxxx) que je ne souhaite pas faire indexer par les robots.

J’ai bien mis en place les processus habituels pour éviter ça :

  • J’ai indiqué dans le robot.txt un : Disallow: /*?
  • Il y a bien une balise meta : <meta name="robots" content="noindex,nofollow" /> présente sur la page

Pourtant google, ahref etc la crawl et je ne comprends pas pourquoi.

Sur la partie coverage de la search console je vois toutes ces url avec un “coverage indexed thought blocked by robots.txt”


bmXqZ3GPOpUtA8YNg3VYXs7mepQr98i0r7yAn0ukWt4glXr_4dZla-vUiqgmDry_h7Pn_qyWlLtphU0f1QrKz1qE2RaB9Lv_5V6F3N4A2sl1pjxx607HRw_97ZAv8w2RLOflQ3Gu



Et même si elle n’est pas présente dans les résultats de recherche sur google je la retrouve dans les premiers résultats sur certains moteurs de recherche comme AOL par exemple ce qui prouve bien qu’elle est indexée et crawlée.

Est ce qu’il y a un moyen supplémentaire pour interdire complètement l’indexation et le crawl de ce type de page?

Je vous remercie par avance pour votre aide, bonne journée à toute la communauté.
 
WRInaute accro
Déjà commencer par renvoyer un 301 ou 302 au lieu d'un 200, quel est l'intérêt de passer par une page intermédiaire et ralentir la visite.
 
Nouveau WRInaute
La page sert à lancer un événement à Analytics pour savoir que l'utilisateur a été redirigé.
 
WRInaute accro
J'aurai tendance à penser que tu as mis la meta robots après coup. Or, vu que tu bloques via le robots, le bot ne va plus voir les pages, pour constater la présence de cette meta. Il faudrait faire sauter le disallow le temps pour le bot de désindexer les pages. Mais en effet, comme le dit spout tu as tout intérêt à dégager ces pages.
 
Olivier Duffez (admin)
Membre du personnel
je me demande si on n'est pas dans le cas où Google prétend qu'elles sont indexées, mais ne sortent que sur des requêtes avec site:
c'est pénible, mais à mon avis sans impact.
Je n'ai pas regardé si c'est déjà en place, mais une autre chose à faire est d'éviter de faire des liens internes vers ces URL.
 
Nouveau WRInaute
J'aurai tendance à penser que tu as mis la meta robots après coup. Or, vu que tu bloques via le robots, le bot ne va plus voir les pages, pour constater la présence de cette meta. Il faudrait faire sauter le disallow le temps pour le bot de désindexer les pages. Mais en effet, comme le dit spout tu as tout intérêt à dégager ces pages.
Certaines pages ont été créées bien après que nous ayons mis en place le robots.txt et le meta et ont quand même été indexées par Google.
J'aimerai bien dégager ces pages mais je vois pas comment faire autrement. J'ai répondu à spout sur ce point.
 
Nouveau WRInaute
je me demande si on n'est pas dans le cas où Google prétend qu'elles sont indexées, mais ne sortent que sur des requêtes avec site:
c'est pénible, mais à mon avis sans impact.
Je n'ai pas regardé si c'est déjà en place, mais une autre chose à faire est d'éviter de faire des liens internes vers ces URL.
Je n'ai effectivement vu aucunes de ces pages dans les résultats de Google. J'en ai vu dans AOL par contre:

https://search.aol.ca/aol/search;_y...ub+go&s_it=sb-top&v_t=comsearch&s_chn=prt_bon

Alors vous me direz "Oui mais qui va encore sur AOL?". C'est pas faux... mais je ne veux vraiment pas que des robots aillent sur ces pages.

Elles ressortent aussi dans Google Search Console et pas plus tard que vendredi j'avais encore des messages d'erreur dans GSC sur ces pages.

Comment se fait il que Google ne respecte pas le robots.txt? Comment faire pour que les utilisateurs passent par ces pages mais pas les robots?
 
WRInaute accro
Depuis un email, pour faire du tracking, tu utilises des paramètres utm (si l'objectif est de faire du tracking sur les personnes accédant au site depuis des emails).

Ça fait des mois / années que Google peut décider, s'il estime qu'il y a lieu, de passer outre le robots.txt pour aller voir ce qu'il y a derrière.
 
Discussions similaires
Haut