Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt

Discussion dans 'Crawl et indexation Google, sitemaps' créé par planhub, 26 Avril 2022.

  1. planhub
    planhub Nouveau WRInaute
    Inscrit:
    19 Avril 2022
    Messages:
    8
    J'aime reçus:
    0
    Bonjour à tous,

    Voici l’url de mon site : https://www.planhub.ca

    J’ai un problème d’indexation sur un type de page (l’url est la suivante : mondomaine.com/en/go?xxxxx) que je ne souhaite pas faire indexer par les robots.

    J’ai bien mis en place les processus habituels pour éviter ça :

    • J’ai indiqué dans le robot.txt un : Disallow: /*?
    • Il y a bien une balise meta : <meta name="robots" content="noindex,nofollow" /> présente sur la page

    Pourtant google, ahref etc la crawl et je ne comprends pas pourquoi.

    Sur la partie coverage de la search console je vois toutes ces url avec un “coverage indexed thought blocked by robots.txt”


    [​IMG]


    Et même si elle n’est pas présente dans les résultats de recherche sur google je la retrouve dans les premiers résultats sur certains moteurs de recherche comme AOL par exemple ce qui prouve bien qu’elle est indexée et crawlée.

    Est ce qu’il y a un moyen supplémentaire pour interdire complètement l’indexation et le crawl de ce type de page?

    Je vous remercie par avance pour votre aide, bonne journée à toute la communauté.
     
  2. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 205
    J'aime reçus:
    365
    Déjà commencer par renvoyer un 301 ou 302 au lieu d'un 200, quel est l'intérêt de passer par une page intermédiaire et ralentir la visite.
     
  3. planhub
    planhub Nouveau WRInaute
    Inscrit:
    19 Avril 2022
    Messages:
    8
    J'aime reçus:
    0
    La page sert à lancer un événement à Analytics pour savoir que l'utilisateur a été redirigé.
     
  4. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 205
    J'aime reçus:
    365
    C'est faisable avec un onclick sans page intermédiaire.
     
    UsagiYojimbo apprécie ceci.
  5. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
    J'aurai tendance à penser que tu as mis la meta robots après coup. Or, vu que tu bloques via le robots, le bot ne va plus voir les pages, pour constater la présence de cette meta. Il faudrait faire sauter le disallow le temps pour le bot de désindexer les pages. Mais en effet, comme le dit spout tu as tout intérêt à dégager ces pages.
     
    spout apprécie ceci.
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 880
    J'aime reçus:
    843
    je me demande si on n'est pas dans le cas où Google prétend qu'elles sont indexées, mais ne sortent que sur des requêtes avec site:
    c'est pénible, mais à mon avis sans impact.
    Je n'ai pas regardé si c'est déjà en place, mais une autre chose à faire est d'éviter de faire des liens internes vers ces URL.
     
  7. planhub
    planhub Nouveau WRInaute
    Inscrit:
    19 Avril 2022
    Messages:
    8
    J'aime reçus:
    0
    Malheureusement on ne peut pas faire de onclick dans des emails par exemple...
     
  8. planhub
    planhub Nouveau WRInaute
    Inscrit:
    19 Avril 2022
    Messages:
    8
    J'aime reçus:
    0
    Certaines pages ont été créées bien après que nous ayons mis en place le robots.txt et le meta et ont quand même été indexées par Google.
    J'aimerai bien dégager ces pages mais je vois pas comment faire autrement. J'ai répondu à spout sur ce point.
     
  9. planhub
    planhub Nouveau WRInaute
    Inscrit:
    19 Avril 2022
    Messages:
    8
    J'aime reçus:
    0
    Je n'ai effectivement vu aucunes de ces pages dans les résultats de Google. J'en ai vu dans AOL par contre:

    https://search.aol.ca/aol/search;_y...ub go&s_it=sb-top&v_t=comsearch&s_chn=prt_bon

    Alors vous me direz "Oui mais qui va encore sur AOL?". C'est pas faux... mais je ne veux vraiment pas que des robots aillent sur ces pages.

    Elles ressortent aussi dans Google Search Console et pas plus tard que vendredi j'avais encore des messages d'erreur dans GSC sur ces pages.

    Comment se fait il que Google ne respecte pas le robots.txt? Comment faire pour que les utilisateurs passent par ces pages mais pas les robots?
     
  10. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
    Depuis un email, pour faire du tracking, tu utilises des paramètres utm (si l'objectif est de faire du tracking sur les personnes accédant au site depuis des emails).

    Ça fait des mois / années que Google peut décider, s'il estime qu'il y a lieu, de passer outre le robots.txt pour aller voir ce qu'il y a derrière.
     
Chargement...
Similar Threads - Problème Google Crawl Forum Date
Problème récent de Crawl Google Crawl et indexation Google, sitemaps 7 Juillet 2021
Problème > Google a crawlé mon site en anglais ! Référencement international (langues, pays) 7 Août 2007
Probleme ? crawler15.googlebot s'arrete a ma page index Crawl et indexation Google, sitemaps 7 Octobre 2003
Probleme tag sur Google tag manager Demandes d'avis et de conseils sur vos sites Jeudi à 13:49
Probleme Tag sur Google Tag Manager Google Analytics 18 Novembre 2022
Problème désindexation des pages de Google Débuter en référencement 21 Juin 2022
Problème d'indexation de pages sur Google Problèmes de référencement spécifiques à vos sites 31 Mai 2022
Problème d'affichage des campagnes Google Ads dans un tableau de bord Data Studio AdWords 26 Avril 2022
Problème d'indexation Google Problèmes de référencement spécifiques à vos sites 19 Janvier 2022
Problème d'indexation Google : que faire ? Crawl et indexation Google, sitemaps 21 Septembre 2021
Search Console Problème d'indexer d'une page sur Google Référencement Google 20 Juin 2021
Search Console Problème de version de langue dans les résultats de recherche Google Référencement international (langues, pays) 17 Juin 2021
Problème trafic temps réel Google Analytics Google Analytics 14 Avril 2021
WordPress Problème de balises "Google Analytics" Google Analytics 18 Février 2021
Problèmes d'indexation de Google fin 2020 Crawl et indexation Google, sitemaps 1 Décembre 2020
Divers problèmes de Google Crawl et indexation Google, sitemaps 29 Novembre 2020
Problème d'indexation Google (pages non indexées) Crawl et indexation Google, sitemaps 7 Novembre 2020
Problème page destination groupe d'annonces Google Ads AdWords 26 Octobre 2020
Problèmes d'indexations de Google Crawl et indexation Google, sitemaps 19 Octobre 2020
Search Console Probleme redirection nom de domaine et indexation google Crawl et indexation Google, sitemaps 16 Septembre 2020