URL avec noindex, bloquée par le robots.txt mais dans l'index google !

Discussion dans 'Crawl et indexation Google, sitemaps' créé par jojohit, 3 Novembre 2011.

  1. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Bonsoir,

    Pour que les pages de faible qualité de mon site ne soit pas indexées par Google ; j'ai mis en place la balise <meta name="robots" content="noindex, follow"> et j'ai bloqué l'url dans le fichier robots.txt. L'url est bien bloquée par ce fichier lorsque j'effectue un test dans le GWT.

    Pourtant, en faisant une recherche dans Google avec inurl, l'url apparait bien.

    Aurai-je loupé quelque chose ? Car là, je ne comprends vraiment pas pourquoi cette url est indexée.
     
  2. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 887
    J'aime reçus:
    74
    Tu as mis tout ça en place APRES ou AVANT que la page soit indexée ?
     
  3. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Avant. A moins de Google l'indexe quelque temps avant de la désindexer complètement.
     
  4. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 887
    J'aime reçus:
    74
    Tu as d'autres url dans ce cas, ou uniquement celle-là ? Pour une url, tu peux en demander la suppression via GWT
     
  5. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Oui, plusieurs dizaines... Et comme je n'ai pas envie de toutes les taper dans l'outil de suppression d'URL du GWT, quelle est maintenant la meilleure solution ?

    Est-ce que le fait de bloquer l'url dans le robots.txt l'empêche de lire la balise meta noindex ?

    Une page indexée avec la balise meta noindex sera-t-elle automatiquement désindexée dans le temps par Google ?
     
  6. Tigerfou
    Tigerfou WRInaute discret
    Inscrit:
    16 Juin 2011
    Messages:
    180
    J'aime reçus:
    0
  7. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Au départ, je n'avais que la meta no index en place et je m'amusais à supprimer plusieurs dizaines d'url via le GWT.

    En fait c'est la même forme d'url avec simplement une variable qui change.

    J'avais modifié ce week-end mon robots.txt pour bloquer cette forme d'url, ayant au préalable supprimé manuellement via le GWT toutes les urls indexées.

    Comme par hasard, après de nouvelles publications sur mon site et la modification du robots.txt, les urls associées à ces nouvelles publications se retrouvent indexées.

    je viens de remettre mon robots.txt comme à l'origine pour ne pas générer de conflit avec la meta noindex.
     
  8. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 887
    J'aime reçus:
    74
    Si c'est juste une histoire de paramètres, tu peux aussi voir à gérer ça finement via GWT.
     
  9. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Sauf que la majorité mes urls avec variable sont réécrites. Du coup, Google ne semble pas les reconnaitre.
    Il me propose simplement comme paramètres les variables et bien distinctes dans les url non réécrites.
     
  10. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 413
    J'aime reçus:
    0
    il semblerait que gg se soit rapproché du fonctionnement de feu yahoo : le contenu des url non indexables n'est pas inclus dans l'index, mais les url si, elles apparaissent avec rien en dessous
     
  11. Tigerfou
    Tigerfou WRInaute discret
    Inscrit:
    16 Juin 2011
    Messages:
    180
    J'aime reçus:
    0
    Tu veux dire le contenu des url non crawlables. :mrgreen:

    Petit résumé :

    - Utilisation du meta robots noindex SEUL (sans robots.txt) => Google crawl le fichier, voit le noindex et n'affiche pas cette page dans ses résultats de recherche, le fichier n'est pas indexé.

    - Utilisation du fichier robots.txt SEUL (sans le meta noindex) => Google ne peut pas crawler le fichier, donc le lire. En revanche rien ne l'empêche de l'indexer, donc s'il arrive à ce fichier par un lien quelconque, il le met dans son index. Puisqu'il ne peut pas lire le contenu du fichier, il n'affichera rien dessous sur ses SERP (pas de title, pas de description, rien).

    - Utilisation du fichier robots.txt AVEC meta noindex => il se passe la même chose qu'avec le fichier robots.txt seul, puisque le meta noindex est invisible au robot. Fichier indexé, mais qui n'affiche ni title ni description dans les résultats de google.

    Voilà j'espère que ça peut aider

    Johann
     
  12. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Merci, là c'est clair !
     
  13. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 413
    J'aime reçus:
    0
    oui, quoique, j'ai des doutes :wink:
    ça dépend, des fois il peut afficher l'ancre trouvé sur un lien vers cette page
     
  14. Tigerfou
    Tigerfou WRInaute discret
    Inscrit:
    16 Juin 2011
    Messages:
    180
    J'aime reçus:
    0
    Exact, j'ai pas vu d'exemple, mais c'est certainement possible. Tu en as observé ?
     
  15. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 413
    J'aime reçus:
    0
    oui, mais je n'ai plus ça en tête. Historiquement, c'était y! qui procédait ainsi
     
  16. jojohit
    jojohit WRInaute discret
    Inscrit:
    12 Mai 2008
    Messages:
    112
    J'aime reçus:
    0
    Samedi dernier, j'ai modifié les paramètres d'url dans le GWT pour "Qu'aucune URL ne soit explorée". Résultat : des dizaines de pages apparaissent malgré la présence du noindex dans le code des pages concernées.

    J'ai comme l'impression que cela a eu le même effet que de bloquer les urls via le robots.txt combiné à la meta noindex : quelqu'un peut-il confirmer ?
     
Chargement...
Similar Threads - noindex bloquée robots Forum Date
Contenu Obsolète supprimer ou noindex ? Débuter en référencement 16 Octobre 2020
WordPress Mettre les pages catégories en NOINDEX ? Débuter en référencement 25 Août 2020
Backlink vers une page en Noindex ? Débuter en référencement 7 Août 2020
Astuce URL + paramètres VS balise noindex Demandes d'avis et de conseils sur vos sites 13 Mai 2020
URL canonique - Coupler ou non avec une balise noindex ? Débuter en référencement 26 Avril 2020
suppression de page noindex Crawl et indexation Google, sitemaps 12 Mars 2020
Pages zombies mises en Noindex indiquées en erreur 4xx Référencement Google 17 Février 2020
htaccess ou noindex Netlinking, backlinks, liens et redirections 23 Janvier 2020
Comment accélérer la désindexation de pages en noindex Crawl et indexation Google, sitemaps 17 Novembre 2019
Htacces REQUEST_URI sur des URLs d'un dossier à mettre en noindex URL Rewriting et .htaccess 25 Septembre 2019