URL persistante dans Google malgré fichier robots.txt

Discussion dans 'Débuter en référencement' créé par oliviermercure, 22 Mars 2013.

  1. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    263
    J'aime reçus:
    0
    Salut à tous,

    Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.

    Exemple /page-de-mon-site existe aussi en

    /page-de-mon-site?p=2
    /page-de-mon-site?p=3
    /page-de-mon-site?p=4

    J'ai donc indiqué dans le fichier robots.txt :

    Disallow: /page-de-mon-site? pour supprimer de l'index les pages qui provoquent du contenu dupliqué.

    Mais après dix jours et la certitude dans Google Webmaster Tools que Google a bien pris en compte le nouveau fichier robots.txt contenant ces indications, les pages sont toujours dans l'index.

    La mise à jour de l'index ne se fait peut-être pas dès la prise en compte du fichier robot.txt ?
     
  2. Supermaury
    Supermaury WRInaute discret
    Inscrit:
    25 Mars 2009
    Messages:
    144
    J'aime reçus:
    5
  3. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    263
    J'aime reçus:
    0
  4. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 208
    J'aime reçus:
    5
    Bonjour,

    de mémoire, si l'url n'est pas complète il ne faut pas rajouter une étoile au niveau du tronquage?
    Disallow: /page-de-mon-site?*

    il faut ensuite supprimer l'url ou les urls dans WMT
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 334
    J'aime reçus:
    390
    ça démarre mal, car le fichier robots.txt n'est pas fait pour ça.
    en interdisant des URL dans ce fichier, tu demandes à Google de ne plus retourner voir les pages (pour mise à jour dans l'index)
    donc il obéit

    pour désindexer des pages, il faut utiliser la balise meta robots noindex (et ne pas bloquer les pages dans le robots.txt)

    si tu es pressé et que tu n'as pas beaucoup de pages à supprimer, tu peux accélérer les choses en faisant une demande dans GWT. Il faudra dans ce cas remplir au moins 1 des conditions suivantes :
    - la page n'est plus disponible et renvoie un code 404 ou 410
    - la page contient une balise meta robots noindex
    - la page est bloquée dans le robots.txt (OK, c'est contradictoire avec le début de mon message, mais ça ne marche qu'en association avec une demande de suppression manuelle dans GWT)
     
  6. vinset
    vinset WRInaute discret
    Inscrit:
    20 Avril 2006
    Messages:
    183
    J'aime reçus:
    0
    Et mettre en place un sitemap sans lister ces pages ?
     
  7. Lightonseo
    Lightonseo Nouveau WRInaute
    Inscrit:
    27 Septembre 2012
    Messages:
    49
    J'aime reçus:
    0
    Ca ne sert à rien, Olivier a donner la réponse. Donc je récapitule

    1) Modifier le robots.txt pour ré-autoriser Google à visiter les pages à désindexer
    2) Sur les pages en question placer la balise meta robots

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

    ou selon les besoins

    <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

    Une fois qu'elles sont désindexées, si on veut empêcher les spiders de la visiter alors on peu réutiliser le robots.txt
     
  8. Astral God
    Astral God Nouveau WRInaute
    Inscrit:
    2 Novembre 2007
    Messages:
    15
    J'aime reçus:
    0
    Ou, dans un .htaccess:

    Redirect gone /page-a-effacer.html
    (si la page à été supprimée, évidement)
     
  9. anemone-clown
    anemone-clown WRInaute passionné
    Inscrit:
    11 Novembre 2007
    Messages:
    1 594
    J'aime reçus:
    19
    Est-ce qu'il ne faut pas ajouter l'attribut "noarchive" pour définitivement supprimer une page déjà indexée? :?:
     
  10. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 334
    J'aime reçus:
    390
    je ne vois pas pourquoi, noarchive ne fait qu'empêcher les internautes d'accéder au cache
     
  11. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    263
    J'aime reçus:
    0
    Pas mal de choses à creuser.
    Le problème est le suivant.
    Il s'agit en fait de ne pas faire indexer des pages Prestashop de produits qui sont identifiées page 2, page 3, page 4, pour une même rubrique.
    La page apparaît sous sa forme normale dans Google : example.com/page mais aussi avec les autre pages avec reprise du contenu:
    example.com/page?p=2
    example.com/page?p=3
    example.com/page?p=4

    Je ne peux pas mettre de balises <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> car tout va être désindéxer et ce n'est pas ce que je veux.
    J'ai indiqué dans robots.txt les pages que je veux pas indexer
    Disallow: /rubrique?p=2
    Disallow: /rubrique?p=3
    Disallow: /rubrique?p=4

    J'ai aussi indiqué dans les "paramètres URL" de GWT le paramètre "p" selon les recommandations de SuperMaury.

    Mais elles sont toujours indexées dans Google.

    Voilà pour les faits.
     
  12. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    263
    J'aime reçus:
    0
    Salut à Tous,

    Aujourd'hui c'est tout bon :

    Les urls ont été supprimées de l'index Google dans GWT et spécifié en Disallow dans le fichier robots.txt.

    merci pour vos lumières.

    Olivier
     
Chargement...
Similar Threads - persistante Google malgré Forum Date
Google active la confidentialité persistante en HTTPS Google : l'entreprise, les sites web, les services 26 Novembre 2011
Quel pays pour le nouveau Google News ? Google : l'entreprise, les sites web, les services Vendredi à 15:49
Google a-t-il le droit d'afficher directement les informations des sites sans leur accord ? Droit du web (juridique, fiscalité...) Vendredi à 14:50
Google Analytics, Google Search Console et AMP Google Analytics Vendredi à 07:43
Filtre widget tableau de bord dans Google Analytics Google Analytics Mardi à 20:41
Statistiques par produit et e-commerce différentes dans Google Analytics Google Analytics Lundi à 19:28
Mes images dans les SERPS de google en haut à droite Crawl et indexation Google, sitemaps 16 Février 2020
pourquoi mon site ne s'affiche pas sur google quant je tape un mot clé Débuter en référencement 13 Février 2020
désespérant: site resorti index google Débuter en référencement 11 Février 2020
ASO: Google play, tu payes pas, t'es pas référencé! Développement d'un site Web ou d'une appli mobile 9 Février 2020
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice