URL persistante dans Google malgré fichier robots.txt

Discussion dans 'Débuter en référencement' créé par oliviermercure, 22 Mars 2013.

  1. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    264
    J'aime reçus:
    0
    Salut à tous,

    Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.

    Exemple /page-de-mon-site existe aussi en

    /page-de-mon-site?p=2
    /page-de-mon-site?p=3
    /page-de-mon-site?p=4

    J'ai donc indiqué dans le fichier robots.txt :

    Disallow: /page-de-mon-site? pour supprimer de l'index les pages qui provoquent du contenu dupliqué.

    Mais après dix jours et la certitude dans Google Webmaster Tools que Google a bien pris en compte le nouveau fichier robots.txt contenant ces indications, les pages sont toujours dans l'index.

    La mise à jour de l'index ne se fait peut-être pas dès la prise en compte du fichier robot.txt ?
     
  2. Supermaury
    Supermaury WRInaute discret
    Inscrit:
    25 Mars 2009
    Messages:
    144
    J'aime reçus:
    5
  3. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    264
    J'aime reçus:
    0
  4. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 166
    J'aime reçus:
    7
    Bonjour,

    de mémoire, si l'url n'est pas complète il ne faut pas rajouter une étoile au niveau du tronquage?
    Disallow: /page-de-mon-site?*

    il faut ensuite supprimer l'url ou les urls dans WMT
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 897
    J'aime reçus:
    845
    ça démarre mal, car le fichier robots.txt n'est pas fait pour ça.
    en interdisant des URL dans ce fichier, tu demandes à Google de ne plus retourner voir les pages (pour mise à jour dans l'index)
    donc il obéit

    pour désindexer des pages, il faut utiliser la balise meta robots noindex (et ne pas bloquer les pages dans le robots.txt)

    si tu es pressé et que tu n'as pas beaucoup de pages à supprimer, tu peux accélérer les choses en faisant une demande dans GWT. Il faudra dans ce cas remplir au moins 1 des conditions suivantes :
    - la page n'est plus disponible et renvoie un code 404 ou 410
    - la page contient une balise meta robots noindex
    - la page est bloquée dans le robots.txt (OK, c'est contradictoire avec le début de mon message, mais ça ne marche qu'en association avec une demande de suppression manuelle dans GWT)
     
  6. vinset
    vinset WRInaute discret
    Inscrit:
    20 Avril 2006
    Messages:
    178
    J'aime reçus:
    0
    Et mettre en place un sitemap sans lister ces pages ?
     
  7. Lightonseo
    Lightonseo Nouveau WRInaute
    Inscrit:
    27 Septembre 2012
    Messages:
    46
    J'aime reçus:
    0
    Ca ne sert à rien, Olivier a donner la réponse. Donc je récapitule

    1) Modifier le robots.txt pour ré-autoriser Google à visiter les pages à désindexer
    2) Sur les pages en question placer la balise meta robots

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

    ou selon les besoins

    <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

    Une fois qu'elles sont désindexées, si on veut empêcher les spiders de la visiter alors on peu réutiliser le robots.txt
     
  8. Astral God
    Astral God Nouveau WRInaute
    Inscrit:
    2 Novembre 2007
    Messages:
    15
    J'aime reçus:
    0
    Ou, dans un .htaccess:

    Redirect gone /page-a-effacer.html
    (si la page à été supprimée, évidement)
     
  9. anemone-clown
    anemone-clown WRInaute passionné
    Inscrit:
    11 Novembre 2007
    Messages:
    1 577
    J'aime reçus:
    20
    Est-ce qu'il ne faut pas ajouter l'attribut "noarchive" pour définitivement supprimer une page déjà indexée? :?:
     
  10. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 897
    J'aime reçus:
    845
    je ne vois pas pourquoi, noarchive ne fait qu'empêcher les internautes d'accéder au cache
     
  11. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    264
    J'aime reçus:
    0
    Pas mal de choses à creuser.
    Le problème est le suivant.
    Il s'agit en fait de ne pas faire indexer des pages Prestashop de produits qui sont identifiées page 2, page 3, page 4, pour une même rubrique.
    La page apparaît sous sa forme normale dans Google : example.com/page mais aussi avec les autre pages avec reprise du contenu:
    example.com/page?p=2
    example.com/page?p=3
    example.com/page?p=4

    Je ne peux pas mettre de balises <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> car tout va être désindéxer et ce n'est pas ce que je veux.
    J'ai indiqué dans robots.txt les pages que je veux pas indexer
    Disallow: /rubrique?p=2
    Disallow: /rubrique?p=3
    Disallow: /rubrique?p=4

    J'ai aussi indiqué dans les "paramètres URL" de GWT le paramètre "p" selon les recommandations de SuperMaury.

    Mais elles sont toujours indexées dans Google.

    Voilà pour les faits.
     
  12. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    264
    J'aime reçus:
    0
    Salut à Tous,

    Aujourd'hui c'est tout bon :

    Les urls ont été supprimées de l'index Google dans GWT et spécifié en Disallow dans le fichier robots.txt.

    merci pour vos lumières.

    Olivier
     
Chargement...
Similar Threads - persistante Google malgré Forum Date
Google active la confidentialité persistante en HTTPS Google : l'entreprise, les sites web, les services 26 Novembre 2011
Sessions persistantes sous phpBB Problèmes de référencement spécifiques à vos sites 28 Mai 2004
Redirection PHP : URL persistantes Administration d'un site Web 9 Mai 2004
Visibilité annonce google ads Référencement Google Vendredi à 16:14
Meta description non prises en compte par google Rédaction web et référencement Jeudi à 11:20
Miniature SERP Google (ou Bing) Référencement Google Mercredi à 06:04
Page signalée bloquée par ma Console Google Search Débuter en référencement 27 Novembre 2022
Probleme tag sur Google tag manager Demandes d'avis et de conseils sur vos sites 24 Novembre 2022
Indexer mon site dans google Problèmes de référencement spécifiques à vos sites 24 Novembre 2022
Probleme Tag sur Google Tag Manager Google Analytics 18 Novembre 2022
Search Console Temps de prise en compte par Google de la disparition de liens Netlinking, backlinks, liens et redirections 9 Novembre 2022
Google API Translation - Billing Bug !! Droit du web (juridique, fiscalité...) 31 Octobre 2022
Mise à jour de l’algorithme Google Spam d’octobre 2022 Référencement Google 22 Octobre 2022
Google confond site officiel et site copie fake : comment faire ? Référencement Google 16 Octobre 2022
Astuce Comment indexer un site créé par Google site ? Rédaction web et référencement 13 Octobre 2022
Existe t-il un outil Google pour tester une page web si elle est filtrée par Safesearch ? Référencement Google 4 Octobre 2022
Awstats est comme Google Analytics ? Google Analytics 3 Octobre 2022
Comment faire le suivi des inscrits à un webinaire Google Meet Gmail, Google Talk, Blogger et Orkut 29 Septembre 2022
Code différent par sous-domaine dans Google Analytics ? Google Analytics 28 Septembre 2022
Comment simuler un passage de Google bot ? Crawl et indexation Google, sitemaps 27 Septembre 2022