URL persistante dans Google malgré fichier robots.txt

Discussion dans 'Débuter en référencement' créé par oliviermercure, 22 Mars 2013.

  1. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    260
    J'aime reçus:
    0
    Salut à tous,

    Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.

    Exemple /page-de-mon-site existe aussi en

    /page-de-mon-site?p=2
    /page-de-mon-site?p=3
    /page-de-mon-site?p=4

    J'ai donc indiqué dans le fichier robots.txt :

    Disallow: /page-de-mon-site? pour supprimer de l'index les pages qui provoquent du contenu dupliqué.

    Mais après dix jours et la certitude dans Google Webmaster Tools que Google a bien pris en compte le nouveau fichier robots.txt contenant ces indications, les pages sont toujours dans l'index.

    La mise à jour de l'index ne se fait peut-être pas dès la prise en compte du fichier robot.txt ?
     
  2. Supermaury
    Supermaury WRInaute discret
    Inscrit:
    25 Mars 2009
    Messages:
    144
    J'aime reçus:
    5
  3. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    260
    J'aime reçus:
    0
  4. longo600
    longo600 WRInaute passionné
    Inscrit:
    24 Février 2005
    Messages:
    2 166
    J'aime reçus:
    7
    Bonjour,

    de mémoire, si l'url n'est pas complète il ne faut pas rajouter une étoile au niveau du tronquage?
    Disallow: /page-de-mon-site?*

    il faut ensuite supprimer l'url ou les urls dans WMT
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 667
    J'aime reçus:
    748
    ça démarre mal, car le fichier robots.txt n'est pas fait pour ça.
    en interdisant des URL dans ce fichier, tu demandes à Google de ne plus retourner voir les pages (pour mise à jour dans l'index)
    donc il obéit

    pour désindexer des pages, il faut utiliser la balise meta robots noindex (et ne pas bloquer les pages dans le robots.txt)

    si tu es pressé et que tu n'as pas beaucoup de pages à supprimer, tu peux accélérer les choses en faisant une demande dans GWT. Il faudra dans ce cas remplir au moins 1 des conditions suivantes :
    - la page n'est plus disponible et renvoie un code 404 ou 410
    - la page contient une balise meta robots noindex
    - la page est bloquée dans le robots.txt (OK, c'est contradictoire avec le début de mon message, mais ça ne marche qu'en association avec une demande de suppression manuelle dans GWT)
     
  6. vinset
    vinset WRInaute discret
    Inscrit:
    20 Avril 2006
    Messages:
    178
    J'aime reçus:
    0
    Et mettre en place un sitemap sans lister ces pages ?
     
  7. Lightonseo
    Lightonseo Nouveau WRInaute
    Inscrit:
    27 Septembre 2012
    Messages:
    46
    J'aime reçus:
    0
    Ca ne sert à rien, Olivier a donner la réponse. Donc je récapitule

    1) Modifier le robots.txt pour ré-autoriser Google à visiter les pages à désindexer
    2) Sur les pages en question placer la balise meta robots

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

    ou selon les besoins

    <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

    Une fois qu'elles sont désindexées, si on veut empêcher les spiders de la visiter alors on peu réutiliser le robots.txt
     
  8. Astral God
    Astral God Nouveau WRInaute
    Inscrit:
    2 Novembre 2007
    Messages:
    15
    J'aime reçus:
    0
    Ou, dans un .htaccess:

    Redirect gone /page-a-effacer.html
    (si la page à été supprimée, évidement)
     
  9. anemone-clown
    anemone-clown WRInaute passionné
    Inscrit:
    11 Novembre 2007
    Messages:
    1 576
    J'aime reçus:
    20
    Est-ce qu'il ne faut pas ajouter l'attribut "noarchive" pour définitivement supprimer une page déjà indexée? :?:
     
  10. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 667
    J'aime reçus:
    748
    je ne vois pas pourquoi, noarchive ne fait qu'empêcher les internautes d'accéder au cache
     
  11. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    260
    J'aime reçus:
    0
    Pas mal de choses à creuser.
    Le problème est le suivant.
    Il s'agit en fait de ne pas faire indexer des pages Prestashop de produits qui sont identifiées page 2, page 3, page 4, pour une même rubrique.
    La page apparaît sous sa forme normale dans Google : example.com/page mais aussi avec les autre pages avec reprise du contenu:
    example.com/page?p=2
    example.com/page?p=3
    example.com/page?p=4

    Je ne peux pas mettre de balises <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> car tout va être désindéxer et ce n'est pas ce que je veux.
    J'ai indiqué dans robots.txt les pages que je veux pas indexer
    Disallow: /rubrique?p=2
    Disallow: /rubrique?p=3
    Disallow: /rubrique?p=4

    J'ai aussi indiqué dans les "paramètres URL" de GWT le paramètre "p" selon les recommandations de SuperMaury.

    Mais elles sont toujours indexées dans Google.

    Voilà pour les faits.
     
  12. oliviermercure
    oliviermercure WRInaute occasionnel
    Inscrit:
    12 Mars 2009
    Messages:
    260
    J'aime reçus:
    0
    Salut à Tous,

    Aujourd'hui c'est tout bon :

    Les urls ont été supprimées de l'index Google dans GWT et spécifié en Disallow dans le fichier robots.txt.

    merci pour vos lumières.

    Olivier
     
Chargement...
Similar Threads - persistante Google malgré Forum Date
Google active la confidentialité persistante en HTTPS Google : l'entreprise, les sites web, les services 26 Novembre 2011
Sessions persistantes sous phpBB Problèmes de référencement spécifiques à vos sites 28 Mai 2004
Redirection PHP : URL persistantes Administration d'un site Web 9 Mai 2004
TOP 1 dans Google sur des produits Référencement Google Samedi à 22:38
Aucunes données sur Google Analytics - prestashop Google Analytics Jeudi à 11:40
Cette URL n'a pas été indexée par Google Débuter en référencement Mercredi à 23:07
Mon site n’est pas indexé sur Google Débuter en référencement 10 Mai 2022
Connexion au compte Google Search Console d'un client Google : l'entreprise, les sites web, les services 28 Avril 2022
Problème d'affichage des campagnes Google Ads dans un tableau de bord Data Studio AdWords 26 Avril 2022
Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt Crawl et indexation Google, sitemaps 26 Avril 2022
Quels changements pour le local avec Google Business Profile Google : l'entreprise, les sites web, les services 14 Avril 2022
Deux propriétés dans Google Analytics Google Analytics 13 Avril 2022
Google Keyword Planner: que signifie volume de recherche '0'? AdWords 31 Mars 2022
Données Google analytics vs Cloudflare Google Analytics 29 Mars 2022
Comment puis-je obtenir l'indexation instantanée de Google ? Débuter en référencement 28 Mars 2022
Google indexe le dossier /wp-includes/ Crawl et indexation Google, sitemaps 27 Mars 2022
Search Console Cette URL n'a pas été indexée par Google Crawl et indexation Google, sitemaps 27 Mars 2022
Update Google sur les avis produits (mars 2022) Référencement Google 23 Mars 2022
Erreur liée à des redirections sur Google Search Console Problèmes de référencement spécifiques à vos sites 23 Mars 2022
Google Ads et Consentement AdWords 18 Mars 2022