Annonces Google

Vous êtes ici : Dossiers référencement > Indexation Google

Google : crawl et indexation malgré interdiction via fichier robots.txt ?

Par , le 10 juin 2013

Depuis 2012 environ, il est parfois difficile de comprendre si Google respecte vraiment bien les directives du fichier robots.txt (qui interdit l'accès aux URL, c'est-à-dire leur crawl, et donc leur indexation). Certaines pages peuvent désormais être trouvables dans Google sans que Google les ait crawlées : elles sont ni indexées ni inconnues... Ce dossier fait le point sur ce sujet.

Différence entre crawl et indexation

GooglebotN'oubliez pas qu'il y a une différence entre le crawl (l'exploration selon la traduction usuelle en français) et l'indexation. D'abord, Google vient consulter une page (pour la 1ère fois ou pas) : il s'agit de récupérer une copie de la page pour la stocker sur ses serveurs. En général, la page est alors disséquée, analysée et mise dans l'index de Google, c'est-à-dire dans le catalogue de l'ensemble des pages connues de Google et pouvant sortir un jour dans les résultats. A ce niveau, Google a déjà préparé toutes sortes d'analyses afin de retrouver facilement la page pour les requêtes pour lesquelles elle est jugée pertinente.

Dans le cas d'une nouvelle page que Google découvre, elle doit forcément d'abord être crawlée pour être indexée. Pour une page déjà dans l'index de Google, Googlebot (le crawler de Google) doit la crawler à nouveau pour découvrir si elle a changé - et pour refléter ces (éventuels) changements dans les pages de résultats.

Maintenant que vous avez bien noté la différence entre crawl et indexation, voyons les mécanismes qui vous permettent de limiter les actions de Google.

Le blocage du crawl : par le fichier robots.txt

Pour bloquer le crawl, il faut indiquer la ou les URL des pages pour lesquelles vous souhaitez interdire l'accès. Pour cela, il faut publier ces directives dans le fichier robots.txt à la racine du site. Pour être très précis, sachez que :

  • le nom de ce fichier est imposé : ne mettez pas robot.txt (sans S) ou autre chose, il ne serait pas pris en compte
  • il doit y avoir un fichier robots.txt pour chaque sous-domaine

Ce n'est pas l'objet de cet article d'expliquer les détails, donc si ça vous intéresse, consultez mon dossier sur la syntaxe du fichier robots.txt ou l'aide de Google.

Le blocage de l'indexation : par une balise meta robots noindex

Pour interdire à Google d'indexer une page qu'il a précédemment crawlée, il faut ajouter une balise meta robots noindex (ou googlebot noindex). Si la page concernée n'est pas au format HTML, vous ne pouvez pas ajouter de balise meta, mais vous pouvez dans ce cas passer l'instruction dans l'entête HTTP. Pour en savoir plus, consultez mon dossier sur l'entête X Robots Tag ou l'aide de Google.

Présenté comme ça, vous devez certainement avoir compris un point spécial : si une page a déjà été indexée, alors un blocage par le robots.txt ne permet pas de la faire désindexer, même si ce blocage est doublé d'une interdiction d'indexation ! En effet, Google n'ayant pas votre autorisation pour consulter la page, il ne peut pas constater que vous lui interdisez d'indexer la page (ou que vous demandez la désindexation).

Dans ce cas précis, pour désindexer une page, il faut simplement arrêter de bloquer le crawl. Dès que Google visitera la page et constatera qu'il y a une balise meta robots noindex, il la désindexera.

Il y a néanmoins une autre possibilité : passer par Google Search Console et demander une désindexation immédiate.

Besoin d'aide sur la désindexation de pages ? Lisez mon dossier ultra complet !

Google respecte-t-il toujours les directives du fichier robots.txt ?

C'est une question qui revient souvent et effectivement il y a parfois de quoi se poser des questions. En effet, Google essayant toujours d'indexer plus de pages, il peut arriver des cas où vous demandez pourquoi Google a crawlé (et indexé) des pages.

Attention à la chronologie des modifications du fichier robots.txt

D'abord, l'explication la plus simple est que Google n'a pas encore consulté votre fichier robots.txt. Vous devez donc d'abord vérifier dans les logs de votre serveur que Google a effectivement consulté le fichier robots.txt.

Google connait des pages sans pourtant y accéder !

J'ai découvert un autre cas un peu particulier : Google semble indexer des pages pourtant interdites d'accès par le robots.txt. Concrètement, voici ce que j'ai fait comme 1er test (répété plusieurs fois pour valider) :

  • j'ajoute une interdiction de crawler le fichier testabc.php (à la racine du site) dans mon fichier robots.txt
  • j'attends plusieurs jours, en tout cas le temps nécessaire pour m'assurer que Google a bien pris en compte la nouvelle version du fichier robots.txt
  • seulement alors, je mets en ligne la page testabc.php et lui fais un lien depuis la page d'accueil. Voici les détails :
    • le texte de lien est "WRI", sans nofollow
    • la balise title de la page testabc.php est "ABC DEF test titre"
    • cette page est interdite d'indexation via une balise meta name="robots" content="noindex"
  • cette page étant interdite de crawl (et même d'indexation, au cas où), je ne m'attends pas à ce que Google vienne la consulter et l'indexer. Je mets en place mon système de surveillance des robots pour être prévenu si Google vient voir la page ou l'indexer, et j'attends...
  • quelques jours plus tard, alors que Google n'est jamais venu crawler la page (double vérification dans mes logs !), la page se retrouve indexée dans Google ! En tout cas, ça y ressemble fort, comme vous pouvez le voir dans cette capture d'écran :
Page connue mais pas indexée

Google indique qu'il sait que cette URL existe mais qu'il n'a pas eu l'autorisation de la consulter. On pourrait dire qu'elle est partiellement indexée...

Conclusion : Google peut indexer une page sans l'avoir crawlée !

A la place de la description de la page, Google affiche dans le snippet la phrase suivante :

La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

Alors, Google comment Google a-t-il pu indexer une page qu'il n'a jamais crawlée ? Réponse : elle n'est pas indexée, ou alors pas comme on l'entendu habituellement. A y regarder de plus près, Google ne connaissant pas son contenu, il est obligé d'inventer un titre (il assemble l'anchor text "WRI" et la marque du site "WebRankInfo") et indique ne pas pouvoir créer de descriptif ("La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site.").

On remarque également que Google ne propose pas d'accéder à la version en cache de la page. Logique, puisqu'il n'a pas pu y accéder.

En fait, Google fournit exactement ces informations dans ses pages de support :

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et, éventuellement, d'autres informations accessibles au public, notamment le texte d'ancrage des liens qui pointent vers le site ou le titre créé par l'ODP (Open Directory Project, www.dmoz.org) peuvent apparaître dans les résultats de recherche Google.

Concrètement, Google indique à l'internaute qu'il connait l'existence de la page mais qu'il n'a pas pu y accéder (pour cause d'interdiction). Ce genre de page ne sort donc quasiment jamais pour des requêtes classiques, seulement dans des cas très particuliers. Et justement, quand on s'intéresse au référencement, on peut faire partie de ces cas particuliers, surtout quand on utilise des commandes spéciales de Google. En effet, à cause du mécanisme que je viens de décrire, vous ne pouvez plus vous fier au nombre de résultats indiqué par Google pour une commande site: (déjà que ce n'était pas très fiable...).

Remarque : depuis, suite à d'autres tests, j'ai laissé cette page se faire indexer, donc vous ne pouvez plus constater la même chose que dans ma capture d'écran ci-dessus.

J'ai fait d'autres tests de plus grande ampleur que je ne peux pas détailler ici, notamment parce qu'ils concernent un autre site que WebRankInfo. Quand je dis "plus grande ampleur", cela veut dire plusieurs milliers de pages. Au bout d'un mois de test, j'ai eu la surprise de constater que ces pages jamais crawlées ont généré en SEO Google 340 visites. Conclusion : Google peut vous générer du trafic grâce à des pages qu'il n'a jamais crawlées !

Peut-on faire disparaitre des résultats Google des pages que l'on ne veut absolument jamais voir dans les résultats ?

Dit autrement : peut-on désindexer ces pages (qui pourtant n'ont jamais vraiment été indexées et n'auraient jamais dû apparaître puisqu'elles étaient bloquées à Google) ? Pour le savoir, j'ai encore fait un test ! Au passage, si vous ne faites pas comme moi de nombreux tests sur le référencement, vous ne pouvez pas assez bien progresser...

J'ai donc enlevé la directive Disallow du fichier robots.txt afin de laisser Google accéder à la page, pour qu'il constate qu'elle est interdite d'indexation. Pour gagner du temps, je suis allé dans Google Webmaster Tools faire une demande de crawl express. Moins d'une minute après, je reçois une alerte par mon système m'indiquant que Googlebot est venu voir la page. Par contre, la page reste désespérement dans cet état de "semi-indexation"...

Pour une autre page de test "pseudo-indexée" de la même façon que la première, j'ai utilisé une autre méthode pour la faire disparaitre de Google : une demande de suppression via Google Webmaster Tools. Et là miracle, au bout de quelques heures, la page disparait effectivement totalement (introuvable par des commandes info: ou site:).

Le cas de la directive noindex dans le fichier robots.txt

Tant qu'à faire tous ces tests, j'ai également essayé la directive NoIndex que j'ai déjà trouvée sur dans le fichier robots.txt du site d'un de mes clients. Attention, il ne faut pas confondre avec la balise meta robots noindex standard. Ne la connaissant pas, ne trouvant aucune trace dans la documentation officielle de Google et ne trouvant que peu d'informations à son sujet sur le web, j'ai moi aussi testé.

Dans Google Webmaster Tools, je demande à Google de crawler immédiatement la page. Voici la réponse :

Impossible d'explorer la page pour le moment, car celle-ci est bloquée par la dernière version du fichier robots.txt téléchargé par Googlebot. Sachez que si vous avez mis à jour le fichier robots.txt dernièrement, son actualisation peut prendre jusqu'à deux jours.

Il n'y a pourtant aucune directive Disallow concernant cette URL. La seule directive présente dans le fichier robots.txt est la suivante :

User-agent: *
Noindex: /dossiers/google-desindexation-presse-france.php

D'ailleurs, cette paire de lignes génère des erreurs dans les outils de validation du robots.txt car la ligne "User-agent: *" n'est suivie d'aucune directive Allow ou Disallow.

Mon test a montré que cette commande noindex dans le robots.txt bloque même le crawl. J'ai voulu faire le test inverse pour compléter l'analyse : j'enlève la directive Noindex, je laisse indexer la page, et seulement ensuite j'ajoute la directive Noindex. Il a fallu attendre plusieurs jours, mais la page a fini par être désindexée, sans que Google revienne crawler la page.

J'en conclus donc que Google respecte la directive Noindex du robots.txt même s'il ne fournit aucune documentation dessus.

J'ai toutefois relevé que John Mueller (webmaster trends analyst chez Google - Zurich, Suisse) déconseille clairement de l'utiliser :

Et vous ?

Je suppose que vous avez déjà rencontré des cas similaires : n'hésitez pas à nous donner des retours d'expérience ou à poser vos questions. Si cela ne suffit pas, n'oubliez pas les solutions habituelles :

Audit SEO de site à base de crawl

Si vous souhaitez optimiser le référencement naturel de votre site, il est indispensable de vérifier que les bases sont correctement faites, à savoir tout le socle technique du SEO.  Pour comprendre comment mon outil RM Tech d'audit SEO peut vous aider, consultez cette vidéo d'analyse de site touché par Panda :

https://www.youtube.com/watch?v=oOk21I8Xgwk

Cet article vous a-t-il plu ?
Cliquez pour voter !

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (Google : crawl et indexation malgré le fichier robots.txt ?) publié par WebRankInfo dans la rubrique Indexation Google. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

30 commentaires

  • Koxin-L.fr a dit le

    Slt,

    J'ai toujours dit qu'il fallait un blocage des robots aux pages "interdites" via le htaccess parce que le fichier robots.txt n'est pas un blocage mais une information...

    Je suis bien content aujourd'hui d'avoir toujours utilisé cette procédure.

    Rod

  • Olivier Duffez a dit le

    Oui enfin... ta solution ne convient pas pour les pages que les internautes doivent pouvoir consulter librement, tout en ne posant aucun pb SEO
    à moins de faire du cloaking ?

  • Denis TRUFFAUT a dit le

    Article intéressant : la prise en compte effective du no-index semble assujettie à l'endroit de sa déclaration (page ou robots.txt).

    Une autre solution est placer un link rel canonical sur les pages à désindexer. C'est certes moins rapide et moins large (pas de grosse regexp comme dans un robots.txt), mais au moins sur chaque page on peut faire des conditions et donc avoir une granularité plus fine dans la sélection des pages à désindexer.

  • Adifco a dit le

    Il faudrait poser la question à Google (John Wiley ?) de quel est l'intérêt d'afficher ces snippets dans les SERPs. Simple bug ?

    En tout cas, j'ai l'impression avec mes collègues que cela revient de plus en plus régulièrement.

    Je prends bonne note de la directive Noindex dans le robots.txt au cas où :)

    Victor

  • fred a dit le

    Avec le projet PRISM des services secrets américains, je doute que de telles indications soient une barrière efficace. Après, qu'elle soit indexée ou pas par Google est une autre histoire.

  • Olivier Duffez a dit le

    Désolé Fred, je n'ai pas compris le rapport avec PRISM. De quelles indications et barrière parles-tu ?

  • Willgoto a dit le

    1. Ta page abc.php est bel et bien indexée, comme le montre la requête suivante. Elle y apparaît avec un titre et un snippet tout à fait correct.

    Elle a aussi un cache qui actuellement date du 26 mai.

    Et cette indexation n'est pas due au fait que des internautes ayant une google barre aient visité ta page à la lecture de ton article parce que le cache date du 26 mai.

    2. D'autre part, il y a une page identique avec une URL erpgokldfgkjf_lfjgkhfd.php et un cache du 28 mai mais qui figure dans le moteur depuis le 15 mai déjà.

    3. Quant au fait que ces pages donnent du trafic, cela n'est pas (si l'on peut dire étonnant) parce que il y a des requêtes de toutes sortes (y compris par jeu, test, ou autre).

  • Olivier Duffez a dit le

    @willgoto :
    1- oui je sais, ma page de test a servi à d'autres tests ensuite, notamment pour voir la réaction de Google quand j'enlève l'interdiction de crawl et/ou d'indexation. Donc oui c'est normal que désormais elle soit "totalement" indexée.
    2- désolé je n'ai pas compris
    3- je ne dis pas que ces pages puissent se positionner sur des requêtes stratégiques, loin de là, mais elles ont tout de même généré du trafic par des internautes qui n'étaient absolument pas en train de faire des recherches bizarres : il s'agissait bien de requêtes avec des mots standards. C'est simplement étonnant d'avoir du trafic depuis des pages non crawlées...

  • sylvainseo156 a dit le

    "Dans le cas d'une nouvelle page que Google découvre, elle doit forcément d'abord être crawlée pour être indexée."
    Je suis pas certain, si on la bloque par le robots.txt, google sait que la page existe, il l'index quand même (mais elle va presque jamais sortir), et on aura d'ailleurs le message "description non accessible blablabla".

  • Olivier Duffez a dit le

    @silvain156 : faudrait définir ce qu'on appelle indexer, mais en règle générale, il s'agit d'analyser le contenu et de le stocker dans une base de données (index). Bref, dire qu'une URL (sans son contenu) est indexé n'est pas ce qu'il y a de plus courant comme définition.

  • fred a dit le

    @Olivier : c'était juste un clin d'oeil à la chaude actulité concernant Prism et les services de Google. Ceci dit, Google crawlera ce qu'il a envie de crawler, la barrière du ficher robots.txt doit être bien peu solide et contournable (non?).

  • Olivier Duffez a dit le

    @fred : tout le monde sait que le robots.txt n'est pas un outil de sécurité web. Par contre, tous mes tests m'ont montré que Google respecte les directives du fichier robots.txt, à savoir que si on interdit le crawl, il ne crawle pas.

  • #So# a dit le

    Bonjour,

    Merci pour cet article très intéressant !
    Voilà j'ai un problème dont je n'arrive pas à me dépêtrer ! Nous avons lancé notre nouveau site le 15 mai, à la suite de quoi, j'ai demandé une réindexation via GWT. Et là explosion des pages introuvables (plus de 323000 à ce jour !) et ça ne cesse de monter. Pour info, cela a fait remonté de vieux dossiers, déjà redirigés ou supprimés depuis des années !
    J'ai donc agit sur le robots.txt pour mettre ces fameux dossiers en disallow.
    Le nouveau robots.txt est bien passé sur GWT. Pensez vous que je doive à nouveau envoyer pour indexation pour faire chuter ces erreurs, car j'ai peur étant donné le nombre, de me faire pénaliser sous peu...
    Avant cela dois je mettre le disallow + le no index dans le robots.txt ?
    Merci de votre aide !

  • Olivier Duffez a dit le

    @ #so# : le plus efficace serait de créer une discussion dans le forum, en indiquant les URL concernées

  • MT a dit le

    "Sachez que si vous avez mis à jour le fichier robots.txt dernièrement, son actualisation peut prendre jusqu'à deux jours."

    Pour avoir connu le cas récemment (2 pages que j'avais bloquées via robots.txt puis débloquées), j'ai continué à avoir une alerte dans webmaster tools comme quoi ces deux url étaient bloquées par robots.text pendant plusieurs semaines après le déblocage.

    Pourtant, en dépit de ce message d'erreur, ces page étaient bel et bien indexées et apparaissaient dans les recherches.

    j'en conclue que, dans le cas d'un déblocage, la prise en compte est rapide (crawl et indexation suite à déblocage et ajout des url au sitemap) mais que l'interface webmaster tool est longue à entériner le changement.

  • Koxin-L.fr a dit le

    @Olivier Duffez

    Je ne comprend pas ta réponse...

    Une page que l'on ne désire pas mettre à la vue des robots n'apparaitra pas dans les moteurs... Il n'y a donc aucun pb de SEO vu qu'il n'y pas à en faire.
    Et bloquer les robots ne bloque pas les internautes "humains", donc...

    Non, je ne comprend pas ta réponse...

  • Olivier Duffez a dit le

    @ Koxin-L.fr

    Une page que l'on ne désire pas mettre à la vue des robots n'apparaitra pas dans les moteurs... Il n'y a donc aucun pb de SEO

    si justement, c'est l'objet de cet article. Des pages qu'on a toujours bloquées à Google (via robots.txt) afin qu'elles ne soient jamais listées dans Google, peuvent apparaitre dans Google. C'est donc bien un pb SEO.

  • OrHell a dit le

    Merci pour cet article, j'ai testé le Noindex dans le fichier Robots, beaucoup plus efficace que le Disallow... ;o)

  • Light On SEO a dit le

    Bonjour Olivier,

    pour ce qui est du trafic naturel que cette page pseudo indexée à obtenu il serait intéressant de nous dire si les requêtes ayant généré des visites avaient un rapport avec :

    - Le contenu de la page elle même

    ou plutôt avec

    - Le contenu de la(des) page(s) qui pointaient vers cette page interdite au bot ?

    En gros la pertinence de cette page sur certaines requêtes est elle obtenu grâce à son propre contenu ou par hérédité grâce aux contenus présents sur les pages qui la lient ?

    merci

  • Olivier Duffez a dit le

    Désolé, je pensais que c'était clair : Google n'ayant jamais lu le contenu des pages concernées, ne peut se baser que sur leurs backlinks.
    D'ailleurs le titre dans les SERP est constitué de l'anchor text suivi du nom du site.

  • Gregorix a dit le

    Bonjour à tous,
    Merci pour cet article très complet et fouillé. Cela me rassure : j'ai récemment mis en place un robot.txt sur mon site web-tech.fr (pour éviter que les articles sponsos soient indexés), et force est de constater que cela n'empêche pas Google de crawler. Décidément, c'est bien lui le chef !

    Bonne continuation,

  • Olivier Duffez a dit le

    Désolé Gregorix mais ça n'est pas comparable, en tout cas pour votre site il n'y a rien dans le robots.txt en place qui pourrait empêcher les articles sponsos d'être crawlés (et indexés).
    Si on veut qu'ils ne soient pas indexés, il faut mettre une balise meta robots noindex et je vois qu'il n'y en a pas (j'ai testé sur un exemple).

  • Gregorix a dit le

    Merci Olivier, je vais me renseigner sur la balise meta robots noindex !

  • Marc, Annuaire Français a dit le

    Ce n'est pas totalement le sujet, mais j'ai un débat en cours avec Google pour des pages qui se retrouvent dans l'index et n'ont jamais existé. En fait, Google va piocher je ne sais ou des pages très anciennes d'un sous domaine et la replace dans un autre sous domaine.

    le problème, c'est que le sous domaine est un département (ex 01-ain . NDD) et la page une ville, et que je retrouve la page Marseille classée dans l'index Google avec le sous domaine 18-cher ... il y a bizarrement un cache récent avec un contenu très ancien qui n'existe pas dans le répertoire.

    Mes logs et webmasters tools me confirment la tentative de crawl en erreur, ca ne vient pas de chez moi donc. Peutêtre mon serveur a déconné un jour et depuis, c'est la pagaille, mais après 5 mois, les erreurs ressurgissent avec ces pages qui sortent d'on ne sais ou. Et comme c'est par dizaine de milliers, je ne peux pas toutes les rediriger.

    Bref, j'ai deja developpé le détail est ici ; http://forum.webrankinfo.com/rappels-importants-404-pages-vides-t168189.html

    Les mécanismes interne a Google pour l'indexation des pages est un mystère et parfois curieux.

    Il est possible aussi que certaines commandes telles que "site:" interroge des data autres que celui de l'index primaire. Mais effectivement, on retrouve parfois ces pages dans les résultats sous forme de lien sans contenu, résultat construit sur une url et non pas sur le crawl comme l'explique très bien Olivier.

  • Olivier Duffez a dit le

    @Marc : "Mes logs et webmasters tools me confirment la tentative de crawl en erreur, ca ne vient pas de chez moi donc."
    => non, cela ne prouve pas que le pb ne vienne pas de chez toi, ça peut venir d'un mauvais lien interne

  • serge esteves a dit le

    Bonjour Olivier,

    Je déterre un peu cette page car j'ai testé la balise noindex dans le robots.txt récemment sur un client. Je n'avais jamais testé avant préférant les valeurs surs (meta noindex).

    Mon retour c'est que la directive noindex du robots.txt bloque bien le crawl et désindexe la page lorsqu'il l'a crawlé, ce qui contredit légèrement ton observation lorsque tu dis qu'il désindexe la page sans que google revienne crawler la page.

    ça reste une directive bien pratique mais ce n'est pas magique, google doit revenir sur la page en question pour qu'elle soit désindéxée grace à cette balise noindex, ce qui peut être très long selon les cas.

  • Olivier Duffez a dit le

    @Serge : je l'avais testé, j'ai eu ce que j'ai indiqué. Ca ne change pas grand chose au final, c'est par curiosité, car au final c'est tout de même mieux d'utiliser la meta robots noindex. Pour accélérer le crawl, on peut se débrouiller ;-) ça dépend juste des volumes d'URL concernés

  • Julien a dit le

    Bonjour à tous,

    Depuis quelques jours, Google indexe les URLs avec paramètres (de tri, de session... la totale). Donc normalement il faudrait qu'il indexe 250 URLS et là il est à plus de 1 400...

    Le site est sur Magento, dans la console Google Search, les paramètres d'URL sont présent avec la méthode d'exploration "Laisser GoogleBot décider".

    Pas de restriction au niveau du fichier robots.txt.

    Donc je ne sais pas pourquoi, il s'est mis à me crawler et indexer toutes ces URLs... alors que depuis 2 ans, il se contentait des 250 "bonnes" URLS.

    Bizarre non ?

  • Olivier Duffez a dit le

    @Julien : il aurait fallu prévoir ça en amont et ne pas faire confiance à la rubrique paramètres d'URL de search console. Il faut traiter le pb en amont, sur le site, avec des interdictions de crawl et/ou d'indexation selon les besoins.
    Un petit audit RM Tech pourrait aider ;-)

  • Julien a dit le

    @olivier Merci pour ta réponse, je vais réfléchir à l'audit ;) Mais je vais dans un premier temps attendre un peu pour voir si Google corrige "l'erreur" tout seul et sinon je changerai les paramètres d'URL... Merci

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.

Annonces Google


215 Partages