résoudre un problème de "masse noire"

ManRanking · 5 Avril 2020

Bonjour,

J'ai un problème de masse noire: créé 250 pages mais près de 10000 sont crawlées & exclues
Les pages crawlées sont principalement des pages dynamiques
Etant sur shopify, je précise que je ne peux pas toucher au robot.txt

Il semble que la seule chose à faire soit
- de désindexer les pages d'origine (donc toutes mes pages produits...),
- une fois cela pris en compte par google (je pourrai le voir dans la search console), empêcher le crawl de ces pages. Ce que je pourrai faire dans le code (pas le choix, je ne peux pas toucher au robot.txt)
- et enfin de re-indexer mes pages.

Pourriez vous me dire si cela est la bonne démarche ?

Et pour l'étape de désindexation de mes pages :
1 - vu que ça concerne toutes les fiches produit, est ce possible de lancer une commande générale plutôt que de faire page par page ?
2 - autre idée : j'ai dit que je pensais désindéxer les pages d'origine (les pages produits canoniques que j'ai créées). ça ne suffira pas je suppose de mettre en veiller le module qui créé ces pages dynamiques ?

emualliug · 7 Avril 2020

Avant de s'affoler, il vaudrait mieux se demander si le problème en est un. Quelles sont les pages en question ? quel est leur motif d'exclusion ?

S'il s'agit de pages avec différents paramètres dans l'URL mais que la page en question a une canonical bien indexée, je ne m'inquiéterais pas plus que ça. D'après tes infos, les URL fantômes sont exclues de l'indexation (c'est ce que l'on souhaite), si les pages "qui comptent" sont indexées, alors pas de soucis.

À l'inverse, il y un soucis si :

certaines pages apparaissent en double, des pages qui ne devraient pas être indexées le sont ;
le budget de crawl est tellement mangé pas ces pages fantômes que tes pages cibles ne sont pas crawlées.

Quant à la solution que tu envisages, cela me semble catastrophique. Ne désindexe pas les pages qui comptent, même temporairement, un "bon" référencement se fait sur la durée, là tu repars bêtement de zéro.

À noter que la search console propose un outil pour exclure de l'indexation certaines pages suivant les paramètres de l'URL. Google insiste beaucoup pour dire qu'il faut vraiment faire gaffe où on met les doigts, et qu'une mauvaise manip' est pire que de ne rien faire (et c'est probablement assez juste).

ManRanking · 7 Avril 2020

emualliug a dit:
si :

certaines pages apparaissent en double, des pages qui ne devraient pas être indexées le sont ;

le budget de crawl est tellement mangé pas ces pages fantômes que tes pages cibles ne sont pas crawlées..

Bonjour
Je suis dans ces cas là, et j'ai utilisé les paramètrage d'URLs ainsi que suppression d'URLS de la search console, mais ça n'en tient pas compte

emualliug · 7 Avril 2020

Dans lequel de ces cas ?

Dans ton premier message tu indiques qu "près de 10000 [pages] sont crawlées & exclues" :

a priori pas dans le premier cas : les pages sont exclues de l'index (peu importe qu'elles soient crawlées)
ni dans le second, sauf si parmi les 10000 pages crawlées il n'y a pas les 250 pages qui comptent, ou si les 250 pages qui comptent sont également exclues

ManRanking · 7 Avril 2020

J'ai été synthétique dans mon 1er message, sinon personne ne l'aurait lu

Cas 1 - Le principal problème sont les pages exclues dont j'ai parlé. Mais oui, j'ai aussi, en faible quantité, un souci de pages indexées (non envoyées via sitemap) qui ne devraient pas l'être et créent du duplicate.

Cas 2 - oui j'ai des pages qui ne sont pas crawlées. et vu le bordel actuel sur ma search console je le remarque parfois avec du retard. du coup je demande une indexation, alors que ce devrait être fait avec le sitemap

Je ne suis pas d'accord avec toi pour cette masse noire : trop de pages crawlées, même si pas indexées, bien sûr que c'est un problème. Impossible d'assurer un suivi correct des infos données par la search console et mettre en place les corrections nécessaires quand on a tout cela. Sans parler du budget crawl.

Puis bon, faut être logique : 10 000 pages sur la search, pour 250 pages créées, bien sur que c'est un problème. O. Andrieu dit que c'est un souci. Ce sera quoi demain quand j'aurai 2000 pages, et 5000, etc.