Urls filtrées indexées et crawl robots.txt

ines_cdk · 19 Mai 2021

Bonjour à tous,

Nous avons refondu toutes les pages listes/catégories de notre site e-commerce (sauf urls). Hors, chaque page liste qui contient des filtres activés (couleur, taille, tri croissant et décroissant etc...) se sont indexées + étaient autorisées au crawl sur le robots.txt. Nous nous sommes donc retrouvé avec des milliers d'urls avec contenu similaire + budget de crawl explosé...

Nous avons donc mis en place la meta no index, follow sur toutes ces pages + bloqué le crawl sur ces mêmes urls (uniquement avec les filtres). MAIS Google Search Console me les remonte en "indexées malgré blocage par le robots.txt" et leur nombre ne fait que d'augmenter !

Mes questions sont les suivantes :

- Les urls filtrées étant indexées, faut-il enlever le blocage sur robots.txt pour permettre à Google de prendre en compte la meta noindex, follow ? Cela risque-t-il d'exploser, en conséquence, à nouveau le budget de crawl ?

- Y a t il quelque chose qui n'a pas bien été fait ou pas dans le bon ordre ?

- Avez-vous une solution à nous proposer ?

Merci encore pour votre aide très précieuse.

Bonne journée.

WebRankInfo · 19 Mai 2021

ines_cdk a dit:
faut-il enlever le blocage sur robots.txt

oui car le fichier robots.txt n'est pas prévu pour configurer l'indexation, seulement le crawl. Si les URL déjà indexées et désormais interdites d'indexation sont bloquées au crawl, rien ne va bouger...

ines_cdk a dit:
Y a t il quelque chose qui n'a pas bien été fait ou pas dans le bon ordre ?

il fallait dès le début mettre du noindex, ou alors après ne pas bloquer le crawl dans le fichier robots.txt

petites lectures conseillées :

ines_cdk · 19 Mai 2021

WebRankInfo a dit:
oui car le fichier robots.txt n'est pas prévu pour configurer l'indexation, seulement le crawl. Si les URL déjà indexées et désormais interdites d'indexation sont bloquées au crawl, rien ne va bouger...

il fallait dès le début mettre du noindex, ou alors après ne pas bloquer le crawl dans le fichier robots.txt

petites lectures conseillées :

ne pas confondre noindex et robots.txt

comment désindexer plein de pages de Google

Merci pour votre réponse ! Si je comprends bien, 2 solutions s'offrent à nous :

1. Fichier sitemap avec toutes les urls à désindexer puis, quand c'est ok, on le supprime
2. Enlever le blocage sur le robots.txt, puis quand la meta robots no index sera prise en compte, on le remet pour éviter le crawl.

Avec tout ceci, risque-t-on d'avoir des grosses chutes en SEO ? Merci

WebRankInfo · 19 Mai 2021

il faudrait voir si ces URL génèrent du trafic (ce qui est peu probable). Un audit technique semble nécessaire ici

ines_cdk · 20 Mai 2021

WebRankInfo a dit:
il faudrait voir si ces URL génèrent du trafic (ce qui est peu probable). Un audit technique semble nécessaire ici

Justement non les urls ne génèrent pas de trafic et non aucun intérêt SEO

WebRankInfo · 20 Mai 2021

donc j'ai du mal à voir pourquoi il y aurait une grosse chute SEO

ines_cdk · 20 Mai 2021

D'accord merci ! Donc nous laissons tel quel ou devons faire quelque chose ?

WebRankInfo · 20 Mai 2021

désolé je pensais avoir été assez clair : il faut nettoyer le site (désindexer toutes ces URL non voulues)

ines_cdk · 20 Mai 2021

WebRankInfo a dit:
désolé je pensais avoir été assez clair : il faut nettoyer le site (désindexer toutes ces URL non voulues)

Oui merci mais du coup ceci convient alors (sans potentiel chute de traffic) : 2. Enlever le blocage sur le robots.txt, puis quand la meta robots no index sera prise en compte, on le remet pour éviter le crawl. J'essaie de bien comprendre

WebRankInfo · 20 Mai 2021