Questionnement : désindexer des URL dynamique en masse

Nouveau WRInaute
Bonjour à tous,

Je suis chargé du référencement naturel d'un site web créé en 2006 qui, après un crawl maison sort environ 40k url. Pourquoi y'en a t il autant ? Eh bien à cause des paramètres d'url et autres joyeusetés dynamiques qui génèrent continuellement du Duplicate Content interne (duplicate de fiches produit, paramètres de filtrage dans les url...).

Heureusement, on compte aujourd'hui dans l'index 3 294 pages, mais il y a encore énormément de pages inutiles :

- Des déclinaisons de produits similaires (ex: 12 références pour 2 ligne, voir une seule de différence dans la description).
Pour celles-ci j'ai pensé immédiatement aux Url Canoniques, pas de problèmes apparemment pour résoudre ce problème, et encore, on est pas trop sur de notre coup d'un point de vu commercial (produit compliqué).

- Les pages de résultat de notre catalogue en ligne (pagination) avec critères de filtres dans l'url. En gros, l'ensemble des pages de résultats (présentant les produits) pour tel critère (ex : prix=700€) sont toutes référencées.

a titre d'exemple, voici l'url de la page 2 du catalogue après avoir appliqué un filtre pour une marque :

http://www.example.com/catalogue.php?mode=simplifie&filter_name=&filter_brand%5B0%5D=1&page=2

voici l'url de la page 2 du catalogue après avoir appliqué un filtre pour un type de modèle :

http://www.example.com/catalogue.php?mode=simplifie&filter_name=&filter_type%5B0%5D=9&page=2

Comme vous pouvez le voir, c'est pas vraiment super bien optimisé quand même ^^ et toutes ces pages sont indexées...

Le problème, c'est que nous ne souhaitons pas desindexer tout ce qui passe après catalogue.php. Nous aimerions par exemple garder indexé uniquement les page avec le filtre par maque pour optimiser des landing page par marque pour le SEO, en y rajoutant dynamiquement du contenu.

J'ai pensé à une syntaxe du type : Disallow: /catalogue.php*page= dans le robots.txt mais ça ne règle pas notre problème d'indexation de ces pages, seulement le crawl futur, et si je disallow maintenant et place du noindex en dynamique dans les pages, bah le robots ne verra pas le noindex, ou alors faire l'un à la fois mais cela veux dire qu'il faut attendre que google désindexe les pages, puis mettre à jour le fichier robots.txt.

Ma question est la suivante, comment procéder selon vous pour désindexer toutes ces pages de pagination inutiles de l'index, tout en gardant certaines pages filtrées avec des paramettres spécifiques dans leur Url. Vous aurez surement compris que la suppression manuelle de toutes ces Url s'avère fastidieux ^^'

Je suis novice en référencement naturel et ce site est mon premier vrai "chantier" (et pour le coup, le mot chantier colle tout à fait), je m'excuse d'avance pour les fautes et grosses calomnies x)

Votre aide serais vraiment la bienvenue,

Cordialement,
 
WRInaute impliqué
tu testes le contenu de certains paramètres et tu mets une canonical quand il faut et rien quand tu veux que la page soit indexée.
 
Discussions similaires
Haut