Question sur Crawl : trop d'url crawlées !

WebLune · 1 Octobre 2016

Bonsoir à tous,

Voilà, je commence le référencement (en mode débutant) de mon site et j'utilise un programme qui crawl l'ensemble des pages dans une première étape. C'est un petit woocommerce.

Après cette première étape donc de crawl j'ai style quelque chose comme 5000 pages crawlées ! Alors que vraiment, le site en fait bien moins...

Donc avant d'aller plus loin je me pose la question suivante :

Est-ce normal et dois-je exclure certaines urls du crawl. C'est possible avec des outils d'exclusion de structures d'url.
Ou bien, il y a un problème dans la structure même du site ?

Exemple de structure d'url crawlés en masse :

/?product_cat=categorie1&add_to_wishlist=19680
/?product_cat=categorie1&add-to-cart=19680

En suivant ce lien par exemple, je charge bien la page de mon site mais un produit c'est ajouté au panier. Comme si cette page existait.. mais c'est un comportement dynamique au final... je pige pas...

Il y a d'autres exemples mais c'est le même délire. Comme si tous les cas de figure/comportements avaient générés une page qui est donc crawlée par le programme de référencement.

Un Kdor pourrait m'éclairer ?

@tout

UsagiYojimbo · 2 Octobre 2016

Il faut bloquer l'indexation des pages avec ce type de paramètres (via le robots.txt). Voire dans un premier temps les désindexer si le site est déjà en ligne et si elles ont été crawlées et indexées.

WebLune · 2 Octobre 2016

Merci, je vais modifier MR ROBOT.TXT et relancer le programme de référencement.
Je suis en train de chercher comment écrire la règle correctement...

WebLune · 2 Octobre 2016

J'ai ajouté cela dans le robot txt :

User-agent: Googlebot
Disallow: /*?

Je tests donc avec GWT une url dynamique et parfait elle est bloquée.

NÉÉÉÉÉANNMOINS ! je relance le prog de référencement (Yooda), le lance l'analyse du site... et c'est repartit, ça va crawler les pages dynamiques. Donc d'une l'analyse est très très longue et les résultats sont faussés.

J'imagine que Yooda utilise un robot pour crawler le site, du coup peut-être que cette commande n'est pas suffisante ?

colonies · 2 Octobre 2016

Ta règle robots.txt ne demande que de déréférencer les URL se terminant par un point d'interrogation.
Ça n'est cependant pas la chose à faire. Tu dois d'abord indiquer aux moteurs que tu ne veux pas que ces pages figurent dans l'index (meta noindex, nofollow ou header X-Robots-Tag: none), puis les empêcher de continuer à les crawler (avec robots.txt) une fois qu'ils les auront supprimées.

Enfin, on ne teste pas le comportement de Google avec des outils tiers qui peuvent ne pas avoir le même comportement que Googlebot. Quand on définit ses règles dans robots.txt, on peut les tester dans Google Search Console -> choix du site -> Exploration -> Outil de test du fichier robots.txt.
Peu importe ce que te dira Yooda s'il te donne des résultats différents (mais comme je l'ai déjà écrit, de toute façon ta règle était fausse) : c'est Google Search Console qui aura raison.

WebRankInfo · 3 Octobre 2016

tu as ce qu'on appelle chez Ranking Metrics des problèmes de "masse noire"

dans les réponses précédentes, tu as eu de bons conseils (à part un petit mélange entre crawl et indexation, ou entre noindex et nofollow).

Petit résumé :

- identifie les URL concernées et regarde ce qu'elles ont vraiment en commun, par exemple add_to_wishlist et add-to-cart
- ensuite, vérifie si Google a indexé des pages de ce genre. Si c'est le cas, il faut d'abord les désindexer.
- une fois que tu as pu désindexer ces URL, ou interdire leur indexation future, il faut les bloquer au crawl. Pour cela, utilise le fichier robots.txt et son outil de test
- quand tu auras fini, lance un audit RM Tech (mon outil) en version gratuite pour voir combien il trouve d'URL autorisées au crawl sur ton site, et combien parmi elles sont indexables.

colonies · 3 Octobre 2016

Encore une possibilité dans Google Search Console : Exploration -> Paramètres d'URL.
Et configurer les paramètres qui produisent des pages indésirables pour que Googlebot n'explore "Aucune URL".

Là par contre, je ne sais pas comment ça va se comporter :
- plus de passage de GoogleBot sans traitement des URL connues de Google et du coup, résidus dans l'index, ou
- désindexation des pages déjà indexées (ça serait logique) + plus de passage de GoogleBot sur les URL concernées.

Olivier, une idée ?

noren · 3 Octobre 2016

J'avais eu un problème assez proche :

https://www.webrankinfo.com/forum/empecher-google-utiliser-mon-formulaire-f ... 85803.html

Google validait mes formulaires GET de mes filtres.
J'ai donc passé mes formulaires en POST et mis mes pages de filtre en noindex,nofollow, puis j'ai également bloqué via le Google Seach Console (Paramètres d'URL)

Après tu peux également une fois tout en noindex etc. bloquer via le robots.txt, mais vérifie quand même régulièrement au debut que google n'indexe pas ce type de pages en indiquant qu'il n'a pas pu les crawler.

WebLune · 3 Octobre 2016

Merci pour toutes ces réponses. J'avance un peu plus grâce à vous.

@WebRankInfo : J'ai vérifié en faisant une recherche Google avec quelques urls comportant des paramètres type :
/?product_cat=categorie1&add_to_wishlist=19680
/?product_cat=categorie1&add-to-cart=19680
..

et il n'affiche aucun résultat. Donc ok ! Ces pages ne sont pas indexées.

Reste à interdire leur indexation future et les bloquer au crawl. Ces urls ne devraient donc pas être crawlées par le programme de référencement ?

Ensuite je lancerais RM TECH ^^

Je m'y met et vous dis si cela fonctionne.

WebRankInfo · 4 Octobre 2016

il faut s'assurer que les règles de blocage du crawl sont bonnes (cf. mon lien vers l'outil de test)
ensuite, les bons outils de crawl n'iront pas crawler ces fameuses URL ;-)