Beaucoup de pages bloquées

Nouveau WRInaute
Bonjour à tous,

Notre site est lancé depuis quelques mois, et en ce moment on se retrouve avec un pic ahurissant de 1500 pages bloquées par le robots.txt
Il dépasse même le nombre de pages indexées et la progression continue...


431927pagebloqurobots.png



Voici le fichier robot.txt

User-agent: *
# Private pages
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=
Disallow: /*controller=addresses
Disallow: /*controller=address
Disallow: /*controller=authentication
Disallow: /*controller=cart
Disallow: /*controller=discount
Disallow: /*controller=footer
Disallow: /*controller=get-file
Disallow: /*controller=header
Disallow: /*controller=history
Disallow: /*controller=identity
Disallow: /*controller=images.inc
Disallow: /*controller=init
Disallow: /*controller=my-account
Disallow: /*controller=order
Disallow: /*controller=order-opc
Disallow: /*controller=order-slip
Disallow: /*controller=order-detail
Disallow: /*controller=order-follow
Disallow: /*controller=order-return
Disallow: /*controller=order-confirmation
Disallow: /*controller=pagination
Disallow: /*controller=password
Disallow: /*controller=pdf-invoice
Disallow: /*controller=pdf-order-return
Disallow: /*controller=pdf-order-slip
Disallow: /*controller=product-sort
Disallow: /*controller=search
Disallow: /*controller=statistics
Disallow: /*controller=attachment
Disallow: /*controller=guest-tracking
# Directories
Disallow: /*classes/
Disallow: /*config/
Disallow: /*download/
Disallow: /*mails/
Disallow: /*modules/
Disallow: /*translations/
Disallow: /*tools/
# Files
Disallow: /*fr/mot-de-passe-oublie
Disallow: /*fr/adresse
Disallow: /*fr/adresses
Disallow: /*fr/authentification
Disallow: /*fr/panier
Disallow: /*fr/bons-de-reduction
Disallow: /*fr/historique-des-commandes
Disallow: /*fr/identite
Disallow: /*fr/mon-compte
Disallow: /*fr/details-de-la-commande
Disallow: /*fr/avoirs
Disallow: /*fr/commande
Disallow: /*fr/recherche
Disallow: /*fr/commande-rapide
Disallow: /*fr/suivi-commande-invite
Disallow: /*fr/confirmation-commande
# Sitemap


Cela peut il venir de duplicate content ?


Merci beaucoup pour vos précisions
 
WRInaute occasionnel
Kévin-bvs a dit:
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=


Tout cela fait référence à du dynamique non? Normal donc si ton contenu augmente que les pages non indexées aussi puisque tu le demandes dans le robots.txt
 
Nouveau WRInaute
Oui je suis d'accord mais c'est plus le fait que le nombre de pages bloquées dépassent celui des pages indexées que je trouve surprenant..
 
Nouveau WRInaute
Du coup comment puis je faire pour savoir si ça ne bloque que les pages dupliquées ? Est ce qu'une progression aussi forte pourrait venir de ça ?
 
Nouveau WRInaute
Désolé du double post, mais ce qui est bizarre aussi c'est que depuis une semaine les pages indexées n'augmentent plus (on le voit bien sur le graphique) alors que je continue de créer des fiches produits et de les mettre en ligne...
 
WRInaute accro
Perso, je sélectionnerais un échantillon représentatif des différents types de pages du site de manière à les tester sur GWT, pour voir comment le robot les interprète.
 
Nouveau WRInaute
Pour faire ça je dois donc rentrer les adresses des pages que je veux tester dans l'encart de GWT : "URL Spécifiez les URL et les user-agents à tester. " ?
De l'onglet URL Bloquées.
 
WRInaute accro
en même temps les pages bloquées peuvent monter très vite.

Admettons que tu bloques les fiches de membres, si tu as plus de nouveaux membres inscrits que d'articles que tu publies il y a de fortes chances que le le nombre de pages bloquées dépassent les pages indexées. Dites moi si je fais fausse route :mrgreen:

Après la question est de savoir si c'est bien perçu par google ou non
 
Nouveau WRInaute
Peut-être dans un autre cas, mais pas dans celui ci, car justement nous avons moins d'inscriptions et moins de visites en ce moment. Est ce que ça pourrait être lié au taux de pages bloquées ?

Pourtant nos fiches produits ont l'air d'être toutes référencées par Google même les plus récentes de la semaines dernière, alors que sur la courbe le taux d'indexation est nul depuis 1 semaine..
 
Nouveau WRInaute
bossboss a dit:
Kévin-bvs a dit:
Disallow: /*orderby=
Disallow: /*orderway=
Disallow: /*tag=
Disallow: /*id_currency=
Disallow: /*search_query=
Disallow: /*back=
Disallow: /*utm_source=
Disallow: /*utm_medium=
Disallow: /*utm_campaign=
Disallow: /*n=


Tout cela fait référence à du dynamique non? Normal donc si ton contenu augmente que les pages non indexées aussi puisque tu le demandes dans le robots.txt


Et supprimer cette partie du robots.txt ne serait pas une bonne chose ?
 
Olivier Duffez (admin)
Membre du personnel
il faut raisonner au cas par cas, selon chaque paramètre d'URL...
Par exemple les URL avec orderby ne doivent pas être indexées (et pas non plus crawlées)

Ce n'est pas forcément alarmant comme situation. Il faut plutôt te demander si le nb d'URL indexée correspond au nb d'URL que tu souhaites faire indexer. Est-ce le cas ?
 
Nouveau WRInaute
Bonjour,

Merci de ta réponse,

avec la commande "site:" je ressors 1600 résultats
Sur google web tools : il me dit qu'il y a 1280 pages indexées (courbe du haut) mais qui n'augmente plus depuis plus d'une semaine alors que les fiches sont bien indexées quand je les recherche

Sitemap : date d'envoi 208
88 dans l'index
Au final je vois pas trop à quoi ça correspond,c'est normal que ce soit si bas comparé au nombre de pages indexées ?


Après comment trouves t-on le nombre de pages qui devraient être indexées ?

Merci
 
Olivier Duffez (admin)
Membre du personnel
Kévin-bvs a dit:
Sitemap : date d'envoi 208
88 dans l'index
Au final je vois pas trop à quoi ça correspond,c'est normal que ce soit si bas comparé au nombre de pages indexées ?


Après comment trouves t-on le nombre de pages qui devraient être indexées ?

Merci
non ce n'est pas normal d'avoir aussi peu de pages indexées par rapport à celles fournies dans le sitemap

le nb de pages qui devraient être indexées est à déterminer par un script, sur-mesure par rapport à ton site.
d'ailleurs, comment est généré le sitemap ? les 208 URL représentent-elles 100% du site ?
 
Nouveau WRInaute
Normalement nous avons bien plus de 208 pages...
D'ailleurs sur google avec la commande "site:" nous avons 1600 résultats à tomber dans les recherches? Ce sont bien des pages indexées ?

En fait le sitemap c'est pas nous qui l'avons fait mais la société qui a créée le site.
 
Olivier Duffez (admin)
Membre du personnel
Kévin-bvs a dit:
Normalement nous avons bien plus de 208 pages...
D'ailleurs sur google avec la commande "site:" nous avons 1600 résultats à tomber dans les recherches? Ce sont bien des pages indexées ?
oui, c'est une estimation du nb de pages indexées. Mais moi je demande le nb de pages à indexer. Il peut être très différent et dans ce cas cela signifie qu'il y a des pb.
tu devrais faire l'exercice de créer un tableau listant pour chaque type de page le nombre d'URL
par exemple 23 catégories + 5645 fiches produit + XXX pages de tel type, etc.
c'est justement le boulot de la création d'un fichier sitemap exhaustif
 
Discussions similaires
Haut