Conséquences d'un disallow des ressources JSON ?

Nouveau WRInaute
Bonjour à tous,
Dans une optique d'optimisation du budget de crawl sur mon site, je me demande quelles peuvent être les conséquences de disallow les ressources en JSON de mon site (via robots.txt). (répartition du temps de crawl par type de ressource en photo, issu de GSC).

Quelles conséquences selon vous ?
Je peux donner des exemples précis de pages au besoin.
Merci pour les infos que vous pourrez me fournir.

Bonne journée
 

Fichiers joints

  • FireShot Capture 556 - Statistiques sur l'exploration - search.google.com.jpg
    FireShot Capture 556 - Statistiques sur l'exploration - search.google.com.jpg
    33 KB · Affichages: 8
WRInaute impliqué
Ça dépend à quoi servent les appels JS. Si le JSON est nécessaire pour afficher correctement la page, alors c'est risquer de rendre la page non accessible au robot d'exploration, ou du moins pas dans une version satisfaisante.

Cela n'en vaut probablement pas le coup :
En pratique, les sites confrontés à des problématiques de budget crawl sont des sites très importants, de l'ordre du million de pages.

Deux questions à se poser avant de se lancer dans de l'économie de crawlbudget :
1. le site a-t-il un problème d'exploration ? (les nouvelles pages ne sont pas consultées, les pages sont consultées moins fréquemment que leur mise à jour)
2. ce problème est-il lié à un dépassement du budget de crawl ? (le site fait l'objet d'une exploration intense, cette exploration porte effectivement sur des nouvelles pages ou des pages modifiées, mais celles-ci sont en trop grand nombre pour toutes être explorées)
 
Nouveau WRInaute
Merci pour vos contributions à tous les deux.

Aux deux questions posées par emualliug, les réponses sont non :) Le crawl est relativement régulier, notamment sur les pages à fort potentiel. De manière rationnelle, pas sûr qu'il soit judicieux de désindex le JSON.

Le postulat de base était que le JSON prenait 30% du budget de crawl du site. D'ailleurs, ça vous paraît normal ?

Pour mon information perso, ce genre de page sont elles utilisées par Google pour "afficher correctement les pages", à votre avis ?
- https://www.monemprunt.com/page-dat...-le-bon-profil-pour-une-banque/page-data.json
- https://www.monemprunt.com/page-data/sq/d/622870289.json

Merci bien.
 
WRInaute impliqué
30% du budget de crawl du site. D'ailleurs, ça vous paraît normal ?
Petite correction : 30 % des explorations, le total des explorations n'épuisant pas nécessairement le budget.
Pour mon information perso, ce genre de page sont elles utilisées par Google pour "afficher correctement les pages", à votre avis ?
Le premier JSON semble correspondre au contenu d'un article. Je suppose que c'est utilisé pour charger le contenu d'une page en JS sans recharger toute la page.

Sans faire une analyse poussée à fond, j'ai désactivé toutes les requêtes comportant ".json", depuis Firefox, c'est très simple: dans les outils de développements (F12), onglet "Réseau" puis l'icône "interdit", et ensuite clic sur "Activer le blocage des requêtes" et mettre ".json" dans le champ "Bloquer la ressource lorsque l'URL contient".

Résultat (assez prévisible ); lorsque le JSON n'est pas bloqué, l'article s'affiche sans recharger toute la page. Bon point : lorsque le JSON est bloqué, la page se charge quand même (mais en entier du coup).

Je ne suis pas forcément un grand fan de ces mécanismes qui sont un peu "contre-nature" par rapport à une navigation "classique", mais force est de constater qu'ils me semblent bien mis en place dans ton cas (il y a une solution de contournement en cas d'échec du chargement, l'URL est mise à jour, les fonctions page précédente et page suivante sont préservés, etc.). Du coup ça "allège" un peu le chargement de la page pour quelqu'un qui navigue d'une page à l'autre.

Mais a priori, pas indispensable non plus côté crawl, puisqu'il y a une solution de contournement (en tout cas pour ce que j'ai essayé). Ceci étant, je m'abstiendrai toutefois de bloquer ces ressources (ou toutes autres), je pense qu'il faut faire en sorte que la navigation offerte aux robots d'indexation soit la plus similaire possible à celle offerte aux internautes (à l'exception bien sûr de ce qui ne doit pas être indexé), d'autant plus que l'impossibilité d'accéder à certaines ressources, peut entraîner l'émission d'un avertissement sur la GSC (rien de grave en soi, mais bon ça force à faire le tri).
 
WRInaute accro
1. Le JSON devrait être servi avec l'entête : Content-Type: application/json
2. S'il sert en AJAX, il ne devrait pas être accessible sans test sur le strtolower($_SERVER['HTTP_X_REQUESTED_WITH']) == 'xmlhttprequest'
 
Nouveau WRInaute
Merci à vous deux pour vos dernières contributions ! Ca m'aide à comprendre certaines choses (et aussi à les expliquer à mon client) :)
C'est top d'avoir pris le temps.
Je vais regarder ça plus en détail.

A bientôt !
 
S
suppr334822
Guest
Quelles conséquences selon vous ?
Si vous désactivez l'accès aux ressources en JSON de votre site via le fichier robots.txt, cela peut avoir des conséquences sur le processus de crawl de votre site par les moteurs de recherche.

Voici quelques points à considérer :

  1. Perturbation de la collecte des données : Les ressources en JSON peuvent être importantes pour les moteurs de recherche afin de collecter des informations sur votre site. En interdisant l'accès à ces ressources, vous pourriez empêcher les moteurs de recherche de collecter certaines données importantes sur votre site, ce qui pourrait affecter négativement son classement dans les résultats de recherche.
  2. Crawl budget : Les moteurs de recherche disposent d'un budget de crawl limité pour chaque site web. Si vous désactivez l'accès aux ressources en JSON de votre site, cela peut réduire la quantité de temps et de ressources que les moteurs de recherche allouent à votre site lors du processus de crawl. Cela pourrait également affecter la vitesse de crawl et le temps nécessaire pour indexer les nouvelles pages de votre site.
  3. Impact sur les fonctionnalités de votre site : Les ressources en JSON sont souvent utilisées pour les fonctionnalités interactives sur votre site, telles que les formulaires, les boutons d'ajout au panier, etc. Si vous empêchez les moteurs de recherche d'accéder à ces ressources, cela pourrait entraîner des problèmes de fonctionnement pour ces fonctionnalités et donc une expérience utilisateur dégradée.
Dans l'ensemble, je vous recommande de réfléchir attentivement avant de désactiver l'accès aux ressources en JSON de votre site via le fichier robots.txt. Si vous souhaitez optimiser le budget de crawl de votre site, il existe d'autres moyens pour le faire, tels que l'optimisation de la structure de votre site, l'utilisation de balises meta pour contrôler l'indexation de certaines pages, et la suppression des pages obsolètes ou redondantes.

Voici ce que j'ai trouvé, en espérant que cela puisse vous être utile.
 
Discussions similaires
Haut