Message console "Indexée malgré blocage robot.txt"

  • Auteur de la discussion Auteur de la discussion Maubird
  • Date de début Date de début
Nouveau WRInaute
Bonjour
Par erreur j'avais 2 fichiers index de même contenu, index.html et index.php. J'ai voulu me débarrasser du index.php, du moins de ses effets sur l'indexage de index.html, mais sans succès. Pour cela, après avoir consulté tous les tutos de Google, j'ai fait pas mal d'essais pour désindexer index.php, par exemple :
- créer un fichier robots.text avec la directive "Allow index.php" pour être sur qu'il soit crawlé, et insérer la balise meta "noindex" dans le fichier index.php.
- supprimer carrément le fichier index.php du web et supprimer index.php de Google dans la search console.

La search console indique que le fichier index.html ne présente aucun problème, il est reconnu par Google, indexable, adapté aux mobiles. Après demande d'indexation, celle ci est mise normalement en liste d'attente. Mais chaque fois que j'inspecte son URL je constate que index.html n'a pas été indexée, et la couverture indique le message : "Indexéee malgré le blocage robot.txt". En consultant les détails, cela viendrait du index.php.

Bref, impossible d'indexer ma page d'accueil index.html. A cause du soi disant indexage de index.php que je ne parviens pas à supprimer. Toute aide serait pour moi très précieuse.
 
WRInaute accro
je propose (mais d'autres pourrons certainement avoir d'autres solutions) :
- de t'assurer que tu utilises bien robots.txt et non robot.txt
- de supprimer tout ce que tu as mis dans robots.txt
- de faire une redirection 301 de index.php vers index.html dans le .htaccess
- d'attendre (les balises noindex peuvent souvent prendre des mois avant d'être prises en compte par Google, une redirection 301 est en général plus rapide)
- t'assurer que tu n'as fait aucun lien en interne vers index.php (mais tu peux avoir des liens depuis d'autres sites et ça tu n'y peux rien, d'où la nécessité de faire une redirection 301)
- pour t'assurer que tu n'as pas de lien vers index.php tu peux utiliser un outil comme Screaming Frog mais il en existe d'autres
 
Nouveau WRInaute
Merci, je vais essayer
J'ai chargé le Screaming Frog. Il a l'air pas mal mais il faut que j'apprenne bien à l'utiliser. Après une 1° analyse, le fichier index.php est bien le seul mentionné, donc à priori il n'y a aucun lien qui pointe vers lui.
Cordialement
 
WRInaute accro
Je ne comprend pas. C'est index.html qui devrait être le seul mentionné. Là tu es en train de dire l'inverse.
C'est quoi ta vraie page ?
 
Nouveau WRInaute
Je ne comprend pas. C'est index.html qui devrait être le seul mentionné. Là tu es en train de dire l'inverse.
C'est quoi ta vraie page ?

Ma vraie page est index.html. Elle est indexable, du moins d'après Screaming Frog.
La page index.php n'est pas indexable et a le statut noindex

En fait il y avait quelques pages internes qui avaient 1 lien vers index.php. J'ai fait les corrections nécessaires.
Excuses pour le retard de réponse.
 
Nouveau WRInaute
Voilà ! C'est ça qu'il fallait vérifier. Et tu les as trouvées avec Screaming Frog ou autrement ?

Avec Screaming Frog, qui m'a l'air super.
Mais tu m'as donné une autre bonne idée, et je crois que je vais changer de fusil d'épaule. Je pense que du fait que index.hml est parcouru en premier, il vaut mieux que ce soit index.php qui soit le vrai fichier et qu'il vaut mieux rediriger le index.html vers le index.php. Ainsi on peut virer le contenu de index.html en ne risquant plus d'avoir des pages en double qui est la phobie de Google et qui contrarierait l'indexage de index.php.
De plus, à priori je n'aurai même pas à refaire tous mes liens qui pointent actuellement vers index.html..
Il faut alors bien sur virer la balise meta noindex de sorte que les 2 fichiers html et php soient crawlables.
Tout ça, sauf si tu penses que c'est pas une bonne idée. Je te tiendrai au courant.

Une autre question : Avec Screaming Frog on peut voir pas mal de choses, et en particulier toutes les pages qui sont indexables. Par contre je n'ai pas vu les pages qui sont indexees. On peut les voir dans la Search Console, mais l'une après l'autre et après avoir scruté chaque URL.
 
WRInaute accro
Une autre question : Avec Screaming Frog on peut voir pas mal de choses, et en particulier toutes les pages qui sont indexables. Par contre je n'ai pas vu les pages qui sont indexees. On peut les voir dans la Search Console, mais l'une après l'autre et après avoir scruté chaque URL.

Screaming Frog ne ressort pas les pages indexées sur gg. Les logiciels qui le font passent par l'api de gg et paye leur crawle. Un des plus connu est my ranking metrics

sinon soit tu as la console de gg

ou la commande site :
https://www.webrankinfo.com/dossiers/techniques/liste-pages-indexees-google
 
Olivier Duffez (admin)
Membre du personnel
Contrairement à ce qu'on pourrait croire, ce n'est pas si simple de savoir si des pages sont indexées, quand on en a plein à tester. La commande site: génère très vite des CAPTCHAS donc à la main ce n'est pas faisable, sauf pour des cas ponctuels et limités en taille.

En effet, My Ranking Metrics associe un crawl aux données de Search Console (et Analytics). ça permet de savoir combien de fois chaque URL indexable est apparue dans les SERP (donc a été indexée). Ce couplage est fait dans chacun des outils SEO de la plateforme, comme tu peux le voir dans cet exemple d'audit RM Tech.

Pour compléter, je t'invite aussi @Maubird à lire mon avis sur Screaming Frog. Plus que les fonctionnalités de chaque outil, il faut réfléchir à comment on l'utilise et surtout combien de temps on passe à manipuler les données en sortie (c'est le pb je trouve de ce logiciel).
 
Nouveau WRInaute
Contrairement à ce qu'on pourrait croire, ce n'est pas si simple de savoir si des pages sont indexées, quand on en a plein à tester. La commande site: génère très vite des CAPTCHAS donc à la main ce n'est pas faisable, sauf pour des cas ponctuels et limités en taille.

En effet, My Ranking Metrics associe un crawl aux données de Search Console (et Analytics). ça permet de savoir combien de fois chaque URL indexable est apparue dans les SERP (donc a été indexée). Ce couplage est fait dans chacun des outils SEO de la plateforme, comme tu peux le voir dans cet exemple d'audit RM Tech.

Pour compléter, je t'invite aussi @Maubird à lire mon avis sur Screaming Frog. Plus que les fonctionnalités de chaque outil, il faut réfléchir à comment on l'utilise et surtout combien de temps on passe à manipuler les données en sortie (c'est le pb je trouve de ce logiciel).

Merci beaucoup pour tous ces tuyaux
Cordialement
 
Nouveau WRInaute
Voilà ! C'est ça qu'il fallait vérifier. Et tu les as trouvées avec Screaming Frog ou autrement ?

Bonjour
Les modifications sont faites. La redirection marche bien. Il n'y a plus aucun blocage par robots.txt mais il y a toujours malgré tout le même message "indexee malgré blocage par robots.txt" venant du index.php. J'espère qu'il ne vont pas faire attendre la saint glinglin pour indexer ce fichier. Mais merci pour tes réponses et conseils.
 
Discussions similaires
Haut