Message console "Indexée malgré blocage robot.txt"

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Maubird, 4 Août 2019.

  1. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonjour
    Par erreur j'avais 2 fichiers index de même contenu, index.html et index.php. J'ai voulu me débarrasser du index.php, du moins de ses effets sur l'indexage de index.html, mais sans succès. Pour cela, après avoir consulté tous les tutos de Google, j'ai fait pas mal d'essais pour désindexer index.php, par exemple :
    - créer un fichier robots.text avec la directive "Allow index.php" pour être sur qu'il soit crawlé, et insérer la balise meta "noindex" dans le fichier index.php.
    - supprimer carrément le fichier index.php du web et supprimer index.php de Google dans la search console.

    La search console indique que le fichier index.html ne présente aucun problème, il est reconnu par Google, indexable, adapté aux mobiles. Après demande d'indexation, celle ci est mise normalement en liste d'attente. Mais chaque fois que j'inspecte son URL je constate que index.html n'a pas été indexée, et la couverture indique le message : "Indexéee malgré le blocage robot.txt". En consultant les détails, cela viendrait du index.php.

    Bref, impossible d'indexer ma page d'accueil index.html. A cause du soi disant indexage de index.php que je ne parviens pas à supprimer. Toute aide serait pour moi très précieuse.
     
  2. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 679
    J'aime reçus:
    75
    je propose (mais d'autres pourrons certainement avoir d'autres solutions) :
    - de t'assurer que tu utilises bien robots.txt et non robot.txt
    - de supprimer tout ce que tu as mis dans robots.txt
    - de faire une redirection 301 de index.php vers index.html dans le .htaccess
    - d'attendre (les balises noindex peuvent souvent prendre des mois avant d'être prises en compte par Google, une redirection 301 est en général plus rapide)
    - t'assurer que tu n'as fait aucun lien en interne vers index.php (mais tu peux avoir des liens depuis d'autres sites et ça tu n'y peux rien, d'où la nécessité de faire une redirection 301)
    - pour t'assurer que tu n'as pas de lien vers index.php tu peux utiliser un outil comme Screaming Frog mais il en existe d'autres
     
  3. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Merci, je vais essayer
    J'ai chargé le Screaming Frog. Il a l'air pas mal mais il faut que j'apprenne bien à l'utiliser. Après une 1° analyse, le fichier index.php est bien le seul mentionné, donc à priori il n'y a aucun lien qui pointe vers lui.
    Cordialement
     
  4. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 679
    J'aime reçus:
    75
    Je ne comprend pas. C'est index.html qui devrait être le seul mentionné. Là tu es en train de dire l'inverse.
    C'est quoi ta vraie page ?
     
  5. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Ma vraie page est index.html. Elle est indexable, du moins d'après Screaming Frog.
    La page index.php n'est pas indexable et a le statut noindex

    En fait il y avait quelques pages internes qui avaient 1 lien vers index.php. J'ai fait les corrections nécessaires.
    Excuses pour le retard de réponse.
     
  6. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 679
    J'aime reçus:
    75
    Voilà ! C'est ça qu'il fallait vérifier. Et tu les as trouvées avec Screaming Frog ou autrement ?
     
  7. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Avec Screaming Frog, qui m'a l'air super.
    Mais tu m'as donné une autre bonne idée, et je crois que je vais changer de fusil d'épaule. Je pense que du fait que index.hml est parcouru en premier, il vaut mieux que ce soit index.php qui soit le vrai fichier et qu'il vaut mieux rediriger le index.html vers le index.php. Ainsi on peut virer le contenu de index.html en ne risquant plus d'avoir des pages en double qui est la phobie de Google et qui contrarierait l'indexage de index.php.
    De plus, à priori je n'aurai même pas à refaire tous mes liens qui pointent actuellement vers index.html..
    Il faut alors bien sur virer la balise meta noindex de sorte que les 2 fichiers html et php soient crawlables.
    Tout ça, sauf si tu penses que c'est pas une bonne idée. Je te tiendrai au courant.

    Une autre question : Avec Screaming Frog on peut voir pas mal de choses, et en particulier toutes les pages qui sont indexables. Par contre je n'ai pas vu les pages qui sont indexees. On peut les voir dans la Search Console, mais l'une après l'autre et après avoir scruté chaque URL.
     
  8. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 360
    J'aime reçus:
    24
    Screaming Frog ne ressort pas les pages indexées sur gg. Les logiciels qui le font passent par l'api de gg et paye leur crawle. Un des plus connu est my ranking metrics

    sinon soit tu as la console de gg

    ou la commande site :
    https://www.webrankinfo.com/dossiers/techniques/liste-pages-indexees-google
     
  9. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 964
    J'aime reçus:
    289
    Contrairement à ce qu'on pourrait croire, ce n'est pas si simple de savoir si des pages sont indexées, quand on en a plein à tester. La commande site: génère très vite des CAPTCHAS donc à la main ce n'est pas faisable, sauf pour des cas ponctuels et limités en taille.

    En effet, My Ranking Metrics associe un crawl aux données de Search Console (et Analytics). ça permet de savoir combien de fois chaque URL indexable est apparue dans les SERP (donc a été indexée). Ce couplage est fait dans chacun des outils SEO de la plateforme, comme tu peux le voir dans cet exemple d'audit RM Tech.

    Pour compléter, je t'invite aussi @Maubird à lire mon avis sur Screaming Frog. Plus que les fonctionnalités de chaque outil, il faut réfléchir à comment on l'utilise et surtout combien de temps on passe à manipuler les données en sortie (c'est le pb je trouve de ce logiciel).
     
    KOogar apprécie ceci.
  10. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Merci beaucoup pour tous ces tuyaux
    Cordialement
     
  11. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
  12. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonjour
    Les modifications sont faites. La redirection marche bien. Il n'y a plus aucun blocage par robots.txt mais il y a toujours malgré tout le même message "indexee malgré blocage par robots.txt" venant du index.php. J'espère qu'il ne vont pas faire attendre la saint glinglin pour indexer ce fichier. Mais merci pour tes réponses et conseils.
     
  13. Maubird
    Maubird Nouveau WRInaute
    Inscrit:
    4 Août 2019
    Messages:
    8
    J'aime reçus:
    0
    Bonne nouvelle : J'ai pu enfin indexer index.php. Encore merci.
     
Chargement...
Similar Threads - console Indexée malgré Forum Date
Page 404 indexée sur googe search console Débuter en référencement 15 Février 2019
Aucunes images indexées dans search console Crawl et indexation Google, sitemaps 22 Août 2018
Search Console = de 5 millions a 1.3 million url indexées en 1 an Débuter en référencement 8 Juillet 2016
Google Search Console : Volume Pages Indexées louche Crawl et indexation Google, sitemaps 1 Juillet 2016
WordPress WooCommerce / Search Console / Champ “offerCount” manquant Problèmes de référencement spécifiques à vos sites Hier à 17:31
Supprimer les données Google image de son rapport Search Console Référencement Google 3 Octobre 2019
Probleme avec le crawl Mobile sur Search Console Crawl et indexation Google, sitemaps 14 Septembre 2019
Search Console Search Console va me tuer Crawl et indexation Google, sitemaps 9 Août 2019
Compteur de trafic fiable ? (Google Analytics, Search Console) Administration d'un site Web 26 Juillet 2019
Décalage entre le crawl et la search console Crawl et indexation Google, sitemaps 18 Juillet 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice