Indexation des pages : Google Search Console

poupilou · 29 Février 2024

Salut à tous,

1) Dans la GSC, je trouve 3500 pages dans Pages => Indexation des pages => Exclue par la balise "noindex".

Première question : à quoi ça sert de lister des pages qui ont été exclue par une balise noindex ?

Deuxième question : je ne souhaite pas que Google indexe ces pages, j'ai donc mis dans le code html de ces pages une balise meta robot "noindex" et ces pages renvoie un code http 404. Est-ce la bonne manière de procéder pour qu'elles ne soient pas (plus) indéxées ? Si oui, pourquoi Google continue de crawler ces pages depuis des années et pourquoi il continue de les lister dans Exclue par la balise "noindex" ?

Troisième question : dans ces 3500 pages, il y a en beaucoup qui correspondent à un script php qui se trouve dans mon répertoire /scripts/mon_script.php, puis-je interdire via mon fichier robots.txt le crawl de mon répertoire /scripts/ aux crawlers ? Est-ce la bonne méthode pour que Google arrête de crawler toutes ces urls et qu'il les supprime de Pages => Indexation des pages => Exclue par la balise "noindex" ?

2) Dans la GSC, je trouve 2400 pages dans Pages => Indexation des pages => Page avec redirection.

Première question : je trouve dans la section Page avec redirection beaucoup de très ancienne urls en http. J'ai mis en place depuis des années une redirection des pages en http vers les pages en https et toutes les urls en http listées dans Page avec redirection renvoient bien la page en https, que faire de plus pour que Google arrête de crawler ces pages en http et qu'il arrête de les lister dans Pages => Indexation des pages => Page avec redirection ?

Deuxième question : il arrive parfois que des anciennes urls en http est une double redirection 301 du style http://www.mon-site.com/index.php?rub=ma_page a une redirection 301 vers https://www.mon-site.com/index.php?rub=ma_page puis une autre redirection 301 vers https://www.mon-site.com/ma-page.html est-ce gênant ? Si oui, comment solutionner ce problème de double redirection 301 ?

3) Est-ce que toutes urls (3500 exclue par la balise noindex + 2400 pages avec redirection) peuvent nuire au SEO de mon site et donc à son référencement ? Je pense notamment à l'une des dernières updates de Google son Google Helpful Content qui pourrait générer un signal négatif à l'échelle de mon site.

Merci pour vos réponses.

pomination · 29 Février 2024

Bonjour,
I
1) C'est pour vérifier qu'il est bien normal que ces pages soient en noindex. si c'est le cas et qu'elles doivent le rester, il peut être pertinent de les mettre en dusallow dans le robots.txt
2) C'est la bonne façon de faire et il est normal que les pages apparaissent dans "exlues par noindex". Par contre elles ne doivent pas renvoyer un 404, bizarre..
3) Oui, il faut faire un Disallow: /scripts/ dans le robots.txt

II
1) c'est parce qu'il y a encore des liens dans d'autres pages qui font référence à http. Il faut donc corriger les liens pour qu'ils pointent vers https.
2) Oui c'est gênant, corriger les liens pour qu'ils pointent directement vers l'url cible en https avec le nom mnémonique et non le paramètre PHP
3) Oui car elles sont considérées comme des erreurs et/ou des pages de faible qualité, donc mieux vaut corriger les liens et interdire au crawl celles qui sont non indexées ET qu'on ne souhaite pas indexer (si elles sont indexées, laisser la possibilité de crawler pour lire le noindex)

poupilou · 4 Mars 2024

Merci pour ta réponse.

pomination a dit:
3) Oui, il faut faire un Disallow: /scripts/ dans le robots.txt

En faisant cela, les 2400 urls qui sont dans la GSC Pages => Indexation des pages => Page avec redirection vont progressivement disparaitre ou pas ?

pomination a dit:
1) c'est parce qu'il y a encore des liens dans d'autres pages qui font référence à http. Il faut donc corriger les liens pour qu'ils pointent vers https.

Ce serait des liens en http qui seraient postés sur mon site ou bien sur d'autres sites ? Si c'est sur mon site, ça m'étonnerait beaucoup. Si c'est sur d'autres sites, j'ai pas la main pour changer le http et https de ces liens, comment faire alors ?

pomination a dit:
2) Oui c'est gênant, corriger les liens pour qu'ils pointent directement vers l'url cible en https avec le nom mnémonique et non le paramètre PHP

Comment puis-je corriger une très ancienne url en http si je n'ai pas la main pour la corriger ? Soit elle n'existe plus sur mon site, soit elle est postée sur un autre site.

Parfois Google m'invente des urls du style mon-site.com/ma-page.html?pseudo=Pseudo&type=0 (il me rajoute ?pseudo=Pseudo&type=0 après l'url), que faut-il faire dans ce cas là : renvoyer un code http 404 ou bien rediriger la page (avec un http 301) sans le ?pseudo=Pseudo&type=0 ?

pomination · 4 Mars 2024

1) Petit à petit, oui, puisque GG va arrêter des les crawler
2) Est-ce que ces remontées sont récentes ? A priori GSC n'affiche que des erreurs issues du site qu'il crawle, donc pas de liens externes. Tu peux regarder l'inspection d'URL (la loupe), GG devrait dire ou il a trouvé la source du lien.
3) Même réponse, voir dans l'inspection d'URL si la source est donnée. Après c'est peut-être le thème, un filtre ou un formulaire de recherche qui renvoie ça.

Ce serait peut-être un peu plus simple avec la vraie URL pour analyser.

poupilou · 5 Mars 2024

pomination a dit:
2) Est-ce que ces remontées sont récentes ? A priori GSC n'affiche que des erreurs issues du site qu'il crawle, donc pas de liens externes. Tu peux regarder l'inspection d'URL (la loupe), GG devrait dire ou il a trouvé la source du lien.

Non ce n'est pas récent, certaines urls sont listées et crawlées depuis des années. Merci pour l'astuce de la loupe dans la GSC.

Voici quelques exemples d'urls que je trouve dans la GSC Pages => Indexation des pages => Page avec redirection :

http://www.diamants-infos.com/services/bagues-or-blanc-diamant.html&page=3
http://www.diamants-infos.com/services/bijou,299.html
https://www.diamants-infos.com/brut/processus-kimberley.html?pseudo_membre=Pseudo&type_abonnement=0
https://www.diamants-infos.com/brut/photos_diamants.php

Ces urls ci-dessus ont toutes été exploré encore une fois par Google ces 2 derniers mois.

A noter tout de même que j'ai paramétré dans la GSC une propriété "domaine" et que j'ai déclaré la version http et la https de mon site web. Je pense donc qu'il est normal que je trouve des urls en http et https dans Pages => Indexation des pages est-ce correct de procéder ainsi (une propriété "domaine" et déclarer la version http et la https de mon site web) ?

Autre question, j'ai des pages de produits que je ne souhaite pas faire indéxer, je n'ai pas mis dans le code html de ces pages une balise meta robots "noindex" mais j'ai mis dans le code html un lien <link rel="canonical" href="*******" /> qui renvoie vers la page canonicale de cette catégorie de produits que je souhaite faire indéxer par les moteurs de recherche, est-ce la bonne façon de procéder pour ne pas faire indéxer ces pages produits : pas de balise meta robots mais un lien canonical <link rel="canonical" href="*******" /> ?

pomination · 6 Mars 2024

Prenons l'exemple de cette URL : http://www.diamants-infos.com/services/bijou,299.html
1) On a une première redirection qui fait pointer vers la même URL en HTTPS, normal
2) Une seconde redirection qui renvoie vers le nom exact de la page bijou-299.html

Alors pourquoi GG s'obstine-t-il à crawler l'adresse incorrecte ? Il ne s'obstine pas. C'est qu'il trouve un lien avec cette ancienne URL quelque part dans une page du site. Donc dans la "loupe" il faut regarder s'il indique la page qui appelle ce lien (mentionnée à "Page d'origine"). Ou alors, effectivement, il s'évertue à crawler le site en http parce que déclaré comme site existant, ce qui serait un non-sens dès lors qu'il y a une version chiffrée en https.

Pour l'URL : https://www.diamants-infos.com/brut/photos_diamants.php
Là i n'ya qu'une redirection qui pointe vers le bon nom de page photos-diamants.html. Pas de doutes, il y a forcément un lien avec l'ancienne URL qui traine quelque part --> "Loupe"-->"Page d'origine"

Dans GSC, à mon sens, soit on déclare un domaine, soit un site, mais pas les deux. Le domaine est surtout intéressant quand il y a des sous-domaines. sinon la simple URL de site en https suffit.

Pour le dernier point je ne suis pas assez connaisseur mais j'aurais tendance à dire que non, il vaut mieux mettre un noindex. Le canonical n'a pas cette vocation normalement, même si le fait d'indiquer que la page n'est pas canonique devrait en effet l'inciter à ne pas indexer. D'ailleurs les 2 ne s'excluent pas je pense.

poupilou · 7 Mars 2024

pomination a dit:
Prenons l'exemple de cette URL : http://www.diamants-infos.com/services/bijou,299.html
1) On a une première redirection qui fait pointer vers la même URL en HTTPS, normal
2) Une seconde redirection qui renvoie vers le nom exact de la page bijou-299.html

Alors pourquoi GG s'obstine-t-il à crawler l'adresse incorrecte ? Il ne s'obstine pas. C'est qu'il trouve un lien avec cette ancienne URL quelque part dans une page du site. Donc dans la "loupe" il faut regarder s'il indique la page qui appelle ce lien (mentionnée à "Page d'origine"). Ou alors, effectivement, il s'évertue à crawler le site en http parce que déclaré comme site existant, ce qui serait un non-sens dès lors qu'il y a une version chiffrée en https.

Avec la loupe dans la GSC, les pages d'origines de cette URL http://www.diamants-infos.com/services/bijou,299.html sont :

http://www.diamants-infos.com/services/bijoux.html&page=27
http://www.diamants-infos.com/services/bijoux.html&page=8
http://www.diamants-infos.com/services/bijoux.html

Mais si tu regardes dans le code source de ces 3 pages ci-dessus il n'y aucune url http://www.diamants-infos.com/services/bijou,299.html

pomination a dit:
Pour l'URL : https://www.diamants-infos.com/brut/photos_diamants.php
Là i n'ya qu'une redirection qui pointe vers le bon nom de page photos-diamants.html. Pas de doutes, il y a forcément un lien avec l'ancienne URL qui traine quelque part --> "Loupe"-->"Page d'origine"

Avec la loupe dans la GSC, la page d'origine de cette url https://www.diamants-infos.com/brut/photos_diamants.php est http://www.diamants-infos.com/brut/photos_diamants.php c'est la version en http, mais la version en http n'est plus accessible puisque toutes ces anciennes url en http sont renvoyées (code 301) vers leur version https, que faire de plus ?

pomination a dit:
Dans GSC, à mon sens, soit on déclare un domaine, soit un site, mais pas les deux. Le domaine est surtout intéressant quand il y a des sous-domaines. sinon la simple URL de site en https suffit.

D'après Google https://support.google.com/webmasters/answer/34592?hl=fr, si l'on crée une propriété avec préfixe d'url (cela comprend uniquement les URL avec le préfixe exact indiqué, y compris le protocole (http/https).) seule la version http ou https déclarée sera retenue. Si l'on déclare http://example.com les versions https://example.com/robes/1234 - https seront non inclus et http://www.example.com/robes/1234 - www. seront non inclus.

Si l'on crée une propriété de domaine, toutes les versions seront retenues : qui comprend tous les sous-domaines (m, www, etc.) et différents protocoles (HTTP, HTTPS, FTP).

J'ai donc pour ma part, créée une propriété de domaine + une propriété avec préfixe d'url en http + une propriété avec préfixe d'url en https : est-ce la bonne façon de faire ?

pomination · 7 Mars 2024

Pour le premier point on va donc considérer que GG a conservé ça quelque part en cache dans son index.
Pour le reste, s'il n'y a pas de sous-domaines, pour ma part je ne déclare que les url en https, pas de domaine, pour éviter les cas de figure rencontrés

poupilou · 8 Mars 2024

Merci pour ton aide et tes réponses.

C'est quand même dingue qu'on est pas une idée fiable de ce qu'il faut déclarer comme propriété dans la GSC : propriété domaine seule (sans url en http et https), propriété domaine avec une url en https, ou bien propriété avec préfixe d'url avec une url en https.

J'ai quand même posé la question sur le forum Google d'aide pour les webmasters.

pomination · 8 Mars 2024

Au contraire, le tableau dans ton lien décrit bien les cas de figure. Ca me semble plutôt clair :

poupilou · 12 Mars 2024

Oui les 2 possibilités de propriétés (préfixe d'url et de domaine) sont bien expliquées mais laquelle utiliser, laquelle est recommandée ?

pomination · 12 Mars 2024

Et bien précisément, c'est fonction de son contexte :
- Juste un site en HTTPS : Préfixe URL
- Un site qui a des sous-domaines (multilingue), qui expose un FTP : Domaine

Donc il faut faire l'inventaire de ce que l'on expose.

Valentin · 19 Mars 2024

Bonjour,

Merci de votre assistance pomination.
Il réussi à résoudre ces problèmes rapidement.
Le fait d'avoir un grand nombre de pages exclues par la balise "noindex" ou comportant des redirections peut avoir un impact négatif sur le référencement de votre site.

poupilou · 21 Mars 2024

Dans la GSC => Indexation des pages => Page avec redirection, Google crawl cette url https://www.diamants-infos.com/vente/conseil-achat-diamant.html?rub=conseil mais lorsque j'utilise la loupe dans la GSC pour cette url, voici le résultat :

Aucune page d'origine n'a été trouvé pour cette url ! Ou a-t-il pu trouver cette url et pourquoi il continue à la crawler (dernier crawl le 20 mars 2024) ?

poupilou · 21 Mars 2024

Même chose pour ces autres urls :

WebRankInfo · 21 Mars 2024

je ne sais pas si Google fournit toujours une "raison" pour un crawl
et toi, tu ne sais pas comment il a trouvé l'url du type xxxxx?rub=conseil ? il n'y avait pas de lien interne, ou de formulaire ?

poupilou · 21 Mars 2024

WebRankInfo a dit:
et toi, tu ne sais pas comment il a trouvé l'url du type xxxxx?rub=conseil ? il n'y avait pas de lien interne, ou de formulaire ?

Non aucune idée, je ne sais pas d'où il sort ce type d'urls et surtout pourquoi il continue de les crawler puisqu'elles ont une redirection 301

pomination · 21 Mars 2024

Mon constat personnel sur ce sujet, c'est qu'à un moment donné de la vie du site, l'URL en question a existé, et quand c'est le bot smartphone qui l'a visitée, l'url est conservée en cache pour être revisitée plus tard.
Moi je constate des "visites" sur des URL que j'ai pourtant corrigées/supprimées depuis longtemps.
Le phénomène n'a pas lieu avec le bot Ordinateur.
Je n'ai pas trouvé de solution pour m'en départir.

poupilou · 22 Mars 2024

pomination a dit:
Je n'ai pas trouvé de solution pour m'en départir.

Merci pour ta réponse. Je ne suis donc pas le seul avec ce problème

Si tu as une dizaine d'urls comme celles-là, ça peut encore aller, mais quand il te crawl des centaines d'urls bizarres, est-ce que ça peut pas finir par pénaliser le site entier avec leurs foutus algorithmes qui ont été déployé ces derniers mois ?

pomination · 23 Mars 2024

Bah en tout cas, il persiste à les visiter pour aboutir, forcément, à un 404.. Donc j'imagine que ça ne donne pas un bon signal