Indexation des pages : Google Search Console

WRInaute passionné
Salut à tous,

1) Dans la GSC, je trouve 3500 pages dans Pages => Indexation des pages => Exclue par la balise "noindex".

Première question : à quoi ça sert de lister des pages qui ont été exclue par une balise noindex ?

Deuxième question : je ne souhaite pas que Google indexe ces pages, j'ai donc mis dans le code html de ces pages une balise meta robot "noindex" et ces pages renvoie un code http 404. Est-ce la bonne manière de procéder pour qu'elles ne soient pas (plus) indéxées ? Si oui, pourquoi Google continue de crawler ces pages depuis des années et pourquoi il continue de les lister dans Exclue par la balise "noindex" ?

Troisième question : dans ces 3500 pages, il y a en beaucoup qui correspondent à un script php qui se trouve dans mon répertoire /scripts/mon_script.php, puis-je interdire via mon fichier robots.txt le crawl de mon répertoire /scripts/ aux crawlers ? Est-ce la bonne méthode pour que Google arrête de crawler toutes ces urls et qu'il les supprime de Pages => Indexation des pages => Exclue par la balise "noindex" ?

2) Dans la GSC, je trouve 2400 pages dans Pages => Indexation des pages => Page avec redirection.

Première question : je trouve dans la section Page avec redirection beaucoup de très ancienne urls en http. J'ai mis en place depuis des années une redirection des pages en http vers les pages en https et toutes les urls en http listées dans Page avec redirection renvoient bien la page en https, que faire de plus pour que Google arrête de crawler ces pages en http et qu'il arrête de les lister dans Pages => Indexation des pages => Page avec redirection ?

Deuxième question : il arrive parfois que des anciennes urls en http est une double redirection 301 du style http://www.mon-site.com/index.php?rub=ma_page a une redirection 301 vers https://www.mon-site.com/index.php?rub=ma_page puis une autre redirection 301 vers https://www.mon-site.com/ma-page.html est-ce gênant ? Si oui, comment solutionner ce problème de double redirection 301 ?

3) Est-ce que toutes urls (3500 exclue par la balise noindex + 2400 pages avec redirection) peuvent nuire au SEO de mon site et donc à son référencement ? Je pense notamment à l'une des dernières updates de Google son Google Helpful Content qui pourrait générer un signal négatif à l'échelle de mon site.

Merci pour vos réponses.
 
WRInaute occasionnel
Bonjour,
I
1) C'est pour vérifier qu'il est bien normal que ces pages soient en noindex. si c'est le cas et qu'elles doivent le rester, il peut être pertinent de les mettre en dusallow dans le robots.txt
2) C'est la bonne façon de faire et il est normal que les pages apparaissent dans "exlues par noindex". Par contre elles ne doivent pas renvoyer un 404, bizarre..
3) Oui, il faut faire un Disallow: /scripts/ dans le robots.txt

II
1) c'est parce qu'il y a encore des liens dans d'autres pages qui font référence à http. Il faut donc corriger les liens pour qu'ils pointent vers https.
2) Oui c'est gênant, corriger les liens pour qu'ils pointent directement vers l'url cible en https avec le nom mnémonique et non le paramètre PHP
3) Oui car elles sont considérées comme des erreurs et/ou des pages de faible qualité, donc mieux vaut corriger les liens et interdire au crawl celles qui sont non indexées ET qu'on ne souhaite pas indexer (si elles sont indexées, laisser la possibilité de crawler pour lire le noindex)
 
WRInaute passionné
Merci pour ta réponse.
3) Oui, il faut faire un Disallow: /scripts/ dans le robots.txt
En faisant cela, les 2400 urls qui sont dans la GSC Pages => Indexation des pages => Page avec redirection vont progressivement disparaitre ou pas ?

1) c'est parce qu'il y a encore des liens dans d'autres pages qui font référence à http. Il faut donc corriger les liens pour qu'ils pointent vers https.
Ce serait des liens en http qui seraient postés sur mon site ou bien sur d'autres sites ? Si c'est sur mon site, ça m'étonnerait beaucoup. Si c'est sur d'autres sites, j'ai pas la main pour changer le http et https de ces liens, comment faire alors ?

2) Oui c'est gênant, corriger les liens pour qu'ils pointent directement vers l'url cible en https avec le nom mnémonique et non le paramètre PHP
Comment puis-je corriger une très ancienne url en http si je n'ai pas la main pour la corriger ? Soit elle n'existe plus sur mon site, soit elle est postée sur un autre site.

Parfois Google m'invente des urls du style mon-site.com/ma-page.html?pseudo=Pseudo&type=0 (il me rajoute ?pseudo=Pseudo&type=0 après l'url), que faut-il faire dans ce cas là : renvoyer un code http 404 ou bien rediriger la page (avec un http 301) sans le ?pseudo=Pseudo&type=0 ?
 
Dernière édition:
WRInaute occasionnel
1) Petit à petit, oui, puisque GG va arrêter des les crawler
2) Est-ce que ces remontées sont récentes ? A priori GSC n'affiche que des erreurs issues du site qu'il crawle, donc pas de liens externes. Tu peux regarder l'inspection d'URL (la loupe), GG devrait dire ou il a trouvé la source du lien.
3) Même réponse, voir dans l'inspection d'URL si la source est donnée. Après c'est peut-être le thème, un filtre ou un formulaire de recherche qui renvoie ça.

Ce serait peut-être un peu plus simple avec la vraie URL pour analyser.
 
WRInaute passionné
2) Est-ce que ces remontées sont récentes ? A priori GSC n'affiche que des erreurs issues du site qu'il crawle, donc pas de liens externes. Tu peux regarder l'inspection d'URL (la loupe), GG devrait dire ou il a trouvé la source du lien.
Non ce n'est pas récent, certaines urls sont listées et crawlées depuis des années. Merci pour l'astuce de la loupe dans la GSC.

Voici quelques exemples d'urls que je trouve dans la GSC Pages => Indexation des pages => Page avec redirection :

http://www.diamants-infos.com/services/bagues-or-blanc-diamant.html&page=3
http://www.diamants-infos.com/services/bijou,299.html
https://www.diamants-infos.com/brut/processus-kimberley.html?pseudo_membre=Pseudo&type_abonnement=0
https://www.diamants-infos.com/brut/photos_diamants.php

Ces urls ci-dessus ont toutes été exploré encore une fois par Google ces 2 derniers mois.

A noter tout de même que j'ai paramétré dans la GSC une propriété "domaine" et que j'ai déclaré la version http et la https de mon site web. Je pense donc qu'il est normal que je trouve des urls en http et https dans Pages => Indexation des pages est-ce correct de procéder ainsi (une propriété "domaine" et déclarer la version http et la https de mon site web) ?

Autre question, j'ai des pages de produits que je ne souhaite pas faire indéxer, je n'ai pas mis dans le code html de ces pages une balise meta robots "noindex" mais j'ai mis dans le code html un lien <link rel="canonical" href="*******" /> qui renvoie vers la page canonicale de cette catégorie de produits que je souhaite faire indéxer par les moteurs de recherche, est-ce la bonne façon de procéder pour ne pas faire indéxer ces pages produits : pas de balise meta robots mais un lien canonical <link rel="canonical" href="*******" /> ?
 
Dernière édition:
WRInaute occasionnel
Prenons l'exemple de cette URL : http://www.diamants-infos.com/services/bijou,299.html
1) On a une première redirection qui fait pointer vers la même URL en HTTPS, normal
2) Une seconde redirection qui renvoie vers le nom exact de la page bijou-299.html

Alors pourquoi GG s'obstine-t-il à crawler l'adresse incorrecte ? Il ne s'obstine pas. C'est qu'il trouve un lien avec cette ancienne URL quelque part dans une page du site. Donc dans la "loupe" il faut regarder s'il indique la page qui appelle ce lien (mentionnée à "Page d'origine"). Ou alors, effectivement, il s'évertue à crawler le site en http parce que déclaré comme site existant, ce qui serait un non-sens dès lors qu'il y a une version chiffrée en https.

Pour l'URL : https://www.diamants-infos.com/brut/photos_diamants.php
Là i n'ya qu'une redirection qui pointe vers le bon nom de page photos-diamants.html. Pas de doutes, il y a forcément un lien avec l'ancienne URL qui traine quelque part --> "Loupe"-->"Page d'origine"

Dans GSC, à mon sens, soit on déclare un domaine, soit un site, mais pas les deux. Le domaine est surtout intéressant quand il y a des sous-domaines. sinon la simple URL de site en https suffit.

Pour le dernier point je ne suis pas assez connaisseur mais j'aurais tendance à dire que non, il vaut mieux mettre un noindex. Le canonical n'a pas cette vocation normalement, même si le fait d'indiquer que la page n'est pas canonique devrait en effet l'inciter à ne pas indexer. D'ailleurs les 2 ne s'excluent pas je pense.
 
WRInaute passionné
Prenons l'exemple de cette URL : http://www.diamants-infos.com/services/bijou,299.html
1) On a une première redirection qui fait pointer vers la même URL en HTTPS, normal
2) Une seconde redirection qui renvoie vers le nom exact de la page bijou-299.html

Alors pourquoi GG s'obstine-t-il à crawler l'adresse incorrecte ? Il ne s'obstine pas. C'est qu'il trouve un lien avec cette ancienne URL quelque part dans une page du site. Donc dans la "loupe" il faut regarder s'il indique la page qui appelle ce lien (mentionnée à "Page d'origine"). Ou alors, effectivement, il s'évertue à crawler le site en http parce que déclaré comme site existant, ce qui serait un non-sens dès lors qu'il y a une version chiffrée en https.
Avec la loupe dans la GSC, les pages d'origines de cette URL http://www.diamants-infos.com/services/bijou,299.html sont :

http://www.diamants-infos.com/services/bijoux.html&page=27
http://www.diamants-infos.com/services/bijoux.html&page=8
http://www.diamants-infos.com/services/bijoux.html

Mais si tu regardes dans le code source de ces 3 pages ci-dessus il n'y aucune url http://www.diamants-infos.com/services/bijou,299.html

Pour l'URL : https://www.diamants-infos.com/brut/photos_diamants.php
Là i n'ya qu'une redirection qui pointe vers le bon nom de page photos-diamants.html. Pas de doutes, il y a forcément un lien avec l'ancienne URL qui traine quelque part --> "Loupe"-->"Page d'origine"

Avec la loupe dans la GSC, la page d'origine de cette url https://www.diamants-infos.com/brut/photos_diamants.php est http://www.diamants-infos.com/brut/photos_diamants.php c'est la version en http, mais la version en http n'est plus accessible puisque toutes ces anciennes url en http sont renvoyées (code 301) vers leur version https, que faire de plus ? :(

Dans GSC, à mon sens, soit on déclare un domaine, soit un site, mais pas les deux. Le domaine est surtout intéressant quand il y a des sous-domaines. sinon la simple URL de site en https suffit.
D'après Google https://support.google.com/webmasters/answer/34592?hl=fr, si l'on crée une propriété avec préfixe d'url (cela comprend uniquement les URL avec le préfixe exact indiqué, y compris le protocole (http/https).) seule la version http ou https déclarée sera retenue. Si l'on déclare http://example.com les versions https://example.com/robes/1234 - https seront non inclus et http://www.example.com/robes/1234 - www. seront non inclus.

Si l'on crée une propriété de domaine, toutes les versions seront retenues : qui comprend tous les sous-domaines (m, www, etc.) et différents protocoles (HTTP, HTTPS, FTP).

J'ai donc pour ma part, créée une propriété de domaine + une propriété avec préfixe d'url en http + une propriété avec préfixe d'url en https : est-ce la bonne façon de faire ?
 
WRInaute occasionnel
Pour le premier point on va donc considérer que GG a conservé ça quelque part en cache dans son index.
Pour le reste, s'il n'y a pas de sous-domaines, pour ma part je ne déclare que les url en https, pas de domaine, pour éviter les cas de figure rencontrés
 
WRInaute passionné
Merci pour ton aide et tes réponses.

C'est quand même dingue qu'on est pas une idée fiable de ce qu'il faut déclarer comme propriété dans la GSC : propriété domaine seule (sans url en http et https), propriété domaine avec une url en https, ou bien propriété avec préfixe d'url avec une url en https.

J'ai quand même posé la question sur le forum Google d'aide pour les webmasters.
 
Dernière édition:
WRInaute occasionnel
Au contraire, le tableau dans ton lien décrit bien les cas de figure. Ca me semble plutôt clair :
1709930020375.png
 
WRInaute passionné
Oui les 2 possibilités de propriétés (préfixe d'url et de domaine) sont bien expliquées mais laquelle utiliser, laquelle est recommandée ?
 
WRInaute occasionnel
Et bien précisément, c'est fonction de son contexte :
- Juste un site en HTTPS : Préfixe URL
- Un site qui a des sous-domaines (multilingue), qui expose un FTP : Domaine

Donc il faut faire l'inventaire de ce que l'on expose.
 
Nouveau WRInaute
Bonjour,

Merci de votre assistance pomination.
Il réussi à résoudre ces problèmes rapidement.
Le fait d'avoir un grand nombre de pages exclues par la balise "noindex" ou comportant des redirections peut avoir un impact négatif sur le référencement de votre site.
 
Dernière édition par un modérateur:
Olivier Duffez (admin)
Membre du personnel
je ne sais pas si Google fournit toujours une "raison" pour un crawl
et toi, tu ne sais pas comment il a trouvé l'url du type xxxxx?rub=conseil ? il n'y avait pas de lien interne, ou de formulaire ?
 
WRInaute passionné
et toi, tu ne sais pas comment il a trouvé l'url du type xxxxx?rub=conseil ? il n'y avait pas de lien interne, ou de formulaire ?
Non aucune idée, je ne sais pas d'où il sort ce type d'urls et surtout pourquoi il continue de les crawler puisqu'elles ont une redirection 301 :(
 
WRInaute occasionnel
Mon constat personnel sur ce sujet, c'est qu'à un moment donné de la vie du site, l'URL en question a existé, et quand c'est le bot smartphone qui l'a visitée, l'url est conservée en cache pour être revisitée plus tard.
Moi je constate des "visites" sur des URL que j'ai pourtant corrigées/supprimées depuis longtemps.
Le phénomène n'a pas lieu avec le bot Ordinateur.
Je n'ai pas trouvé de solution pour m'en départir.
 
WRInaute passionné
Je n'ai pas trouvé de solution pour m'en départir.
Merci pour ta réponse. Je ne suis donc pas le seul avec ce problème ;)

Si tu as une dizaine d'urls comme celles-là, ça peut encore aller, mais quand il te crawl des centaines d'urls bizarres, est-ce que ça peut pas finir par pénaliser le site entier avec leurs foutus algorithmes qui ont été déployé ces derniers mois ?
 
Dernière édition:
WRInaute occasionnel
Bah en tout cas, il persiste à les visiter pour aboutir, forcément, à un 404.. Donc j'imagine que ça ne donne pas un bon signal
 
Discussions similaires
Haut