WordPress Moins de la moitié de mes articles indexés

Nouveau WRInaute
Bonjour,

J'ai reçu une alerte de SEMrush me disant que je n'avais que 43 articles indexés dans mon sitemap, sur une petite centaine. Je creuse un peu, en effet je ne vois pas les articles de plusieurs catégories au sein du sitemap. Ces mêmes articles sont considérés comme "indexés mais pas par un sitemap" par la Search Console.

Je repère vite que ces articles appartiennent aux catégories exclues dans les paramètres de XML sitemap. Comme j'ai fait des pages par destination regroupant notamment tous les articles, je ne voulais pas que Google aille indexer les pages catégories et considérer ça comme du duplicate content.
Par exemple j'ai une page "vincent.voyage/norvege" avec plein d'infos pour laquelle la page "category/norvege" (le listing d'articles de base) fait doublon.

Comme ces pages destinations sont accessibles depuis la home, je pensais que Google allait tout de même crawer tout ça et juste exclure ces pages category, mais apparemment j'ai faux, n'est-ce pas? :confused: Ou peut-être que je fais quelque chose de travers (ça m'étonnerait pas, je me connais)

Si je n'exclue plus ces pages category, est ce que cela va être considéré comme du duplicate content et impacter mon ranking ou alors on s'en fout un peu finalement ? :D

Merci et bonne journée :)

upload_2020-7-17_15-12-42.png
upload_2020-7-17_15-13-10.png
 
Dernière édition:
WRInaute discret
Perso, j'aurais tout indexé et j'aurais utilisé une balise canonical pour palier au duplicate.
Je ne sais pas si c'est la meilleure solution.
 
Nouveau WRInaute
pourquoi avoir fait 2 pages différentes ? (ça complique la vie, la preuve)
Je trouvais que modifier une page category était bien plus compliqué avec mon thème+builder alors qu'en tant qu'article je pouvais facilement appliquer le template d'article que je souhaitais

Perso, j'aurais tout indexé et j'aurais utilisé une balise canonical pour palier au duplicate.
Je ne sais pas si c'est la meilleure solution.
Je vais regarder ça, merci :)
 
WRInaute impliqué
Tu confonds deux choses : le sitemap et l'indexation.

Le sitemap est un fichier généré par ton site qui a pour but d'aider googlebot (ou tout autre robot d'exploration / indexation) à identifier les pages à crawler.

Si une page figure dans le sitemap, il est très probable qu'elle soit explorée (mais pas forcément de suite, ni nécessairement un jour, notamment pas si les règles de robots.txt interdisent son exploration). Si une page n'y figure pas, ça n'empêche pas Google de l'explorer (comme tu le dis, si elle est liée depuis le site).

En résumé le contenu du sitemap ne correspond pas à la liste des pages indexées (ou qui seront indexées).

Si tu ne veux pas qu'une page soit indexée, l'exclure du sitemap est indifférent. La méthode à suivre est de prévoir une balise noindex dans le <head>.

Je trouve le sitemap très intéressant dans son concept, pour autant ce n'est pas forcément une killer feature pour le SEO. Google essaye de s'en affranchir : comprendre de lui-même comment fonctionne le site, déterminer son architecture, estimer la fréquence de modification, etc. sans qu'on lui fournisse un sitemap.

Au-delà d'un certain nombre d'URL à suivre, le sitemap peut vraiment aider, mais pour des sites plus modestes, ce n'est pas utile pour l'indexation. Cela permet cependant de suivre celle-ci, et s'assurer que toutes les pages du sitemap sont indexées.

Si je n'exclue plus ces pages category, est ce que cela va être considéré comme du duplicate content et impacter mon ranking ou alors on s'en fout un peu finalement ?

Je pense qu'on en fait trop sur le duplicate interne. Il ne faut pas s'imaginer que, parce que quelques pages sur le site sont similaires, le dit site va se prendre une pénalité de dingue. Certes, le contenu n'est pas optimisé, notamment parce que deux pages se font concurrence, donc ce n'est en effet pas idéal, mais à mon avis pas catastrophique non plus.

Pour ce qui concerne ton cas, la vraie questions que je me poserais c'est "est-ce que ces pages de catégories doivent être indexées ?".

La question de l"indexation des pages de catégories (ou de tags) est largement discutée (quelques exemples https://moz.com/community/q/category-pages-should-i-noindex-them, https://growthhackers.com/questions, /should-we-index-or-noindex-wordpress-category-tags-for-seo, https://webenso.com/all-in-one-seo-noindex-tags/).

Je pense que cela dépend des cas. Lorsque la catégorisation est mal faite (ce qui est très souvent le cas), la non-indexation est une option. C'est par exemple le cas lorsque les pages de catégorie n'ont chacune que très peu d'articles, et que les articles ont beaucoup de catégories. À la fois les pages de catégorie veut avoir un thin content, mais en plus, risques de générer du duplicate (parce que par exemple un article sur les photos du château de la Loire se trouverait le seul article des catégories "photo" "château" "loire").

Lorsque les catégories sont mieux utilisées, l'indexation peut s'envisager. Après tout, cela représente un intérêt pour l'internaute de voir tous les articles sur la Norvège, pourquoi pas en faire une page indexable.

Il est souvent conseillé de faire une page un peu plus détaillée qu'un simple catalogue d'article, avec une petite présentation permettant de placer quelques mots clés.

Par exemple, je trouve que ta page souvenirs.vincent.voyage/birmanie/ est plutôt une bonne approche pour en faire une page de catégorie. Je suis moins séduit par celle de souvenirs.vincent.voyage/norvege/, parce qu'il y a trop de choses, la liste des articles alourdi la page et elle ne répond pas au besoin simple d'avoir une liste des articles traitant de la Norvège.
 
Discussions similaires
Haut