Nettoyage d'un forum vieux de 15 ans !

Nouveau WRInaute
Bonjour,

Je suis l’administrateur d'un site
https://www.australia-australie.com/
qui possède un forum
https://www.australia-australie.com/forums/
depuis 2002.

En réalisant un audit avec l'outil My Ranking Metrics, j'ai découvert l'état déplorable (pour ne pas dire plus) de ce forum vis à vis des critères de Google et particulièrement de la qualité des pages (surtout en terme de texte )

Ce forum a 85 000 topics, mais un pourcentage énorme de pages sont des sujets...sans réponses donc avec peu de texte.
Faute de retirer régulièrement les topics sans réponses, ils se sont accumulés et le site souffre je pense beaucoup pour le référencement alors que la partie blog (de 1000 pages) est depuis peu bien optimisé pour le SEO toujours grâce à un audit.

J'ai vraiment la certitude que ce forum tire le site vers le bas, c'est une enclume qui nous fait couler dans les résultats (surtout depuis l'algo Fred ? - probable - 25 % de visiteurs en moins depuis mi Mars 2017 )

Nous allons procéder par étape en se basant sur les rapports de l'outil My Ranking Metrics pour faire le ménage, mais en premier il me semble judicieux de retirer toutes ces topics sans aucune réponses (sauf les récents évidemment )

J'aimerai votre avis sur deux méthodes que je pense utiliser, sont -elles judicieuses ?
Je ne voudrai pas faire d'erreurs.

1ere méthode

1/ On va lister (en bd) les Url des topics sans réponses ( On estime a plusieurs dizaines de milliers) avec donc un texte dont le contenu est non seulement inutile mais pauvre.
2/ On ajouterait une balise Noindex a ces topics
3 / Un sitemap serait créé avec toutes les urls des topics à désindexer pour l'ajouter en Search Console
4/ Quand le sitemap serait traité, on effacerait en BD tous les topics désindexés par Google.

2eme méthode

1/ idem 1 de la précédente
2/ On efface sans délai toutes les url en BD
3/ On ajoute dans le fichier Htaccess la liste des URL avec un code serveur 410
4/ On donne à la Search Console un sitemap avec toutes les urls des topics à désindexer.


Je ne sais pas si ces "méthodes" que j'ai préparé sont justes (n'étant pas un expert en SEO j'ai lu pas mal d'articles de ce site pour construire ces deux "méthodes".)

Pour la méthode 1 :
Voici mes questions,
comment savoir si un sitemap est traité ?
ou plus exactement l'avancement du traitement dans SC ?
et combien de temps cela peut il prendre ?

Pour la méthode 2 :

j'ai peur qu'ajouter des dizaines de milliers d'url avec le code 410 dans le fichier htaccess ne pose pb ?
bug serveur, saturation ?

Merci de votre aide pour cette étape de nettoyage de ce forum bien malade ! pas loin de "l'agonie"

Christian
 
Membre Honoré
Bonjour,

La première chose à vérifier sont les messages sans réponses, s'ils ont été édités avec des réponses, si ce sont des sujets qui peuvent encore intéresser (sans avoir besoin de réponses), etc. pour ainsi nettoyer correctement.

Pour les sujets sans réponses anciens, vous pouvez les désindexer ou même les supprimer (cf. d'anciens sujets du forum pour détails).
Pour le sitemap, il faudra vérifier qu'il est à jour (ou si besoin d'un développement spécifique).

Vous pourrez aussi améliorer le site Internet et optimiser aussi le forum.

N'hésitez pas à vous présenter au forum : ici et entre deux messages présenter vos avis aussi sur les sujets : ici, pour aider les autres personnes de la communauté d'entraide.

Temps de réponse : 5 minutes.
Cordialement.
 
Nouveau WRInaute
Je viens de me présenter ;-) je devrais le savoir en tant qu'admin d'un forum (même à l'agonie... le forum)

merci de votre réponse

Sinon les deux méthodes que je pense appliquer vous semble pertinente techniquement parlant ?
merci de vos conseils, je pensais effectivement les suivre.
 
Membre Honoré
Bonjour,

Plutôt une vérification des anciens sujets, savoir ceux qui peuvent être encore utiles et le retrait progressif des autres.
Revoir le forum serait mieux (mais après il faudrait prévoir une stratégie). Le forum et site sont super lent. :(

Temps de réponse : 5 minutes.
Cordialement.
 
Nouveau WRInaute
A part de rares cas (que nous connaissons) l'immense majorité des Topics sans réponses n'a pas de valeur.( vu la nature de notre site, sur le voyage, ce sont dans l'immense majorité des questions qui sont restés sans réponse)

Sinon en faisant abstraction de tel ou tel topics que je garde ou je désindexe de Google (en fonction de critère que je définis ou de vos conseils)
mes deux méthodes ( 1 et 2 sur mon premier message) sont donc valables sous l'aspect technique ?
Vous ne vous êtes pas exprimé sur ce point, dois-je comprendre que ce sont de bonnes pratiques ?

pour la lenteur du site, la partie blog est rapide (normalement) j'ai fait un audit Rmtech des pages et 90 % des pages étaient assez rapides
cette partie blog a un cache, le serveur est récent et puissant et le php est en version 7.
pour le forum c'est peut être un peu lent, mais de même j'ai fait ce week end un audit et c'était relativement acceptable 12 % de pages sup à 600 millisecondes.

donc je suis surpris...vous avez fait une mesure ? ou c'est juste votre impression en naviguant ?
 
Membre Honoré
Bonjour,

Pour le nettoyage c'est suivant les cas, certains préfèrent tout nettoyer d'un coup, d'autres progressivement, même si le mieux est le nettoyage progressif à la racine (si un sujet n'a pas de réponse après x jours, il ne sert a rien la majorité du temps). Pour la vitesse, chacun a ses outils et techniques.

Temps de réponse : 5 minutes.
Cordialement.
 
Olivier Duffez (admin)
Membre du personnel
J'ai fait en partie la méthode 2 pour le forum WebRankInfo qui a le même problème de topics sans réponse (comme tous les forums aussi vieux en fait)
c'est sans doute plus long à faire désindexer que la méthode 1 (mais on peut aussi envoyer un noindex par entête http)

en plus de regarder le nb de sessions générées en SEO (que te donne RM Tech pour chaque page indexable), je te conseille de regarder aussi le nb d'impressions Search Console (que RM Tech te donne aussi...). Une page qui n'est jamais apparue dans les SERP dans les 90 derniers jours, elle ne vaut pas grand chose. Si en plus c'est une vieille discussion sans réponse, alors tu sais quoi en faire !
 
Nouveau WRInaute
Merci de tes précieux conseils, ça recoupe mon analyse et les solutions que m'ont été inspiré par l'expertise qui transpire sur ce site ;-)
je suis effectivement aussi en train d’analyser le fichier de conclusion de l'audit Rm tech qui croise données Analytics/Search et crawl de ton moteur pour affiner mon nettoyage.
C'est riche d'enseignements.
Je reviendrai ici pour partager les résultats si google apprécie mon travail. Merci
 
Nouveau WRInaute
Webrankinfo,

Juste une petite précision avant que nous entreprenions ce "nettoyage de printemps"
dans ma "méthode 2" qui n'est que la première étape d'un nettoyage plus qualitatif qui suivra, j'ajoute les url avec le code 410 dans le fichier htaccess, je pense avoir entre 25 000 et 35 000 urls à y ajouter (Topics sans réponses)

Est que tu as expérimenté un tel ajout en masse d'urls dans le fichier htaccess, existe il des limitations techniques ?
est ce simplement la "puissance" du serveur qui limite l'ajout dans ce fichier car cela pourrai ralentir le chargement des pages.

Merci et bonne journée :)
 
Olivier Duffez (admin)
Membre du personnel
Je n'ai jamais osé dépasser quelques centaines de lignes ! et encore, mieux vaut le mettre dans le fichier de conf du vhost que dans le .htaccess
Dans ton cas, je pense qu'il vaut mieux gérer ça dans un script PHP.
Peut-être que des développeurs qui nous lisent auront des conseils à ce niveau.
 
WRInaute occasionnel
Bonjour Yallingup,

Effectivement un script php est une bonne idée.
Il faut qu'il soit exécuté le plus tôt possible afin de retourner le code 410 le plus rapidement possible.

Pour cela tu peux mettre l'ensemble de tes urls
- en bd
- dans un fichier csv ou json (par exemple)
- ...

Le script va tester si l'url courante est dans la structure choisie (bd, fichier, ...) si oui alors ca renvoie une entete 410 sinon ca continue normalement.

Pour que le script soit encore plus rapide à exécuté (afin de ne pas ralentir le fonctionnement normal du forum) tu peux aussi stocker l'ensemble des urls sur un serveur Redis (ca peut être le même serveur physique que ton hébergement actuel). Cela stockera en mémoire les urls. L'accès sera super rapide. Mais ce n'est pas forcement une obligation. C'est un plus (+) ;-).
 
Nouveau WRInaute
Merci WebrankInfo et NicolasH de ces précieux conseils, je vais utiliser la méthode du script php :)
je ne veux pas prendre le risque du htacess avec 30700 urls à ajouter (nous venons de faire le décompte exact)
 
WRInaute occasionnel
Pas de quoi. Après il faut voir au niveau des perfs si ca ne ralenti pas l'affichage des pages de ton site.
Le temps d'exécution du script dépendra de la techno utilisée, de ton serveur (hardware et software), du code, ...
Ca peut être moins de 20ms mais il faut tester (en preprod si possible).
 
Nouveau WRInaute
Bonjour à tous,

Nous sommes prêt à nettoyer le forum de 30700 urls , le script est écrit pour générer une 410.
Mon dev me confirme que le script est rapide.

Entre temps j'ai découvert cet outil webmaster tools bulkl url removal
ça serait une extension Chrome et cela remplacerai la procédure fastidieuse de retirer des urls une par une par la Google Seach console.

mais un point m'intrigue sur la page de présentation

extrait :

"To be clear, this will *not* remove them from Google’s index – only from Google’s search results."

Les Urls ne seraient pas retirés de l'index mais uniquement des résultats de google ?
Est possible ?

Une précision de l'auteur :

"The URL removal tool does not remove URLs from the index, it removes them from our search results. The difference is subtle, but it’s a part of the reason why you don’t see those submissions affect the indexed URL count."

Traduction :
"L'outil ne retire pas les url de l'index, il les retire de nos résultats de recherche, la différence est subtile, c'est la raison pour laquelle ces retraits n'affectent pas le compteur d'url indexées"


J'avoue être perplexe, que fait réellement cet outil ?

Le connaissez vous ?

Merci d'avance de vos éventuelles réponses :)




 
Membre Honoré
Bonjour,

Google est clair à ce sujet :
The Remove URLs tool enables you to temporarily block pages from Google Search results on sites that you own.
Même le bouton indique : Temporarily hide.

N'hésitez pas entre deux messages à présenter vos avis sur les sujets du forum : disponibles ici
pour aider aussi les autres personnes de la communauté : fonctionnement de l'entraide.

Temps de réponse : 5 minutes.
Cordialement.
 
Nouveau WRInaute
Bonjour Madrileno (dsl je ne sais pas faire le tilde)

Effectivement, j'aurai dû relire mon google...c'est écrit sur leur page. dsl de cette question pour laquelle je pouvais trouver la réponse.
bonne journée :)
 
Membre Honoré
Bonjour,

Pour compléter concernant ce que vous souhaitez faire :
Make removal permanent
[...] Remove or update the actual content from your site [...] and make sure that your web server returns either a 404 (Not Found) or 410 (Gone) HTTP status code. [...] Indicate that the page should not to be indexed using the noindex meta tag. [...]
.

Temps de réponse : 5 minutes.
Cordialement.
 
Discussions similaires
Haut