Désindexer liste d'URL en générant un sitemap

WRInaute discret
Bonjour,

Après avoir lu un post d'Olivier qui donne une super idée (sitemap pour désindexer), je prépare un sitemap pour supprimer environ 400 URLs. J'ai besoin d'un coup de main pour la dernière étape.

Je précise que ce sont des duplicates qui n'auraient pas dû être crawlés et encore moins indexés, et qu'aujourd'hui j'ai enfin pu paramétré mon site, ces URLs n'existent plus. Il faut que google les crawl pour les faire disparaître, et c'est trop long, bref je prends le Tips d'Olivier !

J'ai donc listé ces URLs, j'en ai fait le code xml avec ce site : outils-referencement.com. Ensuite, je l'ai mis sur mon bloc note. Quand je glisse cela vers mon navigateur, j'ai une page ok, mais je ne peux pas l'envoyer sur la search-console puisque pour ajouter un siteMap, il faut faire une suite url à https://mon.site.fr/ , hors l'url généré via mon bloc note n'a pas pour début https://mon.site.fr/ . Je me doute que y'a juste un tite manip à faire mais je ne sais pas comment faire ?
 
WRInaute discret
Il faut simplement télécharger le fichier sur ton site et donner à Google l'url ce fichier.
appelle le différemment de ton sitemap déjà opérationnel. sitemap404.xml par exemple.
 
Olivier Duffez (admin)
Membre du personnel
précisions importantes : il faut que ces URL à faire désindexer soient "techniquement non indexables", c'est-à-dire avec une meta robots noindex, ou un entête HTTP équivalent. Eventuellement une canonique qui indique une autre URL mais ça ne sera pas aussi efficace. Enfin, ces URL ne doivent pas être bloquées dans le robots.txt. J'explique tout ça dans mon dossier "comment supprimer des pages de Google ?"
Par sécurité, crawle ces URL avec RM Tech, RM Sitemaps ou équivalent.

pourquoi s'embêter avec un format XML ? un simple fichier texte listant les URL (1 par ligne) est suffisant. tu l'appelles par exemple sitemap-desindexation.txt et tu l'uploades à la racine de ton site. Puis tu le déclares dans la search console.
 
WRInaute discret
Merci pour vos retours. Oui toutes ces URLs sont maintenant (enfin!) non indexables, pas de souci avec le fichier robot qui est très succinct.

Mais voilà, si je mets ce fichier sur une "page" shopify, je suis obligé de renseigner un titre H1 au minimum pour enregistrer. Du coup le "code" de la page URL à soumettre ne sera plus seulement composé de ces lignes de code, mais d'une structure page, et notamment du titre H1?

Autre idée : j'ai téléchargé le fichier, pour envoyer l'URL du fichier. Mais je ne peux pas choisir le nom de l'url, qui commence par https://cdn.shopify.com/s/files/....
 
Olivier Duffez (admin)
Membre du personnel
J'ai l'impression que tu ne peux uploader aucun fichier sur ton site (je veux dire, qui soit stocké sur ton nom de domaine). C'est une limitation de Shopify.

en gros, tu ne peux pas toucher au robots.txt, tu ne peux pas ajouter ton propre sitemap. Bref, passe à autre chose, Shopify bloque tout ça semble-t-il.
 
WRInaute discret
En effet, shopify c'est pas mal, mais le fait qu'ils bloquent plein de choses est pénible
Notamment car niveau SEO, il y a plusieurs erreurs (ce qui est normal, aucun CMS n'est parfait), mais qui sont du coup très difficiles à corriger, si ce n'est impossible..
 
WRInaute discret
Environ 3 jours après notre échange, j'ai réussi à faire le boulot (via une appli qui génère des sitemaps).

La search console indique que le traitement du sitemap est réussi,les 350 URLs sont découvertes...

Et pourtant, ces URLs n'ont pas été recrawlées : dans mes URLs indexées, je vois que les dates de dernières explorations sont antérieures, certaines n'ont même pas été recrawlées depuis novembre 2019.
:(
 
WRInaute discret
Environ 3 jours après notre échange, j'ai réussi à faire le boulot (via une appli qui génère des sitemaps).

La search console indique que le traitement du sitemap est réussi,les 350 URLs sont découvertes...

Et pourtant, ces URLs n'ont pas été recrawlées : dans mes URLs indexées, je vois que les dates de dernières explorations sont antérieures, certaines n'ont même pas été recrawlées depuis novembre 2019.
:(

Oui c'est normal, le sitemap va inciter le bot à venir crawler les pages mais ça va se faire petit à petit. Il faut être patient.
 
Discussions similaires
Haut