Supression d'url via GWT

alex84 · 21 Février 2012

bonjour à tous,
j'ai demandé via GWT la suppression d'url qui n'auraient pas du être indexées car interdites par le robots.txt mais elles l'ont été quand même...
si je me fie à ce que m'indique mon GWT elles ont été supprimées, et quand je tape une de ces url dans la fenêtre de recherche google j'ai bien le message "Aucun document ne correspond aux termes de recherche spécifiés", par contre si je fais site:www.monsite.com les url en questions apparaissent toujours. Est-ce-normal? La dernière fois que j'avais fais une demande de suppression d'url, ces dernières n'apparaissaient plus avec la commande site, contrairement à cette fois.

mipc · 21 Février 2012

pour ses pages utilise: <META NAME="robots" CONTENT="noindex,nofollow"> pour les pages que tu ne veux plus indexer.

chimoun · 21 Février 2012

J'ai exactement le même soucis que toi alex84 , j'ai demandé la suppression de certaines urls via GWT, celle ci sont supprimées dans un premier temps puis finissent pas être réintroduites dans l'index de google.

Et il m'est impossible d'ajouter la balise <META NAME="robots" CONTENT="noindex,nofollow"> que cite mipc

WebRankInfo · 21 Février 2012

ça parait bizarre. vous êtes certains que la page est bien bloquée par le robots.txt ?
ça donne quoi avec la commande info: ?

mipc · 21 Février 2012

en fait j'ai déjà eut le même problème, la raison en est la suivante, un ou des sites internet font référence à ses pages que vous avez supprimer, hors parfois vous ne savez plu ou ses liens ont été fait, GWT peut vous dire ou sont encore référencer ses pages, et de voir avec l'administrateur du site pour procéder à la suppression du lien.

si toute fois vous n’êtes pas en mesure de faire supprimer la référence à des pages qui n'existe plus, soit la méthode simple, créer une page html vide en noindex et nofollow, et la page n’apparaîtra plus dans google via la commande site:exemple.com

ou plus compliquer voir contraignant car il faut désactiver une fonction automatique des serveurs, donc faut tester voir si ça ne pose pas problème

dans un fichier .htaccess désactiver la commande "CheckSpelling" comme ceci:

Code:

<IfModule mod_speling.c>
CheckSpelling Off
</IfModule>

toujours dans .htaccess procéder comme suit, créer une page de recherche pour le site par exemple search.html qui serra noindex et nofollow, cet page de recherche permetra à ceux ayant attéri sur cet page qui n'existe plus de procéder à une nouvelle recherche sur le site internet.

pour rediriger les visiteurs et robot vers une page de recherche du site en noindex et nofollow procéder comme suit dans votre .htaccess utiliser:

Code:

ErrorDocument 400 http:/exemple.com/search.html
ErrorDocument 403 http:/exemple.com/search.html
ErrorDocument 404 http:/exemple.com/search.html
RedirectPermanent /ancienne-page-toujours-référencer-par-google-et-impossible-a-supprimer de google.html http:/exemple.com/search.html
RedirectPermanent /TARIFS.html http:/exemple.com/search.html
RedirectPermanent /Tarfis.html http:/exemple.com/search.html
RedirectPermanent /Tarif.html http:/exemple.com/search.html
RedirectPermanent /depannageinformatiqueparis.html/ http:/exemple.com/search.html

voila comme ça les anciennes pages impossible à supprimer de l'index sont rediriger vers la page search.html qui sera en <META NAME="robots" CONTENT="noindex,nofollow"> et qui permettra aux visiteurs d'effectuer une recherche sur le site, vous pouvez aussi tous simplement faire en sorte que cet page atterrisse sur des produits ou services au choix, du moment que c'est du noindex et nofollow voir même les deux en même temps.

WebRankInfo · 21 Février 2012

ouh là, je n'y comprends plus rien...

chimoun · 21 Février 2012

Lorsque je tape info : {url}
la page ne ressort pas, seul 4 forums sont indexés :roll:

WebRankInfo a dit:
ça parait bizarre. vous êtes certains que la page est bien bloquée par le robots.txt ?
ça donne quoi avec la commande info: ?

Neoxy · 21 Février 2012

La suppression d'url par le Google Webmaster tools ne fonctionne pas à tous les coups... Surtout si google estime que la page en question est intéressante à mettre dans l'index...

Normalement avec robots.txt, ca fonctionne pas trop mal...

WebRankInfo · 21 Février 2012

si la commande info ne renvoie rien c'est que la page n'est plus indexée

alex84 · 21 Février 2012

mipc a dit:
pour ses pages utilise: <META NAME="robots" CONTENT="noindex,nofollow"> pour les pages que tu ne veux plus indexer.

merci de ta réponse.
effectivement j'ai mis un noindex sur ces pages, mais j'ai remarqué que juste avec le noindex çà prend des moments pas mal de temps pour que les pages soient retirées de l'index.

alex84 · 21 Février 2012

WebRankInfo a dit:
ça parait bizarre. vous êtes certains que la page est bien bloquée par le robots.txt ?
ça donne quoi avec la commande info: ?

merci beaucoup pour votre aide.
effectivement avec la commande info les url en question renvoi un message "aucune information n'est disponible pour la page", j'en conclu donc que malgré le fait qu'elles apparaissent encore avec la commande site elles ont bien été désindexé. ce doit être juste une question de temps pour qu'elles n'apparaissent plus avec la commande site.

WebRankInfo · 21 Février 2012

la commande site: n'a pas été prévue pour ça, elle est prévue pour restreindre une recherche( par mots-clés) à un site ou une partie d'un site en particulier.

mettre une balise meta robots noindex permet de faire désindexer la page, encore faut-il que le robot puisse venir voir cette balise. si tu interdis le crawl par le robots.txt, alors la balise meta robots n'aura aucun impact.

par contre si tu fais une demande (manuelle) de désindexation dans Google Webmaster Tools, alors c'est rapide et ça fonctionne soit avec une balise meta robots noindex, soit avec une interdiction de crawl dans robots.txt (soit avec un code 404 ou 410)