Restriction dans robots.txt mais toujours indexé

WRInaute occasionnel
Bonjour à tous,
J'ai mis des restrictions dans mon robots.txt pour google pour qu'il ne référencement pas certains dossier il y a 1 mois.
je précise que ces urls étaient déjà indexées dans google depuis 3 mois.
Dans mon webmastertool, google prend bien en compte ces restrictions, mais cela fait 1 mois et les urls sont toujours présentent dans les résultats de recherche google. Ca m'arrange pas car c'est fait 1 mois que j'essaie de sortir de la sandbox (sandbox 2 selon webrankinfo ;)) a cause d'urls en duplicate content.
Qu'en pensez vous ?
Je dois être patient ? merki

Pour info: j'ai 620 urls de référencés => pour l'instant en restriction il y en a 320, il faudrait qu'il m'en reste 50 max.
 
WRInaute accro
dreadstock a dit:
Oui, mais pas sur toutes, seulement sur 300 pages.
Alors, c'est que le robots.txt n'est pas correct, parce que Googlebot ne repasse pas sur les URL exclues par robots.txt.

Tu peux nous montrer ton robots.txt ?

Jean-Luc
 
Nouveau WRInaute
dreadstock a dit:
Bonjour à tous,
J'ai mis des restrictions dans mon robots.txt pour google pour qu'il ne référencement pas certains dossier il y a 1 mois.

Tu as juste mis dans le robots.txt (il faut donc attendre la prochaine visite du robots, sauf erreur)

Ou tu as changer le SiteMap.xml aussi et fait une suppression d'URL dans le GWT ?
 
Nouveau WRInaute
Je pense qu'il pourrait être plus efficace/rapide de virer ces URLs du Sitemap et de les supprimer dans le GWT.

Je viens de le faire sur mon site, prise en compte en 2H.

Attends un avis expert, je débute !
 
Nouveau WRInaute
dreadstock a dit:
- il indexe encore des pages interdites par le robots.txt ?

A priori, tu lui interdis de ré-indexer ces pages à la prochaine visite. C'est tout. Tant qu'il ne revisite pas la page incriminée, il ne la sort pas de l'index.

àmha, il faudrait être plus explicite :
- suppression des URL du SiteMap
- demande de suppression des URLS ou répertoires dans GWT
 
WRInaute occasionnel
Certaines pages sont indexées normalement mais certaine, seulement avec le lien (pas de description ni title), dans GWT google considère que 350 urls sont bloquées parle robots.txt, mais elles sont toutes encore présentent dans les résultats. C'est très énervant. merci
 
WRInaute occasionnel
Ca impossible, j'utilise joomla, est je ne peux pas pour chaque page mettre un no-index. J'ai fais du canonical sur les pages d'origine, et pour le robots.txt, je reste comme ca et on verra avec le temps. Je pense que si je patiente encore un peu, ca devrait le faire.
 
Olivier Duffez (admin)
Membre du personnel
si tu interdis aux robots de crawler des pages, il ne viendra pas (plus ) les crawler. C'est tout ! Car tu ne demandes pas de désindexer, tu demandes de ne plus crawler.

dans ton cas c'est assez vicieux puisque les pages en question étaient déjà indexées. Google n'a aucune raison de les désindexer...
 
WRInaute occasionnel
Merci, j'ai fait bloqué les 600 pages dans le robots.txt, grâce à plusieurs disallow. Ensuite, je fais une demande de suppression d'urls dans Google Webmastertool.On va voir si google me les vire !
 
WRInaute occasionnel
Bon, la technique d'Enjooy a très bien marché, désindexation + réindexation. Problème Google m'a indexé les mêmes Urls, alors que j'avais bien modifié le robots.txt. Arrrrhh j'y arriverais jamais. Pour des réseaux de duplicate content inexplicable de la part de joomla, je souhaiterai bloquer les urls qui se termine par .html .pdf et ?format=pdf
Donc voici ce que j'ai mis dans le robots.txt. Quand je teste dans Google Webmaster tool pourtant, google me bloque les pages concernées alors pourquoi à la réindexation il me les reprend. !

Merci pour votre aide

User-agent: *
Disallow: /*.pdf$
Disallow: /*.html$
Disallow: /*.php$
Disallow: /*?format=pdf$
 
WRInaute occasionnel
C'est pas possible, j'ai refais la manip, j'ai attendu que google reprenne en compte mon robots.txt avec les urls que je bloque, mais pareil, il me ré indexe tout, je comprends pas. Est mon robots.txt qui est faut :
User-agent: *
Disallow: /*.pdf$
Disallow: /*.html$
Disallow: /*.php$
Disallow: /*?format=pdf$


??

merci pour votre aide
Sinon, je vais tout bloquer à la main.
 
Nouveau WRInaute
dreadstock a dit:
C'est pas possible, j'ai refais la manip, j'ai attendu que google reprenne en compte mon robots.txt avec les urls que je bloque, mais pareil, il me ré indexe tout, je comprends pas. Est mon robots.txt qui est faut :
??

Attention, il manque la dose de patience...

Après désindexation "apparente" suite à robots.txt + GTW, tes URLs n'apparaissent plus dans les requêtes Google.

Mais Google ne les a pas désindexée réellement, elles sont toujours dans son index.
Le supprimer URL du GWT consiste à supprimer les URLs des pages de résultat, pas de l'index.

Il faut donc désindexer tel que tu l'as fait, puis attendre 1 à 3 semaines.
 
WRInaute occasionnel
A ok, je m'en douté que j'étais un peu impatient. Comment puis je savoir si c'est 1 semaine ou 3 semaines ? Merci beaucoup pour l'info ! je vais réessayer !
 
WRInaute accro
perso moi la manipe qui fonctionne le mieux pour ne plus indexer les pages c'est le méta:

Code:
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
 
WRInaute occasionnel
J'ai opté pour la solution de dernier recours. J'ai demandé la suppression mon site des SERP dans GWT. et je vais demandais ca reindexation, avec le nouveau robots.txt
 
Nouveau WRInaute
Attention,

Le robots.txt indique à Google de ne plus faire apparaître les résultats dans les SERPs, pas de désindexer.
 
WRInaute occasionnel
@beton04f je fais exactement ce que tu dis un peu plus haut, pour tout désindexer, cela fait 2 semaines que j'attends encore 1 et je réintégre mon site.
 
Nouveau WRInaute
Oui, oui,

Avec le GWT+robots, on demande à Google de ne plus faire apparaitre en SERPs

Après, il faut espérer que n'en ayant plus l'usage, l'index vire réellement ces pages.

Le bordel c'est que c'est au moment où on ouvre à nouveau le robots.txt qu'on voit si on a attendu assez... avec le risque d'être obliger à nouveau de faire la manipulation.

Moi, après 3 semaines, j'ai rouvert le robots.txt et le GWT.
Les pages sont réapparues rapidement (quelques heures) sans cache, le cache étant réapparu quelques jours après.

Putain pourquoi on a pas un pote chez Google....
 
Discussions similaires
Haut