Restriction dans robots.txt mais toujours indexé

dreadstock · 4 Février 2011

Bonjour à tous,
J'ai mis des restrictions dans mon robots.txt pour google pour qu'il ne référencement pas certains dossier il y a 1 mois.
je précise que ces urls étaient déjà indexées dans google depuis 3 mois.
Dans mon webmastertool, google prend bien en compte ces restrictions, mais cela fait 1 mois et les urls sont toujours présentent dans les résultats de recherche google. Ca m'arrange pas car c'est fait 1 mois que j'essaie de sortir de la sandbox (sandbox 2 selon webrankinfo

) a cause d'urls en duplicate content.
Qu'en pensez vous ?
Je dois être patient ? merki

Pour info: j'ai 620 urls de référencés => pour l'instant en restriction il y en a 320, il faudrait qu'il m'en reste 50 max.

beton04f · 6 Février 2011

Le robot est repassé depuis sur ces pages ?

dreadstock · 6 Février 2011

Oui, mais pas sur toutes, seulement sur 300 pages.

jeanluc · 6 Février 2011

dreadstock a dit:
Oui, mais pas sur toutes, seulement sur 300 pages.

Alors, c'est que le robots.txt n'est pas correct, parce que Googlebot ne repasse pas sur les URL exclues par robots.txt.

Tu peux nous montrer ton robots.txt ?

Jean-Luc

beton04f · 6 Février 2011

dreadstock a dit:
Bonjour à tous,
J'ai mis des restrictions dans mon robots.txt pour google pour qu'il ne référencement pas certains dossier il y a 1 mois.

Tu as juste mis dans le robots.txt (il faut donc attendre la prochaine visite du robots, sauf erreur)

Ou tu as changer le SiteMap.xml aussi et fait une suppression d'URL dans le GWT ?

dreadstock · 6 Février 2011

J'ai juste mis dans robots.txt

beton04f · 6 Février 2011

Je pense qu'il pourrait être plus efficace/rapide de virer ces URLs du Sitemap et de les supprimer dans le GWT.

Je viens de le faire sur mon site, prise en compte en 2H.

Attends un avis expert, je débute !

beton04f · 6 Février 2011

dreadstock a dit:
Oui, mais pas sur toutes, seulement sur 300 pages.

J'ai mal lu...

- Il est repassé sur des pages interdites par le robots.txt
OU
- il indexe encore des pages interdites par le robots.txt ?

dreadstock · 6 Février 2011

- il indexe encore des pages interdites par le robots.txt ?

beton04f · 6 Février 2011

dreadstock a dit:
- il indexe encore des pages interdites par le robots.txt ?

A priori, tu lui interdis de ré-indexer ces pages à la prochaine visite. C'est tout. Tant qu'il ne revisite pas la page incriminée, il ne la sort pas de l'index.

àmha, il faudrait être plus explicite :
- suppression des URL du SiteMap
- demande de suppression des URLS ou répertoires dans GWT

dreadstock · 7 Février 2011

J'ai 600 urls à supprimer alors ? Waiii ca fait beaucoup de boulot ca !

Sébastien Billard · 7 Février 2011

Ces page sont indexées normalement ou seules les références à ces pages (lien sans snippet) ?

dreadstock · 7 Février 2011

Certaines pages sont indexées normalement mais certaine, seulement avec le lien (pas de description ni title), dans GWT google considère que 350 urls sont bloquées parle robots.txt, mais elles sont toutes encore présentent dans les résultats. C'est très énervant. merci

Sébastien Billard · 7 Février 2011

Dans ce cas supprime le robots.txt et à la place utilise la balise meta noindex directement dans le <head> des pages concernées.

dreadstock · 7 Février 2011

Ca impossible, j'utilise joomla, est je ne peux pas pour chaque page mettre un no-index. J'ai fais du canonical sur les pages d'origine, et pour le robots.txt, je reste comme ca et on verra avec le temps. Je pense que si je patiente encore un peu, ca devrait le faire.

WebRankInfo · 8 Février 2011

si tu interdis aux robots de crawler des pages, il ne viendra pas (plus ) les crawler. C'est tout ! Car tu ne demandes pas de désindexer, tu demandes de ne plus crawler.

dans ton cas c'est assez vicieux puisque les pages en question étaient déjà indexées. Google n'a aucune raison de les désindexer...

dreadstock · 9 Février 2011

Merci, j'ai fait bloqué les 600 pages dans le robots.txt, grâce à plusieurs disallow. Ensuite, je fais une demande de suppression d'urls dans Google Webmastertool.On va voir si google me les vire !

dreadstock · 9 Février 2011

Excellente tuyau, je l'avais deja lu mais je n'avais pas le lien. Merci !! je teste et vous tient au jus.

Enjooy · 9 Février 2011

Je l'ai fait hier pour un site, et honnêtement cela fonctionne TRÈS bien !

dreadstock · 10 Février 2011

Bon, la technique d'Enjooy a très bien marché, désindexation + réindexation. Problème Google m'a indexé les mêmes Urls, alors que j'avais bien modifié le robots.txt. Arrrrhh j'y arriverais jamais. Pour des réseaux de duplicate content inexplicable de la part de joomla, je souhaiterai bloquer les urls qui se termine par .html .pdf et ?format=pdf
Donc voici ce que j'ai mis dans le robots.txt. Quand je teste dans Google Webmaster tool pourtant, google me bloque les pages concernées alors pourquoi à la réindexation il me les reprend. !

Merci pour votre aide

User-agent: *
Disallow: /*.pdf$
Disallow: /*.html$
Disallow: /*.php$
Disallow: /*?format=pdf$

dreadstock · 10 Février 2011

Ok, j'ai bien compris, google vient de me désindexer. Quel est le robot que tu proposes ? avant que je réindexe merci

dreadstock · 11 Février 2011

C'est pas possible, j'ai refais la manip, j'ai attendu que google reprenne en compte mon robots.txt avec les urls que je bloque, mais pareil, il me ré indexe tout, je comprends pas. Est mon robots.txt qui est faut :
User-agent: *
Disallow: /*.pdf$
Disallow: /*.html$
Disallow: /*.php$
Disallow: /*?format=pdf$

??

merci pour votre aide
Sinon, je vais tout bloquer à la main.

beton04f · 11 Février 2011

dreadstock a dit:
C'est pas possible, j'ai refais la manip, j'ai attendu que google reprenne en compte mon robots.txt avec les urls que je bloque, mais pareil, il me ré indexe tout, je comprends pas. Est mon robots.txt qui est faut :
??

Attention, il manque la dose de patience...

Après désindexation "apparente" suite à robots.txt + GTW, tes URLs n'apparaissent plus dans les requêtes Google.

Mais Google ne les a pas désindexée réellement, elles sont toujours dans son index.
Le supprimer URL du GWT consiste à supprimer les URLs des pages de résultat, pas de l'index.

Il faut donc désindexer tel que tu l'as fait, puis attendre 1 à 3 semaines.

dreadstock · 11 Février 2011

A ok, je m'en douté que j'étais un peu impatient. Comment puis je savoir si c'est 1 semaine ou 3 semaines ? Merci beaucoup pour l'info ! je vais réessayer !

beton04f · 11 Février 2011

dreadstock a dit:
A ok, je m'en douté que j'étais un peu impatient. Comment puis je savoir si c'est 1 semaine ou 3 semaines ? Merci beaucoup pour l'info ! je vais réessayer !

Non.

Moi ça a mis 3 semaines.

dreadstock · 11 Février 2011

Donc pour pas prendre de risque et être obligé de recommencer la manip. J'opte pour 3 semaines. !

mipc · 25 Février 2011

perso moi la manipe qui fonctionne le mieux pour ne plus indexer les pages c'est le méta:

Code:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

dreadstock · 25 Février 2011

J'ai opté pour la solution de dernier recours. J'ai demandé la suppression mon site des SERP dans GWT. et je vais demandais ca reindexation, avec le nouveau robots.txt

beton04f · 25 Février 2011

Attention,

Le robots.txt indique à Google de ne plus faire apparaître les résultats dans les SERPs, pas de désindexer.

dreadstock · 25 Février 2011

@beton04f je fais exactement ce que tu dis un peu plus haut, pour tout désindexer, cela fait 2 semaines que j'attends encore 1 et je réintégre mon site.

beton04f · 25 Février 2011

Oui, oui,

Avec le GWT+robots, on demande à Google de ne plus faire apparaitre en SERPs

Après, il faut espérer que n'en ayant plus l'usage, l'index vire réellement ces pages.

Le bordel c'est que c'est au moment où on ouvre à nouveau le robots.txt qu'on voit si on a attendu assez... avec le risque d'être obliger à nouveau de faire la manipulation.

Moi, après 3 semaines, j'ai rouvert le robots.txt et le GWT.
Les pages sont réapparues rapidement (quelques heures) sans cache, le cache étant réapparu quelques jours après.

Putain pourquoi on a pas un pote chez Google....

dreadstock · 25 Février 2011

ouai j'espère que ca va marcher, car ca fait deja 2 mois qu'il me sert à rien mon site !