Restriction dans robots.txt mais toujours indexé

Discussion dans 'Crawl et indexation Google, sitemaps' créé par dreadstock, 4 Février 2011.

  1. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Bonjour à tous,
    J'ai mis des restrictions dans mon robots.txt pour google pour qu'il ne référencement pas certains dossier il y a 1 mois.
    je précise que ces urls étaient déjà indexées dans google depuis 3 mois.
    Dans mon webmastertool, google prend bien en compte ces restrictions, mais cela fait 1 mois et les urls sont toujours présentent dans les résultats de recherche google. Ca m'arrange pas car c'est fait 1 mois que j'essaie de sortir de la sandbox (sandbox 2 selon webrankinfo ;)) a cause d'urls en duplicate content.
    Qu'en pensez vous ?
    Je dois être patient ? merki

    Pour info: j'ai 620 urls de référencés => pour l'instant en restriction il y en a 320, il faudrait qu'il m'en reste 50 max.
     
  2. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Le robot est repassé depuis sur ces pages ?
     
  3. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Oui, mais pas sur toutes, seulement sur 300 pages.
     
  4. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 883
    J'aime reçus:
    0
    Alors, c'est que le robots.txt n'est pas correct, parce que Googlebot ne repasse pas sur les URL exclues par robots.txt.

    Tu peux nous montrer ton robots.txt ?

    Jean-Luc
     
  5. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Tu as juste mis dans le robots.txt (il faut donc attendre la prochaine visite du robots, sauf erreur)

    Ou tu as changer le sitemap.xml aussi et fait une suppression d'URL dans le GWT ?
     
  6. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    J'ai juste mis dans robots.txt
     
  7. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Je pense qu'il pourrait être plus efficace/rapide de virer ces URLs du Sitemap et de les supprimer dans le GWT.

    Je viens de le faire sur mon site, prise en compte en 2H.

    Attends un avis expert, je débute !
     
  8. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    J'ai mal lu...

    - Il est repassé sur des pages interdites par le robots.txt
    OU
    - il indexe encore des pages interdites par le robots.txt ?
     
  9. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    - il indexe encore des pages interdites par le robots.txt ?
     
  10. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    A priori, tu lui interdis de ré-indexer ces pages à la prochaine visite. C'est tout. Tant qu'il ne revisite pas la page incriminée, il ne la sort pas de l'index.

    àmha, il faudrait être plus explicite :
    - suppression des URL du SiteMap
    - demande de suppression des URLS ou répertoires dans GWT
     
  11. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    J'ai 600 urls à supprimer alors ? Waiii ca fait beaucoup de boulot ca !
     
  12. Sébastien Billard
    Sébastien Billard WRInaute passionné
    Inscrit:
    7 Mai 2003
    Messages:
    1 700
    J'aime reçus:
    1
    Ces page sont indexées normalement ou seules les références à ces pages (lien sans snippet) ?
     
  13. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Certaines pages sont indexées normalement mais certaine, seulement avec le lien (pas de description ni title), dans GWT google considère que 350 urls sont bloquées parle robots.txt, mais elles sont toutes encore présentent dans les résultats. C'est très énervant. merci
     
  14. Sébastien Billard
    Sébastien Billard WRInaute passionné
    Inscrit:
    7 Mai 2003
    Messages:
    1 700
    J'aime reçus:
    1
    Dans ce cas supprime le robots.txt et à la place utilise la balise meta noindex directement dans le <head> des pages concernées.
     
  15. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Ca impossible, j'utilise joomla, est je ne peux pas pour chaque page mettre un no-index. J'ai fais du canonical sur les pages d'origine, et pour le robots.txt, je reste comme ca et on verra avec le temps. Je pense que si je patiente encore un peu, ca devrait le faire.
     
  16. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 143
    J'aime reçus:
    351
    si tu interdis aux robots de crawler des pages, il ne viendra pas (plus ) les crawler. C'est tout ! Car tu ne demandes pas de désindexer, tu demandes de ne plus crawler.

    dans ton cas c'est assez vicieux puisque les pages en question étaient déjà indexées. Google n'a aucune raison de les désindexer...
     
  17. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Merci, j'ai fait bloqué les 600 pages dans le robots.txt, grâce à plusieurs disallow. Ensuite, je fais une demande de suppression d'urls dans Google Webmastertool.On va voir si google me les vire !
     
  18. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Excellente tuyau, je l'avais deja lu mais je n'avais pas le lien. Merci !! je teste et vous tient au jus.
     
  19. Enjooy
    Enjooy WRInaute discret
    Inscrit:
    19 Octobre 2009
    Messages:
    141
    J'aime reçus:
    0
    Je l'ai fait hier pour un site, et honnêtement cela fonctionne TRÈS bien !
     
  20. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Bon, la technique d'Enjooy a très bien marché, désindexation + réindexation. Problème Google m'a indexé les mêmes Urls, alors que j'avais bien modifié le robots.txt. Arrrrhh j'y arriverais jamais. Pour des réseaux de duplicate content inexplicable de la part de joomla, je souhaiterai bloquer les urls qui se termine par .html .pdf et ?format=pdf
    Donc voici ce que j'ai mis dans le robots.txt. Quand je teste dans Google Webmaster tool pourtant, google me bloque les pages concernées alors pourquoi à la réindexation il me les reprend. !

    Merci pour votre aide

    User-agent: *
    Disallow: /*.pdf$
    Disallow: /*.html$
    Disallow: /*.php$
    Disallow: /*?format=pdf$
     
  21. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Ok, j'ai bien compris, google vient de me désindexer. Quel est le robot que tu proposes ? avant que je réindexe merci
     
  22. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    C'est pas possible, j'ai refais la manip, j'ai attendu que google reprenne en compte mon robots.txt avec les urls que je bloque, mais pareil, il me ré indexe tout, je comprends pas. Est mon robots.txt qui est faut :
    User-agent: *
    Disallow: /*.pdf$
    Disallow: /*.html$
    Disallow: /*.php$
    Disallow: /*?format=pdf$


    ??

    merci pour votre aide
    Sinon, je vais tout bloquer à la main.
     
  23. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Attention, il manque la dose de patience...

    Après désindexation "apparente" suite à robots.txt + GTW, tes URLs n'apparaissent plus dans les requêtes Google.

    Mais Google ne les a pas désindexée réellement, elles sont toujours dans son index.
    Le supprimer URL du GWT consiste à supprimer les URLs des pages de résultat, pas de l'index.

    Il faut donc désindexer tel que tu l'as fait, puis attendre 1 à 3 semaines.
     
  24. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    A ok, je m'en douté que j'étais un peu impatient. Comment puis je savoir si c'est 1 semaine ou 3 semaines ? Merci beaucoup pour l'info ! je vais réessayer !
     
  25. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Non.

    Moi ça a mis 3 semaines.
     
  26. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    Donc pour pas prendre de risque et être obligé de recommencer la manip. J'opte pour 3 semaines. !
     
  27. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 158
    J'aime reçus:
    0
    perso moi la manipe qui fonctionne le mieux pour ne plus indexer les pages c'est le méta:

    Code:
    <meta name="ROBOTS" content="NOINDEX, NOFOLLOW">
     
  28. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    J'ai opté pour la solution de dernier recours. J'ai demandé la suppression mon site des SERP dans GWT. et je vais demandais ca reindexation, avec le nouveau robots.txt
     
  29. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Attention,

    Le robots.txt indique à Google de ne plus faire apparaître les résultats dans les SERPs, pas de désindexer.
     
  30. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    @beton04f je fais exactement ce que tu dis un peu plus haut, pour tout désindexer, cela fait 2 semaines que j'attends encore 1 et je réintégre mon site.
     
  31. beton04f
    beton04f Nouveau WRInaute
    Inscrit:
    11 Juin 2009
    Messages:
    30
    J'aime reçus:
    0
    Oui, oui,

    Avec le GWT+robots, on demande à Google de ne plus faire apparaitre en SERPs

    Après, il faut espérer que n'en ayant plus l'usage, l'index vire réellement ces pages.

    Le bordel c'est que c'est au moment où on ouvre à nouveau le robots.txt qu'on voit si on a attendu assez... avec le risque d'être obliger à nouveau de faire la manipulation.

    Moi, après 3 semaines, j'ai rouvert le robots.txt et le GWT.
    Les pages sont réapparues rapidement (quelques heures) sans cache, le cache étant réapparu quelques jours après.

    Putain pourquoi on a pas un pote chez Google....
     
  32. dreadstock
    dreadstock WRInaute occasionnel
    Inscrit:
    3 Février 2009
    Messages:
    266
    J'aime reçus:
    0
    ouai j'espère que ca va marcher, car ca fait deja 2 mois qu'il me sert à rien mon site !
     
Chargement...
Similar Threads - Restriction robots indexé Forum Date
Trop de restriction dans le robots.txt Débuter en référencement 20 Décembre 2010
Restriction robots.txt Problèmes de référencement spécifiques à vos sites 5 Avril 2009
Pages référencées par Google malgré la présence d'une restriction à l'IP Crawl et indexation Google, sitemaps 21 Janvier 2015
Comment partager ces posts avec tous ? (restriction à mes cercles) Google+ 6 Décembre 2014
Restriction de partage social - Comment faire la restriction ? Développement d'un site Web ou d'une appli mobile 17 Janvier 2014
Restriction compte Paypal e-commerce 26 Mai 2012
Restriction du nombre de caractères dans les annonces FacebookAds Facebook 19 Avril 2012
Restrictions avec les tld locale (.fr .es ) Référencement international (langues, pays) 21 Septembre 2011
Warning open_basedir restriction in effect / ECONNREFUSED Problèmes de référencement spécifiques à vos sites 10 Novembre 2010
Facebook et sa restriction d'ajout d'amis - service réellement fiable ? Droit du web (juridique, fiscalité...) 3 Octobre 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice