[Stop] Trop d'indexation, il faut arrêter

Discussion dans 'Crawl et indexation Google, sitemaps' créé par L.Jee, 3 Juin 2010.

  1. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    Salut à tous,
    Ce matin je souhaitais mettre à jour un site personnel. Je tape donc son adresse dans la barre Firefox, j'oublie le .com et FF me lance une recherche Google. Inutile de préciser que le site sur chacune de ses pages s'est vu infligé dès le lancement un <meta name='robots' content='noindex,nofollow' />. FF me lance donc une recherche via Google et que vois-je en troisième position, mon domaine qui est belle et bien indexé, rendant quelque chose d'invisible aux non initiés visible auprès de tous étant donné que le nom de domaine est un mot générique, GENIAL !

    Un petit coup de gueule et aussi pour prévenir d'autres naïfs que Google ne tient compte que de ce qu'il veut...

    Bonne journée :mrgreen:
     
  2. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 196
    J'aime reçus:
    0
    Je l'ai aussi indiqué la semaine dernière. Un de mes sites, indexé malgré un disallow + noindex...
     
  3. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
    Je reste persuadé que si c'est pour bosser en dev, rien ne vaut un .htaccess (ou un serveur dedié inaccessible hors IP des développeurs).
     
  4. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    C'est sûr, mais là n'est pas franchement le sujet :D Je parle bien d'un site en ligne mais non répertorier ou que ce soit en dehors peut-être des bookmarks de certains amis... Je me vois mal mettre un mot de passe pour y accéder c'est anti-fonctionnel...
     
  5. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 857
    J'aime reçus:
    5
    Préfère peut-être les guillemets aux apostrophes dans la syntaxe de ta balise:

    Code:
    <meta name="robots" content="none" />
     
  6. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    C'est la balise ajoutée automatiquement par WP, je vais mettre celle que tu me donnes, ne sait-on jamais... Merci Hawk ;)
     
  7. Haroeris
    Haroeris WRInaute impliqué
    Inscrit:
    13 Avril 2010
    Messages:
    649
    J'aime reçus:
    0
    Google bafoue régulièrement mon robots.txt également.
     
  8. mackloug
    mackloug WRInaute occasionnel
    Inscrit:
    23 Août 2006
    Messages:
    292
    J'aime reçus:
    0
    Je remarque aussi que Google ne tient pas compte du robots.txt au moment de l'indexation de la page. Par contre, quelques temps plus tard, il "sort" bien les pages de son index.

    On les voit alors apparaître dans les GWT…

    J'ai aussi remarqué que parfois je laisse une URL dont j'interdis l'indexation via le robots.txt trainée dans le sitemap. Dans ce cas, il me le signale comme une erreur et semble donné la priorité au sitemap. Mais c'est récent, je n'ai pas le recul pour savoir si d'ici quelques temps elle sera retirée de l'index.
     
  9. cedric_g
    cedric_g WRInaute accro
    Inscrit:
    18 Janvier 2006
    Messages:
    2 930
    J'aime reçus:
    2
    À contrario, quand vous passez un site "par accident" en "noindex,nofollow", là il ne vous rate pas...
     
  10. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 388
    J'aime reçus:
    5
    par ma part
    pareille, des dissalow qui ne marche pas... par contre, noindex, nofollow pas de souci, d'ailleurs, ça se désindexe vite une fois que c'est un place...
     
  11. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    T'as de la chance alors...
     
  12. HawkEye
    HawkEye WRInaute accro
    Inscrit:
    23 Février 2004
    Messages:
    13 857
    J'aime reçus:
    5
    Moi il m'indique qu'il détecte 50.000 pages "bloquées par robots.txt".

    Ces pages sont effectivement bloquées: parce que malgré le fait qu'elles ne sont linkées de nulle part, Google les a tout de même crawlées, et indexées.

    En fait, ces URLs étaient visibles dans le code source sous cette forme:

    Code:
    <a href="{url_a_suivre}" OnClick="javascript:window.open('{url_de_tracking}');">anchor</a>
    J'ai modifié ce principe de tracking et me suis mis à un peu d'AJAX...

    Code:
    <a href="{url_a_suivre}" OnClick="javascript: track('{int}');">anchor</a>
    ...où track(int); est une fonction AJAX en GET, placée dans un fichier externe.

    :arrow: eh bien Google va tout de même me crawler plus de 40.000 fois par jour la page track.php?id=int, alors que:

    1. celle-ci ne peut être clairement identifiée qu'en exécutant à fond le JS externalisé
    2. celle-ci est bloquée par un robots.txt dont le crawl par GoogleBot est antérieur à la mise en service du principe de fonctionnement.

    >> Il sait depuis 10 jours qu'il ne doit pas crawler "track.php", mais dès qu'il repère sa présence, il crawl quand même, et de surcroît il renvoie une erreur de type "bloqué par robots.txt".

    Gaspillage de ressources (pour eux et pour moi). Pas malin.
     
  13. 1-sponsor
    1-sponsor WRInaute passionné
    Inscrit:
    27 Octobre 2006
    Messages:
    2 388
    J'aime reçus:
    5
    Ça fait quelques petits mois qu'il me semble avoir observé que Google interprète maintenant tout le JS ou presque... ou du moins, plus encore qu'on le dit sur les blogs SEO...

    Pas cool de crawler quand même maglré les interdictions... :s
     
  14. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 196
    J'aime reçus:
    0
    Le moins cool, c'est de voir que la demande de suppression met des plombes! L.Jee, tu as réussi à te faire désindexer ces pages ?

    Pour ma part ma version mobile a été indexée par erreur et en plus pile à ce moment là le système a cafouillé... présentant non pas le site mobile mais la version normale. J'ai donc une partie de mon site en DC total.
    Suppression demandée mais rien n'y fait.
     
  15. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    Non tjs indexé ;)
     
  16. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    J’ai un problème similaire avec une page d’un site. Pour le contexte, disons que c’est une page avec accès restreint et qui nécessite une authentification. Google persistait à tenter de l’indexer malgré la réponse 403 qu’il recevait systématiquement.

    J’ai voulu faire désindexer l’URL dans le WebmasterTools, la demande est indiquée comme effectuée depuis 4 mois environ, mais il persiste toujours a essayer de l’indexer et me l’affiche dans les erreurs d’exploration en temps que erreur HTTP.

    Il reçois systématiquement une erreur 403, une demande de désindexation faite, mais il persiste encore (complétement idiot ce robot).
     
  17. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    L.Jee,

    Qu'est-ce que tu as trouvé dans Google pour ton site ? La page d'accueil avec cache ou sans cache ? D'autres pages ?

    Jean-Luc
     
  18. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    Uniquement l'url Jean-Luc ;)
     
  19. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    ça fait un an ou deux qu'il m'indexe un script ajax d'auto complétion de champ. C'est bien plus vieux que quelques petits mois.

    Sinon pour les sites de dev il faut aussi se méfier de la toolbar google qui renvoie des url a la pelle. Idem si la page en dev contient des blocs adsense, c'est visite garantie.
     
  20. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Il ne faut pas mettre des AdSense sur un site en développement [​IMG]
     
  21. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 875
    J'aime reçus:
    0
    Je m'en doutais. Comme (presque) toujours, Googlebot a respecté les instructions reçues.

    Comme tu as utilisé la "protection de vie privée" standard de WordPress, un robots.txt qui interdisait toute visite de Googlebot a été mis en place. Googlebot n'est donc jamais venu voir les balises meta. Ainsi Google sait que tu ne veux pas qu'il visite les pages, mais il ne sait pas que tu ne veux pas l'indexation. Quand au nom du domaine, il a pu le trouver parce que Google est registrar ou sur n'importe quel site qui liste les nouveaux domaines enregistrés.

    Comme on l'a déjà dit, rien de tel qu'un bon .htaccess/.htpasswd.

    Jean-Luc
     
  22. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    Il y a bien un jour ou il faut les intégrer ... même si c'est a la fin. Et comme j'en fait des screen aux bonne couleurs pour m'en servir de demo avant la publication (intégrés ensuite sous forme d'image) je suis bien obligé d'en mettre a un moment donné.
     
  23. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
    Et surtout rien de tel pour que peu de gens se souviennent du mot de passe et visitent ce blog... C'est fou que de ne pas mettre un login + mdp sur un site nous oblige à être reconnu par Google et auprès de millions de personnes... :evil:
     
  24. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 021
    J'aime reçus:
    1
    Sinon, simplement pour faciliter la vie des "Htaccess obligé" il y a toujours moyen de mettre le login / mdp dans le message d'accueil de la popup Hta si c'est juste pour bloquer les moteurs... Les visiteur légitimes y trouveront leur compte et ceux qui ne connaissent pas l'url ne viendront pas de toute façon.
     
  25. raljx
    raljx WRInaute passionné
    Inscrit:
    10 Juillet 2006
    Messages:
    2 022
    J'aime reçus:
    0
    et le local les gars, le local ?
     
  26. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Oui, c’est ce que presque tout le monde fait je pense, mais les testes en vrai sont nécessaires parce que la configuration du serveur installé sur ton Windows XP ou ton Debian n’est pas toujours la même que chez ton hébergeur, surtout avec un mutualisé, où il est même impossible de connaitre la configuration du serveur (pas la peine d’essayer de consulter les fichiers de configuration, c’est Niet tout court). Dans ces cas là, il faut tester chez l’hébergeur et prendre note des surprises.
     
  27. raljx
    raljx WRInaute passionné
    Inscrit:
    10 Juillet 2006
    Messages:
    2 022
    J'aime reçus:
    0
    question de choix ;) google ou serveur
    je suis .htaccess addict
     
Chargement...
Similar Threads - [Stop] indexation arrêter Forum Date
Search Console Erreur d'indexation mais URL testée avec succès ?! Crawl et indexation Google, sitemaps 10 Novembre 2022
Search Console Indexation "page avec redirection" Crawl et indexation Google, sitemaps 6 Octobre 2022
WordPress Site multilingues - Mauvaise indexation Crawl et indexation Google, sitemaps 27 Septembre 2022
Problème de crawl et d'indexation Crawl et indexation Google, sitemaps 1 Septembre 2022
Indexation page de paiement ? Crawl et indexation Google, sitemaps 17 Août 2022
Problème d'indexation de backlinks Débuter en référencement 24 Juillet 2022
Problème d'indexation de backlinks Problèmes de référencement spécifiques à vos sites 21 Juillet 2022
Désindexation images en changeant de format (passage à WebP) Crawl et indexation Google, sitemaps 12 Juillet 2022
6 mois après, pas d'indexation correcte dans Google Problèmes de référencement spécifiques à vos sites 8 Juillet 2022
Problème désindexation des pages de Google Débuter en référencement 21 Juin 2022
Indexation à rebours. Crawl et indexation Google, sitemaps 5 Juin 2022
Problème d'indexation de pages sur Google Problèmes de référencement spécifiques à vos sites 31 Mai 2022
référencement site en anglais : indexation plus longue Référencement international (langues, pays) 13 Mai 2022
Problème d'indexation Produits Prestashop Crawl et indexation Google, sitemaps 28 Avril 2022
Problème indexation pages précises en React.js Débuter en référencement 19 Avril 2022
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
Conseil pour accélérer l'indexation de mon nouveau site Problèmes de référencement spécifiques à vos sites 9 Avril 2022
Comment puis-je obtenir l'indexation instantanée de Google ? Débuter en référencement 28 Mars 2022
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Indexation de mon site dans Google Problèmes de référencement spécifiques à vos sites 13 Mars 2022