[Stop] Trop d'indexation, il faut arrêter

  • Auteur de la discussion Auteur de la discussion L.Jee
  • Date de début Date de début
WRInaute accro
Salut à tous,
Ce matin je souhaitais mettre à jour un site personnel. Je tape donc son adresse dans la barre Firefox, j'oublie le .com et FF me lance une recherche Google. Inutile de préciser que le site sur chacune de ses pages s'est vu infligé dès le lancement un <meta name='robots' content='noindex,nofollow' />. FF me lance donc une recherche via Google et que vois-je en troisième position, mon domaine qui est belle et bien indexé, rendant quelque chose d'invisible aux non initiés visible auprès de tous étant donné que le nom de domaine est un mot générique, GENIAL !

Un petit coup de gueule et aussi pour prévenir d'autres naïfs que Google ne tient compte que de ce qu'il veut...

Bonne journée :mrgreen:
 
WRInaute accro
Je reste persuadé que si c'est pour bosser en dev, rien ne vaut un .htaccess (ou un serveur dedié inaccessible hors IP des développeurs).
 
WRInaute accro
C'est sûr, mais là n'est pas franchement le sujet :D Je parle bien d'un site en ligne mais non répertorier ou que ce soit en dehors peut-être des bookmarks de certains amis... Je me vois mal mettre un mot de passe pour y accéder c'est anti-fonctionnel...
 
WRInaute accro
Préfère peut-être les guillemets aux apostrophes dans la syntaxe de ta balise:

Code:
<meta name="robots" content="none" />
 
WRInaute accro
C'est la balise ajoutée automatiquement par WP, je vais mettre celle que tu me donnes, ne sait-on jamais... Merci Hawk ;)
 
WRInaute occasionnel
Je remarque aussi que Google ne tient pas compte du robots.txt au moment de l'indexation de la page. Par contre, quelques temps plus tard, il "sort" bien les pages de son index.

On les voit alors apparaître dans les GWT…

J'ai aussi remarqué que parfois je laisse une URL dont j'interdis l'indexation via le robots.txt trainée dans le sitemap. Dans ce cas, il me le signale comme une erreur et semble donné la priorité au sitemap. Mais c'est récent, je n'ai pas le recul pour savoir si d'ici quelques temps elle sera retirée de l'index.
 
WRInaute accro
À contrario, quand vous passez un site "par accident" en "noindex,nofollow", là il ne vous rate pas...
 
WRInaute passionné
par ma part
pareille, des dissalow qui ne marche pas... par contre, noindex, nofollow pas de souci, d'ailleurs, ça se désindexe vite une fois que c'est un place...
 
WRInaute accro
Haroeris a dit:
Google bafoue régulièrement mon robots.txt également.

Moi il m'indique qu'il détecte 50.000 pages "bloquées par robots.txt".

Ces pages sont effectivement bloquées: parce que malgré le fait qu'elles ne sont linkées de nulle part, Google les a tout de même crawlées, et indexées.

En fait, ces URLs étaient visibles dans le code source sous cette forme:

Code:
<a href="{url_a_suivre}" OnClick="javascript:window.open('{url_de_tracking}');">anchor</a>

J'ai modifié ce principe de tracking et me suis mis à un peu d'AJAX...

Code:
<a href="{url_a_suivre}" OnClick="javascript: track('{int}');">anchor</a>

...où track(int); est une fonction AJAX en GET, placée dans un fichier externe.

:arrow: eh bien Google va tout de même me crawler plus de 40.000 fois par jour la page track.php?id=int, alors que:

1. celle-ci ne peut être clairement identifiée qu'en exécutant à fond le JS externalisé
2. celle-ci est bloquée par un robots.txt dont le crawl par GoogleBot est antérieur à la mise en service du principe de fonctionnement.

>> Il sait depuis 10 jours qu'il ne doit pas crawler "track.php", mais dès qu'il repère sa présence, il crawl quand même, et de surcroît il renvoie une erreur de type "bloqué par robots.txt".

Gaspillage de ressources (pour eux et pour moi). Pas malin.
 
WRInaute passionné
Ça fait quelques petits mois qu'il me semble avoir observé que Google interprète maintenant tout le JS ou presque... ou du moins, plus encore qu'on le dit sur les blogs SEO...

Pas cool de crawler quand même maglré les interdictions... :s
 
WRInaute accro
Le moins cool, c'est de voir que la demande de suppression met des plombes! L.Jee, tu as réussi à te faire désindexer ces pages ?

Pour ma part ma version mobile a été indexée par erreur et en plus pile à ce moment là le système a cafouillé... présentant non pas le site mobile mais la version normale. J'ai donc une partie de mon site en DC total.
Suppression demandée mais rien n'y fait.
 
WRInaute passionné
J’ai un problème similaire avec une page d’un site. Pour le contexte, disons que c’est une page avec accès restreint et qui nécessite une authentification. Google persistait à tenter de l’indexer malgré la réponse 403 qu’il recevait systématiquement.

J’ai voulu faire désindexer l’URL dans le WebmasterTools, la demande est indiquée comme effectuée depuis 4 mois environ, mais il persiste toujours a essayer de l’indexer et me l’affiche dans les erreurs d’exploration en temps que erreur HTTP.

Il reçois systématiquement une erreur 403, une demande de désindexation faite, mais il persiste encore (complétement idiot ce robot).
 
WRInaute accro
L.Jee,

Qu'est-ce que tu as trouvé dans Google pour ton site ? La page d'accueil avec cache ou sans cache ? D'autres pages ?

Jean-Luc
 
WRInaute accro
1-sponsor a dit:
Ça fait quelques petits mois qu'il me semble avoir observé que Google interprète maintenant tout le JS ou presque... ou du moins, plus encore qu'on le dit sur les blogs SEO...

ça fait un an ou deux qu'il m'indexe un script ajax d'auto complétion de champ. C'est bien plus vieux que quelques petits mois.

Sinon pour les sites de dev il faut aussi se méfier de la toolbar google qui renvoie des url a la pelle. Idem si la page en dev contient des blocs adsense, c'est visite garantie.
 
WRInaute passionné
zeb a dit:
[...]
Sinon pour les sites de dev il faut aussi se méfier de la toolbar google qui renvoie des url a la pelle. Idem si la page en dev contient des blocs adsense, c'est visite garantie.
Il ne faut pas mettre des AdSense sur un site en développement
icon_eek.gif
 
WRInaute accro
L.Jee a dit:
Uniquement l'url Jean-Luc ;)
Je m'en doutais. Comme (presque) toujours, Googlebot a respecté les instructions reçues.

Comme tu as utilisé la "protection de vie privée" standard de WordPress, un robots.txt qui interdisait toute visite de Googlebot a été mis en place. Googlebot n'est donc jamais venu voir les balises meta. Ainsi Google sait que tu ne veux pas qu'il visite les pages, mais il ne sait pas que tu ne veux pas l'indexation. Quand au nom du domaine, il a pu le trouver parce que Google est registrar ou sur n'importe quel site qui liste les nouveaux domaines enregistrés.

Comme on l'a déjà dit, rien de tel qu'un bon .htaccess/.htpasswd.

Jean-Luc
 
WRInaute accro
hibou57 a dit:
Il ne faut pas mettre des AdSense sur un site en développement
icon_eek.gif
Il y a bien un jour ou il faut les intégrer ... même si c'est a la fin. Et comme j'en fait des screen aux bonne couleurs pour m'en servir de demo avant la publication (intégrés ensuite sous forme d'image) je suis bien obligé d'en mettre a un moment donné.
 
WRInaute accro
jeanluc a dit:
Comme on l'a déjà dit, rien de tel qu'un bon .htaccess/.htpasswd.
Et surtout rien de tel pour que peu de gens se souviennent du mot de passe et visitent ce blog... C'est fou que de ne pas mettre un login + mdp sur un site nous oblige à être reconnu par Google et auprès de millions de personnes... :evil:
 
WRInaute accro
Sinon, simplement pour faciliter la vie des "Htaccess obligé" il y a toujours moyen de mettre le login / mdp dans le message d'accueil de la popup Hta si c'est juste pour bloquer les moteurs... Les visiteur légitimes y trouveront leur compte et ceux qui ne connaissent pas l'url ne viendront pas de toute façon.
 
WRInaute passionné
raljx a dit:
et le local les gars, le local ?
Oui, c’est ce que presque tout le monde fait je pense, mais les testes en vrai sont nécessaires parce que la configuration du serveur installé sur ton Windows XP ou ton Debian n’est pas toujours la même que chez ton hébergeur, surtout avec un mutualisé, où il est même impossible de connaitre la configuration du serveur (pas la peine d’essayer de consulter les fichiers de configuration, c’est Niet tout court). Dans ces cas là, il faut tester chez l’hébergeur et prendre note des surprises.
 
Discussions similaires
Haut