Si rien ne l’arrête, comment l’arrêter ?

hibou57 · 30 Juin 2010

Bonsoir,

C’est la question que je me pose (pas Bonsoir, le titre).

Rien ne va plus : je viens de découvrir aujourd’hui un sitemap qui figure dans l’indexe de Google tel que renvoyé par le commande “site:URL”.

Le sitemap est indéxé comme un document, avec un extrait du contenu du sitemap, et comme titre la première URL qu’il contient.

... et les p’tits zoizeau font cuicui

Franchement, je ne les compte plus, j’en découvre presque tous les jours, c’est pire que tout, jamais vu un moteur de recherche aussi désastreux.

Mais sérieusement : comment l’arrêter ?

Allez, pour l’occasion, je fais un petit récap.

Il indexe le sitemap comme un document.
Il soumet soumet des formulaires.
Il indexe des URL de redirection.
Il indexe des binaires comme du texte.
Il ignore le Robots.txt... et s’énerve quand il change.
Il ignore les facteurs d’importance des pages indiqués dans le sitmap.
Il tente d’indexer des liens externes contenant des “#” en les remplaçant par des “%23”
Dans les résultats il renvoie sur des pages à côté ou sur la page d’accueil au lieu du bon document
Il ne voit pas quand il reçoit des réponses compressées (dans le GWT ça)

Tu en connais d’autres ? Tu en as vu passer d’autres avec le même ? Tu n’ose pas témoigner parce que tu crois qu’on va te prendre pour un fou ou une folle et que le premier avril est passé ? Pas grave, n’ai crainte, si toi aussi tu connais une bonne poilade avec les délires de Google 100% Real Life, fait nous profitez, qu’on se marre doublement.

Cytise · 30 Juin 2010

Il ignore le Robots.txt...

Pour le coup je comprends pas. Pourquoi faire une rubrique dessus dans le GWT si c'est pour ne pas le respecter? 8O

hibou57 · 30 Juin 2010

Cytise a dit:
Il ignore le Robots.txt...

Cliquez pour agrandir...

Pour le coup je comprends pas. Pourquoi faire une rubrique dessus dans le GWT si c'est pour ne pas le respecter? 8O

Je ne comprend pas non-plus, pas plus que je ne comprend pourquoi les filtrages du Robots.txt sont assimilés à des « Erreurs d’exploration », quand aucun lien externe ne pointe vers les pages filtrées et qu’aucune page filtrée ne fait partie du sitemap.

À ce sujet (sur le Robots.txt), j’en connais une pas rassurante : j’ai lu (je te retrouve le lien si la question t’intéresse, en demandant à son auteur) que Google assimile certains filtrages présents dans le Robots.txt comme étant la signature de spammeurs : si un webmestre place un filtre dans le Robots.txt pour empêcher l’indexation de ce site par le robot de Webarchive, alors ça déclenche dans Google une alerte associée au site et le site est considéré comme un site de spam et exit des résultats du moteur... juste pour un filtre empêchant l’indexation par le robot de Webarchive.

Parfois j’y pense, et je me demande combien il y en a des comme ça... et surtout je me demande lesquelles (mais ça on ne peut pas le savoir)

Cytise · 30 Juin 2010

Oui en effet j'avais lu ça quelque part au sujet de webarchive 8O Puisque tu proposes je veux bien le lien :mrgreen:

fredfan · 30 Juin 2010

Ce n'est peut-être pas la peine d'ouvrir un topic par semaine pour ça.
Tu es déçu d'avoir été déclassé par Google, mais tu gaspilles ton énergie à des discussions politico-philosophiques qui ne vont pas faire s'écrouler l'empire Google et qui ne te rendront pas tes visiteurs.

L.Jee · 30 Juin 2010

Trop c'est trop, il faut arrêter !

hibou57 · 30 Juin 2010

Cytise a dit:
Oui en effet j'avais lu ça quelque part au sujet de webarchive 8O Puisque tu proposes je veux bien le lien :mrgreen:

J’ai même pas eu a demandé, j’ai retrouvé tout seul comme un grand :mrgreen:

Le titre est explicite : L’incident Archive.org durant PubCon

Le précédent lien a dit:
Le problème à propos du blocage de Archive.org par le biais du robots.txt peut paraître anodin à certains, mais c’est en lisant entre les lignes qu’on remarque toute la portée de cet incident. [...] Ce n’est pas un paramètre d’alerte parmi tant d’autres, mais bien une alerte majeure qui va éveiller les plus gros soupçons. Quand Matt Cutts dit « it’s a huge Red Flag » (c’est une énorme alerte rouge)

Lire la page indiquée pour tout comprendre.

Et maintenant quand on pense que c’est une chose qui a filtré par accident, parce que Matt Cutts oubliait qu’il parlait en publique... Peut-on supposer qu’il y en a encore de belles comme ça qui ne filtreront jamais ?

Question au passage : le robot s’appel comment en fait ? Archive.org ou Webarchive ?

L.Jee a dit:
Trop c'est trop, il faut arrêter !

Effectivement bien pensé de rappeler ton cas, ça se rapporte bien.

Cytise · 30 Juin 2010

Merci !

Question au passage : le robot s’appel comment en fait ? Archive.org ou Webarchive ?

Visiblement c'est ia_archiver (http://www.archive.org/about/exclude.php)

raljx · 30 Juin 2010

il semble logique que les equipes de developpement de Google ou tout autre bon et respecteux developpeur se constitue une structure de verification basée sur les retours que son infra lui permette d'analyser... Apres, a mon humble avis du soir, dans l'article de pubcon, utiliser des termes alarmants comme "l'incident" me semble emporté ... d'un autre coté je lisais cet apres midi un article sur l'optimisation des sujets de mails ... l'utilisation de mots 'forts' augmente de 10 à 25% le taux d'ouverture total

hibou57 · 8 Juillet 2010

Cytise a dit:
Visiblement c'est ia_archiver (http://www.archive.org/about/exclude.php)

Eh bien justement, on le trouve en plus en exemple dans cette page qui présente l’utilisation de Robots.txt : Introduction to "robots.txt" (javascriptkit.com)

Code:

User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:

Quand je pense qu’il y a des gens qui ont probablement suivi cet exemple.... sans rien savoir des conséquences fâcheuses qu’il a eu dans leur dos