Si rien ne l’arrête, comment l’arrêter ?

  • Auteur de la discussion Auteur de la discussion hibou57
  • Date de début Date de début
WRInaute passionné
Bonsoir,

C’est la question que je me pose (pas Bonsoir, le titre).

Rien ne va plus : je viens de découvrir aujourd’hui un sitemap qui figure dans l’indexe de Google tel que renvoyé par le commande “site:URL”.

Le sitemap est indéxé comme un document, avec un extrait du contenu du sitemap, et comme titre la première URL qu’il contient.

... et les p’tits zoizeau font cuicui

Franchement, je ne les compte plus, j’en découvre presque tous les jours, c’est pire que tout, jamais vu un moteur de recherche aussi désastreux.

Mais sérieusement : comment l’arrêter ?

Allez, pour l’occasion, je fais un petit récap.

Il indexe le sitemap comme un document.
Il soumet soumet des formulaires.
Il indexe des URL de redirection.
Il indexe des binaires comme du texte.
Il ignore le Robots.txt... et s’énerve quand il change.
Il ignore les facteurs d’importance des pages indiqués dans le sitmap.
Il tente d’indexer des liens externes contenant des “#” en les remplaçant par des “%23”
Dans les résultats il renvoie sur des pages à côté ou sur la page d’accueil au lieu du bon document
Il ne voit pas quand il reçoit des réponses compressées (dans le GWT ça)

Tu en connais d’autres ? Tu en as vu passer d’autres avec le même ? Tu n’ose pas témoigner parce que tu crois qu’on va te prendre pour un fou ou une folle et que le premier avril est passé ? Pas grave, n’ai crainte, si toi aussi tu connais une bonne poilade avec les délires de Google 100% Real Life, fait nous profitez, qu’on se marre doublement.
 
WRInaute passionné
Cytise a dit:
Il ignore le Robots.txt...

Pour le coup je comprends pas. Pourquoi faire une rubrique dessus dans le GWT si c'est pour ne pas le respecter? 8O
Je ne comprend pas non-plus, pas plus que je ne comprend pourquoi les filtrages du Robots.txt sont assimilés à des « Erreurs d’exploration », quand aucun lien externe ne pointe vers les pages filtrées et qu’aucune page filtrée ne fait partie du sitemap.

À ce sujet (sur le Robots.txt), j’en connais une pas rassurante : j’ai lu (je te retrouve le lien si la question t’intéresse, en demandant à son auteur) que Google assimile certains filtrages présents dans le Robots.txt comme étant la signature de spammeurs : si un webmestre place un filtre dans le Robots.txt pour empêcher l’indexation de ce site par le robot de Webarchive, alors ça déclenche dans Google une alerte associée au site et le site est considéré comme un site de spam et exit des résultats du moteur... juste pour un filtre empêchant l’indexation par le robot de Webarchive.

Parfois j’y pense, et je me demande combien il y en a des comme ça... et surtout je me demande lesquelles (mais ça on ne peut pas le savoir)
 
Nouveau WRInaute
Oui en effet j'avais lu ça quelque part au sujet de webarchive 8O Puisque tu proposes je veux bien le lien :mrgreen:
 
WRInaute accro
Ce n'est peut-être pas la peine d'ouvrir un topic par semaine pour ça.
Tu es déçu d'avoir été déclassé par Google, mais tu gaspilles ton énergie à des discussions politico-philosophiques qui ne vont pas faire s'écrouler l'empire Google et qui ne te rendront pas tes visiteurs.
 
WRInaute passionné
Cytise a dit:
Oui en effet j'avais lu ça quelque part au sujet de webarchive 8O Puisque tu proposes je veux bien le lien :mrgreen:
J’ai même pas eu a demandé, j’ai retrouvé tout seul comme un grand :mrgreen:

Le titre est explicite : L’incident Archive.org durant PubCon
Le précédent lien a dit:
Le problème à propos du blocage de Archive.org par le biais du robots.txt peut paraître anodin à certains, mais c’est en lisant entre les lignes qu’on remarque toute la portée de cet incident. [...] Ce n’est pas un paramètre d’alerte parmi tant d’autres, mais bien une alerte majeure qui va éveiller les plus gros soupçons. Quand Matt Cutts dit « it’s a huge Red Flag » (c’est une énorme alerte rouge)
Lire la page indiquée pour tout comprendre.

Et maintenant quand on pense que c’est une chose qui a filtré par accident, parce que Matt Cutts oubliait qu’il parlait en publique... Peut-on supposer qu’il y en a encore de belles comme ça qui ne filtreront jamais ?

Question au passage : le robot s’appel comment en fait ? Archive.org ou Webarchive ?

L.Jee a dit:
Effectivement bien pensé de rappeler ton cas, ça se rapporte bien.
 
WRInaute passionné
il semble logique que les equipes de developpement de Google ou tout autre bon et respecteux developpeur se constitue une structure de verification basée sur les retours que son infra lui permette d'analyser... Apres, a mon humble avis du soir, dans l'article de pubcon, utiliser des termes alarmants comme "l'incident" me semble emporté ... d'un autre coté je lisais cet apres midi un article sur l'optimisation des sujets de mails ... l'utilisation de mots 'forts' augmente de 10 à 25% le taux d'ouverture total :)
 
WRInaute passionné
Discussions similaires
Haut