La médiocrité de Google a encore frappé : il ne connait plus HTTP

hibou57 · 7 Février 2011

Hello,

Google, de pire en pire. Il a franchi une étape décisive dans son processus de dégradation en allant au delà de l’indexation de tout et n’importe quoi sauf de ce qu’il faut : il ne sait même plus interpréter correctement les réponses HTTP.

Deux exemples.

Un site qui commençait moyennement à se rétablir (précédemment victimes d’idioties de Google), qui s’est repris une claque dans ces circonstances : les GWT indiquent un peu partout un nouveau type d’erreur jamais vu auparavant, “404-like content”. Aucune idée de ce qu’il appel “404-like content”, mais en tous cas, il n’existe qu’une seule réponse 404, celle qui est défini par la spécification du protocole HTTP. Rappel de la seule référence légitime : RFC 2616 — 10.4 Client Error 4xx. S’il se met maintenant à inventer des protocoles que personne ne connait, on a pas fini de suer!

. Et si on tente de décoder “404-like content”, on s’aperçoit que Google n’a pas compris ce qu’est un protocole de communication : un contenu, c’est un contenu, ça ne fait pas partie du protocole de transport le contenu!

Enfin, au moins Yahoo! le magnifique n’a aucun problème avec ces mêmes pages lui.

La moitié des URLs du sitemap sont impactées, et la re-claque qu’a pris le site a commencé le lendemain même de l’apparition de ces délires de Google (il y a 3 semaines… et ça ne cesse pas).

Le second exemple maintenant, concernant un autre site. En me connectant au GWT pour voir si Google déraille de la même manière avec celui-ci, je m’aperçois que je ne peux tout simplement pas le vérifier, parce que Google a perdu la trace de l’authentification du site. Soit, je re-passe par la procédure d’authentification en envoyant sur le site, la page HTML indiquée par Google, puis je clique sur Valider, attendant qu’il m’indique qu’il a bien trouvé la page.

Plusieurs essais en vain! avec toujours le même message, “Invalid Response”. Je clique sur le liens de teste qui permet d’accéder à la page envoyée sur le site… ça marche. Je contrôle les log d’accès aux pages de ce site, il y apparait que Google à bien reçu la page en question, à chacune des tentatives. Je contrôle à tout hasard les entêtes de réponses HTTP avec View HTTP Request and Response Header, tout est OK, statu 200, la taille du document est la bonne, rien à signaler.

Et Google est incapable d’interpréter cette réponse et de réceptionner le contenu qui la suit.

Je ne pensais même pas qu’un moteur de recherche pouvait descendre aussi bas

. Même le premier venu pourrait écrire une procédure pour interpréter correctement ce genre de protocole.

Au lieu de s’amuser à manipuler les résultats du moteur, il ferait mieux de revoir les bases fondamentales du web et de s’assurer qu’il sont au moins capable de faire ce qu’un outil aussi courant que WGet est capable de faire.

Ne serait-il pas temps de faire une campagne anti-Moteur Google comme un temps il y a eu une campagne anti IE5 ?

Marie-Aude · 7 Février 2011

Euh ... tu vois moi quand il y a un truc que je ne connais pas, je cherche sur Google.
J'ai donc Googlé "404-like content" et je tombe direct là dessus

http://www.seroundtable.com/archives/022333.html

"A soft 404 is a page not found page that returns a 200 status code, instead of a 404 status code. Often, webmasters create custom 404 pages, but neglect to show a 404 header status code. This can cause issues for search engines and users.

So this report is to help webmasters discover this error and fix it."

Et même que M'sieur Google s'est fendu de deux posts sur son blog pour expliquer ce que sont les 404-like content

http://googlewebmastercentral.blogspot.com/2008/08/farewell-to-soft-404s.html
http://googlewebmastercentral.blogspot.com/2010/06/crawl-errors-now-re ... -404s.html

De plus il semble que ces erreurs incluent aussi des code 500
http://www.seroundtable.com/archives/022396.html

Je suis tout à fait d'accord sur certains défauts de Google. Néanmoins, sonner la charge de la médiocrité absolue comme tu le fais régulièrement est un peu fatigant... Surtout quand c'est pour magnifier Yahoo à côté, dont les résultats sont souvent bourrés de spams

hibou57 · 7 Février 2011

Et ça, http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html , ça ressemble avec une page 404 avec un statu 200 ? (entre autre exemple, moitié des pages du site, comme je le disais).

Et pour la validation de la propriété de l’autre site, Google voit des 404-like contents dans ses propres pages qu’il demande d’envoyer sur les sites ?

Je maintiens le titre. Il faudra quelque chose sérieux et crédible pour que j’en change

spout · 7 Février 2011

200 Okay, voici votre document

Première fois que je vois un header 200 comme ça

Sébastien Billard · 7 Février 2011

Le header est en effet surprenant. Peut être la source de l'erreur car message non standard ?

e-kiwi · 7 Février 2011

clair, ton serveur est mal configuré

hibou57 · 7 Février 2011

spout a dit:
200 Okay, voici votre document

Cliquez pour agrandir...

Première fois que je vois un header 200 comme ça

Oops, je pensais pas que quelqu’un irait regarder

je trouvais que ça avait l’air plus humain, c’est pour ça que j’ai fait ça, c’est clin d’œil pour les curieux(ses).

@French_Dread & E-Kiwi : c’est le même depuis toujours, il n’a jamais posé de problème (il y en a d’autres aussi, mais je ne dit pas où, de toute manière ils sont sur un autre site). Ce n’est pas un problème de configuration du serveur, le site fonctionne parfaitement, et ce n’est pas le serveur qui renvoie cet entête, ce sont les CGI qui s’en charge tout seul comme des grands (depuis toujours aussi).

Ce serait tout de même un peu faible pour interpréter ça comme étant une erreur 404, non ?

Puis ce n’est pas qu’une indication pour les webmaters comme le disait Aude, puisque que le lendemain même du premier jour où j’ai eu ces messages, fréquentation divisée par deux (peut-être un rapport avec le fait que la moitié des pages sont touchées).

Puisque que la réponse a la même forme sur toutes les pages, pourquoi ne perçoit-il pas la même chose sur les autres pages alors ? Ma supposition est : Google déraille.

Marie-Aude · 7 Février 2011

hibou57 a dit:
Puis ce n’est pas qu’une indication pour les webmaters comme le disait Aude, puisque que le lendemain même du premier jour où j’ai eu ces messages, fréquentation divisée par deux (peut-être un rapport avec le fait que la moitié des pages sont touchées).

Marie-Aude (c'est comme les headers, c'est précis). C'est une indication pour aider à trouver ce qui ne va pas. Clairement Google refuse d'indexer ce qu'il considère comme de fausses 200.

hibou57 a dit:
Puisque que la réponse a la même forme sur toutes les pages, pourquoi ne perçoit-il pas la même chose sur les autres pages alors ? Ma supposition est : Google déraille.

Parce qu'il ne les a pas encore revisitées ?
Ma supposition sur ce genre de choses est : pourquoi c'est toujours toi qui te plains que Google déraille ?

C'est possible qu'il y ait des erreurs, des anomalies, mais il faut commencer par être sûr que l'erreur n'est pas chez nous.

Après côté serveur, je ne connais pas assez, mais peut être que ton "cloaking de header" ne lui plait pas effectivement...

hibou57 · 7 Février 2011

Marie-Aude a dit:
Clairement Google refuse d'indexer ce qu'il considère comme de fausses 200.

Tu confirme qu’il a un sérieux problème, parce que si ce sont des fausses pages pour lui… aïe.

Marie-Aude a dit:
pourquoi c'est toujours toi qui te plains que Google déraille ?

Parce que je ne vote pas « majorité silencieuse » (et pas seulement avec Google que je fais comme ça).

Marie-Aude a dit:
"cloaking de header" ne lui plait pas effectivement...

Cloaking de header… t’es sérieuse ?

Enfin, en le défendant, tu l’enfonce encore plus. Tu peux arrêter là.

Je n’en peux plus de ce robot, il dépasse toutes les bornes, ça n’a plus aucun sens, il met un cirque pas possible au moins caractère ici ou là ou personne ne sait quoi. Il faut qu’il arrête.

De plus, s’il n’était pas si bête et s’il analysait correctement les sites qu’il visite, il aurait du remarquer que j’ai toujours renvoyé des statu 404 en règles dans les cas de pages non-trouvés. Ça ne ressemble à rien son bricolage soit disant pour les webmasters qui oublient de mettre en place les statu 404. Mais alors qu’il fasse une campagne d’éducation pour leur apprendre à les utiliser ! Ça ressemble à quoi d’interpréter des pages normales comme des 404 ? C’est ça la pertinence selon Google ? (je suis encore gentil d’utiliser ce mot là avec lui). Avec un gosse qui a des difficulté à parler, on fait comment ? On parle n’importe comment comme lui ? Ce serait un comportement de parent débile et immature : Google est débile est immature ici.

Il nous massacré la notion de lien, comme beaucoup s’en sont plain même ici depuis longtemps, et pas seulement moi, et maintenant il nous massacre des protocoles standards qui existent depuis 25 ans. C’est sérieux ça ?

Marie-Aude a dit:
pourquoi c'est toujours toi qui te plains que Google déraille ?( bis)

Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.

Peut-être parce que les autres moteurs sont capable de correctement implémentés les protocoles standards qui doivent être suivis ?

Et bien que surprenant, mon entête de réponse est parfaitement valide. Tu peux vérifier dans la RFC pour laquelle j’ai donné un lien plus haut.

Marie-Aude · 7 Février 2011

hibou57 a dit:
Marie-Aude a dit:

"cloaking de header" ne lui plait pas effectivement...

Cliquez pour agrandir...

Cloaking de header… t’es sérieuse ?

A moitié, je plaisante.
Maintenant de deux choses l'une, ou bien Google voit ce header, et ça peut être une des causes de tes problèmes, ou bien il ne les voit pas, et c'est une réponse différente de l'utilisateur, et c'est le principe du cloaking, d'où ma pointe d'humour.

hibou57 a dit:
Enfin, en le défendant, tu l’enfonce encore plus. Tu peux arrêter là.

Non, je n'arrête pas. En revanche, je pense que tu pourrais être un peu plus zen, et aussi essayer de comprendre le second degré.

hibou57 a dit:
De plus, s’il n’était pas si bête et s’il analysait correctement les sites qu’il visite, il aurait du remarquer que j’ai toujours renvoyé des statu 404 en règles dans les cas de pages non-trouvés. Ça ne ressemble à rien son bricolage soit disant pour les webmasters qui oublient de mettre en place les statu 404.

Tu sais il y a un truc qui s'appelle "changement d'algo, améliorations, etc"... en clair ce qui a marché ne marche pas toujours. Heureusement sinon on en serait encore aux balises keywords bourrées de mots clés

hibou57 a dit:
Mais alors qu’il fasse une campagne d’éducation pour leur apprendre à les utiliser !

Ben les liens sur les blogs google, c'est quoi ? Des spaghettis au poulet ?

hibou57 a dit:
Marie-Aude a dit:

pourquoi c'est toujours toi qui te plains que Google déraille ?( bis)

Cliquez pour agrandir...

Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.

En même temps, la pertinence des autres....

Pour le reste, tu as des outils pour communiquer avec Google. Si il y a un bug, c'est sans doute la meilleure chose à faire.

salva · 7 Février 2011

Tu l'as taillé à la hache le site

Sa structure est déroutante : le header a déjà été pointé. Ensuite le menu de gauche qui n'apparait que sur la home :?:

Cette page -http://www.les-ziboux.rasama.org/boutique/livres-culture-arabe.html qui change carrément de template.

Y a pas que Google qui semble dérouté, le visiteur aussi. Alors si tu attends que Google s'adapte à ta façon de faire…

hibou57 a dit:
Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.

Peut-être parce que les autres moteurs sont capable de correctement implémentés les protocoles standards qui doivent être suivis ?

Et bien que surprenant, mon entête de réponse est parfaitement valide. Tu peux vérifier dans la RFC pour laquelle j’ai donné un lien plus haut.

Si Google fonctionnait comme tous ces autres moteurs minoritaires, il n'occuperait pas la place que ces mêmes moteurs convoitent.

hibou57 · 10 Février 2011

Marie-Aude a dit:
A moitié, je plaisante.

C’était ambigu, enfin, ça me semblait ambigu, à cause du ton que j’avais cru sentir.

Concernant la pertinence des autres moteurs : tu les utilise régulièrement au moins ?

Les différences, je les sent (enfin, sauf avec Bing, que je ne trouve pas tant intéressant).

salva a dit:
Cette page -http://www.les-ziboux.rasama.org/boutique/livres-culture-arabe.html qui change carrément de template.

C’est normal, elle ne fait plus partie du site… plus vraiment. Elle n’est encore là que pour des raisons, disons historiques.

Ce n’est de toute manière pas cette page qui peut poser des problèmes. Et puis je la laisse en signe de reconnaissance envers certains auteurs dont les livres s’y trouve.

hibou57 · 10 Février 2011

Marie-Aude a dit:
Pour le reste, tu as des outils pour communiquer avec Google. Si il y a un bug, c'est sans doute la meilleure chose à faire.

J’ai déjà tenté, mais je n’ai jamais eu de réponse; c’était il y a longtemps, pour un autre problème survenu après avoir pourtant suivi leur propre conseil reçu par mail… la seule fois où ils m’ont répondu.

À part ça, je ne sais pas si par hasard ils ont corrigé quelque chose ou pas, mais tout d’un coup, je viens de vérifier, la plupart des fausses erreurs 404 ont disparu, il n’en reste plus que 5. Et l’autre site dont je ne pouvais pas valider la propriété, elle s’est validé toute seule

Je ne saurai jamais ce qu’il s’est passé, et c’est bien ça le problème, on ne sait jamais rien. Mais au moins ça a été corrigé (jusqu’au prochain bug j’imagine).

fredfan · 10 Février 2011

Tout ça montre que Google a été prudent et a pris le temps d'analyser la situation avant de te donner le contrôle des GWT sur le site, ce qui aurait donné la possibilité de nuire à une personne mal intentionnée.
Avec Google, vivons dans un monde plus sûr :!:

stonetatara · 15 Février 2011

Bonsoir,

j'ai peut-être un début de réponse au problème cité dans le post, mais d'un point de vue technique je ne peux pas l'expliquer au regard de mes connaissances en protocole HTTP proche du zéro

Donc, en étudiant le header de la page citée avec le protocol HTTP/1.0 "wihtout host header", j'obtiens ceci :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.0
=> un 404 not found

Même test avec un HTTP/1.1 :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.1
=> un code 200 exotique , je cite : "Status: HTTP/1.1 200 Okay, voici votre document "

Apparement Google verrait un code 404 sur cette page , mais aussi sur le reste du site apparamment, exemple la page d'accueil :
http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/&http=1.0
=> Status: HTTP/1.1 404 Not Found

Donc si quelqu'un a des connaissances techniques poussées, et des talents de pédagogue pour vulgariser, je suis curieux et preneur pour une explication.

Merci

hibou57 · 18 Février 2011

stonetatara a dit:
-http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.0

Cette erreur 404 ne viens pas de moi, parce que le document HTML renvoyé, n'est pas de moi.

Si les serveurs chez 1&1 renvoient des erreur 404 pour les requêtes faites avec HTTP 1.0, je ne peux rien y faire (voir explication ci-après).

D'ailleurs, les requêtes HTTP 1.1 et 1.0 n'ont pas la même forme. Alors il faudrait vérifier si WebSniffer formule correctement les requêtes HTTP 1.0.

HTTP 1.1 inclu le nom du domaine dans la requête, mais HTTP 1.0 ne le fait pas (ça n'existe pas pour lui). Pour parler plus clairement, HTTP 1.0 ne permet pas à plusieurs sites d'être hébergés sur une même IP commune. En HTTP 1.0 on a : IP d'un serveur = IP d'un site, c'est à dire, un serveur = un site ou un site par serveur, seulement. Car en effet, comme aucun nom de domaine n'est transmis dans la requête, il n'est pas possible de distinguer plusieurs sites hebergés sur une même IP. Ce qui signifie que en HTTP 1.0, il n'est pas possible de faire des requêtes vers des sites hébergés sur des serveurs mutualisés. Un serveur pour sites mutualisés qui reçoit une requête HTTP 1.0, n'a aucun moyen de savoir à quel site est destinée la requête, parmis tous les sites qu'il héberge! Que peut-il donc faire d'autre que de renvoyer une erreur 404 ?

Et puis HTTP 1.0, c'est la préhistoire, plus personne ne l'utilise depuis des lustres, il n'est plus supporté que pour des raisons techniques dont je n'ai plus le détail, mais il n'est plus utilisé par les clients web, comme les navigateurs et les robots. J'espère vraiment que Google ne s'amuse pas à faire ce genre de requêtes, et je n'en vois pas l'intérêt. Je ne vais quand-même pas prendre un dédié juste pour que Google ne voit pas des 404 chez moi... et puis s'il se met à voir des 404 chez tous les mutualisés, il n'a pas fini d'en voir!

En tous cas merci d'avoir essayé de ce côté là, tu as eu le nez fin, parce que je n'avais pas pensé à bricoler avec ça, tellement ça ma paraissait incongru. Et de toutes manières, maintenant le problème n'existe plus (alors que je n'ai rien changé au site... le problème est apparu d'un coup, et il est reparti tout aussi brutalement).

stonetatara · 18 Février 2011

Merci à toi @Hibou57 pour ce début de réponse complet et pédagogique comme je l'avais souhaité.
Et en plus j'ai compris le principe, dont une reco de gagnée pour toi !

u73256 · 20 Février 2011

Reco itou pour le hibou et son explication.
Ça tient de l’exploit : arriver à me faire comprendre et apprendre la particularité des requêtes HTTP dans ces différents cas de figure un dimanche matin, chapeau !

hibou57 · 21 Février 2011

Ben non, le problème est revenu, il recommence le même cirque depuis aujourd'hui.

J'ai attendu, pensant que ça passerait peut-être tard dans la soirée, mais il insiste.

J'ai également le même problème de validation de site, il me dit qu'il ne peut pas valider le site, qu'il ne parvient pas à accéder la page qui l'identifie, alors que le fichier est là, que je l'ai testé X fois.

De qui se moque t-on : comment un moteur de recherche incapable d’accéder à des pages qui existent peut-il être jugé sérieux ?

Et il n'y vraiment que Google pour être décendu aussi bas. Je me répète, mais même un simple wget est 10,000 fois plus capable que Google.

IllusionPerdu · 21 Février 2011

C'est dingue de soit disant ce plaindre que google ne suit pas les norme HTTP alors que tous les headers sont personnalisé....

As tu essayer en mettant les headers normaux ?

Sinon il me semble que google interprète comme des 404-like content les documents qui renvoye plus code HTTP genre la même page un 404 et un 200...

Leonick · 21 Février 2011

hibou57 a dit:
J'ai également le même problème de validation de site, il me dit qu'il ne peut pas valider le site, qu'il ne parvient pas à accéder la page qui l'identifie, alors que le fichier est là, que je l'ai testé X fois.

ce fichier est-il correct ? n'a-t-il pas une taille vide ? avant, il suffisait juste d'avoir un fichier pour que ce soit ok, alors que depuis quelques mois, il faut, en plus, que ce fichier contienne son propre nom, sinon ça ne valide plus

hibou57 · 21 Février 2011

Leonick a dit:
ce fichier est-il correct ? n'a-t-il pas une taille vide ? avant, il suffisait juste d'avoir un fichier pour que ce soit ok, alors que depuis quelques mois, il faut, en plus, que ce fichier contienne son propre nom, sinon ça ne valide plus

Oui, il est correcte, je sais ce que je dit, j'ai renvoyé celui qu'il fourni, comme toujours. La preuve : il m'a revalidé le site dans l'après midi, sans qu'entre temps je n'y ai touché.

Et c'est toujours la même chose, les logs montre que le robot reçois bien le fichier, mais dans GWT, il dit qu'il ne parvient pas à y accéder.

J'ai cru à un bug qu'ils avaient corrigé, mais ça n'a pas l'air d'avoir été corrigé.

Que faire dans ces cas là ? Rien, parce que de toutes les manières, le mammouth, que dis-je, ... le dinosaure, est sourd aux messages qu'on lui transmet, aussi bien ici, que sur leur forum officiel, que par mails. Et puis c'est fatiguant, chaque fois qu'il y a un problème, on a *aucune information*, ce qui fait qu'on ne peut même pas essayer de corriger nous-même. Non seulement ils ne corrigent pas, mais ils nous prive de pouvoir corriger nous-même. Pas d'autres choix que d'attendre en spectateurs désœuvrés.