La médiocrité de Google a encore frappé : il ne connait plus HTTP

Discussion dans 'Google : l'entreprise, les sites web, les services' créé par hibou57, 7 Février 2011.

  1. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Hello,

    Google, de pire en pire. Il a franchi une étape décisive dans son processus de dégradation en allant au delà de l’indexation de tout et n’importe quoi sauf de ce qu’il faut : il ne sait même plus interpréter correctement les réponses HTTP.

    Deux exemples.

    Un site qui commençait moyennement à se rétablir (précédemment victimes d’idioties de Google), qui s’est repris une claque dans ces circonstances : les GWT indiquent un peu partout un nouveau type d’erreur jamais vu auparavant, “404-like content”. Aucune idée de ce qu’il appel “404-like content”, mais en tous cas, il n’existe qu’une seule réponse 404, celle qui est défini par la spécification du protocole HTTP. Rappel de la seule référence légitime : RFC 2616 — 10.4 Client Error 4xx. S’il se met maintenant à inventer des protocoles que personne ne connait, on a pas fini de suer! [​IMG]. Et si on tente de décoder “404-like content”, on s’aperçoit que Google n’a pas compris ce qu’est un protocole de communication : un contenu, c’est un contenu, ça ne fait pas partie du protocole de transport le contenu!

    Enfin, au moins Yahoo! le magnifique n’a aucun problème avec ces mêmes pages lui.

    La moitié des URLs du sitemap sont impactées, et la re-claque qu’a pris le site a commencé le lendemain même de l’apparition de ces délires de Google (il y a 3 semaines… et ça ne cesse pas).

    Le second exemple maintenant, concernant un autre site. En me connectant au GWT pour voir si Google déraille de la même manière avec celui-ci, je m’aperçois que je ne peux tout simplement pas le vérifier, parce que Google a perdu la trace de l’authentification du site. Soit, je re-passe par la procédure d’authentification en envoyant sur le site, la page HTML indiquée par Google, puis je clique sur Valider, attendant qu’il m’indique qu’il a bien trouvé la page.

    Plusieurs essais en vain! avec toujours le même message, “Invalid Response”. Je clique sur le liens de teste qui permet d’accéder à la page envoyée sur le site… ça marche. Je contrôle les log d’accès aux pages de ce site, il y apparait que Google à bien reçu la page en question, à chacune des tentatives. Je contrôle à tout hasard les entêtes de réponses HTTP avec View HTTP Request and Response Header, tout est OK, statu 200, la taille du document est la bonne, rien à signaler.

    Et Google est incapable d’interpréter cette réponse et de réceptionner le contenu qui la suit.

    Je ne pensais même pas qu’un moteur de recherche pouvait descendre aussi bas [​IMG]. Même le premier venu pourrait écrire une procédure pour interpréter correctement ce genre de protocole.

    Au lieu de s’amuser à manipuler les résultats du moteur, il ferait mieux de revoir les bases fondamentales du web et de s’assurer qu’il sont au moins capable de faire ce qu’un outil aussi courant que WGet est capable de faire.

    Ne serait-il pas temps de faire une campagne anti-Moteur Google comme un temps il y a eu une campagne anti IE5 ?
     
  2. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 500
    J'aime reçus:
    65
    Euh ... tu vois moi quand il y a un truc que je ne connais pas, je cherche sur Google.
    J'ai donc Googlé "404-like content" et je tombe direct là dessus

    http://www.seroundtable.com/archives/022333.html

    "A soft 404 is a page not found page that returns a 200 status code, instead of a 404 status code. Often, webmasters create custom 404 pages, but neglect to show a 404 header status code. This can cause issues for search engines and users.

    So this report is to help webmasters discover this error and fix it."

    Et même que M'sieur Google s'est fendu de deux posts sur son blog pour expliquer ce que sont les 404-like content

    http://googlewebmastercentral.blogspot.com/2008/08/farewell-to-soft-404s.html
    http://googlewebmastercentral.blogspot.com/2010/06/crawl-errors-now-re ... -404s.html

    De plus il semble que ces erreurs incluent aussi des code 500
    http://www.seroundtable.com/archives/022396.html

    Je suis tout à fait d'accord sur certains défauts de Google. Néanmoins, sonner la charge de la médiocrité absolue comme tu le fais régulièrement est un peu fatigant... Surtout quand c'est pour magnifier Yahoo à côté, dont les résultats sont souvent bourrés de spams
     
  3. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Et ça, http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html , ça ressemble avec une page 404 avec un statu 200 ? (entre autre exemple, moitié des pages du site, comme je le disais).

    Et pour la validation de la propriété de l’autre site, Google voit des 404-like contents dans ses propres pages qu’il demande d’envoyer sur les sites ?

    Je maintiens le titre. Il faudra quelque chose sérieux et crédible pour que j’en change
     
  4. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 134
    J'aime reçus:
    325
    Première fois que je vois un header 200 comme ça :D
     
  5. Sébastien Billard
    Sébastien Billard WRInaute passionné
    Inscrit:
    7 Mai 2003
    Messages:
    1 695
    J'aime reçus:
    1
    Le header est en effet surprenant. Peut être la source de l'erreur car message non standard ?
     
  6. e-kiwi
    e-kiwi WRInaute accro
    Inscrit:
    23 Décembre 2003
    Messages:
    13 200
    J'aime reçus:
    1
    clair, ton serveur est mal configuré
     
  7. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Oops, je pensais pas que quelqu’un irait regarder [​IMG]
    je trouvais que ça avait l’air plus humain, c’est pour ça que j’ai fait ça, c’est clin d’œil pour les curieux(ses).



    @French_Dread & E-Kiwi : c’est le même depuis toujours, il n’a jamais posé de problème (il y en a d’autres aussi, mais je ne dit pas où, de toute manière ils sont sur un autre site). Ce n’est pas un problème de configuration du serveur, le site fonctionne parfaitement, et ce n’est pas le serveur qui renvoie cet entête, ce sont les CGI qui s’en charge tout seul comme des grands (depuis toujours aussi).

    Ce serait tout de même un peu faible pour interpréter ça comme étant une erreur 404, non ?

    Puis ce n’est pas qu’une indication pour les webmaters comme le disait Aude, puisque que le lendemain même du premier jour où j’ai eu ces messages, fréquentation divisée par deux (peut-être un rapport avec le fait que la moitié des pages sont touchées).

    Puisque que la réponse a la même forme sur toutes les pages, pourquoi ne perçoit-il pas la même chose sur les autres pages alors ? Ma supposition est : Google déraille.
     
  8. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 500
    J'aime reçus:
    65
    Marie-Aude (c'est comme les headers, c'est précis). C'est une indication pour aider à trouver ce qui ne va pas. Clairement Google refuse d'indexer ce qu'il considère comme de fausses 200.

    Parce qu'il ne les a pas encore revisitées ?
    Ma supposition sur ce genre de choses est : pourquoi c'est toujours toi qui te plains que Google déraille ? :D C'est possible qu'il y ait des erreurs, des anomalies, mais il faut commencer par être sûr que l'erreur n'est pas chez nous.

    Après côté serveur, je ne connais pas assez, mais peut être que ton "cloaking de header" ne lui plait pas effectivement... :)
     
  9. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Tu confirme qu’il a un sérieux problème, parce que si ce sont des fausses pages pour lui… aïe.

    Parce que je ne vote pas « majorité silencieuse » (et pas seulement avec Google que je fais comme ça).

    Cloaking de header… t’es sérieuse ?

    Enfin, en le défendant, tu l’enfonce encore plus. Tu peux arrêter là.

    Je n’en peux plus de ce robot, il dépasse toutes les bornes, ça n’a plus aucun sens, il met un cirque pas possible au moins caractère ici ou là ou personne ne sait quoi. Il faut qu’il arrête.

    De plus, s’il n’était pas si bête et s’il analysait correctement les sites qu’il visite, il aurait du remarquer que j’ai toujours renvoyé des statu 404 en règles dans les cas de pages non-trouvés. Ça ne ressemble à rien son bricolage soit disant pour les webmasters qui oublient de mettre en place les statu 404. Mais alors qu’il fasse une campagne d’éducation pour leur apprendre à les utiliser ! Ça ressemble à quoi d’interpréter des pages normales comme des 404 ? C’est ça la pertinence selon Google ? (je suis encore gentil d’utiliser ce mot là avec lui). Avec un gosse qui a des difficulté à parler, on fait comment ? On parle n’importe comment comme lui ? Ce serait un comportement de parent débile et immature : Google est débile est immature ici.

    Il nous massacré la notion de lien, comme beaucoup s’en sont plain même ici depuis longtemps, et pas seulement moi, et maintenant il nous massacre des protocoles standards qui existent depuis 25 ans. C’est sérieux ça ?

    Et réciproquement, pourquoi je ne constate ces comportements qu’avec Google ? Les autres, bien que minoritaires, sont visiblement plus stables.

    Peut-être parce que les autres moteurs sont capable de correctement implémentés les protocoles standards qui doivent être suivis ?

    Et bien que surprenant, mon entête de réponse est parfaitement valide. Tu peux vérifier dans la RFC pour laquelle j’ai donné un lien plus haut.
     
  10. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 500
    J'aime reçus:
    65
    A moitié, je plaisante.
    Maintenant de deux choses l'une, ou bien Google voit ce header, et ça peut être une des causes de tes problèmes, ou bien il ne les voit pas, et c'est une réponse différente de l'utilisateur, et c'est le principe du cloaking, d'où ma pointe d'humour.

    Non, je n'arrête pas. En revanche, je pense que tu pourrais être un peu plus zen, et aussi essayer de comprendre le second degré.

    Tu sais il y a un truc qui s'appelle "changement d'algo, améliorations, etc"... en clair ce qui a marché ne marche pas toujours. Heureusement sinon on en serait encore aux balises keywords bourrées de mots clés

    Ben les liens sur les blogs google, c'est quoi ? Des spaghettis au poulet ?


    En même temps, la pertinence des autres....

    Pour le reste, tu as des outils pour communiquer avec Google. Si il y a un bug, c'est sans doute la meilleure chose à faire.
     
  11. salva
    salva WRInaute accro
    Inscrit:
    16 Avril 2006
    Messages:
    3 425
    J'aime reçus:
    0
    Tu l'as taillé à la hache le site :)

    Sa structure est déroutante : le header a déjà été pointé. Ensuite le menu de gauche qui n'apparait que sur la home :?:

    Cette page -http://www.les-ziboux.rasama.org/boutique/livres-culture-arabe.html qui change carrément de template.

    Y a pas que Google qui semble dérouté, le visiteur aussi. Alors si tu attends que Google s'adapte à ta façon de faire…

    Si Google fonctionnait comme tous ces autres moteurs minoritaires, il n'occuperait pas la place que ces mêmes moteurs convoitent.
     
  12. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    C’était ambigu, enfin, ça me semblait ambigu, à cause du ton que j’avais cru sentir.

    Concernant la pertinence des autres moteurs : tu les utilise régulièrement au moins ? ;) Les différences, je les sent (enfin, sauf avec Bing, que je ne trouve pas tant intéressant).

    C’est normal, elle ne fait plus partie du site… plus vraiment. Elle n’est encore là que pour des raisons, disons historiques.

    Ce n’est de toute manière pas cette page qui peut poser des problèmes. Et puis je la laisse en signe de reconnaissance envers certains auteurs dont les livres s’y trouve.
     
  13. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    J’ai déjà tenté, mais je n’ai jamais eu de réponse; c’était il y a longtemps, pour un autre problème survenu après avoir pourtant suivi leur propre conseil reçu par mail… la seule fois où ils m’ont répondu.

    À part ça, je ne sais pas si par hasard ils ont corrigé quelque chose ou pas, mais tout d’un coup, je viens de vérifier, la plupart des fausses erreurs 404 ont disparu, il n’en reste plus que 5. Et l’autre site dont je ne pouvais pas valider la propriété, elle s’est validé toute seule :eek:

    Je ne saurai jamais ce qu’il s’est passé, et c’est bien ça le problème, on ne sait jamais rien. Mais au moins ça a été corrigé (jusqu’au prochain bug j’imagine).
     
  14. fredfan
    fredfan WRInaute accro
    Inscrit:
    2 Juillet 2008
    Messages:
    2 851
    J'aime reçus:
    2
    Tout ça montre que Google a été prudent et a pris le temps d'analyser la situation avant de te donner le contrôle des GWT sur le site, ce qui aurait donné la possibilité de nuire à une personne mal intentionnée.
    Avec Google, vivons dans un monde plus sûr :!:
     
  15. stonetatara
    stonetatara Nouveau WRInaute
    Inscrit:
    27 Juillet 2008
    Messages:
    8
    J'aime reçus:
    0
    Bonsoir,

    j'ai peut-être un début de réponse au problème cité dans le post, mais d'un point de vue technique je ne peux pas l'expliquer au regard de mes connaissances en protocole HTTP proche du zéro :D

    Donc, en étudiant le header de la page citée avec le protocol HTTP/1.0 "wihtout host header", j'obtiens ceci :
    http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.0
    => un 404 not found

    Même test avec un HTTP/1.1 :
    http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/voyelles-breves-et-diacritiques-arabes.html&http=1.1
    => un code 200 exotique , je cite : "Status: HTTP/1.1 200 Okay, voici votre document "

    Apparement Google verrait un code 404 sur cette page , mais aussi sur le reste du site apparamment, exemple la page d'accueil :
    http://web-sniffer.net/?url=http://www.les-ziboux.rasama.org/&http=1.0
    => Status: HTTP/1.1 404 Not Found

    Donc si quelqu'un a des connaissances techniques poussées, et des talents de pédagogue pour vulgariser, je suis curieux et preneur pour une explication.

    Merci
     
  16. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Cette erreur 404 ne viens pas de moi, parce que le document HTML renvoyé, n'est pas de moi.

    Si les serveurs chez 1&1 renvoient des erreur 404 pour les requêtes faites avec HTTP 1.0, je ne peux rien y faire (voir explication ci-après).

    D'ailleurs, les requêtes HTTP 1.1 et 1.0 n'ont pas la même forme. Alors il faudrait vérifier si WebSniffer formule correctement les requêtes HTTP 1.0.

    HTTP 1.1 inclu le nom du domaine dans la requête, mais HTTP 1.0 ne le fait pas (ça n'existe pas pour lui). Pour parler plus clairement, HTTP 1.0 ne permet pas à plusieurs sites d'être hébergés sur une même IP commune. En HTTP 1.0 on a : IP d'un serveur = IP d'un site, c'est à dire, un serveur = un site ou un site par serveur, seulement. Car en effet, comme aucun nom de domaine n'est transmis dans la requête, il n'est pas possible de distinguer plusieurs sites hebergés sur une même IP. Ce qui signifie que en HTTP 1.0, il n'est pas possible de faire des requêtes vers des sites hébergés sur des serveurs mutualisés. Un serveur pour sites mutualisés qui reçoit une requête HTTP 1.0, n'a aucun moyen de savoir à quel site est destinée la requête, parmis tous les sites qu'il héberge! Que peut-il donc faire d'autre que de renvoyer une erreur 404 ?

    Et puis HTTP 1.0, c'est la préhistoire, plus personne ne l'utilise depuis des lustres, il n'est plus supporté que pour des raisons techniques dont je n'ai plus le détail, mais il n'est plus utilisé par les clients web, comme les navigateurs et les robots. J'espère vraiment que Google ne s'amuse pas à faire ce genre de requêtes, et je n'en vois pas l'intérêt. Je ne vais quand-même pas prendre un dédié juste pour que Google ne voit pas des 404 chez moi... et puis s'il se met à voir des 404 chez tous les mutualisés, il n'a pas fini d'en voir!

    En tous cas merci d'avoir essayé de ce côté là, tu as eu le nez fin, parce que je n'avais pas pensé à bricoler avec ça, tellement ça ma paraissait incongru. Et de toutes manières, maintenant le problème n'existe plus (alors que je n'ai rien changé au site... le problème est apparu d'un coup, et il est reparti tout aussi brutalement).
     
  17. stonetatara
    stonetatara Nouveau WRInaute
    Inscrit:
    27 Juillet 2008
    Messages:
    8
    J'aime reçus:
    0
    Merci à toi @Hibou57 pour ce début de réponse complet et pédagogique comme je l'avais souhaité.
    Et en plus j'ai compris le principe, dont une reco de gagnée pour toi ! :)
     
  18. u73256
    u73256 WRInaute discret
    Inscrit:
    9 Octobre 2007
    Messages:
    189
    J'aime reçus:
    0
    Reco itou pour le hibou et son explication.
    Ça tient de l’exploit : arriver à me faire comprendre et apprendre la particularité des requêtes HTTP dans ces différents cas de figure un dimanche matin, chapeau !
     
  19. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Ben non, le problème est revenu, il recommence le même cirque depuis aujourd'hui.

    J'ai attendu, pensant que ça passerait peut-être tard dans la soirée, mais il insiste.

    J'ai également le même problème de validation de site, il me dit qu'il ne peut pas valider le site, qu'il ne parvient pas à accéder la page qui l'identifie, alors que le fichier est là, que je l'ai testé X fois.

    De qui se moque t-on : comment un moteur de recherche incapable d’accéder à des pages qui existent peut-il être jugé sérieux ?

    Et il n'y vraiment que Google pour être décendu aussi bas. Je me répète, mais même un simple wget est 10,000 fois plus capable que Google.
     
  20. IllusionPerdu
    IllusionPerdu WRInaute discret
    Inscrit:
    11 Mars 2006
    Messages:
    130
    J'aime reçus:
    0
    C'est dingue de soit disant ce plaindre que google ne suit pas les norme HTTP alors que tous les headers sont personnalisé....

    As tu essayer en mettant les headers normaux ?

    Sinon il me semble que google interprète comme des 404-like content les documents qui renvoye plus code HTTP genre la même page un 404 et un 200...
     
  21. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 276
    J'aime reçus:
    0
    ce fichier est-il correct ? n'a-t-il pas une taille vide ? avant, il suffisait juste d'avoir un fichier pour que ce soit ok, alors que depuis quelques mois, il faut, en plus, que ce fichier contienne son propre nom, sinon ça ne valide plus
     
  22. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Oui, il est correcte, je sais ce que je dit, j'ai renvoyé celui qu'il fourni, comme toujours. La preuve : il m'a revalidé le site dans l'après midi, sans qu'entre temps je n'y ai touché.

    Et c'est toujours la même chose, les logs montre que le robot reçois bien le fichier, mais dans GWT, il dit qu'il ne parvient pas à y accéder.

    J'ai cru à un bug qu'ils avaient corrigé, mais ça n'a pas l'air d'avoir été corrigé.

    Que faire dans ces cas là ? Rien, parce que de toutes les manières, le mammouth, que dis-je, ... le dinosaure, est sourd aux messages qu'on lui transmet, aussi bien ici, que sur leur forum officiel, que par mails. Et puis c'est fatiguant, chaque fois qu'il y a un problème, on a *aucune information*, ce qui fait qu'on ne peut même pas essayer de corriger nous-même. Non seulement ils ne corrigent pas, mais ils nous prive de pouvoir corriger nous-même. Pas d'autres choix que d'attendre en spectateurs désœuvrés.
     
Chargement...
Similar Threads - médiocrité Google frappé Forum Date
Problème d'indexation Google Problèmes de référencement spécifiques à vos sites Mercredi à 22:56
Nouveau site pour Google Merchant Référencement Google Mercredi à 09:35
Google chrome : affichage incomplet Google : l'entreprise, les sites web, les services Mardi à 09:31
Pages non référencées par Google Référencement Google 15 Janvier 2022
Structure pour campagne Google Shopping AdWords 14 Janvier 2022
Liens NoFollow mais visible dans Google Search Console? Débuter en référencement 11 Janvier 2022
Référencement site avec Google My Business Référencement Google 10 Janvier 2022
Google acquiert la startup de cybersécurité Siemplify pour 500 millions de dollars Google : l'entreprise, les sites web, les services 6 Janvier 2022
Utiliser Google Ad Manager pour habillage site Monétisation d'un site web 22 Décembre 2021
Ajout bouton recherche Google sur mon site : Impact SEO Demandes d'avis et de conseils sur vos sites 22 Décembre 2021
Où faut-il mettre les commandes spéciales de Google ? Débuter en référencement 21 Décembre 2021
Search Console Google ne veut pas indexer après plusieurs semaines Crawl et indexation Google, sitemaps 16 Décembre 2021
Mon budget journalier Google Ads ne se dépense pas AdWords 16 Décembre 2021
Email bizarre de Google - GMB Google : l'entreprise, les sites web, les services 13 Décembre 2021
Un compte Google Adsense par site ? AdSense 10 Décembre 2021
Google indexe mes pages AMP sur PC Problèmes de référencement spécifiques à vos sites 10 Décembre 2021
Google analytics 4 explorer limité au trimestre ? Google Analytics 7 Décembre 2021
Je n'arrive pas à indexer les pages du site sur Google Problèmes de référencement spécifiques à vos sites 2 Décembre 2021
WordPress Une page produit (si pas plus) introuvable sur Google Problèmes de référencement spécifiques à vos sites 29 Novembre 2021
Certaines pages importantes ne sont plus indexées dans Google Problèmes de référencement spécifiques à vos sites 28 Novembre 2021