Si rien ne l’arrête, comment l’arrêter ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par hibou57, 30 Juin 2010.

  1. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Bonsoir,

    C’est la question que je me pose (pas Bonsoir, le titre).

    Rien ne va plus : je viens de découvrir aujourd’hui un sitemap qui figure dans l’indexe de Google tel que renvoyé par le commande “site:URL”.

    Le sitemap est indéxé comme un document, avec un extrait du contenu du sitemap, et comme titre la première URL qu’il contient.

    ... et les p’tits zoizeau font cuicui

    Franchement, je ne les compte plus, j’en découvre presque tous les jours, c’est pire que tout, jamais vu un moteur de recherche aussi désastreux.

    Mais sérieusement : comment l’arrêter ?

    Allez, pour l’occasion, je fais un petit récap.

    Il indexe le sitemap comme un document.
    Il soumet soumet des formulaires.
    Il indexe des URL de redirection.
    Il indexe des binaires comme du texte.
    Il ignore le Robots.txt... et s’énerve quand il change.
    Il ignore les facteurs d’importance des pages indiqués dans le sitmap.
    Il tente d’indexer des liens externes contenant des “#” en les remplaçant par des “%23”
    Dans les résultats il renvoie sur des pages à côté ou sur la page d’accueil au lieu du bon document
    Il ne voit pas quand il reçoit des réponses compressées (dans le GWT ça)

    Tu en connais d’autres ? Tu en as vu passer d’autres avec le même ? Tu n’ose pas témoigner parce que tu crois qu’on va te prendre pour un fou ou une folle et que le premier avril est passé ? Pas grave, n’ai crainte, si toi aussi tu connais une bonne poilade avec les délires de Google 100% Real Life, fait nous profitez, qu’on se marre doublement.
     
  2. Cytise
    Cytise Nouveau WRInaute
    Inscrit:
    30 Juin 2010
    Messages:
    15
    J'aime reçus:
    0
    Pour le coup je comprends pas. Pourquoi faire une rubrique dessus dans le GWT si c'est pour ne pas le respecter? 8O
     
  3. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Je ne comprend pas non-plus, pas plus que je ne comprend pourquoi les filtrages du Robots.txt sont assimilés à des « Erreurs d’exploration », quand aucun lien externe ne pointe vers les pages filtrées et qu’aucune page filtrée ne fait partie du sitemap.

    À ce sujet (sur le Robots.txt), j’en connais une pas rassurante : j’ai lu (je te retrouve le lien si la question t’intéresse, en demandant à son auteur) que Google assimile certains filtrages présents dans le Robots.txt comme étant la signature de spammeurs : si un webmestre place un filtre dans le Robots.txt pour empêcher l’indexation de ce site par le robot de Webarchive, alors ça déclenche dans Google une alerte associée au site et le site est considéré comme un site de spam et exit des résultats du moteur... juste pour un filtre empêchant l’indexation par le robot de Webarchive.

    Parfois j’y pense, et je me demande combien il y en a des comme ça... et surtout je me demande lesquelles (mais ça on ne peut pas le savoir)
     
  4. Cytise
    Cytise Nouveau WRInaute
    Inscrit:
    30 Juin 2010
    Messages:
    15
    J'aime reçus:
    0
    Oui en effet j'avais lu ça quelque part au sujet de webarchive 8O Puisque tu proposes je veux bien le lien :mrgreen:
     
  5. fredfan
    fredfan WRInaute accro
    Inscrit:
    2 Juillet 2008
    Messages:
    2 850
    J'aime reçus:
    2
    Ce n'est peut-être pas la peine d'ouvrir un topic par semaine pour ça.
    Tu es déçu d'avoir été déclassé par Google, mais tu gaspilles ton énergie à des discussions politico-philosophiques qui ne vont pas faire s'écrouler l'empire Google et qui ne te rendront pas tes visiteurs.
     
  6. L.Jee
    L.Jee WRInaute accro
    Inscrit:
    11 Décembre 2007
    Messages:
    5 349
    J'aime reçus:
    4
  7. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    J’ai même pas eu a demandé, j’ai retrouvé tout seul comme un grand :mrgreen:

    Le titre est explicite : L’incident Archive.org durant PubCon
    Lire la page indiquée pour tout comprendre.

    Et maintenant quand on pense que c’est une chose qui a filtré par accident, parce que Matt Cutts oubliait qu’il parlait en publique... Peut-on supposer qu’il y en a encore de belles comme ça qui ne filtreront jamais ?

    Question au passage : le robot s’appel comment en fait ? Archive.org ou Webarchive ?

    Effectivement bien pensé de rappeler ton cas, ça se rapporte bien.
     
  8. Cytise
    Cytise Nouveau WRInaute
    Inscrit:
    30 Juin 2010
    Messages:
    15
    J'aime reçus:
    0
  9. raljx
    raljx WRInaute passionné
    Inscrit:
    10 Juillet 2006
    Messages:
    2 022
    J'aime reçus:
    0
    il semble logique que les equipes de developpement de Google ou tout autre bon et respecteux developpeur se constitue une structure de verification basée sur les retours que son infra lui permette d'analyser... Apres, a mon humble avis du soir, dans l'article de pubcon, utiliser des termes alarmants comme "l'incident" me semble emporté ... d'un autre coté je lisais cet apres midi un article sur l'optimisation des sujets de mails ... l'utilisation de mots 'forts' augmente de 10 à 25% le taux d'ouverture total :)
     
  10. hibou57
    hibou57 WRInaute passionné
    Inscrit:
    1 Novembre 2006
    Messages:
    1 015
    J'aime reçus:
    0
    Eh bien justement, on le trouve en plus en exemple dans cette page qui présente l’utilisation de Robots.txt : Introduction to "robots.txt" (javascriptkit.com)

    Code:
    User-agent: *
    Disallow: /
    User-agent: ia_archiver
    Disallow:
    
    Quand je pense qu’il y a des gens qui ont probablement suivi cet exemple.... sans rien savoir des conséquences fâcheuses qu’il a eu dans leur dos :(