Indexation de pages qui n'existent pas (Google "lit" le Javascript ! )

Discussion dans 'Débuter en référencement' créé par cedric_g, 26 Janvier 2012.

  1. cedric_g
    cedric_g WRInaute accro
    Inscrit:
    18 Janvier 2006
    Messages:
    2 930
    J'aime reçus:
    2
    Bonjour

    Petit soucis rencontré sur le CMS e-commerce Prestashop, avec son système de stats intégrées... Et en réalité, je pense que c'est plus du ressort de Google, qui ingère des URLs qu'il ne devrait pas !

    Je vois effectivement apparaître des URL en erreur HTTP 404 dans les Google Webmaster Tools, qui n'existent pas ou tout du moins, qui ne "devraient pas" être crawlées, du type :
    Code:
    www.lesite.com/k7EmSXMxKU=3X02px8z28=oIgf2W8P2gI=u5T/NHIAX1Q=
    En effet, quand je dis "ne devraient pas être crawlées" c'est que ces URLs n'existent PAS dans le code, mais sont la résultante d'un code Javascript qui envoie un token crypté pour les statistiques internes du site !

    En clair, Google "suit" la requête HTTP Post envoyée en JS 8O (c'est en tout cas mon analyse !)

    Exemple de code inclus par Prestashop :
    Code:
    <script type="text/javascript">
      var time_start;
      $(window).load(
            function() {
              time_start = new Date();
            }
      );
      $(window).unload(
            function() {
              var time_end = new Date();
              var pagetime = new Object;
              pagetime.type = "pagetime";
              pagetime.token = "uXA4nSAFkrE=wgNekXfW3OU=tarGSiTEyVE=pYPHWRBs/Is=";
              pagetime.time = time_end-time_start;
              $.post("http://www.lesite.com/statistics.php", pagetime);
            }
      );
    </script>
    
    C'est le SEUL endroit où l'on retrouve ce type de "chaîne encryptée", répondant toujours à la même structure (avec les signes "=" au milieu), c'est donc à mon sens bien la source du problème !

    Cela concerne toutes les boutiques que je gère, en v1.1, 1.2 et 1.3...


    Même si on ne s'en sert pas beaucoup, le module de stats peut apporter des indications intéressantes en complément de Google Analytics, j'aimerais donc éviter de m'en passer totalement (pour le moment je l'ai désactivé).

    Comme on ne peut pas interdire via le robots.txt des modèles d'URL, je ne vois vraiment pas comment faire :(

    Une idée ?

    Et si j'interdisais au bot Google les URL répondant à ce schéma via le htaccess ? J'aimerais éviter de faire une ânerie, ce sont des sites en production :mrgreen:
     
  2. mipc
    mipc WRInaute accro
    Inscrit:
    11 Février 2009
    Messages:
    3 104
    J'aime reçus:
    0
    ça fait un temps que google suit et comprends le JScript olivier(pas moi l'autre) Duffez en avait parler ici y a plus d'un ans, me semble!!!
     
  3. cedric_g
    cedric_g WRInaute accro
    Inscrit:
    18 Janvier 2006
    Messages:
    2 930
    J'aime reçus:
    2
    Oui mais bon, entre lire une URL dans le JS et suivre une requête HTTP Post et en déduire l'URL appelée, y'a quand même un monde !

    Et d'ailleurs je trouve nase que Google suive ce type d'URL, utilisée pour l'essentiel pour les envois de données (souvent sécurisés !)
     
  4. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 197
    J'aime reçus:
    0
    Sur ce coup Cedric, on le sait effectivement depuis quelques temps.
    Il faut déporter le JS et l'interdire de crawl.
     
  5. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 161
    J'aime reçus:
    338
  6. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 024
    J'aime reçus:
    1
    Si ça continu avec google on va bientot devoir mettre un htaccess sur la porte des toilettes des fois qu'il passe au moment ou il faut pas.
     
  7. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 973
    J'aime reçus:
    121
    J'ai eu le même problème sur un Prestashop. Du coup, j'ai désactivé l'ensemble des modules de stat du CMS (de mémoire).
     
  8. cedric_g
    cedric_g WRInaute accro
    Inscrit:
    18 Janvier 2006
    Messages:
    2 930
    J'aime reçus:
    2
    OK

    Bon ben je savais qu'il lisait le JS mais pas à ce point :x

    Sur ce coup je ne peux pas externaliser le JS dans la mesure où il est généré dynamiquement. Je désactive les stats et basta !

    Pénible Google...
     
  9. lambi521
    lambi521 WRInaute passionné
    Inscrit:
    15 Juin 2010
    Messages:
    1 463
    J'aime reçus:
    0
    J'ai envie de dire... TU M'ETONNES ! (cf Le Petit Journal :lol:)

    Avant je faisait mes sites pour plaire (à moi) et aux visiteurs, maintenant je fais les sites pour plaire aux visiteurs mais SURTOUT à Google et ça, ça me gonfle royal (non non pas ségolène...)
     
  10. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 197
    J'aime reçus:
    0
    Rassure toi en te disant que sur Magento, c'est pire...
     
Chargement...
Similar Threads - Indexation existent (Google Forum Date
Vieilles erreurs d'indexation dans GWT. mais qui n'existent pas Crawl et indexation Google, sitemaps 2 Novembre 2015
Desindexations et réindexations de pages qui n'éxistent plus Crawl et indexation Google, sitemaps 8 Mai 2006
référencement site en anglais : indexation plus longue Référencement international (langues, pays) 13 Mai 2022
Problème d'indexation Produits Prestashop Crawl et indexation Google, sitemaps 28 Avril 2022
Problème indexation pages précises en React.js Débuter en référencement 19 Avril 2022
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
Conseil pour accélérer l'indexation de mon nouveau site Problèmes de référencement spécifiques à vos sites 9 Avril 2022
Comment puis-je obtenir l'indexation instantanée de Google ? Débuter en référencement 28 Mars 2022
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Indexation de mon site dans Google Problèmes de référencement spécifiques à vos sites 13 Mars 2022
Search Console Problème d'indexation Crawl et indexation Google, sitemaps 24 Février 2022
Indexation d'urls en caractères russes Crawl et indexation Google, sitemaps 16 Février 2022
Search Console Impossible de demander une indexation manuelle, état exclut Problèmes de référencement spécifiques à vos sites 12 Février 2022
Problème indexation car élément "url" manquant sur logo Crawl et indexation Google, sitemaps 11 Février 2022
Search Console Indexation Google Search Console Référencement Google 9 Février 2022
Indexation d'un eshop principal FR / EN et de eshops dédiés US / FR Crawl et indexation Google, sitemaps 4 Février 2022
Search Console Problème indexation sitemap Problèmes de référencement spécifiques à vos sites 1 Février 2022
Lenteur d'indexation? Crawl et indexation Google, sitemaps 31 Janvier 2022
Problème d'indexation Google Problèmes de référencement spécifiques à vos sites 19 Janvier 2022
Changement d'indexation des urls de mon site. Administration d'un site Web 22 Décembre 2021