GoogleBot perd la boule ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par kaizersoze10, 5 Décembre 2008.

  1. kaizersoze10
    kaizersoze10 Nouveau WRInaute
    Inscrit:
    15 Février 2008
    Messages:
    33
    J'aime reçus:
    0
    Alors là je ne comprends pas !!

    Depuis quand le GoogleBot référence TOUTES les URL qu'il trouve sur une page alors que celles-ci ne sont pas accessibles "humainement" ? (cad qu'aucun lien ne renvoi vers ces URL !) 8O

    Je pensais jusqu'ici qu'il ne répertoriait que les URL qui apparaissaient dans des balises A (avec l'attribut HREF) car il est censé suivre le comportement d'une personne et répertorier les pages qui sont visitables !

    En tapant sur google "site:www.exemple.com", je peux voir dans les résultats : que :
    - example.com/flash/truc.swf (cette URL se trouve dans une balise EMBED que j'utilise pour faire apparaitre mon anim flash)
    - example.com/inscription/ajax_traitement (cette URL apparait dans mon bouton (qui est une image) dans l'appel javascript "onClick" )

    Essayez la manip' "site:votre site" sur Google et jeter un oeil a certaines URL, vous risquez d'etre aussi surpris .... :lol:

    Comment empêcher ça ? :(
    Y-a-t-il une technique avec les META ou le fichiers "robots.txt" ?
    (actuellement, ma balise META est classique : <meta name="Robots" content="index,follow" />
    et je n'ai pas de fichier "robots.txt")

    Merci à tous ceux qui peuvent apporter une solution a ce gros probleme !
     
  2. Røi
    Røi WRInaute occasionnel
    Inscrit:
    8 Août 2005
    Messages:
    464
    J'aime reçus:
    1
    depuis... toujours :roll:
     
  3. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 672
    J'aime reçus:
    0
    solutions: robots.txt ou .htaccess..
    comme d'habitude quoi.
     
  4. kaizersoze10
    kaizersoze10 Nouveau WRInaute
    Inscrit:
    15 Février 2008
    Messages:
    33
    J'aime reçus:
    0
    Apparement, le fait que google affiche dans ses résultats des pages qui ne sont pas accessibles "normalement" ne vous choque pas ... 8O

    Le problème est que mes titres de pages affichées par ses URL est "erreur" car ce sont des pages (ou des fichiers) qui ont besoin de parametres PHP ... donc forcément un clic sur ce résultat renvoie sur une page d'erreur ...

    Quoiqu'il en soit, ce n'est pas propre et pour, des raisons de sécurité également, j'aimerais que Google n'affiche jamais ces pages ... :evil:

    Pouvez-vous me dire précisément qu'est-ce que je dois mettre dans mon "robots.txt" ou "htaccess" pour empecher Google d'afficher uniquement les liens qui sont dans des balises "<a href=...>" :?:
     
  5. Røi
    Røi WRInaute occasionnel
    Inscrit:
    8 Août 2005
    Messages:
    464
    J'aime reçus:
    1
    Non Google fait ce qu'il veut c'est sa vie.

    Si c'est un site dynamique et ces liens n'ont pas à être affichés, tu ne peux pas mettre une condition pour les afficher dans le code ?


    Cherche "disallow htaccess" dans google
    Mais il n'existe pas une règle qui dit "ne prends pas les non a href" mais plutôt ne prends pas "cette url" apparemment l'url que tu ne veux pas voir indexée doit être indexée avec des paramètres, donc à toi de faire comme j'ai dis plus haut, une condition pour les afficher dans le code.
     
  6. kaizersoze10
    kaizersoze10 Nouveau WRInaute
    Inscrit:
    15 Février 2008
    Messages:
    33
    J'aime reçus:
    0
    Qu'est-ce que vous entendez par là ?

    Je suis obligé d'indiquer dans mon code source le répertoire où se trouve mon animation flash pour qu'il puisse l'afficher sur ma page ...
    <embed src="../flash/counter.swf" ...
    Cela ne veut pas dire pour autant que je veux que l'URL "www.exemple.com/flash/counter.swf" puisse être affichée dans les résultats Google !! 8O
     
  7. bproductiv
    bproductiv WRInaute accro
    Inscrit:
    27 Décembre 2004
    Messages:
    3 672
    J'aime reçus:
    0
  8. kaizersoze10
    kaizersoze10 Nouveau WRInaute
    Inscrit:
    15 Février 2008
    Messages:
    33
    J'aime reçus:
    0
    Soit ...
    Ca devrait aller avec le fichier "robots.txt" qui devrait bien m'aider à résoudre mon problème :)

    Par contre je reste stupéfait par l'action du GoogleBot qui, pour moi, agissait comme un humain et affichait uniquement dans ses résultats les adresses des pages accessibles par clique sur des liens ... 8O

    Merci pour votre aide ;)
     
  9. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    12 018
    J'aime reçus:
    133
    Le craw des sites effectué par Google n'est (heureusement pour eux) pas effectué par des être humains, mais par des robots qui parcourent le web de liens en liens.

    Pour faire simple, si des liens sont affichés clairement dans ton code source, alors Google est en mesure d'indexer ce qu'il y a derrière.
     
  10. kaizersoze10
    kaizersoze10 Nouveau WRInaute
    Inscrit:
    15 Février 2008
    Messages:
    33
    J'aime reçus:
    0
    Puisqu'il n'y a que moi qui ai été choqué par cette découverte, je m'incline :lol:

    Merci à tous pour vos réponses ! 8)
     
  11. NxtGen
    NxtGen WRInaute impliqué
    Inscrit:
    24 Octobre 2006
    Messages:
    563
    J'aime reçus:
    0
    puis indéxé ca ne veux pas dire que ca va ressortir dans les résultats de google.
    et comme il n'y a a mon avis que toi qui utilise la commande site: pour ton url, ca risque pas grand chose ;)
     
  12. kaizersoze10
    kaizersoze10 Nouveau WRInaute
    Inscrit:
    15 Février 2008
    Messages:
    33
    J'aime reçus:
    0
    Euh ...
    Je vais quand même faire les choses proprement histoire d'éviter tous risques de piratage ou autre ...
    Des concurrents pourraient très bien essayer la commande "site:" !
    Ne serait-ce qu'en terme d'image ça fait pas sérieux ... :oops:

    Et, vu que c'est indexé, on ne sait jamais !
    ces résultats aberrants pourraient très bien sortir sur je ne sais quelle requête !
    Les voies de Google sont impénétrables ... :lol:
     
  13. Rv323
    Rv323 WRInaute discret
    Inscrit:
    12 Avril 2007
    Messages:
    130
    J'aime reçus:
    0
    Bonjour,

    Pour éviter les piratage "blinder" le .swf afin qu'il ne puisse pas être lu ailleurs que sur ton site est certainement la meilleure chose à faire.

    Quand à l'indexation de ces .swf un petit robots.txt n'est pas très compliqué à faire.

    Aussi je ne vois pas pourquoi ceux-ci ressortiraient en aberration sur des requètes fantaisistes...
     
  14. tofm2
    tofm2 WRInaute passionné
    Inscrit:
    9 Avril 2005
    Messages:
    1 392
    J'aime reçus:
    0
    non, googlebot scanne et indexe strictement tout ce qui ressemble de près ou de loin à une URL

    http://www.netdynamics.eu/articles-main ... e-bot.html
     
Chargement...
Similar Threads - GoogleBot perd boule Forum Date
Les liens nofollow sont quand même suivis par Googlebot Débuter en référencement 27 Mai 2021
Voir une page (entière) comme Googlebot Développement d'un site Web ou d'une appli mobile 27 Mars 2021
Fréquence passage googlebot Crawl et indexation Google, sitemaps 30 Janvier 2021
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019
feuilles de styles non obtenues par Googlebot Crawl et indexation Google, sitemaps 28 Septembre 2018
Temps de réponse serveur googlebot Développement d'un site Web ou d'une appli mobile 23 Mai 2018
Strikingly et Googlebot : Contenu invisible dans la Search Demandes d'avis et de conseils sur vos sites 3 Avril 2018
Robots.txt ligne génante selon Googlebot votre avis ? Crawl et indexation Google, sitemaps 23 Mai 2017
Impact gestion paramètre url sur Googlebot Crawl et indexation Google, sitemaps 12 Mai 2017
Googlebot et fichier css/ java Débuter en référencement 24 Juin 2016
Googlebot, Cookie et SEO Crawl et indexation Google, sitemaps 20 Mars 2016
GWT m'invente des pages (Googlebot for smartphones) Crawl et indexation Google, sitemaps 19 Août 2015