Googlebar, confidentialité, passage du bot et indexation

Discussion dans 'Tests et études de cas' créé par nico__p, 26 Novembre 2003.

  1. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
    Bonjour à tous.
    J'avais deja fait un post la dessus mais comme ca m'est arrivé de nouveau je pense que ca peut vous intéresser.
    Je constate que google vient crawler des pages chez moi alors que celles ci lui sont théoriquement inconnues : il n'y a absolument aucun lien pointant vers ces pages sur le web, car elles sont toutes neuves et que je ne les ai pas encore publiées.
    Peut etre que l'adresse est perdue dans des logs de référants mais ces pages sont en général protégées et le laps de temps entre la création de la page et le passage du bot me parait trop court pour qu'il l'ai touvé en crawlant des logs de référants (d'ailleurs souvent inaccessibles).

    Je pense que le passage du bot est lié à la présence de la googlebar sur mon internet explorer. J'ai évidemment activé les options avancées ce qui implique que "certaines infos. peuvent etre transmises à google". Et c'est manifestement le cas : la semaine dernière j'ai commencé à développer 3 pages et le surlendemain du début de leur développement elles ont recu le passage du bot. J'avais utilisé le bouton "Vote for this page" dans les 3 cas. Je ne dis pas que c'est cela qui a provoqué le passage du bot, mais c'est quand meme troublant !

    (cf. https://www.webrankinfo.com/forum/t/google-indexe-t-il-les-pages-votees.5614/ )

    Edit : ci-dessous deux lignes de de logs de ces visites (la 3eme page a été crawlée un jour ou les logs ont planté :( )
    64.68.87.41 web31 - [24/Nov/2003:18:59:30 +0100] "GET /accueil/faq.php HTTP/1.0" 200 11465 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

    64.68.87.69 web31 - [22/Nov/2003:03:15:52 +0100] "GET /voyage/peche-steelhead-cattaraugus.php HTTP/1.0" 200 14675 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

    S'agit-il du vrai googlebot ???????

    Je précise par ailleurs que j'utilise beaucoup Opera et que j'ai choisi comme barre de pub en haut les pubs suggérées par google : ce truc la peut aussi envoyer des infos non :?:
     
  2. tada
    tada WRInaute occasionnel
    Inscrit:
    9 Mai 2003
    Messages:
    476
    J'aime reçus:
    0
    pas publiées ? tu veux dire qu'elles sont pas encore sur le net ?
    il est trop fort, ce google ! :lol:
    .
     
  3. Americas
    Americas WRInaute accro
    Inscrit:
    24 Septembre 2003
    Messages:
    2 586
    J'aime reçus:
    0
    J'avais pas vu cette option pour le vote :lol:

    Si Google va crawler les pages que l'on vote... je vais aller voter sur celles qui ne sont pas encore indexées :wink:
     
  4. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
    Pas publiées : je veux dire qu'il n'y a aucune page sur le web liant ces pages car je les ai créé et je suis le seul à connaitre l'adresse : google se sert donc manifestement des toolbars et autre pour collecter des URL non ?

    Le plus frappant pour moi est la rapidité du crawl : le lendemain ou surlendemain de la création de la page.
     
  5. Americas
    Americas WRInaute accro
    Inscrit:
    24 Septembre 2003
    Messages:
    2 586
    J'aime reçus:
    0
    Et qu'est-ce qui se passe si on appuie sur le bouton "vote contre cette page" ? 8O
     
  6. George Abitbol
    George Abitbol WRInaute passionné
    Inscrit:
    6 Juin 2003
    Messages:
    1 536
    J'aime reçus:
    0
    Il blackliste tous tes sites, même ceux que tu feras dans le futur, ainsi que ceux de ton éventuelle descendance et une tempête sans précédent s'abattra sur ta région, y éliminant toute forme de vie.

    Ne jamais sous-estimer le pouvoir de Google.

    Fred
     
  7. Americas
    Americas WRInaute accro
    Inscrit:
    24 Septembre 2003
    Messages:
    2 586
    J'aime reçus:
    0
    Plus sérieusement... je serais curieux de savoir comment ça marche ce système de vote :roll:

    Je vais essayer de faire une page sur les pommes que je vais mettre dans un repertoire à part et voter pour cette page :lol:
     
  8. Kmacleod
    Kmacleod WRInaute passionné
    Inscrit:
    28 Novembre 2002
    Messages:
    2 467
    J'aime reçus:
    0
    Ca va surement marcher, j'en connais un qui est devenu président de la république avec le même concept "pomme" "voter" :wink:

    Plus sérieusement, un test avait déjà été fait dans ce sens, il avait été negatif, et avec les filtres posés, ce serait une nouvelle porte ouverte à du n'importe quoi :roll:
     
  9. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    mmm j'ai aussi du ma à y croire que ce soit le bouton vote.
    par contre, es tu sur que tes liens étaient vraiment bien planqués??
    Romain
     
  10. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    bon, j'ai fait le test sur une page non indexée, on va bien voir
     
  11. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
    Ok mais comment expliquer le passage du bot sur ces pages ? Car il est bien passé : cf. les logs.

    PS : oui, je suis certain que ces urls n'etaient pas dispo. sur le web : elles n'ont pu etre connues du bot que par mon passage dessus car je suis le seul à connaitre les adresses et a etre passé sur ces pages... a part le bot justement !
     
  12. yannouk
    yannouk WRInaute passionné
    Inscrit:
    11 Octobre 2003
    Messages:
    1 568
    J'aime reçus:
    0
    moi aussi nico j'ai le meme probleme...enfin presque. En attendant le transfert des dns de mon nom de domaine, mon site etait accessible via une rl temporaire chez ovh du style ~drimmo. et j'ai retrouvé cette page sur google! et le pire c'est qu'il indexe celle la et plus mon ndd :(
     
  13. Americas
    Americas WRInaute accro
    Inscrit:
    24 Septembre 2003
    Messages:
    2 586
    J'aime reçus:
    0
    tiens ! Vous avez remarqué ? La googlebar n'indique plus le PR en ce moment... tout du moins chez moi :roll:
     
  14. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 246
    J'aime reçus:
    374
  15. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
  16. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 246
    J'aime reçus:
    374
    Americas avait écrit juste avant
    et justement on en parle dans la discussion indiquée.
     
  17. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
    Hmm d'accord desole. Je pensais que c'etait par rapport au theme principal du fil.
    Tiens au fait une des pages en question a été recrawlée : 3 passages du bot su cette page au total alos qu'elle n'a aucun lien entrant sur le web.
     
  18. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    8 063
    J'aime reçus:
    0
    Pareil. google avait crawlé et indexé des pages que je n avais pas encore mis online !! mon idée : j utilise easyPHP pour visionner mes pages. hors, je me suis deja apercu que lorsque je suis "online" et que je consulte mes pages non publiées sur easyPHP et que je cliques sur des liens sortants vers un autre de mes sites, ces pages uniquement parcourrues par easyphp sont indiquées en referer sur xiti. donc, je me dis qu il est possible que google ait suivi la piste que lui offrait les infos provenant de la googlebar. Ces pages etaient alors indexées comme des pages que j avais supprimé ou redirigées c est a dire juste l URL, et le titre. sans description. et biensur menant sur une page d erreur (puisque non online)....

    a+
    hervé
     
  19. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    je n'utilise pas de compteurs comme xiti, et pour l'instant, n'ai jamais eu de visite "off line"
    tu es certainement sur la bonne piste Hervé :eek:)
    Romain
     
  20. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Oui, j'ai eu un cas un peu similaire...

    mais pour continuer dans le sens d'Hervé, avais-tu Nico, sur tes pages, des liens qui pointaient vers pages dûment indexées ?
     
  21. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    bon, j'ai créé hier une page pour laquelle j'ai voté, que j'ai laissé orpheline, et qui n'est toujours pas indexée, alors que les autres l'ont été...

    on va bien voir
     
  22. George Abitbol
    George Abitbol WRInaute passionné
    Inscrit:
    6 Juin 2003
    Messages:
    1 536
    J'aime reçus:
    0
    David : le détail que tu n'as pas pris en compte, c'est que Google se sert des posts dans le forum de WRI (et d'autres) pour repérer tous ceux qui tenteraient ce genre d'expérience et pour ne pas indexer leur page de test. Ah oui, il est fourbe...

    Fred
     
  23. DAVID86
    DAVID86 WRInaute impliqué
    Inscrit:
    15 Octobre 2003
    Messages:
    834
    J'aime reçus:
    0
    lol... ta théorie est sympa, mais je pense pas qu'ils aient assez de temps à perdre pour ça :eek:)
    Romain
     
  24. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    8 063
    J'aime reçus:
    0
    j ai retrouvé mon exemple :
    https://www.google.fr/search?hl=fr&ie=UTF-8&oe=UTF-8&q=site:www.location-poitiers.com -sdfsfs&meta=

    regradez le 6eme resultat : la page :" *ww.location-poitiers.com/Samplesite/futuroscope/horaires.htm"

    non seulement, cette page n a jamais été mise online mais le repertoire non plus (un repertoire Samplesite !!) ....!! hors c est bien le nom de repertoire et la page qui se trouvent sur mon disque dur de PC.....

    alors, il a été les chercher ou ces infos ????

    a+
    Hervé
     
  25. Kmacleod
    Kmacleod WRInaute passionné
    Inscrit:
    28 Novembre 2002
    Messages:
    2 467
    J'aime reçus:
    0
    Il n'y a qu'a faire un test de vote sur une page protègée par un .htaccess, si google l'indexe c'est qu'il n'a pas suivi un chemin normal
     
  26. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Oui, ton exemple est amusant et surprenant, mais...
    ton pc ne s'appelle pas w*w.location..etc..
    donc, l'adresse qu'il indique ne peut résulter que d'un lien relatif.

    Tu es sûr que tu n'as pas eu une page en ligne à un moment où il restait un lien relatif vers Samplesite/etc... ?
     
  27. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    8 063
    J'aime reçus:
    0
    non, car c est un repertoire de développement sur mon pc, ou seules des pages incompletes sont contenues. donc je ne fais pas de lien vers ces pages puisque lelles ne sont en fait rien du tout (morceau de code, essais graphiques, etc.) Et meme si c etait le cas, la page et le repertoire n ont pas été mis en ligne......! comment peut-il indexer si il ne trouve pas la page.......ailleurs que sur mon PC......
     
  28. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Oui et aussi comment a-t-il formé l'adresse ?
    puisqu'il accole le nom de ton site, donc forcément en ligne et un nom de repertoire sur ton pc.
    Quand tu es allé sur ton répertoire en local, la google bar a récupéré une adresse de la forme http://tonpc/etc....
    Comment aurait-il pu faire un lien avec ton nom de domaine. (sauf si tu as appelé ton PC w*w.locations-etc... :) )
     
  29. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    8 063
    J'aime reçus:
    0
    alors admettons qu il y ait eu un lien sur une page online mais sans cible sur mon serveur, comment ca se fait ?
     
  30. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
    Oui il y en avait, mais uniquement vers des pages appartenant a mon nom de domaine.

    Mais je n'utilise pas Xiti ni aucun service externe, uniquement un script de comptage que j'ai fait donc il n'a aucun moyen d'accéder aux referers la page de consultation est protégée par htaccess).

    L'experience m'est de nouveau arrivée il y a 10 minutes : une nouvelle page, sans aucun lien pointant dessus, vient d'être visitée. C'est une page sur laquelle j'ai commencé à tavailler en début d'après midi seulement :!:
    Et je ne l'avais pas browsée avec IE mais uniquement avec mon navigateur habituel qui est Opera7. Dans Opera (que je n'ai pas acheté) j'ai une barre de recherche Google et l'image de pub que j'ai séléctionné est la publicité google : je pense que c'est Opera qui transmet les URL que je visite à google.
     
  31. Remi L.
    Remi L. WRInaute impliqué
    Inscrit:
    6 Septembre 2003
    Messages:
    909
    J'aime reçus:
    0
    Je me demandais si la googlebar n'exploitait pas le champ 'referer' quand on est sur une page déjà indexée.
    Ton exemple est bien intéressant (et assez sidérant d'ailleurs). Dans mon cas, Opera pourrait être aussi en cause car je l'utilise parfois pour tester mes pages. Par contre, je n'ai pas sélectionné de pub particulière: je l'ai installé et laissé tout par défaut.

    Mais d'un autre côté, dans mon cas, google n'avait indexé que la page racine du site. Les pages internes je les ai testées sur Opera de nombreuses fois sur 2-3 mois de temps sans qu'elles ne soient visitées pour autant.
     
  32. nico__p
    nico__p WRInaute discret
    Inscrit:
    29 Avril 2003
    Messages:
    81
    J'aime reçus:
    0
    S'agit il vraiment du googlebot (d'un nouveau google bot ?).

    Sa signature dans les logs est la suivante (plusieurs ip différentes)

    64.68.87.69 web31 - "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
     
  33. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 246
    J'aime reçus:
    374
    il s'agit du robot utilisé pour gérer les AdSense il me semble
     
  34. herveG
    herveG WRInaute accro
    Inscrit:
    5 Mars 2003
    Messages:
    8 063
    J'aime reçus:
    0
    je viens de tomber la-dessus. Cela pourrait expliquer ces indexations de contenu sans que des liens ne pontent vers la apge visée :

    "Il est quasiment impossible de garder secret un serveur Web en ne publiant aucun lien vers ce serveur. Dès qu'un utilisateur suit un lien établi entre votre serveur « secret » et un autre serveur Web, il est plus que probable que votre adresse URL « confidentielle » sera enregistrée dans la balise de référencement et qu'elle sera stockée, ou même publiée, par l'autre serveur Web dans son journal de référencement. Par conséquent, s'il existe un lien entre votre serveur Web « confidentiel » (ou entre une de vos pages) et un autre serveur Web, Googlebot et les autres robots-explorateurs et « spiders » se feront vraisemblablement un plaisir de le recenser"

    https://www.google.com/intl/fr/webmasters/3.html
     
  35. breumtch
    breumtch Nouveau WRInaute
    Inscrit:
    5 Juin 2003
    Messages:
    11
    J'aime reçus:
    0
    Moi je trouve ça très cool ... Y a plus rien a faire pour référencer nos pages ! d'ici a ce que les googlebot viennent directement crawler les disques de nos ordis y a pas loin. Va falloir travailler super vite maintenant ! Même plus le temps d'optimiser les pages...
     
Chargement...
Similar Threads - Googlebar confidentialité passage Forum Date
différence googlebar 4 et 5 au niveau bouton pr Google : l'entreprise, les sites web, les services 18 Février 2009
Réseau de sites et confidentialité avec Google Administration d'un site Web 30 Septembre 2014
Confidentialité de la messagerie gmail Gmail, Google Talk, Blogger et Orkut 12 Octobre 2013
confidentialité FB Facebook 18 Juillet 2013
Google va expliquer à La CNIL sa nouvelle politique de confidentialité Google : l'entreprise, les sites web, les services 17 Mai 2012
La nouvelle politique de confidentialité de Google critiquée par le Congrès américain Google : l'entreprise, les sites web, les services 3 Février 2012
Google active la confidentialité persistante en HTTPS Google : l'entreprise, les sites web, les services 26 Novembre 2011
Google+ corrige un bug affectant la confidentialité des messages Google : l'entreprise, les sites web, les services 4 Juillet 2011
Publicité ciblée et confidentialité : les propositions de Google et celles de Mozilla Google : l'entreprise, les sites web, les services 25 Janvier 2011
Google simplifie sa politique de confidentialité Google : l'entreprise, les sites web, les services 6 Septembre 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice