Googlebar, confidentialité, passage du bot et indexation

nico__p · 26 Novembre 2003

Bonjour à tous.
J'avais deja fait un post la dessus mais comme ca m'est arrivé de nouveau je pense que ca peut vous intéresser.
Je constate que google vient crawler des pages chez moi alors que celles ci lui sont théoriquement inconnues : il n'y a absolument aucun lien pointant vers ces pages sur le web, car elles sont toutes neuves et que je ne les ai pas encore publiées.
Peut etre que l'adresse est perdue dans des logs de référants mais ces pages sont en général protégées et le laps de temps entre la création de la page et le passage du bot me parait trop court pour qu'il l'ai touvé en crawlant des logs de référants (d'ailleurs souvent inaccessibles).

Je pense que le passage du bot est lié à la présence de la googlebar sur mon internet explorer. J'ai évidemment activé les options avancées ce qui implique que "certaines infos. peuvent etre transmises à google". Et c'est manifestement le cas : la semaine dernière j'ai commencé à développer 3 pages et le surlendemain du début de leur développement elles ont recu le passage du bot. J'avais utilisé le bouton "Vote for this page" dans les 3 cas. Je ne dis pas que c'est cela qui a provoqué le passage du bot, mais c'est quand meme troublant !

(cf. https://www.webrankinfo.com/forum/t/google-indexe-t-il-les-pages-votees.5614/ )

Edit : ci-dessous deux lignes de de logs de ces visites (la 3eme page a été crawlée un jour ou les logs ont planté

)
64.68.87.41 web31 - [24/Nov/2003:18:59:30 +0100] "GET /accueil/faq.php HTTP/1.0" 200 11465 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

64.68.87.69 web31 - [22/Nov/2003:03:15:52 +0100] "GET /voyage/peche-steelhead-cattaraugus.php HTTP/1.0" 200 14675 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

S'agit-il du vrai googlebot ???????

Je précise par ailleurs que j'utilise beaucoup Opera et que j'ai choisi comme barre de pub en haut les pubs suggérées par google : ce truc la peut aussi envoyer des infos non :?:

tada · 26 Novembre 2003

nico__p a dit:
car elles sont toutes neuves et que je ne les ai pas encore publiées. )

pas publiées ? tu veux dire qu'elles sont pas encore sur le net ?
il est trop fort, ce google ! :lol:
.

Americas · 26 Novembre 2003

J'avais pas vu cette option pour le vote :lol:

Si Google va crawler les pages que l'on vote... je vais aller voter sur celles qui ne sont pas encore indexées :wink:

nico__p · 26 Novembre 2003

pas publiées ? tu veux dire qu'elles sont pas encore sur le net ?
il est trop fort, ce google ! :lol:
.

Pas publiées : je veux dire qu'il n'y a aucune page sur le web liant ces pages car je les ai créé et je suis le seul à connaitre l'adresse : google se sert donc manifestement des toolbars et autre pour collecter des URL non ?

Le plus frappant pour moi est la rapidité du crawl : le lendemain ou surlendemain de la création de la page.

Americas · 26 Novembre 2003

Et qu'est-ce qui se passe si on appuie sur le bouton "vote contre cette page" ? 8O

George Abitbol · 26 Novembre 2003

Americas a dit:
Et qu'est-ce qui se passe si on appuie sur le bouton "vote contre cette page" ? 8O

Il blackliste tous tes sites, même ceux que tu feras dans le futur, ainsi que ceux de ton éventuelle descendance et une tempête sans précédent s'abattra sur ta région, y éliminant toute forme de vie.

Ne jamais sous-estimer le pouvoir de Google.

Fred

Americas · 26 Novembre 2003

Plus sérieusement... je serais curieux de savoir comment ça marche ce système de vote :roll:

Je vais essayer de faire une page sur les pommes que je vais mettre dans un repertoire à part et voter pour cette page :lol:

Kmacleod · 26 Novembre 2003

Americas a dit:
Je vais essayer de faire une page sur les pommes que je vais mettre dans un repertoire à part et voter pour cette page :lol:

Ca va surement marcher, j'en connais un qui est devenu président de la république avec le même concept "pomme" "voter" :wink:

Plus sérieusement, un test avait déjà été fait dans ce sens, il avait été negatif, et avec les filtres posés, ce serait une nouvelle porte ouverte à du n'importe quoi :roll:

DAVID86 · 26 Novembre 2003

mmm j'ai aussi du ma à y croire que ce soit le bouton vote.
par contre, es tu sur que tes liens étaient vraiment bien planqués??
Romain

DAVID86 · 26 Novembre 2003

bon, j'ai fait le test sur une page non indexée, on va bien voir

nico__p · 26 Novembre 2003

Kmacleod a dit:
Plus sérieusement, un test avait déjà été fait dans ce sens, il avait été negatif, et avec les filtres posés, ce serait une nouvelle porte ouverte à du n'importe quoi :roll:

Ok mais comment expliquer le passage du bot sur ces pages ? Car il est bien passé : cf. les logs.

PS : oui, je suis certain que ces urls n'etaient pas dispo. sur le web : elles n'ont pu etre connues du bot que par mon passage dessus car je suis le seul à connaitre les adresses et a etre passé sur ces pages... a part le bot justement !

yannouk · 26 Novembre 2003

moi aussi nico j'ai le meme probleme...enfin presque. En attendant le transfert des dns de mon nom de domaine, mon site etait accessible via une rl temporaire chez ovh du style ~drimmo. et j'ai retrouvé cette page sur google! et le pire c'est qu'il indexe celle la et plus mon ndd

Americas · 26 Novembre 2003

tiens ! Vous avez remarqué ? La googlebar n'indique plus le PR en ce moment... tout du moins chez moi :roll:

WebRankInfo · 26 Novembre 2003

on en parle ici : https://www.webrankinfo.com/forum/t/la-google-toolbar-ne-marche-plus-26-nov-2003.6235/

nico__p · 27 Novembre 2003

WebRankInfo a dit:
on en parle ici : https://www.webrankinfo.com/forum/t/la-google-toolbar-ne-marche-plus-26-nov-2003.6235/

Euh je vois pas le rapport à part qu'on parle aussi de la toolbar 8O :?:

WebRankInfo · 27 Novembre 2003

Americas avait écrit juste avant

La googlebar n'indique plus le PR en ce moment

et justement on en parle dans la discussion indiquée.

nico__p · 27 Novembre 2003

WebRankInfo a dit:
Americas avait écrit juste avant

Hmm d'accord desole. Je pensais que c'etait par rapport au theme principal du fil.
Tiens au fait une des pages en question a été recrawlée : 3 passages du bot su cette page au total alos qu'elle n'a aucun lien entrant sur le web.

herveG · 27 Novembre 2003

tada a dit:
nico__p a dit:

car elles sont toutes neuves et que je ne les ai pas encore publiées. )

Cliquez pour agrandir...

pas publiées ? tu veux dire qu'elles sont pas encore sur le net ?
il est trop fort, ce google ! :lol:
.

Pareil. google avait crawlé et indexé des pages que je n avais pas encore mis online !! mon idée : j utilise easyPHP pour visionner mes pages. hors, je me suis deja apercu que lorsque je suis "online" et que je consulte mes pages non publiées sur easyPHP et que je cliques sur des liens sortants vers un autre de mes sites, ces pages uniquement parcourrues par easyphp sont indiquées en referer sur xiti. donc, je me dis qu il est possible que google ait suivi la piste que lui offrait les infos provenant de la googlebar. Ces pages etaient alors indexées comme des pages que j avais supprimé ou redirigées c est a dire juste l URL, et le titre. sans description. et biensur menant sur une page d erreur (puisque non online)....

a+
hervé

DAVID86 · 27 Novembre 2003

je n'utilise pas de compteurs comme xiti, et pour l'instant, n'ai jamais eu de visite "off line"
tu es certainement sur la bonne piste Hervé

)
Romain

Remi L. · 27 Novembre 2003

Oui, j'ai eu un cas un peu similaire...

mais pour continuer dans le sens d'Hervé, avais-tu Nico, sur tes pages, des liens qui pointaient vers pages dûment indexées ?

DAVID86 · 27 Novembre 2003

bon, j'ai créé hier une page pour laquelle j'ai voté, que j'ai laissé orpheline, et qui n'est toujours pas indexée, alors que les autres l'ont été...

on va bien voir

George Abitbol · 27 Novembre 2003

David : le détail que tu n'as pas pris en compte, c'est que Google se sert des posts dans le forum de WRI (et d'autres) pour repérer tous ceux qui tenteraient ce genre d'expérience et pour ne pas indexer leur page de test. Ah oui, il est fourbe...

Fred

DAVID86 · 27 Novembre 2003

lol... ta théorie est sympa, mais je pense pas qu'ils aient assez de temps à perdre pour ça

)
Romain

herveG · 27 Novembre 2003

j ai retrouvé mon exemple :
https://www.google.fr/search?hl=fr&ie=UTF-8&oe=UTF-8&q=site:www.location-poitiers.com+-sdfsfs&meta=

regradez le 6eme resultat : la page :" *ww.location-poitiers.com/Samplesite/futuroscope/horaires.htm"

non seulement, cette page n a jamais été mise online mais le repertoire non plus (un repertoire Samplesite !!) ....!! hors c est bien le nom de repertoire et la page qui se trouvent sur mon disque dur de PC.....

alors, il a été les chercher ou ces infos ????

a+
Hervé

Kmacleod · 27 Novembre 2003

Il n'y a qu'a faire un test de vote sur une page protègée par un .htaccess, si google l'indexe c'est qu'il n'a pas suivi un chemin normal

Remi L. · 27 Novembre 2003

Oui, ton exemple est amusant et surprenant, mais...
ton pc ne s'appelle pas w*w.location..etc..
donc, l'adresse qu'il indique ne peut résulter que d'un lien relatif.

Tu es sûr que tu n'as pas eu une page en ligne à un moment où il restait un lien relatif vers Samplesite/etc... ?

herveG · 27 Novembre 2003

non, car c est un repertoire de développement sur mon pc, ou seules des pages incompletes sont contenues. donc je ne fais pas de lien vers ces pages puisque lelles ne sont en fait rien du tout (morceau de code, essais graphiques, etc.) Et meme si c etait le cas, la page et le repertoire n ont pas été mis en ligne......! comment peut-il indexer si il ne trouve pas la page.......ailleurs que sur mon PC......

Remi L. · 27 Novembre 2003

Oui et aussi comment a-t-il formé l'adresse ?
puisqu'il accole le nom de ton site, donc forcément en ligne et un nom de repertoire sur ton pc.
Quand tu es allé sur ton répertoire en local, la google bar a récupéré une adresse de la forme http://tonpc/etc....
Comment aurait-il pu faire un lien avec ton nom de domaine. (sauf si tu as appelé ton PC w*w.locations-etc...

)

herveG · 27 Novembre 2003

alors admettons qu il y ait eu un lien sur une page online mais sans cible sur mon serveur, comment ca se fait ?

nico__p · 27 Novembre 2003

Remi L. a dit:
mais pour continuer dans le sens d'Hervé, avais-tu Nico, sur tes pages, des liens qui pointaient vers pages dûment indexées ?

Oui il y en avait, mais uniquement vers des pages appartenant a mon nom de domaine.

Mais je n'utilise pas Xiti ni aucun service externe, uniquement un script de comptage que j'ai fait donc il n'a aucun moyen d'accéder aux referers la page de consultation est protégée par htaccess).

L'experience m'est de nouveau arrivée il y a 10 minutes : une nouvelle page, sans aucun lien pointant dessus, vient d'être visitée. C'est une page sur laquelle j'ai commencé à tavailler en début d'après midi seulement :!:
Et je ne l'avais pas browsée avec IE mais uniquement avec mon navigateur habituel qui est Opera7. Dans Opera (que je n'ai pas acheté) j'ai une barre de recherche Google et l'image de pub que j'ai séléctionné est la publicité google : je pense que c'est Opera qui transmet les URL que je visite à google.

Remi L. · 27 Novembre 2003

nico__p a dit:
Oui il y en avait, mais uniquement vers des pages appartenant a mon nom de domaine.

Je me demandais si la googlebar n'exploitait pas le champ 'referer' quand on est sur une page déjà indexée.

Dans Opera (que je n'ai pas acheté) j'ai une barre de recherche Google et l'image de pub que j'ai séléctionné est la publicité google : je pense que c'est Opera qui transmet les URL que je visite à google.

Ton exemple est bien intéressant (et assez sidérant d'ailleurs). Dans mon cas, Opera pourrait être aussi en cause car je l'utilise parfois pour tester mes pages. Par contre, je n'ai pas sélectionné de pub particulière: je l'ai installé et laissé tout par défaut.

Mais d'un autre côté, dans mon cas, google n'avait indexé que la page racine du site. Les pages internes je les ai testées sur Opera de nombreuses fois sur 2-3 mois de temps sans qu'elles ne soient visitées pour autant.

nico__p · 27 Novembre 2003

S'agit il vraiment du googlebot (d'un nouveau google bot ?).

Sa signature dans les logs est la suivante (plusieurs ip différentes)

64.68.87.69 web31 - "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

WebRankInfo · 27 Novembre 2003

il s'agit du robot utilisé pour gérer les AdSense il me semble

herveG · 20 Août 2004

je viens de tomber la-dessus. Cela pourrait expliquer ces indexations de contenu sans que des liens ne pontent vers la apge visée :

"Il est quasiment impossible de garder secret un serveur Web en ne publiant aucun lien vers ce serveur. Dès qu'un utilisateur suit un lien établi entre votre serveur « secret » et un autre serveur Web, il est plus que probable que votre adresse URL « confidentielle » sera enregistrée dans la balise de référencement et qu'elle sera stockée, ou même publiée, par l'autre serveur Web dans son journal de référencement. Par conséquent, s'il existe un lien entre votre serveur Web « confidentiel » (ou entre une de vos pages) et un autre serveur Web, Googlebot et les autres robots-explorateurs et « spiders » se feront vraisemblablement un plaisir de le recenser"

https://www.google.com/intl/fr/webmasters/3.html

breumtch · 30 Août 2004

Moi je trouve ça très cool ... Y a plus rien a faire pour référencer nos pages ! d'ici a ce que les googlebot viennent directement crawler les disques de nos ordis y a pas loin. Va falloir travailler super vite maintenant ! Même plus le temps d'optimiser les pages...