Googlebar, confidentialité, passage du bot et indexation

WRInaute discret
Bonjour à tous.
J'avais deja fait un post la dessus mais comme ca m'est arrivé de nouveau je pense que ca peut vous intéresser.
Je constate que google vient crawler des pages chez moi alors que celles ci lui sont théoriquement inconnues : il n'y a absolument aucun lien pointant vers ces pages sur le web, car elles sont toutes neuves et que je ne les ai pas encore publiées.
Peut etre que l'adresse est perdue dans des logs de référants mais ces pages sont en général protégées et le laps de temps entre la création de la page et le passage du bot me parait trop court pour qu'il l'ai touvé en crawlant des logs de référants (d'ailleurs souvent inaccessibles).

Je pense que le passage du bot est lié à la présence de la googlebar sur mon internet explorer. J'ai évidemment activé les options avancées ce qui implique que "certaines infos. peuvent etre transmises à google". Et c'est manifestement le cas : la semaine dernière j'ai commencé à développer 3 pages et le surlendemain du début de leur développement elles ont recu le passage du bot. J'avais utilisé le bouton "Vote for this page" dans les 3 cas. Je ne dis pas que c'est cela qui a provoqué le passage du bot, mais c'est quand meme troublant !

(cf. https://www.webrankinfo.com/forum/t/google-indexe-t-il-les-pages-votees.5614/ )

Edit : ci-dessous deux lignes de de logs de ces visites (la 3eme page a été crawlée un jour ou les logs ont planté :( )
64.68.87.41 web31 - [24/Nov/2003:18:59:30 +0100] "GET /accueil/faq.php HTTP/1.0" 200 11465 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

64.68.87.69 web31 - [22/Nov/2003:03:15:52 +0100] "GET /voyage/peche-steelhead-cattaraugus.php HTTP/1.0" 200 14675 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

S'agit-il du vrai googlebot ???????

Je précise par ailleurs que j'utilise beaucoup Opera et que j'ai choisi comme barre de pub en haut les pubs suggérées par google : ce truc la peut aussi envoyer des infos non :?:
 
WRInaute accro
J'avais pas vu cette option pour le vote :lol:

Si Google va crawler les pages que l'on vote... je vais aller voter sur celles qui ne sont pas encore indexées :wink:
 
WRInaute discret
pas publiées ? tu veux dire qu'elles sont pas encore sur le net ?
il est trop fort, ce google ! :lol:
.

Pas publiées : je veux dire qu'il n'y a aucune page sur le web liant ces pages car je les ai créé et je suis le seul à connaitre l'adresse : google se sert donc manifestement des toolbars et autre pour collecter des URL non ?

Le plus frappant pour moi est la rapidité du crawl : le lendemain ou surlendemain de la création de la page.
 
WRInaute passionné
Americas a dit:
Et qu'est-ce qui se passe si on appuie sur le bouton "vote contre cette page" ? 8O

Il blackliste tous tes sites, même ceux que tu feras dans le futur, ainsi que ceux de ton éventuelle descendance et une tempête sans précédent s'abattra sur ta région, y éliminant toute forme de vie.

Ne jamais sous-estimer le pouvoir de Google.

Fred
 
WRInaute accro
Plus sérieusement... je serais curieux de savoir comment ça marche ce système de vote :roll:

Je vais essayer de faire une page sur les pommes que je vais mettre dans un repertoire à part et voter pour cette page :lol:
 
WRInaute passionné
Americas a dit:
Je vais essayer de faire une page sur les pommes que je vais mettre dans un repertoire à part et voter pour cette page :lol:
Ca va surement marcher, j'en connais un qui est devenu président de la république avec le même concept "pomme" "voter" :wink:

Plus sérieusement, un test avait déjà été fait dans ce sens, il avait été negatif, et avec les filtres posés, ce serait une nouvelle porte ouverte à du n'importe quoi :roll:
 
WRInaute impliqué
mmm j'ai aussi du ma à y croire que ce soit le bouton vote.
par contre, es tu sur que tes liens étaient vraiment bien planqués??
Romain
 
WRInaute discret
Kmacleod a dit:
Plus sérieusement, un test avait déjà été fait dans ce sens, il avait été negatif, et avec les filtres posés, ce serait une nouvelle porte ouverte à du n'importe quoi :roll:

Ok mais comment expliquer le passage du bot sur ces pages ? Car il est bien passé : cf. les logs.

PS : oui, je suis certain que ces urls n'etaient pas dispo. sur le web : elles n'ont pu etre connues du bot que par mon passage dessus car je suis le seul à connaitre les adresses et a etre passé sur ces pages... a part le bot justement !
 
WRInaute passionné
moi aussi nico j'ai le meme probleme...enfin presque. En attendant le transfert des dns de mon nom de domaine, mon site etait accessible via une rl temporaire chez ovh du style ~drimmo. et j'ai retrouvé cette page sur google! et le pire c'est qu'il indexe celle la et plus mon ndd :(
 
WRInaute discret
WebRankInfo a dit:
Americas avait écrit juste avant

Hmm d'accord desole. Je pensais que c'etait par rapport au theme principal du fil.
Tiens au fait une des pages en question a été recrawlée : 3 passages du bot su cette page au total alos qu'elle n'a aucun lien entrant sur le web.
 
WRInaute accro
tada a dit:
nico__p a dit:
car elles sont toutes neuves et que je ne les ai pas encore publiées. )
pas publiées ? tu veux dire qu'elles sont pas encore sur le net ?
il est trop fort, ce google ! :lol:
.

Pareil. google avait crawlé et indexé des pages que je n avais pas encore mis online !! mon idée : j utilise easyPHP pour visionner mes pages. hors, je me suis deja apercu que lorsque je suis "online" et que je consulte mes pages non publiées sur easyPHP et que je cliques sur des liens sortants vers un autre de mes sites, ces pages uniquement parcourrues par easyphp sont indiquées en referer sur xiti. donc, je me dis qu il est possible que google ait suivi la piste que lui offrait les infos provenant de la googlebar. Ces pages etaient alors indexées comme des pages que j avais supprimé ou redirigées c est a dire juste l URL, et le titre. sans description. et biensur menant sur une page d erreur (puisque non online)....

a+
hervé
 
WRInaute impliqué
je n'utilise pas de compteurs comme xiti, et pour l'instant, n'ai jamais eu de visite "off line"
tu es certainement sur la bonne piste Hervé :o)
Romain
 
WRInaute impliqué
Oui, j'ai eu un cas un peu similaire...

mais pour continuer dans le sens d'Hervé, avais-tu Nico, sur tes pages, des liens qui pointaient vers pages dûment indexées ?
 
WRInaute impliqué
bon, j'ai créé hier une page pour laquelle j'ai voté, que j'ai laissé orpheline, et qui n'est toujours pas indexée, alors que les autres l'ont été...

on va bien voir
 
WRInaute passionné
David : le détail que tu n'as pas pris en compte, c'est que Google se sert des posts dans le forum de WRI (et d'autres) pour repérer tous ceux qui tenteraient ce genre d'expérience et pour ne pas indexer leur page de test. Ah oui, il est fourbe...

Fred
 
WRInaute accro
j ai retrouvé mon exemple :
https://www.google.fr/search?hl=fr&ie=UTF-8&oe=UTF-8&q=site:www.location-poitiers.com+-sdfsfs&meta=

regradez le 6eme resultat : la page :" *ww.location-poitiers.com/Samplesite/futuroscope/horaires.htm"

non seulement, cette page n a jamais été mise online mais le repertoire non plus (un repertoire Samplesite !!) ....!! hors c est bien le nom de repertoire et la page qui se trouvent sur mon disque dur de PC.....

alors, il a été les chercher ou ces infos ????

a+
Hervé
 
WRInaute passionné
Il n'y a qu'a faire un test de vote sur une page protègée par un .htaccess, si google l'indexe c'est qu'il n'a pas suivi un chemin normal
 
WRInaute impliqué
Oui, ton exemple est amusant et surprenant, mais...
ton pc ne s'appelle pas w*w.location..etc..
donc, l'adresse qu'il indique ne peut résulter que d'un lien relatif.

Tu es sûr que tu n'as pas eu une page en ligne à un moment où il restait un lien relatif vers Samplesite/etc... ?
 
WRInaute accro
non, car c est un repertoire de développement sur mon pc, ou seules des pages incompletes sont contenues. donc je ne fais pas de lien vers ces pages puisque lelles ne sont en fait rien du tout (morceau de code, essais graphiques, etc.) Et meme si c etait le cas, la page et le repertoire n ont pas été mis en ligne......! comment peut-il indexer si il ne trouve pas la page.......ailleurs que sur mon PC......
 
WRInaute impliqué
Oui et aussi comment a-t-il formé l'adresse ?
puisqu'il accole le nom de ton site, donc forcément en ligne et un nom de repertoire sur ton pc.
Quand tu es allé sur ton répertoire en local, la google bar a récupéré une adresse de la forme http://tonpc/etc....
Comment aurait-il pu faire un lien avec ton nom de domaine. (sauf si tu as appelé ton PC w*w.locations-etc... :) )
 
WRInaute discret
Remi L. a dit:
mais pour continuer dans le sens d'Hervé, avais-tu Nico, sur tes pages, des liens qui pointaient vers pages dûment indexées ?

Oui il y en avait, mais uniquement vers des pages appartenant a mon nom de domaine.

Mais je n'utilise pas Xiti ni aucun service externe, uniquement un script de comptage que j'ai fait donc il n'a aucun moyen d'accéder aux referers la page de consultation est protégée par htaccess).

L'experience m'est de nouveau arrivée il y a 10 minutes : une nouvelle page, sans aucun lien pointant dessus, vient d'être visitée. C'est une page sur laquelle j'ai commencé à tavailler en début d'après midi seulement :!:
Et je ne l'avais pas browsée avec IE mais uniquement avec mon navigateur habituel qui est Opera7. Dans Opera (que je n'ai pas acheté) j'ai une barre de recherche Google et l'image de pub que j'ai séléctionné est la publicité google : je pense que c'est Opera qui transmet les URL que je visite à google.
 
WRInaute impliqué
nico__p a dit:
Oui il y en avait, mais uniquement vers des pages appartenant a mon nom de domaine.
Je me demandais si la googlebar n'exploitait pas le champ 'referer' quand on est sur une page déjà indexée.
Dans Opera (que je n'ai pas acheté) j'ai une barre de recherche Google et l'image de pub que j'ai séléctionné est la publicité google : je pense que c'est Opera qui transmet les URL que je visite à google.
Ton exemple est bien intéressant (et assez sidérant d'ailleurs). Dans mon cas, Opera pourrait être aussi en cause car je l'utilise parfois pour tester mes pages. Par contre, je n'ai pas sélectionné de pub particulière: je l'ai installé et laissé tout par défaut.

Mais d'un autre côté, dans mon cas, google n'avait indexé que la page racine du site. Les pages internes je les ai testées sur Opera de nombreuses fois sur 2-3 mois de temps sans qu'elles ne soient visitées pour autant.
 
WRInaute discret
S'agit il vraiment du googlebot (d'un nouveau google bot ?).

Sa signature dans les logs est la suivante (plusieurs ip différentes)

64.68.87.69 web31 - "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
 
WRInaute accro
je viens de tomber la-dessus. Cela pourrait expliquer ces indexations de contenu sans que des liens ne pontent vers la apge visée :

"Il est quasiment impossible de garder secret un serveur Web en ne publiant aucun lien vers ce serveur. Dès qu'un utilisateur suit un lien établi entre votre serveur « secret » et un autre serveur Web, il est plus que probable que votre adresse URL « confidentielle » sera enregistrée dans la balise de référencement et qu'elle sera stockée, ou même publiée, par l'autre serveur Web dans son journal de référencement. Par conséquent, s'il existe un lien entre votre serveur Web « confidentiel » (ou entre une de vos pages) et un autre serveur Web, Googlebot et les autres robots-explorateurs et « spiders » se feront vraisemblablement un plaisir de le recenser"

https://www.google.com/intl/fr/webmasters/3.html
 
Nouveau WRInaute
Moi je trouve ça très cool ... Y a plus rien a faire pour référencer nos pages ! d'ici a ce que les googlebot viennent directement crawler les disques de nos ordis y a pas loin. Va falloir travailler super vite maintenant ! Même plus le temps d'optimiser les pages...
 
Discussions similaires
Haut