GoogleBot suit la GoogleBar!

WRInaute discret
C'est cur, ce coup là j'en ai la preuve! (ou presque)

Dans les stats de RobotsStats, je m'appercoit que google visite des liens inaccessibles sans authentification, mais mieux encore, qui n'éxistent pas en dur sur le site et sont générés à partir du nom d'utisateur... plein de doutes, j'ai demandé à un des visiteurs apparaissant si il avait la GoogleBar, réponse affirmative!

La seule autre solution, serait que cet utilisateur fasse passer son navigateur pour Google, ce que je ne crois pas!

La question est de savoir ensuite si il donne une valeur particulière à ces liens qu'ils trouvent par la GoogleBar...
 
WRInaute accro
Les gros sites auraient alors un meilleur referencement, car googlebot serait appeler par la toolbar plus souvent :(
 
WRInaute occasionnel
JeunZ a dit:
Les gros sites auraient alors un meilleur referencement, car googlebot serait appeler par la toolbar plus souvent :(
Il ne s'en sert peut-être que pour "découvrir" les pages.

Mais si ces pages recquièrent une identification, je ne comprends pas comment c'est possible.
Il y a une protection par mot de passe.
J'ai des pages qui recquièrent une identification, j'ai la toolbar, et googlebot n'est jamais venu.
Il ne peut pas, il n'a pas le mot de passe :D
 
WRInaute discret
Je confirme aussi : page sans lien... placée sur le serveur... consultée 1 fois sur ma machine... indexée par google...
Donc : il faut protéger toutes les pages "réservées" d'un site, ou ne pas les consulter :lol: :lol: :lol:
 
WRInaute discret
Interessant ça comme observation...

Il faudrait peut-être mettre en place une étude sur l'influence de la Googlebarre sur le positionnement...

Est-ce que c'est la googlebarre qui provoque le phénoméne ou la consultation du PageRank ?

Quelqu'un a t'il fait le test avec le pagerank désactivé ?

Nico
 
WRInaute accro
En tout cas ca serait utile. Un site fais une news, les visiteurs vont dessus et googlebot la detecte directement avant meme d'avoir crawlé les pages faisant le lien.
 
WRInaute impliqué
Peut-etre d'ailleurs qu'ils se servent de la GoogleBar pour voir l'interet d'un site par rapport aux visiteurs, comme la profondeur de visites, le nombre de pages vues, le temps passe...et reporter ca sur le positionnement de Google....
Ca serait pas bete d'ailleurs.

Si seulement c'etait open-source tout ca, on pourrait voir ce qu'il y a dans le coeur :)
 
WRInaute accro
Twister a dit:
Il ne peut pas, il n'a pas le mot de passe :D
rien de moins sur.EX :Les sites sous spip on accede a l'interface redaction par mot de passe or elles sont connues de GG .En plus si le webmaster a laissé un lien sur son site comme "admin" quand tu arrives sur l'interface admin la page a un page rank bien que protégée par un mot de passe
voila une page indexée dans GG qui indique que l'on est connecté ( bonjour=oui )
https://www.google.fr/search?sourceid=na ... jour%3Doui
bien sur si tu cliques ce lien le site te renvoie a la demande de password sur cette page :
http://www.tsisoa.com/spip/spip_login.p ... =ecrire%2F
n'empeche que GG connait celle d'après sans connaitre le password car la page indexée dans le moteur correspond bien a un utilisateur loggué après validation du password.
 
WRInaute occasionnel
magicien a dit:
Donc : il faut protéger toutes les pages "réservées" d'un site
8O D'un autre coté, il a toujours été plus que conseillé de protéger toutes ses pages reservées!
C'est quand même inquiétant de voir que Google arrive à trouver des pages, même censées être protégées par mot de passe... De plus, si on n'a pas donné de page à référencer à Google, c'est certainement pas pour qu'il les trouve à notre insu! Dans le cas d'un formulaire public, il est clair que c'est bien pratique, mais si le site a des failles de sécurité, comme une partie admin mal sécurisée, ca devient dangereux tout de même...
 
WRInaute impliqué
WRInaute impliqué
Merci pour les liens turulillo :)

Pour ajouter au post, les forums privés des éditeurs DMOZ sont protégés par 2 .htpassword et le forums.dmoz.org a le robots.txt suivant :
# Please do not crawl us faster than 1 hit/second
#
User-agent: *
Disallow: /
Il a pourtant un PR de 3 :)
 
WRInaute discret
Pour donner un peu plus de détails, en fait, la page en question est totellemnt dynamique et n'a pas de liens, puisque on y accède que depuis une page protégée. Deplus, étant elle aussi protégée, Google n'a rien vu, puisqu'il a été redirigé directos vers la page d'authentification, mais le fait d'avoir fait la requete vers cette page l'a piégé!


Pour revenir à la GoogleBarBot, ca serait très rigolo de s'appercevoir que les plus gros GoogleBot sont en fait les utilisateurs qui ont une Google bar, je vois plein plein d'avantages: voir des pages protégées, mieux voir la comportament des visiteurs, détecter les Cloaking.... Si ca se trouve GoogleBot ne set deja plus à grand chose!
 
WRInaute impliqué
Il me semble que lorsque l'on installe la GGbar, il est indiqué qu'elle envoie des informations non nominative à GG...

Quelles info ???

Si cela n'est des infos sur les pages vues ???

Nouvelle url, temps passé sur un site, nombre de pages vu, fréquence de visite d'un site (si on y va souvent, c'est qu'il y a du neuf souvent...), etc.

moutl info statistiques permettant de connaitre l'interet des internautes pour tel ou tel site et donc source de matière pour le classement de l'index.

Non ?
 
WRInaute occasionnel
Pour ajouter au post, les forums privés des éditeurs DMOZ sont protégés par 2 .htpassword et le forums.dmoz.org a le robots.txt suivant :
Citation:
# Please do not crawl us faster than 1 hit/second
#
User-agent: *
Disallow: /

Il a pourtant un PR de 3 Smile

Je pense qu'une page peut avoir du PR sans etre crawlée. A priori c'est indépendant.
Je vois souvent des pages avec authentification qui ont un PR. Et ce tout simplement parce qu'il y a des liens qui pointent dessus.
 
WRInaute accro
Ba c'est le cas des espaces membre il me semble non?

L'espace membre de wanadoo doit etre PR 6 si je me souviens bien, alors que l'entrée est protégée.
 
WRInaute occasionnel
Google ne peut pas se permettre de classer les pages protegées par des fichiers .htaccess, vous vous rendez compte de l'angoisse???? Votre admin avec preske marqué dessus : Free Entrance ! :?

Y a aussi que des pages comme ceci :

-ttp://www.monsite.com/index.php?var1=page&var2=nbre

auront le meme PR que la page

-ttp://www.monsite.com/index.php

C'est pt'etre ca qui peut porter a confusion non? :?

Enfin je suis qd meme tres sceptique :D
 
WRInaute occasionnel
Meme si une page est inaccessible protégée par un .htaccess, il peut y avoir des liens qui pointent dessus. Google calcule le PR de la page protégée juste en comptabilisant les BL qui pointent dessus, off page quoi.

Ce qui confirme que le PR ne dépend pas du tt des liens sortants d'une page. Car comment ferait il pour savoir que des liens partent d'une page si la page est protégée par un .htaccess.
 
WRInaute discret
Je repete, dans mon cas, il n'y a pas de lien pointant dessus... La seule manière d'y accéder est d'etre dans une zone protgégée, et d'obtenit un lien vers cette page.

Google ne peut pas entrer dans la zone protégée, même si, on est d'accord, il a plein de liens vers elle.
 
WRInaute accro
de toute façon, à chaque fois que tu affiches une page, déjà indexée ou pas, la GGbar demande le PR de cette page et transmet donc l'URL ... :wink:
 
WRInaute discret
donc cela veut dire que c'est même plus la peine de se référencer sur google, puisque google connaitra le site, cela veut dire qu'il indexera les popups, d'ou problème !
on pourra se retrouver avec des parties admin indexé et tout le monde pourra s'y rendre

honnetement j'y crois pa imaginer le problème avec les paiements sécurisé et autre, et pis imaginer le nombre d'url envoyé chaque jour à trier, il n'y aura même plus besoin de ggbot car on attendrait 1 milliard de page chaque jour!
 
WRInaute discret
Dans mon cas, Google a essayé de trouver la page, mais n'a pas pu accéder, donc, ma zone protégée est toujours protégée... Ce n'est pas parce que google a l'URL qu'il est capable d'en voir le contenu!


Ensuit, pour les autres cas, je ne sais pas, est-ce que quelqu'un a deja trouvé des zones protégées dans Google? Par exemple, des extrait de sites necessitant une inscriptio, ou des pages protégées par htaccess...

dans tous les cas, j'ai bossé sur la solution VerityK2, qui est un moetur de recherche et d'indexation pour tout un tas de source différentes d'entreprise, dont les pages Web, et il est capable d'indexer ses résultats sur les droits de l'utilisateur qui fait ses requetes.

Si userA a des droits sur docA, et pas sur DocB, et que DocA et DocB contiennent le mot motX, alors, userA ne vera que docA si il fait une recherche sur motX.


Après, je ne sais pas comment google pourrait faire ca, mais je pense que c'est possible! Ne serait-ce qu'en comparant ce que son Bot voit avec ce que la GGBar voit.
 
WRInaute passionné
midnightfr a dit:
Meme si une page est inaccessible protégée par un .htaccess, il peut y avoir des liens qui pointent dessus. Google calcule le PR de la page protégée juste en comptabilisant les BL qui pointent dessus, off page quoi.

Ce qui confirme que le PR ne dépend pas du tt des liens sortants d'une page. Car comment ferait il pour savoir que des liens partent d'une page si la page est protégée par un .htaccess.

Pas forcément. Dans l'hypothèse où les liens sortants font augmenter le PR, une page sans liens sortants peut tout de même obtenir le PR transmis par les liens entrants.
 
WRInaute impliqué
un exempl de plus pour confirmer que gg va ou il veur, ma page de connexion mail, h**t://imp.monsite.com (remplacer monsite par le nom de mon site) est indexée ! aucun lien , rien , juste que quand je vais voir mon mail j'ai la gg barre. mencrait plus qu'l mette le mot de passe et qu'il lise mon mail (voyeur !)
 
WRInaute discret
Bonjour,

J'ai remarqué que certaine page étaient indéxées de façon surprenante.

Je ne crois pas que ce soit lié à la gg barre, J' ai plutôt l'impression que GG confirme sa stratégie et que maintenant il tient encore plus compte des recommandations W3C.
 
WRInaute occasionnel
Dans le même style, voici les stats d'un site que je viens à peine de lancer. Les dns ont été activés ce soir, je testais le site avant sur une IP.

http://www.jemenvol.net/tests/rapidogoogle.gif

jusqu'au 29 octobre ce sont mes test.
aujourd'hui à 19:34 google débarque.
alors que moi je ne me rends compte de l'activation des dns qu'une heure plus tard !

et en plus c'est un sous-domaine (il n'y a rien sur le domaine encore) donc on ne peut même pas en conclure qu'il scrute les whois et teste en attendant les dns.
 
Discussions similaires
Haut