[Google analytics]Le script pour suivre google bot et autres crawlers

WRInaute discret
Bonjour,

Je l'ai installé ce matin et je viens de consulter les premières stats : tout ça semble fonctionner à merveille 8)
Très intéressant. Merci pour l'info.

Jerome
 
WRInaute discret
De rien,
En tout cas, c'est intéressant de voir le comportement des crawlers suite à une inscription dans un annuaire, un backlink de partenariat, sur un forum....
J'aurais au moins fait un heureux :p
 
WRInaute impliqué
avant de faire n'importe quoi avec vos données, assurez vous bien de faire fonctionner ce script avec un profil secondaire
 
WRInaute discret
Qu'entends tu par profil secondaire ? Pour ma part, j'ai créé un profil pour un nouveau site (site fictif donc, comme le préconise le concepteur du script).
Les deux scripts de suivi GA cohabitent donc dans chaque page.

Soupçonnes tu un problème potentiel ? As tu eu une expérience de ce script ?
 
WRInaute impliqué
C'est surtout que si on cumule dans un même profil des données utilisateur et des données robot, on mélange des pommes et des oranges... mieux vaut donc, pour votre santé mentale lors de l'interprétation de rapport, garder votre script PHP assigné à un profil dont le dernier numéro (-X) diffère de votre code de suivi normal.

ce peut être deux profils sur un même compte... ou pas ;-)
 
WRInaute accro
excellent, bon voir si ça marche, parce que ça m'a l'air bien complexe se truc !!!!

déjà mon new profils à été accepter c'est déjà ça !!!!
 
WRInaute discret
Chez moi ça à l'air de marcher, je ne sais pas si tous les passages sont pris en compte, et, pour l'instant, au bout d'un mois c'est adsense puis google qui passent le plus...
je se sais quelles pages sont les plus visitées, cela m'à aussi permis d'améliorer mes liens internes.
 
WRInaute accro
question suppide au bout de combien de temps sait on si le script fonctionne ?


voici mon code:

Code:
<?php
#########################
#Configuration			#
#########################

$var_utmhn = 'mipc.fr'; 					//enter your domain
$var_utmac = 'UA-1135742-6'; 					//enter the new urchin code
$var_cookie = '96942467';						//insert here the first number in your __utma cookie (visit YOUR site and check your cookies)
?>

j'ai mis mon NDD, j'ai mis ma clé UA- et le premier nombre du cookie UTMAC de mon site via AnEC cookies Editor, que manque t-il ?
 
WRInaute discret
Les résultats me sont apparus quelques heures après la mise en place (en fait le décalage habituel nécessaire au traitement par google analytics des visites et leur affichage dans ton profil).

Le bot de bing est toujours MSN manifestement ? (d'ailleurs c'est un gros fainéant, il passe près de 1000 fois moins que googlebot, et 4 fois moins que yahoo 8O )
 
WRInaute discret
Chez moi la config est de type
Code:
$var_utmhn = 'mipc.fr/';
Et pas
Code:
$var_utmhn = 'mipc.fr';

Je sais pas si ça à une grande influence...?
J'ai eu aussi les premiers résultats au bout de quelques heures.
Ou en est "l'etat de suivi", le code à été détecté?
 
WRInaute discret
Ton config.php est bon (j'ai vérifié la première séquence de ton utma : c'est bien ça).
Par contre, lorsqu'on édite ton code source, la ligne suivante apparait telle quelle : "<?php include_once( dirname(__FILE__).'/analytics.php'); ?>"
ce qui signifierait qu'elle n'a pas été interprêtée par ton serveur php... (d'ailleurs tes pages sont en .html : est ce que tu utilises la réécriture d'url, ou est ce qu'en fait tu n'utilises pas php ? Auquel cas tu ne pourrais pas utiliser ce module analytics de toute façon :cry: )
 
WRInaute accro
je n'utilise pas PHP, après je peux toujours créer un robotstat.php que les robots iront visité de temps à autre!?


y a t-il un moyen de le faire lancer robotstat.php automatiquement si c'est un robot qui exécute la page HTML, comme ça je le met sur toutes les pages HTML!!!!?

exemple de l'algo:

SI le la page HTML est lancer par un robot, alors exécute robotstat.php

ou alors y a t-il moyen de faire exécuté du code PHP depuis une page HTML ?


si j'exécute: http://mipc.fr/phpversion.php

il me sort 4.4.9, si il arrive à exécuté un code PHP, alors PHP 4.4.9 est activé par défaut, alors est ce qu'il faut que j'active PHP5 via un .htaccess ou pas pour activé PHP5 !!?
 
WRInaute discret
Effectivement, php est activé chez ton hébergeur.
Pour que tes pages passent par le serveur php, il faut qu'elles aient l'extension .php au lieu de .html simplement. Ton include sera alors exécuté et le module fonctionnera.
:!: Mais attention, si tu fais cela, tu vas perdre ton référencement sur les pages .html. Il faut alors soit que tu installes des régles de réécriture.html -> .php, soit que tu références dorénavant les .php en indiquant des redirections 301 pour ne pas perdre ton référencement.
 
WRInaute accro
Emorej a dit:
Effectivement, php est activé chez ton hébergeur.
Pour que tes pages passent par le serveur php, il faut qu'elles aient l'extension .php au lieu de .html simplement. Ton include sera alors exécuté et le module fonctionnera.
:!: Mais attention, si tu fais cela, tu vas perdre ton référencement sur les pages .html. Il faut alors soit que tu installes des régles de réécriture.html -> .php, soit que tu références dorénavant les .php en indiquant des redirections 301 pour ne pas perdre ton référencement.


bon c'est bon j'ai trouver la sollution comme un grand :lol: dans la faq de 1and1, le truc marrant c'est que hier au soir à 23h je la lisais la solution, et je l'avais donc sous les yeux, :roll: , seulement je ne savais pas que par défaut on ne peux pas interpréter du php dans du html, et que comme par conséquent mon fichier phpversion.php c'est que cela fonctionnait.


mais dans la FAQ de 1AND1 il y a: http://faq.1and1.fr/scripts/php/5.html
faire un .htaccess
Code:
AddType x-mapp-php5 .php .php3 .php4 .htm .html

et donc mon scripte toto.html
http://mipc.fr/toto.html
Code:
<html>
<head>
<?php
print "Hello<br>";
?>
</body>
</html>

me répond bien Hello :wink: .
 
WRInaute discret
et bien je ne connaissais pas cette instruction du htaccess pour faire digérer les .html par php ! Bien pratique.
 
WRInaute accro
Emorej a dit:
et bien je ne connaissais pas cette instruction du htaccess pour faire digérer les .html par php ! Bien pratique.


comme quoi quand on lis la documentation de l'hébergeur ça fonctionne mieux.

le plus drôle c'est qu'a la base hier je cherchais des infos sur le site de 1and1 pour savoir si par défaut PHP était activer, s'était le cas par contre je ne savais pas qu'il fallait activer le scripte
Code:
AddType x-mapp-php5 .php .php3 .php4 .htm .html
à mettre dans le .htaccess ,afin d'activer le support du php dans le .html et .htm .


ça ralenti tout de même un peux le chargement des pages, ou alors ça vient de firefox, là je mets 0.67secondes pour charger ma page index.html au lieu de 0.27seconde, du coup ça peut jouer sur la visite des moteurs !!!!!
 
WRInaute accro
juste pour vous signifier que ça marche, la j'ai été crawler par Baidu et Gigablast (connait pas) voir pour la suite !!!!!



Robot hostname: 119.63.193.55
1 1,00 00:00:00 100,00 % 100,00 %
2.
Robot hostname: baiduspider-123-125-66-63.crawl.baidu.com
1 1,00 00:00:00 100,00 % 100,00 %
3.
Robot hostname: baiduspider-123-125-66-81.crawl.baidu.com
1 1,00 00:00:00 100,00 % 100,00 %
4.
Robot hostname: baiduspider-220-181-7-126.crawl.baidu.com
1 1,00 00:00:00 100,00 % 100,00 %
5.
Robot hostname: baiduspider-220-181-7-132.crawl.baidu.com
1 1,00 00:00:00 100,00 % 100,00 %
6.
Robot hostname: baiduspider-220-181-7-7

Robot hostname: ns1.gigablast.com
 
WRInaute accro
question le script fonctionne super bien!!!!!!!!!!

déjà en suite comment m'en servir des données récolter:

http://luminais.olivier.free.fr/image/passage%20des%20robots%20moteur% ... erche.html
http://luminais.olivier.free.fr/image/passage%20des%20robots%20moteur% ... erche3.avi

jeudi 10 septembre 2009
Sources

------------------------Visites--------(en %)
Baidu (organic) 49 74,24 %
Yahoo (organic) 7 10,61 %
ExaBot (organic) 4 6,06 %
Ask-Jeeves (organic) 3 4,55 %
MSN (organic) 2 3,03 %

Afficher le rapport complet
Mots clés

------------------------Visites-------(en %)
/ 52 78,79 %
/qui_sommes_nous.html
3 4,55 %
/depannageinformatiqueparis.html
2 3,03 %
/intervention.html
2 3,03 %
/tarifs.html 2 3,03 %


du reste si je pouvais avoir autant de visiteur par jour que le nombre de visite des moteurs de recherche se serai génial!!!!!

maintenant vient le problème de comment et à quoi peuvent servir ses données, comment les interpréter, et quoi faire avec!?

désoler si je suis reloue !!!!!

en attendant ça fonctionne bien, par contre pour le moment je semble être moins visité par google que par tout les autres moteurs, pourtant ses bien google qui me positionne le mieux dans les SERPs tout mots clé confondue et tout moteurs de recherche confondue, donc question stupide faut il être moins visité par un moteur de recherche pour être bien positionner!!!??
 
Nouveau WRInaute
Oui je relance effectivement la page ne fonctionne toujours pas et elle semble bien intéressante...
 
WRInaute discret
Oriane022 a dit:

Grace à une petite recherche sur Google je l'ai retrouvée : http://www.web-analytics.fr/google-analytics-seo-comment-mesurer-les-v ... otre-site/

il suffisait en fait de chercher le mot clé "google-analytics-seo-comment-mesurer-les-vistes-des-robots-et-crawlers-sur-votre-site" ;)
J'attends d'avoir les premier résultat d'ici quelques heures et je vous dis si ça fonctionne chez moi ;)
 
WRInaute accro
ok cool, intéressant se script, même si l'activation de PHP sur mon serveur à légèrement ralentie la vitesse de celui-ci!!!!

pour infos j'ai 1 662 visite de robot par mois, en hausse de 69,42%, c'est semble t-il très lier au nombre de vrais visiteur, car lorsque j'avais 800 VU par mois, j'avais 3200 visites des robots, je ne sais pas si c'est lier mais en tout cas c'est le liens que j'ai fait, entre visiteurs réel et nom de passage des robots.

hier j'ai eut:

Baidu (organic) 44 70,97 %
Yahoo (organic) 8 12,90 %
MSN (organic) 5 8,06 %
Google (organic) 4 6,45 %
Google-Mediapartners (organic) 1 1,61 % (c'est le robot ADSENSE)

ils ont visité:

/ 49 79,03 %
/index.html 4 6,45 % (comme c'est le root ça fait 4+49=53)
/reparations-ordinateurs-toutes-marques.html 3 4,84 %
/formation/formation.html 2 3,23 %
/tarifs.html 2 3,23 %


rien qu'aujourd'hui le 17 janvier 2010 ils sont passer 50 fois déjà:

Baidu 36 72,00 %
Yahoo 6 12,00 %
Java 5 10,00 %
Google-Mediapartners
1 2,00 %
MSN 1 2,00 %

donc le scripte à l'air de bien fonctionner.
 
WRInaute discret
Si tu as des annonces adsenses, tu observera qu'il passe très rapidement sur les nouvelles pages (dès le premier chargement de celle-ci) donc pas étonnant que ça varie en fonction du nombre de visiteur ...
 
WRInaute accro
mercier133 a dit:
Si tu as des annonces adsenses, tu observera qu'il passe très rapidement sur les nouvelles pages (dès le premier chargement de celle-ci) donc pas étonnant que ça varie en fonction du nombre de visiteur ...


qu'ils passent tous, ou juste pour Google-Mediapartners, parce que ok Google-Mediapartners passe sur la racine hier et sur friendconnect.html(que je viens de renommer f.html car la page est encore en teste et en chantier) aujourd'hui mais hormis cela il ne passe qu'une fois, si non pour les autres le robot qui passe le plus souvent trop souvent même à mon gout c'est BAIDU, alors que les autres par exemple google ne passe pas tous les jours, juste de temps à autres tous les 6 ou 7 jours il re-crawl la plus part des pages dus site(les plus visités), si non à part ça les robots google se font très rare y compris Google-Mediapartners.

non le robot le plus relou c'est BAIDU les autres il passe quoi grand maximum 10fois par jour, et heureusement pas tout les jour, heureusement que depuis peux sur mon serveur dédier j'ai le trafic illimité :mrgreen: .

d'ailleurs je vais penser à modifier mon .HTACCESS pour demander à se que BAIDU ne passe plus, car il abuse grave et en plus mes prestation ne vont pas jusqu'en chine :lol: :roll: .
 
WRInaute accro
mipc a dit:
Baidu 36 72,00 %
Yahoo 6 12,00 %
Java 5 10,00 %
Google-Mediapartners
1 2,00 %
MSN 1 2,00 %
sauf si tu cherches à faire des prestations sur pekin, mais sinon Baidu n'a pas de réel intérêt pour toi. Moi je l'interdit.
Java, ce n'est pas un robot, mais un aspirateur de site, mediapartner c'est normalement pour les adsense. Donc en fait il ne te reste que y! 6 et live 1, 2 moteurs qui ont du mal à trouver des visiteurs. Sans compter qu'entre le temps où ces 2 moteurs crawlent et le moment de l'indexation d'une page, il se passe beaucoup de temps
 
WRInaute accro
mipc a dit:
d'ailleurs je vais penser à modifier mon .HTACCESS pour demander à se que BAIDU ne passe plus, car il abuse grave et en plus mes prestation ne vont pas jusqu'en chine :lol: :roll: .
le robots.txt est suffisant, baidu respecte plutôt bien ces directives, contrairement à pas mal d'autres moteurs
 
WRInaute accro
Leonick a dit:
mipc a dit:
Baidu 36 72,00 %
Yahoo 6 12,00 %
Java 5 10,00 %
Google-Mediapartners
1 2,00 %
MSN 1 2,00 %
sauf si tu cherches à faire des prestations sur pekin, mais sinon Baidu n'a pas de réel intérêt pour toi. Moi je l'interdit.
Java, ce n'est pas un robot, mais un aspirateur de site, mediapartner c'est normalement pour les adsense. Donc en fait il ne te reste que y! 6 et live 1, 2 moteurs qui ont du mal à trouver des visiteurs. Sans compter qu'entre le temps où ces 2 moteurs crawlent et le moment de l'indexation d'une page, il se passe beaucoup de temps

c'est bien tu à parfaitement dit, ce que j'avais déjà expliquer plus haut, pas mal, tu à autre chose à dire....?

en plus je l'ai dit que normalement google me crawl les site tous les 6 ou 7 jours( bon en faite c'est tous les 10 jours):

vendredi 15 janvier 2010:
Baidu / organic 51

Google / organic 6

Yahoo / organic 6

Unknown-Robot / organic 3

ExaBot / organic 1 (vraiment pathétique se moteur de recherche français et tous se fric gâcher)

MSN / organic 1( tien normalement ça aurai du etre bing, qui normalement passe plus souvent.


/ 60
/depannageinformatiqueparis.html
2
/index.html 2
/formation/formation.html
1
/formation/microformat-hcard.html
1
/reparations-ordinateurs-toutes-marques.html
1
/tarifs.html 1

voila donc ça dépend des jours , dès fois y a des jours ou les robot de google passe( en excluant de fait le robot Google-Mediapartners parce que ça ne concerne pas l'indexation), en fait normalement les robots google passe presque 1 fois par jour, pas touts les jours, mais au moins une fois, en fait apparemment les robots de google( à l'exclusion de Google-Mediapartners) passe 0 fois tous les 10 jours en moyen, et passe 5 à 8 fois tous les 10 jours.
 
Discussions similaires
Haut