Statistiques inédites sur les clics dans les résultats

Olivier Duffez (admin)
Membre du personnel
Grâce à la fuite d’infos d’AOL (qui a publié sur le web des données sur les recherches de ses utilisateurs), nous pouvons obtenir des statistiques sur le comportement des utilisateurs dans les pages de résultats. Et comme aol.com utilise Google, ces informations valent de l’or !

Les données divulguées par AOL fournissent pour des millions de recherche (entre autres) le rang du résultat sur lequel l’internaute a cliqué dans les pages de résultats. A partir de ces données on peut calculer les statistiques suivantes, inédites dans le domaine de l’analyse des moteurs de recherche (excepté l’étude sur le triangle d’or des résultats Google) :
  • le résultat en 1ère position est cliqué en moyenne 3,5 fois plus que le 2ème !
  • le résultat en 1ère position est cliqué en moyenne 14 fois plus que le 10ème
  • le résultat en 10ème position est cliqué légèrement plus que le 9ème
On peut tourner ces chiffres d’une autre façon :
  • le résultat en 1ère position totalise 42% des clics
  • le résultat en 2ème position totalise 12% des clics
  • le résultat en 3ème position totalise 8,5% des clics
Serious, un membre de WRI, a eu l’idée de recalculer ces statistiques en corrigeant les données (suppression des double-clics sur le même résultat par le même utilisateur, suppression des enregistrements dont la recherche est un nom de domaine, et pour laquelle les clics sur le 1er résultat ne sont pas étonnants et donc représentatifs). Je le remercie au nom de tous pour avoir accepté de partager son travail.

clics-resultats.jpg


Si on raisonne par page de 10 résultats :
  • les résultats en 1ère page totalisent 89,8% des clics
  • les résultats en 2ème page totalisent 4,4% des clics
  • les résultats en 3ème page totalisent 2,4% des clics
Avec les données corrigées par Serious, cela donne :
  • les résultats en 1ère page totalisent 87,7% des clics
  • les résultats en 2ème page totalisent 5,3% des clics
  • les résultats en 3ème page totalisent 2,5% des clics
Ces statistiques ont été calculées à partir de 4,9 millions de clics pour la 1ère source d’infos, et 7,7 millions de clics pour la seconde ; on peut donc penser qu’elles sont représentatives de la réalité. Par contre il faut savoir qu’il ne s’agit que d’utilisateurs d’AOL aux Etats-Unis, donc tout n’est pas forcément transposable pour le marché français.

En éliminant les requêtes vides, celles qui sont trop longues (+ de 100 caractères) et celles portant sur des noms de domaine (non représentatives), Serious (membre de WRI) a obtenu les résultats suivants :

nb-mots-par-requete.png


Source : ici
 
WRInaute passionné
On savait déjà qu'il était important de figurer dans les premières positions et bien là en voilà une confirmation "officielle". Au moins on est fixé et la "baston" va reprendre de plus belle pour atteindre les 3 premières positions de GG :roll: :lol:
 
WRInaute accro
Beau boulot !
On peut enfin évaluer avec moins d'approximation l'impact du positionnement, et en tout cas sur une base concrète.
Et comme on s'en doutait, il vaut mieux être sur le podium :)
 
WRInaute discret
Cela révèle aussi l'incroyable efficacité des moteurs de recherche. Cela montre que la majorité des internautes obtient satisfaction avec la première réponse :wink:
 
WRInaute accro
Boris33 a dit:
Cela révèle aussi l'incroyable efficacité des moteurs de recherche. Cela montre que la majorité des internautes obtient satisfaction avec la première réponse :wink:

Pas forcément ?...

L'étude ne précise pas à priori si les internautes reviennent ou pas sur leur page de recherche, ou si cela porte sur le "premier clic uniquement" ou sur tous les clics.

Quoi qu'il en soit, sur beaucoup de requêtes, il existe effectivement des liens sponsorisés, qui "pourrissent" un peu la donne :roll:



Je ne sais pas si l'étude est totalement transposable au marché français. Bien que ne constituant qu'une goutte d'eau dans l'océan, mon propre comportement tend à ne pas cliquer systématiquement sur le premier lien mais avant tout de parcourir les descriptifs des premiers liens (on dira des 3/4 premiers d'abord, puis des 5 à 7/8ème ensuite...) avant de cliquer. J'aurais donc tendance à croire (toujours d'après MA façon de faire :lol: ) que l'essentiel est de figurer dans le "top four" !
 
Olivier Duffez (admin)
Membre du personnel
d'après les chiffres fournis, j'ai l'impression qu'il s'agit de statistiques basées sur l'ensemble des clics. On pourrait effectivement la refaire seulement sur les "premiers clics" (les données fournies le permettent) mais au final qu'est-ce que ça change vraiment ?
 
WRInaute passionné
Szarah a dit:
Beau boulot !
On peut enfin évaluer avec moins d'approximation l'impact du positionnement, et en tout cas sur une base concrète.
Et comme on s'en doutait, il vaut mieux être sur le podium :)


Effectivement, en analysant un peu ses stats on peut s'apercevoir du gouffre existant, mais cela confirme l'analyse personnelle.

Je dirais même qu'il vaut mieux être en première position, mais trève de lieu commun, 12% de traffic sur une requête fortement concurentielle, c'est déjà pas si mal...

=)
 
WRInaute passionné
Je pense, que pour obtenir des resultats significatifs, il ne faut pas considerer l'ensemble des donnees. Il faut eliminer, au minimum:
1) les enregistrements identiques -- et oui, certains double-cliquent ;D
2) les enregistrements dont la recherche est un nom de domaine -- en effet beaucoup de personnes tapent l'adresse d'un site qu'ils veulent visiter, non dans la barre d'adresse, mais dans la barre de recherche. J'en connais. :roll:
J'ai donc utilise ceci (en premiere approche):
Code:
cat all_aol_data.tsv | awk -F "\t" '{ if($4) print($1 "\t" $2 "\t \t" $4 "\t" $5); }' | uniq | awk -F "\t" '{ print($2 "\t" $4); }' | egrep -v '(\.org|\.net|\.com|www\.)' | awk -F "\t" '{ if($2) print($2); }' | sort | uniq -c | sort -rn | awk '{ gsub("^ *",""); gsub(" ",","); print; }'
Et on obtient (15436869 enregistrements):
Code:
1	35,78%
2	12,25%
3	9,16%
4	6,70%
5	5,47%
6	4,51%
7	3,84%
8	3,40%
10	3,40%
9	3,23%
11	0,78%
12	0,66%
13	0,62%
14	0,58%
15	0,56%
16	0,46%
17	0,43%
18	0,40%
25	0,40%
19	0,38%
A noter qu'il vaut mieux etre 10eme que 9eme.
Par page, on obtient:
Code:
page1 13543833	87,74%
page2 814224	5,27%
page3 387404	2,51%
page4 196711	1,27%
Autrement dit, il faut etre sur la premiere page. En tete si possible mais les rangs suivants (4-10) restent interessants.
 
WRInaute passionné
Je pense que cela dépend aussi fortement des requetes.
Est-ce qu'il serait possible de faire une extraction en choisissant différentes types de requetes (un mot, deux mots etc) et voir quelles requetes ont ce comportement, et lesquelles ne l'ont pas ?
 
Olivier Duffez (admin)
Membre du personnel
Merci Serious pour ton analyse, je n'imaginais pas qu'on pouvait faire ces stats avec une bonne commande shell ! (tu as gagné une reco !)

Je pense que je vais mettre à jour mon article (si j'ai le temps).
 
WRInaute passionné
Au reste, ce document en apprend long sur l'appréhension des moteurs de recherche par les internautes. Il serait interressant de confirmer le nombre de mots clés par requête et leur proportion respective.

=)
 
WRInaute occasionnel
En même temps c'est pas nouveau voit pas l'intérêt ces statistiques sont naturelles et logiques rien d'exceptionel en fait ... non ? Qu'est-ce qui vous étonnes ?
 
WRInaute passionné
pierre_jean a dit:
En même temps c'est pas nouveau voit pas l'intérêt ces statistiques sont naturelles et logiques rien d'exceptionel en fait ... non ? Qu'est-ce qui vous étonnes ?

Il n'y a rien de surprenant. Mais c'est la premiere fois qu'il ya des données chiffrées.
Personne ne connaissait vraiment la différence entre première et deuxième place par exemple. On peut tres bien se dire que l'internaute ne clique pas sur le premier d'un seul coup mais lis les premiers resultats.

Au passage, est-ce qu'il y a moyen pour chaque clic de determiner le nombre de clic sur plusieurs reponses ?
 
WRInaute passionné
Qu'elles soient diffusées !

C'est beaucoup plus qu'un rapport d'une source officielle, ce sont les données brutes.
=)
 
WRInaute passionné
Au passage, est-ce qu'il y a moyen pour chaque clic de determiner le nombre de clic sur plusieurs reponses ?

Précissemment non, mais en fonction de l'iutilisateur, de la date et des mots clés, on peut éventuellement estimer cela. Mais rien de très sûr...
 
WRInaute passionné
mr_go a dit:
Il serait interressant de confirmer le nombre de mots clés par requête et leur proportion respective.
J'ai elimine les noms de domaines, les requetes vides et celles trop longues (>100). Restent 7760519 couples (mots,utilisateur) differents:
Code:
2	29,03%
1	27,49%
3	18,68%
4	11,13%
5	6,20%
6	3,32%
7	1,74%
8	0,97%
9	0,56%
10	0,32%

Code:
cat all_aol_data.tsv | awk -F "\t" '{ if($4=="") print($1 "\t" $2); }' | uniq | egrep -v '(\.org|\.net|\.com|www\.)' | awk -F "\t" '{ gsub("[^a-zA-Z0-9]"," ",$2); if(length($2)<100) print($2); }' | awk '{ print(NF);}' | sort | uniq -c | sort -nr | awk '{ gsub("^ *",""); gsub(" ",","); print; }'
 
WRInaute passionné
Suede a dit:
Au passage, est-ce qu'il y a moyen pour chaque clic de determiner le nombre de clic sur plusieurs reponses ?

Elimination des requetes vides, repetees, domains, ...
Code:
11101803	1	89,05%
829314	2	6,65%
261998	3	2,10%
118355	4	0,95%
60711	5	0,49%
33734	6	0,27%
19909	7	0,16%
12306	8	0,10%
7911	9	0,06%
5264	10	0,04%
Autrement dit, 89% ne visitent qu'un seul site.
Code:
cat all_aol_data.tsv | awk -F "\t" '{ if(($4!="")&&($2!="-")&&(NR>2)) print($1 "\t" $2 "\t" $4); }' | uniq | egrep -v '(\.org|\.net|\.com|www\.)' | awk -F "\t" '{ print($1 " " $3); }' | uniq -c | awk '{ print($1); }' | sort | uniq -c | sort -rn  | awk '{ gsub("^ *",""); gsub(" ",","); print; }'
 
WRInaute passionné
Merci !!!

Suffit de demander pour avoir une réponse ? :)

Cela serait intéréssant parmi ceux qui cliques sur 2, 3 ou 4 sites de voir sur quel site ils cliquent le plus : a priori, s'ils cliquent sur plusieurs sites, soit ils commencent par le premier et continu ensuite, soit ils font un jugement en lisant ce qui est affiché.
 
WRInaute passionné
mr_go a dit:
Sur quel intervalle de temps te bases tu ?
l'eternite.

Suede a dit:
a priori, s'ils cliquent sur plusieurs sites, soit ils commencent par le premier et continu ensuite, soit ils font un jugement en lisant ce qui est affiché.
Les donnees sont insuffisantes pour repondre a cette question. On ne connait que la date du clic et il n'y a pas moyen d'estimer le temps de lecture. A mon avis, le comportement depend surtout du navigateur (support des onglets donc ouverture simultanee).
 
WRInaute impliqué
WebRankInfo a dit:
d'après les chiffres fournis, j'ai l'impression qu'il s'agit de statistiques basées sur l'ensemble des clics. On pourrait effectivement la refaire seulement sur les "premiers clics" (les données fournies le permettent) mais au final qu'est-ce que ça change vraiment ?

Cela change ce qui a été dis trois poste plus haut: ou il est dit que google est si pertinant que seul les trois premiers résultats suffisent.

google est-il si efficace que cela?

Si le visiteur reviens sur la page pour trouver un site dans les 5 derniers résultats d'une page de 10...

Bref, c'est ça que ça change
 
WRInaute passionné
Est-ce que les chiffres permettent de savoir le nombre de fois, en moyenne, un internaute lance sa recherche avant de cliquer sur un résultat ?

C'est-à-dire est-il généralement satisfait des résultats qu'il obtient dès sa première recherche ?
 
WRInaute passionné
Fab le Fou a dit:
Est-ce que les chiffres permettent de savoir le nombre de fois, en moyenne, un internaute lance sa recherche avant de cliquer sur un résultat ? C'est-à-dire est-il généralement satisfait des résultats qu'il obtient dès sa première recherche ?
L'information est disponible dans les donnees. Par contre ce n'est pas possible de faire ca automatiquement. En effet il faudrait pouvoir grouper les requetes d'apres leur semantique, ce qui est beaucoup plus complique. Trois pistes pour les rassembler:
1) considerer une fenetre temporelle (si elles sont proches elles portent surement sur le meme sujet)
2) considerer les mots communs (si elles ont un mot commun, elles portent surement sur le meme sujet)
3) combiner 1 et 2
Ca peut se faire mais pas en 5mn et une ligne de shell ;)
 
WRInaute impliqué
N'oubliez pas dans vos interprétations, qu'Aol utilise une interface perso pour la navigation sur le net et que l'intégration des pubs adsence n'est pas identique à celle qui est faite sur google :
- il n'y a pas de pub sur la droite de la page, quatre liens pub en haut et quatre liens pub en bas au maximum
- dans certain cas, sous les quatre premières pub un lien "Mot clé Aol"
- les sites trusted semblent ne pas exister sur aol (à confirmer)

Au total, sur la recherche "hotels", en plein écran sur aol et sur internet explorer :
- Sur AOL : 5 résultats moteur, quatre pub adsence et un lien mot clé aol
- Sur IE : 6 résultats moteur dont un trusted (avec 5 lliens vers des sous rubriques) 3 pub adsence en haut de page et 8 pub adsence sur le coté droit de la page.
 
WRInaute passionné
Encore des stats a la demande de WRI :)
Pour toutes les requetes (filtrees) ayant genere deux clics, dont le premier clic etait sur le premier resultat (495824 enregistrements), ou a eu lieu le second clic?
A 97% sur un autre resultat de la meme page:
Code:
2	34,79%
3	20,30%
4	11,99%
5	8,56%
6	6,17%
7	4,66%
8	3,78%
10	3,56%
9	3,40%
Si le premier clic etait sur le second resultat (207081
enregistrements), le second clic a eu lieu sur:
Code:
1	32,15%
3	20,10%
4	12,42%
5	8,94%
6	6,58%
7	5,05%
8	4,06%
10	3,83%
9	3,72%
Plus interessant, le second clic se placera a 23% sur un resultat situe avant (et a 77% sur un resultat apres).
Finalement 28% des visiteurs cliquant les deux premiers resultats vont cliquer le second en premier (si vous me suivez).
 
WRInaute accro
bien joué Serious

Olivier tu as fais LA bonne conclusion qu'il fallait faire : on ne peut pas dire si les utilisateurs trouvent directement le bon résultat ou s'ils sont feignants.

En tout cas je parie qu'environ 100% des personnes qui ont cliqué sur plus d'un lien ont cliqué sur le premier résultat en premier.
 
WRInaute passionné
mx a dit:
Ce qui peut signifier que la recherche éffectuée par le visiteur est en 2eme posistion au lieu d'être en premier, donc un manque de pertinence du moteur.

Pas forcément un manque de pertinence.

Si GG et autre font comme il semble, placer les site institutionnel en premier, il faut evidement s'attendre à des clic à partir de la 2e ou 3e réponse, car il de notoriété que les sites institutionnels sont ... pas terrible.

Exemple avec un de mes site sur le moyen age. Le musée national est devant moi, mais ce site n'est qu'une vitrine du musée... Pour avoir des info personne n'ira dessus.
 
WRInaute occasionnel
Ce qui est excitant en tout cas c'est d'imaginer l'impact sur son traffic dans le fait de gagner une place dans le top 10 sur bonne requête !
 
WRInaute impliqué
cedric_g a dit:
Boris33 a dit:
Cela révèle aussi l'incroyable efficacité des moteurs de recherche. Cela montre que la majorité des internautes obtient satisfaction avec la première réponse :wink:

Pas forcément ?...

L'étude ne précise pas à priori si les internautes reviennent ou pas sur leur page de recherche, ou si cela porte sur le "premier clic uniquement" ou sur tous les clics.

Quoi qu'il en soit, sur beaucoup de requêtes, il existe effectivement des liens sponsorisés, qui "pourrissent" un peu la donne :roll:



Je ne sais pas si l'étude est totalement transposable au marché français. Bien que ne constituant qu'une goutte d'eau dans l'océan, mon propre comportement tend à ne pas cliquer systématiquement sur le premier lien mais avant tout de parcourir les descriptifs des premiers liens (on dira des 3/4 premiers d'abord, puis des 5 à 7/8ème ensuite...) avant de cliquer. J'aurais donc tendance à croire (toujours d'après MA façon de faire :lol: ) que l'essentiel est de figurer dans le "top four" !

Pour ma part, je fais comme Cedric, je regarde les descriptifs des liens de la première page avant de cliquer,
et je vais très rarement sur la deuxième page!
Ca me fait peur quand je pense au référencement futur du site de peintre que je suis en train de construire.
 
WRInaute accro
Grantome a dit:
Si GG et autre font comme il semble, placer les site institutionnel en premier, il faut evidement s'attendre à des clic à partir de la 2e ou 3e réponse, car il de notoriété que les sites institutionnels sont ... pas terrible.

Exemple avec un de mes site sur le moyen age. Le musée national est devant moi, mais ce site n'est qu'une vitrine du musée... Pour avoir des info personne n'ira dessus.

Pas forcément, sur plein de requêtes, ce sont des sites de ventes en lignes qui sont premier.

En plus, viens de faire le tests avec un ami (qui n'est qu'un simple utilisateur sans compétances en création de sites), une partie vérie le nom de la page et lisent le nom de domaine. S'il le connaissent déjà, il cliquent plus facilement (ou moins).
 
WRInaute passionné
Bellegarde-webb a dit:
cedric_g a dit:
Boris33 a dit:
Cela révèle aussi l'incroyable efficacité des moteurs de recherche. Cela montre que la majorité des internautes obtient satisfaction avec la première réponse :wink:

Pas forcément ?...

L'étude ne précise pas à priori si les internautes reviennent ou pas sur leur page de recherche, ou si cela porte sur le "premier clic uniquement" ou sur tous les clics.

Quoi qu'il en soit, sur beaucoup de requêtes, il existe effectivement des liens sponsorisés, qui "pourrissent" un peu la donne :roll:



Je ne sais pas si l'étude est totalement transposable au marché français. Bien que ne constituant qu'une goutte d'eau dans l'océan, mon propre comportement tend à ne pas cliquer systématiquement sur le premier lien mais avant tout de parcourir les descriptifs des premiers liens (on dira des 3/4 premiers d'abord, puis des 5 à 7/8ème ensuite...) avant de cliquer. J'aurais donc tendance à croire (toujours d'après MA façon de faire :lol: ) que l'essentiel est de figurer dans le "top four" !

Pour ma part, je fais comme Cedric, je regarde les descriptifs des liens de la première page avant de cliquer,
et je vais très rarement sur la deuxième page!
Ca me fait peur quand je pense au référencement futur du site de peintre que je suis en train de construire.

Attention !
Vous êtes des webmasters.
Vous savez qu'il y a des résultats intéréssants.

L'étude concerne des internautres AOL. Qui utilise l'interface AOL pour les recherches et donc pas un acces direct à un moteur de recherche. Je le trompe peut-etre mais je pense que le profil est un peu plus celui d'internautes novices qui ne veut pas se compliquer la vie.
Si Google dit qu'il est pertinent, c'est logique qu'ils le croient et cliquent d'abord sur le premier résultat si celui-ci n'est pas aberrant.
 
WRInaute passionné
Suede a dit:
Attention !
Vous êtes des webmasters.
Vous savez qu'il y a des résultats intéréssants.

L'étude concerne des internautres AOL. Qui utilise l'interface AOL pour les recherches et donc pas un acces direct à un moteur de recherche. Je le trompe peut-etre mais je pense que le profil est un peu plus celui d'internautes novices qui ne veut pas se compliquer la vie.
Si Google dit qu'il est pertinent, c'est logique qu'ils le croient et cliquent d'abord sur le premier résultat si celui-ci n'est pas aberrant.

Oui, tout a fait exact.

A priori, le profil type des utilisateurs d'AOL est qu'ils sont relativement agés et qu'ils ne connaissent pas grand chose à internet. (sinon ils n'utiliseraient pas AOL :D )

D'ailleurs, certains ont mis en évidence que beaucoup de recherches effectuées portaient sur des "thèmes senior" (retraite, vacances senior, traitement médicaux pour les maladies due à l'age, petits chiens de compagnie ...)

Je suis étonné de ne pas avoir lu plus de mise en perspective de ces données en fonction de ce biais.
 
WRInaute passionné
une question quand méme, est ce que c'est légale d'utiliser ces données de AOL ? Cà leur appartient quand méme non ?
 
WRInaute passionné
Mumuri a dit:
une question quand méme, est ce que c'est légale d'utiliser ces données de AOL ? Cà leur appartient quand méme non ?

Il faudrait voir sous quelle condition ils les ont diffusés à l'origine.
 
WRInaute passionné
Je met ça dans mes favoris et je pense que les concepteurs de sites quels qu'ils soient devraient
d'abord étudier à fond la psychologie des internautes.

l'image donne l'info sur une page existante, et pour une configuration visuelle précise, donc si tu voudrais tirer profit de ces resultats, il faudrait pour cela que tu effectues une mise en page identique et que tu places tes éléments primordiaux aux endrois judicieux :wink:
 
WRInaute passionné
spidetra a dit:
Suede a dit:
Mumuri a dit:
une question quand méme, est ce que c'est légale d'utiliser ces données de AOL ? Cà leur appartient quand méme non ?

Il faudrait voir sous quelle condition ils les ont diffusés à l'origine.

500k User Session Collection
----------------------------------------------
This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY.
Any application of this collection for commercial purposes is STRICTLY PROHIBITED.

Je ne parle pas de ceux qui ont diffusé les fichiers mais de la société AOL :)
 
Discussions similaires
Haut