Étude sur le nombre de pages des moteurs et sites

Membre Honoré
Voici un calcul rapide pour savoir le nombre de page et de sites a priori :

Pour les sites utiliser la commande site: pour le savoir :
https://www.google.com/search?q=site%3A
6,770,000,000
https://www.google.fr/search?q=site%3A
6 770 000 000
Résultats identiques entre le le suggest et le fr et aucun sous domaine présent :wink:

Pour savoir le nombre de page utiliser la lettre a :
https://www.google.com/search?q=a
8,000,000,000
https://www.google.fr/search?q=a
8 660 000 000

je rappelle que le chiffre officiel est de :
Searching 8,168,684,336 web pages

Donc nous avons déjà 500 000 pages de plus que le chiffre officiel ...
A savoir que suivant les data-centers le chiffre varie un peu :wink:


Pour Yahoo maintenant :
la commande site: bien-sur :
http://search.yahoo.com/search?p=site%3A
160,000,000
http://fr.search.yahoo.com/search?p=site%3A
427 000 000

on remarque déjà un changement entre le fr et le us ... peut être une erreur direz vous ... Mais a priori la commande site: n'est pas forcément très pertinente suivant les moteurs a suivre ...

En ce qui concerne la lettre a cela a l'air de bien continuer :
http://search.yahoo.com/search?p=a
11,800,000,000
qui semble un chiffre réaliste ...
http://fr.search.yahoo.com/search?p=a
11 400 000 000

Chiffre réaliste et qui continue de l'être entre le us et le fr ...

A noter que la requête d'avant the ne marche plus pour savoir le nombre de page total ... :wink:

Voyons maintenant avec MSN search :
Avec la commande site: voyons :
http://search.msn.com/results.aspx?q=site%3A
1,324,566,487
http://search.msn.fr/results.aspx?q=site%3A
1 357 146 730
Les chiffres sembles faibles quand même mais c'est le dernier moteur arriver :wink:

Maintenant avec la lettre a :
http://search.msn.com/results.aspx?q=a
2,473,264,711
http://search.msn.fr/results.aspx?q=a
2 620 164 127

Des chiffres assez bas et pas très concordant...
A noter que les cotations en bourse sont disponibles en .com mais pas en .fr ... :lol:

On peut donc voir que pour certains moteurs la lettre a peut être le résultat du nombre de page à peu près qu'ils disposent ( et on peux penser aussi que les pages trouvées sont celles qui sont en lettres comme nous écrivons ... et oui la chine n'utilise pas le a )

A noter que pour a sur :
http://216.239.53.104/
http://216.239.57.104/
sont à : 8 610 000 000
et que pour :
http://216.239.59.104/
http://66.102.11.104/
c'est à : 8 730 000 000
et pour :
http://64.233.171.104/
http://64.233.179.104/
http://64.233.185.104/
sont à : 8 780 000 000

Une montée petit à petit de l'index peut être :lol:

Pour ce qui est des sites cela peut être utile mais à savoir si le moteur ne prend pas en compte le mot seulement ou pas ...

Ainsi j'ai donc chercher le nombre réel de page depuis la disparition du "the" :lol:



Qu'en pensez-vous ? :lol: :oops:

Si quelqu'un veut continuer à chercher pourquoi pas :wink:
L'idée m'est venu comme ça sur une recherche l'autre jour :lol:

ps : l"utilisation de site: ne permet pas de savoir le nombre de site a mon avis mais pour le a il est probable comme je l'ai dit avant que cela soit un chiffre "potable" pour le nombre de pages indexés dans notre style de lettres :lol:
 
WRInaute occasionnel
Merci pour ces chiffres.

J'allais faire la remarque sur l'utilisation du "a" avec des sites de langue asiatique par exemple, mais tu y as répondu ;)
Une petite idée pour connaître le nombre de pages "sans a" indexées ?
"-a" ne semble pas renvoyer de résultats satisfaisants.
 
WRInaute discret
Le principe est intéressant. Sauf pour MSN car comme tout le monde l'a déjà remarqué, le nombre de résultats est une estimation volontairement surévaluée. MSN trouve 700 pages pour un site qui n'en contient que 250 (h**p://www.fdnf.org). On peut en déduire que MSN n'a probablement pas indexé autant de site.
 
Membre Honoré
magicaxe effectivement msn est un peu a part ... et on remarque bien que il n'y a même pas 3 Milliards de pages affichés ...
Si il y a bien un "gonflement" des chiffres cela pourrait être inquiétant vu les autres résultats des moteurs sauf si il y a un autre moyen encore pour gonfler le chiffre de msn à part site: et "a" :|
 
WRInaute accro
Les chiffres de Google sont également gonflés de manière extravagante. Jusqu'il y a pas longtemps site: donnait 3950 pages pour un de mes sites qui n'en compte que 1200. Depuis une semaine, il y a une aggravation du délire googellien : 10700 pages! :roll:

Jean-Luc
 
Membre Honoré
Vu que JeunZ à l'air tellement occupé voici une suite de l'étude :
Sur le thème :
-site:www

Sur Google.fr : 9 650 000 000
Sur Google.com : 9,660,000,000

Sur Msn Seach .fr : 5 243 496 870
Sur Msn Seach .com : 5,252,671,160

On remarque des resultats à peu près pareil suivant la france et les .com après Yahoo ne donne pas de réponses pour cette synthaxe.

On peut penser que cela est le nombre approximatif de pages indexés ( même si le chiffre celon beaucoup de sources est gonflé )

Maintenant reste à savoir sachant que Google à mis un frein à la guerre des pages indexés si les 10 milliards qu'il a vont diminuer pour plus de pertinence et plus de qualité ...


A suivre ...
 
WRInaute discret
jeanluc a dit:
Les chiffres de Google sont également gonflés de manière extravagante. Jusqu'il y a pas longtemps site: donnait 3950 pages pour un de mes sites qui n'en compte que 1200. Depuis une semaine, il y a une aggravation du délire googellien : 10700 pages! :roll:

Jean-Luc

Peut-être qu'en regardant de plus près celà peux correspondre à l'indexation de pages avec un identifiant de session en php (sid) ;-)

Pour les autres cas, je ne sais pas du tout !
 
Membre Honoré
Le 30 décembre nous avons pu voir cela :

Madrileño a dit:
Le retour de la requête "the" ...

Et oui depuis quelques temps on peut voir un retour de la fameuse requete "the" qui affichait le nombre de pages indexés ...

Vous allez être même étonner pour ceux qui ne le savent pas encore ...

=>
Recherche de base en utilisant la toolbar :
https://www.google.fr/search?q=the = 8 650 000 ...
Recherche sur Google Suggest :
https://www.google.com/search?complete=1&hl=en&lr=&q=the = 8 650 000
Recherche sur un des derniers datacenter :
http://64.233.179.104/search?q=the = 23 160 000 000

Vous n'avez pas rêver ...

23 Milliards 160 Millions de pages indexés par Google :D

Alors Wullon avait aussi avec les recherches par les lettres du topic passer la barre des 25 Milliards ...

23 260 000 000 à l'instant pour :
http://64.233.179.104/search?q=the

New Record :
http://64.233.179.104/search?q=-aaaaaaaa
25 270 000 000 8O
 
WRInaute discret
Membre Honoré
Google cache le nombre réel de pages comme on a pu le constater avec 9 milliards bloqués depuis plusieurs mois et seulement élevé avec l'arrivée de Big Daddy ...
C'est une manière de ne pas avoir de concurrent sur le nombre de pages indexés ...
 
Membre Honoré
Un complément à l'étude pour Google :

Voici le : Most Popular Words 2006
par blog.outer-court ;

a (25,070,000,000 pages)
the (24,190,000,000 pages)
to (24,040,000,000 pages)
in (23,650,000,000 pages)
of (23,360,000,000 pages)
and (21,970,000,000 pages)
for (21,970,000,000 pages)
by (19,330,000,000 pages)
home (19,200,000,000 pages)
all (19,060,000,000 pages)
this (18,190,000,000 pages)
is (17,650,000,000 pages)
about (17,050,000,000 pages)
site (16,420,000,000 pages)
with (15,980,000,000 pages)
at (15,530,000,000 pages)
more (15,410,000,000 pages)
your (15,360,000,000 pages)
us (14,810,000,000 pages)
you (14,750,000,000 pages)
contact (14,580,000,000 pages)
web (14,570,000,000 pages)
are (13,850,000,000 pages)
from (13,690,000,000 pages)
information (13,690,000,000 pages)
it (13,430,000,000 pages)
copyright (13,300,000,000 pages)
an (13,250,000,000 pages)
privacy (12,650,000,000 pages)
that (12,600,000,000 pages)


Source : http://blog.outer-court.com/archive/2006-04-21-n53.html


On remarque que le terme : a
Nous indique à 200 millions de pages près le nombre de pages indexés sur le moteur google.


Ainsi si on reprend aujourd'hui :
http://64.233.179.104/search?q=-aaaaaaaa
On obtient : 25 270 000 000 pages

25 270 000 000 pour * *
http://64.233.179.104/search?hl=fr&q=*+*
 
Discussions similaires
Haut