Olivier Duffez (admin)
Membre du personnel
Majestic SEO a annoncé avoir découvert 1,026,035,494,521 URL sur le web (et crawlé 127,719,208,045 d'entre elles)
c'est à peu près autant que Google !
rappelons tout de même que MajesticSEO ne récupère pas le texte mais seulement les liens et les anchor text.
Bravo à eux tout de même !!!
 
WRInaute passionné
C'est effectivement une sacré performance !

Félicitations !

ça me donne l'occasion d'y retourner voir mes résultats tiens ;-)
 
WRInaute impliqué
Il est très simple de créer un script qui avale tous les liens d'une page web, puis qui les enregistre dans une table mysql, en allant les visiter.

Je dis très simple, pour m'être amusé à essayer ( avec succès hein ), mêmê si le plus dur est de faire du filtrage sur certains liens.

Après, pour enregistrer 1000 milliards de page, il doit falloir plusieurs serveurs :D ( c'est peu de le dire )
 
WRInaute accro
@nervusdm pour indexer autant de contenu il ne faut pas seulement plusieurs serveurs. Il faut également une architecture adaptée.
Cela m'étonnerait beaucoup que le crawler de Magestic SEO soit développé en PHP.

Le problème n'est pas la simplicité technique de la chose. C'est d'avoir des outils suffisamment performants pour conserver une application "scalable" et pouvoir indexer de fortes doses de contenu tout en limitant les ressources système.
 
Olivier Duffez (admin)
Membre du personnel
il s'agit d'un crawler distribué qui utilise les machines perso des volontaires qui participent au projet
 
WRInaute passionné
Pour mette un bémol à ce chiffre, j'ai testé la base de Majestic sur un site que je connais... il y avait pas mal d'URL dupliquées avec passage de variables sorties de l'espace, et des images considérées comme des pages.

Sachant aussi qu'ils annoncent connaitre plus de noms de domaines que l'Icann n'en gère... je crois que ces chiffres sont à prendre avec précautions.
 
Olivier Duffez (admin)
Membre du personnel
pour moi cet outil fait partie des meilleurs, notamment de par sa couverture
au sujet des nombres de domaines, aurais-tu des sources à nous donner (pour l'ICANN et pour majesticseo) ?
 
WRInaute discret
Même chose qu'Olivier
je trouve que l'outil de majestic seo est pas mal du tout

et surtout independant des moteurs de recherche
ce qui n'est pas la moindre performance
 
WRInaute impliqué
@nervusdm pour indexer autant de contenu il ne faut pas seulement plusieurs serveurs. Il faut également une architecture adaptée.
Cela m'étonnerait beaucoup que le crawler de Magestic SEO soit développé en PHP.

Le problème n'est pas la simplicité technique de la chose. C'est d'avoir des outils suffisamment performants pour conserver une application "scalable" et pouvoir indexer de fortes doses de contenu tout en limitant les ressources système.
Qu'importe soit le programme, mais je pense que la base de donnée est sql :p
 
WRInaute impliqué
MagicYoyo a dit:
Pour mette un bémol à ce chiffre, j'ai testé la base de Majestic sur un site que je connais... il y avait pas mal d'URL dupliquées avec passage de variables sorties de l'espace, et des images considérées comme des pages.

Sachant aussi qu'ils annoncent connaitre plus de noms de domaines que l'Icann n'en gère... je crois que ces chiffres sont à prendre avec précautions.

Tous ces chiffres sont à prendre de toute façon avec précaution, maintenant ca reste un outil vraiment intéressant et qui permettent de cerner 2-3 trucs dans la gestion de tes sites.
 
Discussions similaires
Haut