MajesticSEO a découvert + de 1000 milliards de pages web

Discussion dans 'Netlinking, backlinks, liens et redirections' créé par WebRankInfo, 9 Octobre 2009.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 475
    J'aime reçus:
    676
    Majestic SEO a annoncé avoir découvert 1,026,035,494,521 URL sur le web (et crawlé 127,719,208,045 d'entre elles)
    c'est à peu près autant que Google !
    rappelons tout de même que MajesticSEO ne récupère pas le texte mais seulement les liens et les anchor text.
    Bravo à eux tout de même !!!
     
  2. 5_legs
    5_legs WRInaute passionné
    Inscrit:
    30 Avril 2006
    Messages:
    1 521
    J'aime reçus:
    0
    C'est effectivement une sacré performance !

    Félicitations !

    ça me donne l'occasion d'y retourner voir mes résultats tiens ;-)
     
  3. nervusdm
    nervusdm WRInaute impliqué
    Inscrit:
    5 Janvier 2008
    Messages:
    609
    J'aime reçus:
    0
    Il est très simple de créer un script qui avale tous les liens d'une page web, puis qui les enregistre dans une table mysql, en allant les visiter.

    Je dis très simple, pour m'être amusé à essayer ( avec succès hein ), mêmê si le plus dur est de faire du filtrage sur certains liens.

    Après, pour enregistrer 1000 milliards de page, il doit falloir plusieurs serveurs :D ( c'est peu de le dire )
     
  4. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 597
    J'aime reçus:
    0
    @nervusdm pour indexer autant de contenu il ne faut pas seulement plusieurs serveurs. Il faut également une architecture adaptée.
    Cela m'étonnerait beaucoup que le crawler de Magestic SEO soit développé en PHP.

    Le problème n'est pas la simplicité technique de la chose. C'est d'avoir des outils suffisamment performants pour conserver une application "scalable" et pouvoir indexer de fortes doses de contenu tout en limitant les ressources système.
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 475
    J'aime reçus:
    676
    il s'agit d'un crawler distribué qui utilise les machines perso des volontaires qui participent au projet
     
  6. u8086
    u8086 WRInaute passionné
    Inscrit:
    24 Mai 2004
    Messages:
    2 442
    J'aime reçus:
    0
    Pour mette un bémol à ce chiffre, j'ai testé la base de Majestic sur un site que je connais... il y avait pas mal d'URL dupliquées avec passage de variables sorties de l'espace, et des images considérées comme des pages.

    Sachant aussi qu'ils annoncent connaitre plus de noms de domaines que l'Icann n'en gère... je crois que ces chiffres sont à prendre avec précautions.
     
  7. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 475
    J'aime reçus:
    676
    pour moi cet outil fait partie des meilleurs, notamment de par sa couverture
    au sujet des nombres de domaines, aurais-tu des sources à nous donner (pour l'ICANN et pour majesticseo) ?
     
  8. eric-joomla
    eric-joomla WRInaute discret
    Inscrit:
    25 Septembre 2006
    Messages:
    157
    J'aime reçus:
    0
    Même chose qu'Olivier
    je trouve que l'outil de majestic seo est pas mal du tout

    et surtout independant des moteurs de recherche
    ce qui n'est pas la moindre performance
     
  9. rudddy
    rudddy WRInaute passionné
    Inscrit:
    1 Août 2007
    Messages:
    2 125
    J'aime reçus:
    0
    +1
     
  10. nervusdm
    nervusdm WRInaute impliqué
    Inscrit:
    5 Janvier 2008
    Messages:
    609
    J'aime reçus:
    0
    Qu'importe soit le programme, mais je pense que la base de donnée est sql :p
     
  11. kanon90
    kanon90 WRInaute impliqué
    Inscrit:
    23 Mars 2007
    Messages:
    760
    J'aime reçus:
    0
    Tous ces chiffres sont à prendre de toute façon avec précaution, maintenant ca reste un outil vraiment intéressant et qui permettent de cerner 2-3 trucs dans la gestion de tes sites.
     
  12. Aminede92
    Aminede92 Nouveau WRInaute
    Inscrit:
    28 Avril 2009
    Messages:
    36
    J'aime reçus:
    0
    Bonjour, pouvez vous nous donner une idée sur cet outil ?
    merci
     
  13. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 475
    J'aime reçus:
    676
Chargement...
Similar Threads - MajesticSEO découvert 1000 Forum Date
Vitesse de découverte d'un domaine Crawl et indexation Google, sitemaps 3 Avril 2021
Google ferme Google+ (pour les particuliers) suite à la découverte d'une faille Google+ 8 Octobre 2018
Google n'importe quoi ! un cas unique, decouverte et debat ... Demandes d'avis et de conseils sur vos sites 12 Avril 2016
Découverte a propos du réferencement de google ! Problèmes de référencement spécifiques à vos sites 6 Mai 2012
Diffuser des failles découvertes Droit du web (juridique, fiscalité...) 20 Juin 2011
professionnel - quel taux de frais de découvert avez-vous? Le café de WebRankInfo 1 Juin 2011
Petite découverte perso à confirmer Débuter en référencement 3 Juillet 2010
Annoncer pour soi même pour récupérer l'argent de l'offre découverte AdWords 26 Mars 2010
Intéressant - Découverte du nombre de requetes tapées Référencement Google 25 Juillet 2008
Leenot : Partagez vos découvertes ! Demandes d'avis et de conseils sur vos sites 11 Juin 2008
[linux] Attention nouvelle faille découverte... Administration d'un site Web 12 Février 2008
J'ai découvert un truc étrange. Problèmes de référencement spécifiques à vos sites 22 Janvier 2007
Kesako divers découvertes google ... Google : l'entreprise, les sites web, les services 22 Mars 2006
Petite découverte. Crawl et indexation Google, sitemaps 3 Juillet 2005