Le projet PITA

enfincom · 28 Juin 2003

Pour le mois de juin, Enfin s'est fait avant tout crawlé par Google suivi ensuite par Pita, Fast et Scooter.

Pour Pita, il laisse comme identifiant :
Pita (webmaster@pita.stanford.edu)

Une recherche sur l'URL http://pita.stanford.edu/ conduit vers le site suivant : http://www-diglib.stanford.edu/~testbed/doc2/WebBase/

L'introduction est :
« The Stanford WebBase project is investigating various issues in crawling, storage, indexing, and querying of large collections of Web pages. The project builds on the previous Google activity that was part of the DLI1 initiative. The DLI2 WebBase project aims to build the necessary infrastructure to facilitate the development and testing of new algorithms for clustering, searching, mining, and classification of Web content. »

Est-ce que cela veut dire qu'après avoir produit Yahoo! puis Google, l'université de Stanford travaille sur un nouveau projet ?

Certains d'entre-vous ont des infos dessus ?!

CHRis

cariboo · 28 Juin 2003

Je ne pense pas ce que cela soit vraiment un projet nouveau...

Ils ont toujours eu des projets de recherches sur le sujet (enfin depuis quelque chose comme 1997) et le projet Webbase date de 1999/2000...

J'ai encore lu un article sur ce truc hier soir et cela datait de 2000.

Mais pour "Pita", cela mérite que l'on creuse le sujet...

Pour l'anecdote, le comportement de Googlebot aujourd'hui ressemble fort à celui décrit par des chercheurs de Stanford il y'a trois ans... (Cho et Garcia Molina)

cariboo · 28 Juin 2003

J'ai retrouvé les références de l'article sur webbase

http://dbpubs.stanford.edu:8090/pub/sho ... mpression=

Apparemment, le crawler Pita a au moins deux ans, et tourne sur une plateforme Java... Ils ont de l'humour chez Stanford, car il semble que ce truc a été baptisé ainsi, non pas à cause du pain Pita, mais plutôt parce que le crawler, dans ses premières versions, avait le don de saturer le réseau et les sites internet cibles.

PITA : pain in the ass (désolé, fallait bien préciser)

enfincom · 28 Juin 2003

En regardant dans les archives de mes stats, PITA passe sur Enfin uniquement depuis mai 2003.

A priori, si c'est un projet ancien, il a du être réactivé dernièrement.

CHRis

WebRankInfo · 15 Août 2003

Le responsable du projet PITA vient de m'écrire ce mail qu'il me demande de publier ici :

Pardonnez mois beaucoup pour ma Francais terrible! Je l'etudie en
Allemagne il y'a 34 d'annees... Aujourd'hui je ne peux pas rapeller
mon petite dejuener du meme jour.

Je suis le directeur du projet WebBase. Quelqun du projet a trouve
les lettre dans votre Forum.

C'est vrai, Google etais le projet avant de WebBase. Les deux
students, Larry Page et Sergey Brin sont sorties (sans leur degres
:-() pour avancer Google. Les deux etais dans le meme team que Junghoo
Cho. Hector Garcia-Molina et le professeur. Alors, il n'est pas un
coincidence q'il y'a des similaritees en techniques . Les gents
a Google sons des amis meme aujourd'hui

WebBase a travailler sur un crawler pour le recherche. Il est tres
flexible. On peut specifier combien de material a collecter a chaque
ordinateur et a quelle profondeur, quel material multimedia a
collectionner (.jpg, video, text, etc.), etc. Le crawler et 'open
source'. Son nom et 'WebVac'

Le focus central pour beaucoup de notre recherche et le distribution
des page du Web tres vite. Nous collectionnons environ 120 million
pages chaque mois. (Nous transportons beucoup de pages a SDSC (San
Diego Supercomputer Center) parce que nous n'avons pas le 'disk space'
necessaire. Ma tous les gens peux avoir tous les pages par le Internet
a Internet vitesse. Le client et a
http://www-diglib.stanford.edu/~testbed/doc2/WebBase/. On peut
demander quelque nombres des page, ou seulement les pages des domaines
particulaires. Malheureusement nous (notres crawlers) ne voyageons a
l'Europe. Ma nous avons des clients en Italy, Pologne, et a autres
places.

Trois students (un est dans le projet WebBase) ont avances un compagnie
nouveau (Kaltix) il y'a environ un mois. Ils veulent utilises des
resultats recherche de WebBase. On ne sais pas beaucoup aujoud'hui. Mais
il ya un article a
http://news.com.com/2100-1024_3-5061873 ... _lede2_hed. Pas des
details du tous. Ils ne parlent beaucoup.

J'espere que mon professeur Francais ne trouve pas cette lettre!

Andreas
http://www-db.stanford.edu/~paepcke

Gilbert Wayenborgh · 16 Août 2003

que son francais soit pardonné ...

Best regards