| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
enfincom WRInaute occasionnel

Inscrit le: 25 Avr 2003 Messages: 143 Localisation: 93 - PARIS
|
Posté le : Sam Juin 28, 2003 14:13 Sujet du message: Le projet PITA |
|
|
Pour le mois de juin, Enfin s'est fait avant tout crawlé par Google suivi ensuite par Pita, Fast et Scooter.
Pour Pita, il laisse comme identifiant :
Pita (webmaster@pita.stanford.edu)
Une recherche sur l'URL http://pita.stanford.edu/ conduit vers le site suivant : http://www-diglib.stanford.edu/~testbed/doc2/WebBase/
L'introduction est :
« The Stanford WebBase project is investigating various issues in crawling, storage, indexing, and querying of large collections of Web pages. The project builds on the previous Google activity that was part of the DLI1 initiative. The DLI2 WebBase project aims to build the necessary infrastructure to facilitate the development and testing of new algorithms for clustering, searching, mining, and classification of Web content. »
Est-ce que cela veut dire qu'après avoir produit Yahoo! puis Google, l'université de Stanford travaille sur un nouveau projet ?
Certains d'entre-vous ont des infos dessus ?!
CHRis |
|
| |
|
 |
cariboo WRInaute passionné

Inscrit le: 08 Fév 2003 Messages: 755 Localisation: PARIS
|
Posté le : Sam Juin 28, 2003 14:23 Sujet du message: Re: Le projet PITA |
|
|
Je ne pense pas ce que cela soit vraiment un projet nouveau...
Ils ont toujours eu des projets de recherches sur le sujet (enfin depuis quelque chose comme 1997) et le projet Webbase date de 1999/2000...
J'ai encore lu un article sur ce truc hier soir et cela datait de 2000.
Mais pour "Pita", cela mérite que l'on creuse le sujet...
Pour l'anecdote, le comportement de Googlebot aujourd'hui ressemble fort à celui décrit par des chercheurs de Stanford il y'a trois ans... (Cho et Garcia Molina) |
|
| |
|
 |
cariboo WRInaute passionné

Inscrit le: 08 Fév 2003 Messages: 755 Localisation: PARIS
|
Posté le : Sam Juin 28, 2003 14:56 Sujet du message: Le projet PITA |
|
|
J'ai retrouvé les références de l'article sur webbase
http://dbpubs.stanford.edu:8090/pub/showDoc.Fulltext?lang=en&doc=1999-26&format=...
Apparemment, le crawler Pita a au moins deux ans, et tourne sur une plateforme Java... Ils ont de l'humour chez Stanford, car il semble que ce truc a été baptisé ainsi, non pas à cause du pain Pita, mais plutôt parce que le crawler, dans ses premières versions, avait le don de saturer le réseau et les sites internet cibles.
PITA : pain in the ass (désolé, fallait bien préciser)  |
|
| |
|
 |
enfincom WRInaute occasionnel

Inscrit le: 25 Avr 2003 Messages: 143 Localisation: 93 - PARIS
|
Posté le : Sam Juin 28, 2003 15:04 Sujet du message: Le projet PITA |
|
|
En regardant dans les archives de mes stats, PITA passe sur Enfin uniquement depuis mai 2003.
A priori, si c'est un projet ancien, il a du être réactivé dernièrement.
CHRis |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13890 Localisation: Toulouse
|
Posté le : Ven Aoû 15, 2003 23:56 Sujet du message: Le projet PITA |
|
|
Le responsable du projet PITA vient de m'écrire ce mail qu'il me demande de publier ici :
| Citation: |
Pardonnez mois beaucoup pour ma Francais terrible! Je l'etudie en
Allemagne il y'a 34 d'annees... Aujourd'hui je ne peux pas rapeller
mon petite dejuener du meme jour.
Je suis le directeur du projet WebBase. Quelqun du projet a trouve
les lettre dans votre Forum.
C'est vrai, Google etais le projet avant de WebBase. Les deux
students, Larry Page et Sergey Brin sont sorties (sans leur degres
) pour avancer Google. Les deux etais dans le meme team que Junghoo
Cho. Hector Garcia-Molina et le professeur. Alors, il n'est pas un
coincidence q'il y'a des similaritees en techniques . Les gents
a Google sons des amis meme aujourd'hui
WebBase a travailler sur un crawler pour le recherche. Il est tres
flexible. On peut specifier combien de material a collecter a chaque
ordinateur et a quelle profondeur, quel material multimedia a
collectionner (.jpg, video, text, etc.), etc. Le crawler et 'open
source'. Son nom et 'WebVac'
Le focus central pour beaucoup de notre recherche et le distribution
des page du Web tres vite. Nous collectionnons environ 120 million
pages chaque mois. (Nous transportons beucoup de pages a SDSC (San
Diego Supercomputer Center) parce que nous n'avons pas le 'disk space'
necessaire. Ma tous les gens peux avoir tous les pages par le Internet
a Internet vitesse. Le client et a
http://www-diglib.stanford.edu/~testbed/doc2/WebBase/. On peut
demander quelque nombres des page, ou seulement les pages des domaines
particulaires. Malheureusement nous (notres crawlers) ne voyageons a
l'Europe. Ma nous avons des clients en Italy, Pologne, et a autres
places.
Trois students (un est dans le projet WebBase) ont avances un compagnie
nouveau (Kaltix) il y'a environ un mois. Ils veulent utilises des
resultats recherche de WebBase. On ne sais pas beaucoup aujoud'hui. Mais
il ya un article a
http://news.com.com/2100-1024_3-5061873.html?tag=fd_lede2_hed. Pas des
details du tous. Ils ne parlent beaucoup.
J'espere que mon professeur Francais ne trouve pas cette lettre!
Andreas
http://www-db.stanford.edu/~paepcke
|
|
|
| |
|
 |
Gilbert Wayenborgh WRInaute passionné

Inscrit le: 17 Déc 2002 Messages: 998 Localisation: Arles
|
Posté le : Sam Aoû 16, 2003 0:40 Sujet du message: Le projet PITA |
|
|
que son francais soit pardonné ...
Best regards |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|