| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
petit lu Nouveau WRInaute
Inscrit le: 09 Fév 2006 Messages: 31
|
Posté le : Mar Fév 14, 2006 19:24 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
Yop, alors voila
l'idée, c'est que j'ai décidé de creer un moteur de recherche sur un de mes serveurs. l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau...
je vais donc attaquer ca ce soir, et si je fais ce post, c'est pour écouter vos propositions et idées, qu'est ce que vous pensez qu'un bon annuaire devrait faire au niveau des calculs pour ressortir les sites les plus précis au niveaux des mots clés.
je n'ai pas la prétention de refaire google (ni les moyens d'ailleurs), mais je pense que ca peut être interessant....
voila, maintenant, je vous écoute... |
|
| |
|
 |
blman WRInaute accro

Inscrit le: 05 Sep 2003 Messages: 2747 Localisation: Nantes / Laval (France)
|
Posté le : Mar Fév 14, 2006 19:34 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
Un petit lien qui pourra t'aider :
http://www.webrankinfo.com/forums/viewtopic_41650.htm
( j'ai toujours pas fini le développement, faute de temps, mais je m'y remettrais bientôt ) |
|
| |
|
 |
nonel WRInaute impliqué

Inscrit le: 05 Mai 2005 Messages: 321 Localisation: Lyon
|
Posté le : Mer Fév 15, 2006 10:08 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
Ben prépare toi à investir dans un gros serveur dédié alors !
Parceque question ressource ... vlà ce que ca bouffe... c'est énorme. Discute bien de tes projets avec ton hébergeur.
Bonne chance.
Tcho. |
|
| |
|
 |
petit lu Nouveau WRInaute
Inscrit le: 09 Fév 2006 Messages: 31
|
Posté le : Mer Fév 15, 2006 13:13 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
alors, pour l'instant, j'ai 3 dédiés, et j'ai lancé ca sur un vieux p4 1.7ghz chez moi,
j'ai juste codé la partie crawler, qui ne fait que récupérer des urls de pages, avec un minimum de traitement. je l'ai lancé ce matin (avant de partir bosser, et la, j'ai 40827 pages indexées. ca fait dans les 10 000pages / heures (dont 5000 pages les 10 premieres minutes). |
|
| |
|
 |
blman WRInaute accro

Inscrit le: 05 Sep 2003 Messages: 2747 Localisation: Nantes / Laval (France)
|
Posté le : Mer Fév 15, 2006 13:28 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources. |
|
| |
|
 |
petit lu Nouveau WRInaute
Inscrit le: 09 Fév 2006 Messages: 31
|
Posté le : Mer Fév 15, 2006 13:38 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| blman a écrit: |
| Sinon, plutôt que de tout coder toi même, il y a phpdig qui est bien fait et bien optimisé au niveau des ressources. |
non, justement, l'idée etait de tout faire a 100%, c'est pour ca que je le fait... un moteur de recherche comme ca est pas viable fasse a google, yahoo, askj ou autres.... |
|
| |
|
 |
Bouledogue WRInaute accro

Inscrit le: 15 Juil 2005 Messages: 3077 Localisation: les pieds dans l'eau
|
Posté le : Mer Fév 15, 2006 14:02 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
Bonjour et bon courage
tu demandes des idées donc :
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
- Nom de domaine peut important sur mot clefs
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-affichage d'un icon du site (exalead) sur les réponses données
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-navigation simplifié et intuitive
-possibilité de le customiser (préférences)
-affinage des réponse (exalead et UJIKO)
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
voila c'est les 1er trucs qui me vienne.. |
|
| |
|
 |
petit lu Nouveau WRInaute
Inscrit le: 09 Fév 2006 Messages: 31
|
Posté le : Mer Fév 15, 2006 14:11 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| itraque a écrit: |
-affinage des réponse (exalead et UJIKO)
- pas d'effet sandbox, pour laisser la chance aux nouveaux sites
-différente commandes webmaster (site: , links: ....)
crawl régulier des sites existant avec upgrade ou effacement des liens mort
-affichage d'un icon du site (exalead) sur les réponses données
-détermination d'une forme de densité telque le mot ou phrase est cité 3 fois c'est bon, 10 fois on veux le biéser
-crawl des pages entieres
-repérage de balises alt
-lecture et annalyse des textes
-navigation simplifié et intuitive
|
tout ca je veux bien, et c'etait prévu pour la plupart.
| itraque a écrit: |
- Nom de domaine peut important sur mot clefs
- inscriptions facile est rapide avec crawl total dans les 24 heures et affichage dans les 48 h
- surlignage des mots clefs dans les réponses données (genre cache gg)
-synergie entre les balises title, description, et "texte en dur sur page"
- non indexation (blackliste) des site ou page avec texte caché (texte blanc sur fond blanc)
-nombre de réponses affichées par 50 par défaut
-réactualisation des affichages toutes les semaine (sorte gg dance ) pour vérifier que le 1er est tjs le 1er
-possibilité de le customiser (préférences)
voila c'est les 1er trucs qui me vienne.. |
euj ... je pensais avoir dit que j'avais pas les moyens techniques de google ....
mais pourquoi pas..... 
Dernière édition par petit lu le Mer Fév 15, 2006 14:37; édité 1 fois |
|
| |
|
 |
Bouledogue WRInaute accro

Inscrit le: 15 Juil 2005 Messages: 3077 Localisation: les pieds dans l'eau
|
Posté le : Mer Fév 15, 2006 14:13 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| petit lu a écrit: |
euj ... je pensais avoir dit que j'avais pas les moyens techniques de google ....
mais pourquoi pas.....  |
Tu demandes j'éxauce...!!  |
|
| |
|
 |
blman WRInaute accro

Inscrit le: 05 Sep 2003 Messages: 2747 Localisation: Nantes / Laval (France)
|
Posté le : Mer Fév 15, 2006 14:48 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH) |
|
| |
|
 |
spidetra WRInaute accro

Inscrit le: 07 Juil 2003 Messages: 1499 Localisation: Toulouse
|
|
| |
|
 |
e-kiwi Modérateur

Inscrit le: 23 Déc 2003 Messages: 12347 Localisation: Toulouse
|
Posté le : Mer Fév 15, 2006 14:56 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
tiens, ca me donne faim tout ca
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot) |
|
| |
|
 |
petit lu Nouveau WRInaute
Inscrit le: 09 Fév 2006 Messages: 31
|
Posté le : Mer Fév 15, 2006 17:30 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| blman a écrit: |
| Une bonne base serait d'indexer les pages en retirant les balises HTML et d'utiliser des index FULLTEXT (comme ça tu utilise la fonction de recherche dee MySQL (MATCH) |
j'yavais pensé, mais :
- tu tiens pas compte du poids des mots (h1, h2, title....)
- sur une base de 100 000 site, j'ose même pas imaginer le temps de traitement d'une recherche
- la base de données va peser des gigas pour rien, vu que je serais quand même obliger d'avoir la version avec balises pour le cache
ben non, l'idée est d'approcher d'un point de vue technique ce qui se fait, et de me refaire la main en prog de haut niveau. si je reutilise un truc, autant laisser tomber....
| e-kiwi a écrit: |
tiens, ca me donne faim tout ca
t'as regardé http://www.phpdig.net/ (en dehors de tes heures de boulot) |
pareil (et non, j'ai le pc pris par un script photoshop) |
|
| |
|
 |
blman WRInaute accro

Inscrit le: 05 Sep 2003 Messages: 2747 Localisation: Nantes / Laval (France)
|
Posté le : Mer Fév 15, 2006 17:39 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
| Ok, petit lu, as-tu lu le lien que je t'avais filer au début du post ? Si oui, qu'est-ce que tu pense de tout ce qu'on a pu dire ? |
|
| |
|
 |
petit lu Nouveau WRInaute
Inscrit le: 09 Fév 2006 Messages: 31
|
Posté le : Mer Fév 15, 2006 17:50 Sujet du message: Discussion, création d'un moteur de recherche |
|
|
ouaip je l'ai lu, j'avais d'ailleurs pas pensé a la fct soundex pour l'ortographe (le coup du essayez avec cette orthographe ...)
nickel aussi pour les stopwords, ca fait des plombes que je cherchais un fichier complet...
en fait j'ai deja fait un moteur de recherche dans une base de données (70 000 entrées a scanner ), mais pas aussi complexe.... |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|