WRInaute occasionnel
Hello vous tous,
Pour mes 20 ans d'activité ou plutôt de présence un peu plus accrue sur le net... j'ai décidé avec l'aide du confinement (ok moins poussé en Suisse qu'en France) mais qui m'a laissé avec le télétravail, un peu de temps, pour remettre en piste mon projet de toujours, soit un moteur de home pages (bloqué à 2'000 sites) .
J'ai récupéré une ancienne liste d'urls que j'avais et que je vais mettre à jour gentiment, je vais essayer de supprimer des sites n'ayant plus leurs places pour garder une certaine qualité des résultats. Comme toujours, la soumission est gratuite et devrait prendre 3 secondes !
Seul dans ce créneau, je ne concurrence personne ! Qu'on soit d'accord, mon moteur ne remplace pas les grosses industries GYBB (Google, Yandex, Bing et Baidu) mais il a le mérite d'être indépendant au niveau des résultats... Ce qui est rarement le cas des autres moteurs de recherche non nommés ci-dessus...
Pour rappel, la recherche se fait sur environ 2'000 home pages, les 2'000 sites doivent être indexés sous une semaine ou 7 jours c'est selon , toutefois, et pour ne pas surcharger la "maniclette", ce nombre me parait adapter pour la raison suivante. Elle me permet de ré indexer par jour, une moyenne de 300 sites ! 300 * 7(jours) = 2'100, soit un peu plus que ma limite de 2'000 sites, ça me permet également, de rester de taille humaine avec des vérifications régulières de ma part et des résultats remis à jour tous les jours.
A ce jour, j'ai un peu près 40 sites qui sont ré indexés 3 fois/jour, ça concerne quelques sites de news, météo, sports etc.. Plus de 100 sites qui proposent des flux rss sont indexés entre 1 et 3 fois jour et Il y a également ~30 sites qui sont indexés 4-5 fois an, des sites ou la home page ne change pratiquement jamais.. tels que google, twitter, instagram, facebook etc. Voilà pour un explicatif sur ce choix.
il fonctionne pas trop mal avec 1-2 ou 2-3 mots clefs max. pour plus de mots, faut aller sur GYBB . Comme je le disais en son temps, nous ne sommes pas mieux ou moins bien que les autres moteurs, mais simplement différent et volontairement de taille humaine ! Fondamentalement ça ne va rien changer aux habitudes des internautes si ce n'est d'exister, 20 ans après !
Le site : https://freejungle.me Ah oui, toujours sans pub
(un clin d'oeil à mon premier site ouvert en avril 2000 sous ce nom freejungle.isuisse.com , quelques mois avant d'acheter mon premier nom de domaine..)
Bonne bonne
Yule
NB: Pour l'aspect technique du moteur, tout tourne entre php/mysql , recherche fulltext avec poids des mots clefs multipliés par des x , algorithme avec soundex et levenhstein (sur 1 ou 2 mots clefs pas plus, et uniquement si la recherche ne trouve rien du premier coup). Cas échéant, mots clefs coupés au 5 ème caractères avec l'ajout d'un * pour le mode boléen. Pour l'indexation, curl et classe simple html dom (Scraping avec les aléas connus à cette technique, blocage..)
NB2: Je vous vois venir... Oui il y a mieux avec solr, sphinx, en pyton etc... Ce projet est un hobby et une occupation, eh bon, je reste un bricoleur autodidacte du net sans aucune prétention dans mon projet. Tout est maison et sans cms, design perso avec bootstrap, ainsi, je ne dépends de personne !
Pour mes 20 ans d'activité ou plutôt de présence un peu plus accrue sur le net... j'ai décidé avec l'aide du confinement (ok moins poussé en Suisse qu'en France) mais qui m'a laissé avec le télétravail, un peu de temps, pour remettre en piste mon projet de toujours, soit un moteur de home pages (bloqué à 2'000 sites) .
J'ai récupéré une ancienne liste d'urls que j'avais et que je vais mettre à jour gentiment, je vais essayer de supprimer des sites n'ayant plus leurs places pour garder une certaine qualité des résultats. Comme toujours, la soumission est gratuite et devrait prendre 3 secondes !
Seul dans ce créneau, je ne concurrence personne ! Qu'on soit d'accord, mon moteur ne remplace pas les grosses industries GYBB (Google, Yandex, Bing et Baidu) mais il a le mérite d'être indépendant au niveau des résultats... Ce qui est rarement le cas des autres moteurs de recherche non nommés ci-dessus...
Pour rappel, la recherche se fait sur environ 2'000 home pages, les 2'000 sites doivent être indexés sous une semaine ou 7 jours c'est selon , toutefois, et pour ne pas surcharger la "maniclette", ce nombre me parait adapter pour la raison suivante. Elle me permet de ré indexer par jour, une moyenne de 300 sites ! 300 * 7(jours) = 2'100, soit un peu plus que ma limite de 2'000 sites, ça me permet également, de rester de taille humaine avec des vérifications régulières de ma part et des résultats remis à jour tous les jours.
A ce jour, j'ai un peu près 40 sites qui sont ré indexés 3 fois/jour, ça concerne quelques sites de news, météo, sports etc.. Plus de 100 sites qui proposent des flux rss sont indexés entre 1 et 3 fois jour et Il y a également ~30 sites qui sont indexés 4-5 fois an, des sites ou la home page ne change pratiquement jamais.. tels que google, twitter, instagram, facebook etc. Voilà pour un explicatif sur ce choix.
il fonctionne pas trop mal avec 1-2 ou 2-3 mots clefs max. pour plus de mots, faut aller sur GYBB . Comme je le disais en son temps, nous ne sommes pas mieux ou moins bien que les autres moteurs, mais simplement différent et volontairement de taille humaine ! Fondamentalement ça ne va rien changer aux habitudes des internautes si ce n'est d'exister, 20 ans après !
Le site : https://freejungle.me Ah oui, toujours sans pub
(un clin d'oeil à mon premier site ouvert en avril 2000 sous ce nom freejungle.isuisse.com , quelques mois avant d'acheter mon premier nom de domaine..)
Bonne bonne
Yule
NB: Pour l'aspect technique du moteur, tout tourne entre php/mysql , recherche fulltext avec poids des mots clefs multipliés par des x , algorithme avec soundex et levenhstein (sur 1 ou 2 mots clefs pas plus, et uniquement si la recherche ne trouve rien du premier coup). Cas échéant, mots clefs coupés au 5 ème caractères avec l'ajout d'un * pour le mode boléen. Pour l'indexation, curl et classe simple html dom (Scraping avec les aléas connus à cette technique, blocage..)
NB2: Je vous vois venir... Oui il y a mieux avec solr, sphinx, en pyton etc... Ce projet est un hobby et une occupation, eh bon, je reste un bricoleur autodidacte du net sans aucune prétention dans mon projet. Tout est maison et sans cms, design perso avec bootstrap, ainsi, je ne dépends de personne !