Moteur de home pages Freejungle

  • Auteur de la discussion Auteur de la discussion yule
  • Date de début Date de début
WRInaute occasionnel
Hello vous tous,

Pour mes 20 ans d'activité ou plutôt de présence un peu plus accrue sur le net... j'ai décidé avec l'aide du confinement (ok moins poussé en Suisse qu'en France) mais qui m'a laissé avec le télétravail, un peu de temps, pour remettre en piste mon projet de toujours, soit un moteur de home pages (bloqué à 2'000 sites) .

J'ai récupéré une ancienne liste d'urls que j'avais et que je vais mettre à jour gentiment, je vais essayer de supprimer des sites n'ayant plus leurs places pour garder une certaine qualité des résultats. Comme toujours, la soumission est gratuite et devrait prendre 3 secondes !

Seul dans ce créneau, je ne concurrence personne ! Qu'on soit d'accord, mon moteur ne remplace pas les grosses industries GYBB (Google, Yandex, Bing et Baidu) mais il a le mérite d'être indépendant au niveau des résultats... Ce qui est rarement le cas des autres moteurs de recherche non nommés ci-dessus...

Pour rappel, la recherche se fait sur environ 2'000 home pages, les 2'000 sites doivent être indexés sous une semaine ou 7 jours c'est selon :-) , toutefois, et pour ne pas surcharger la "maniclette", ce nombre me parait adapter pour la raison suivante. Elle me permet de ré indexer par jour, une moyenne de 300 sites ! 300 * 7(jours) = 2'100, soit un peu plus que ma limite de 2'000 sites, ça me permet également, de rester de taille humaine avec des vérifications régulières de ma part et des résultats remis à jour tous les jours.

A ce jour, j'ai un peu près 40 sites qui sont ré indexés 3 fois/jour, ça concerne quelques sites de news, météo, sports etc.. Plus de 100 sites qui proposent des flux rss sont indexés entre 1 et 3 fois jour et Il y a également ~30 sites qui sont indexés 4-5 fois an, des sites ou la home page ne change pratiquement jamais.. tels que google, twitter, instagram, facebook etc. Voilà pour un explicatif sur ce choix.

il fonctionne pas trop mal avec 1-2 ou 2-3 mots clefs max. pour plus de mots, faut aller sur GYBB :rolleyes:. Comme je le disais en son temps, nous ne sommes pas mieux ou moins bien que les autres moteurs, mais simplement différent et volontairement de taille humaine ! Fondamentalement ça ne va rien changer aux habitudes des internautes si ce n'est d'exister, 20 ans après !

Le site : https://freejungle.me Ah oui, toujours sans pub ;)

(un clin d'oeil à mon premier site ouvert en avril 2000 sous ce nom freejungle.isuisse.com , quelques mois avant d'acheter mon premier nom de domaine..)

Bonne bonne
Yule

NB: Pour l'aspect technique du moteur, tout tourne entre php/mysql , recherche fulltext avec poids des mots clefs multipliés par des x , algorithme avec soundex et levenhstein (sur 1 ou 2 mots clefs pas plus, et uniquement si la recherche ne trouve rien du premier coup). Cas échéant, mots clefs coupés au 5 ème caractères avec l'ajout d'un * pour le mode boléen. Pour l'indexation, curl et classe simple html dom (Scraping avec les aléas connus à cette technique, blocage..)

NB2: Je vous vois venir... Oui il y a mieux avec solr, sphinx, en pyton etc... Ce projet est un hobby et une occupation, eh bon, je reste un bricoleur autodidacte du net sans aucune prétention dans mon projet. Tout est maison et sans cms, design perso avec bootstrap, ainsi, je ne dépends de personne !
 
Nouveau WRInaute
Bonjour, merci pour cette découverte. Malheureusement, je ne peux pas ajouter mon site :(


Passage refusé par le serveur ! La ressource est indisponible et aucune adresse de redirection n'est connue ou le temps d'attente d'une réponse du serveur est trop longue.(TimeOut de 5 secondes)
 
WRInaute accro
J'ai proposé mon site avec un domaine .ch (sachant que le .fr est beaucoup plus complet mais pour ce qui est des home page c'est kifkif)
 
WRInaute occasionnel
Bonjour, merci pour cette découverte. Malheureusement, je ne peux pas ajouter mon site :(


Passage refusé par le serveur ! La ressource est indisponible et aucune adresse de redirection n'est connue ou le temps d'attente d'une réponse du serveur est trop longue.(TimeOut de 5 secondes)

Hello,

Effectivement, je viens de faire un test et ta page fait "tilter" mes points de contrôle avant d'accepter un site...

En scrapant ton index, j'ai des erreurs d'encodage de ce style

Webmaster : crã©ation site internet optimisã© pour le rã©fã©rencement seo super webmaster
Webmaster : cration site internet optimis pour le rfrencement seo super webmaster

Alors qu'en faisant les test par exemple avec cette page "la-startup.php"

Aucun pb d'encodage (des accents) avec cet extrait du texte : Découvrez l'histoire de la startup super webmaster - qui sommes-nous ? super webmaster.

J'en déduits qu'il y a un pb d'encodage sur ton index et je n'ai pas trouvé de quoi il s'agissait..

Yule

NB : Fait un test entre ton index qui est refusé et ta page startup ici : https://totheweb.com/learning_center/tools-search-engine-simulator/
 
Discussions similaires
Haut