Moteur de recherche français : 01Search.com

Nouveau WRInaute
Bonjour,
au mois d'avril, pendant le premier confinement, je me suis lancé dans un nouveau projet et je voudrais avoir vos avis.
Mon projet : https://www.01search.com/
Un moteur de recherche contenant uniquement des sites en français et sur certaines thématiques les plus courantes. Je n'indexe pas tout car vous comprenez bien que je n'ai pas la structure et les finances pour le faire.
Je voudrais que celui-ci soit collaboratif et que chacun puisse y participer pour permettre de rajouter des domaines intéressants, pas forcément perso (Pour l'instant je donne pas ce droit) ou permettre de le faire évoluer.
Actuellement j'ai plusieurs instances Bot multiprocessing qui indexent le Web mais indépendamment des tables utilisées par le moteurs de recherche. Les tables et index (Vues matérialisées) utilisés par l'interface du moteur de recherche 01search sont regénérés 2 fois par jours à partir données exploitées par les Bots.
Les nouveaux domaines découverts automatiquement sont vérifiés puis validés ou non par une petite IA qui va permettre, par mots clé ou expressions, déterminer la thématique la plus logique ou refusé celui-ci.
Désolé, l'état Français ne m'a pas donné 70 millions d'Euro comme pour Qwant, le méta-moteur Français Bing actuel, donc ne m'en voulez pas s'il peut y avoir des problèmes de performance ou autre.
Merci de donner votre avis qui peut m'être très utile pour continuer ce projet.
A vous tous je vous souhaite un bon Week-End.
 
Nouveau WRInaute
Merci pour ce retour, c'est corrigé. Les bots pour l'instant sont développés en php mais si cela doit évoluer ils pourront être redéveloppé dans un autre langage comme Python puisque je viens d'installer le tout sur un nouveau dédié, pour l'instant c'est plus pour le principe et le mécanisme que je l'ai fait.
 
WRInaute accro
Mon conseil serait de revoir l'ergonomie en version responsable. Bouton trop petit ou qui se chevauche.
Peu importe si c'est un domaine difficile, eclate toi dans ce que tu fais !
Courage :)
 
Nouveau WRInaute
Mon conseil serait de revoir l'ergonomie en version responsable. Bouton trop petit ou qui se chevauche.
Peu importe si c'est un domaine difficile, eclate toi dans ce que tu fais !
Courage :)
Merci Passion pour tes encouragements car comme tu le dis si bien c'est un domaine très difficile mais il faut bien essayer.
Peux-tu développer un peu pour m'aider ton conseil : Mon conseil serait de revoir l'ergonomie en version responsable. Bouton trop petit ou qui se chevauche.
Merci.
 
WRInaute occasionnel
Hello,

Belle initiative !

Je suppose que @passion parle de l'aspect sur la version mobile

Je connais bien le domaine (moteur de recherche..) donc et si tu es encore dans les prémices, je te suggère de partir directement sur Python (je connais pas, mais j'ai lu passablement dessus) il me semble aussi que @spout avait suggéré un bon logiciel, elasticsearch) perso et pour mon moteur, j'ai tout fait avec php et mysql et c'est finalement assez limité voir même bloquant.. Mais pour moi et mon projet c'est suffisant.

Sinon et c'est probablement secondaire dans ton projet, le design a son importance, tourne toi vers bootstrap pour du "maison"

On voit pas bien que ton site est finalement réservé à la France exclusivement.

Je ne comprends pas cette phrase "Notre bot d'indexation ne traitera pas l'ensemble du Web mais parcourera celui-ci uniquement à partir des domaines qui seront injectés manuellement dans notre système après soumission et validation. Après soumission et validation, nous nous réservons le droit de bloquer une page" ==> C'est pas très cohérent...ou le sera plus dès que tu ouvriras ça à tout un chacun

Le logo devrait être cliquable...

Fait cette recherche ==> montre puis analyse ta page de résultats, ça aidera à corriger ton tri, le poids des requêtes et élimer les multiples doublon qui polluent la page ( exemple, il 4 résultats avec location de matériel... juste par le fait que le lieu différent

Souligne ou fait ressortir le mot recherché dans les résultats

Sinon et pour ton BOT, tu utilises quoi en php ? SimpleDomHtml et Curl ?

Bon courage pour la suite

Bonne bonne
Yule
 
WRInaute accro
Oui je parlais de la version mobile.
Effectivement bootstrap est très bonne alternative pour mettre en forme ton site sur les différents devices.
Je pense aussi que tu devrais te tourner vers python, ne serait-ce que pour créer le coeur de ton bot. C'est plus rapide.
Have fun :)
 
Nouveau WRInaute
Bonjour à tous et merci de l'intérêt que vous portez à mon projet.

Actuellement, mes bots essentiels sont développés et opérationnels en classes PHP version 7.4.11, je l'ai fait ainsi pour des raisons de facilité en réutilisant des classes et méthodes existantes et surtout étant sur un seul serveur.

Si ce projet pourrait évoluer, amélioration de l'infrastructure et déploiement des bots dans par exemple des conteneur Cloud, cela serait intéressant de peut-être les redévelopper en Python.
Aujourd'hui chaque instance des bots sont en mode CLI et déclenché en "crontab". Pour ne pas perturber mon serveur, les règles est de 100 processus max (traitement de 100 pages par exemple en parallèle) et ceux-ci déclenchés que si le CPU est en dessous de 60%.

Concernant l'interface Web, je suis conscient que c'est important puisque c'est ce que voit le visite, le problème c'est que je me suis concentré au maximum sur la partie de traitement des données. J'ai fait quelques modification sur les boutons mais n'hésitez pas à me fournir des exemples visuels, je ne peux que travailler sur ce projet qu'en dehors de mes heures de travail c'est souvent difficile de traiter tous les sujets mais je ferais des tests avec différents mobiles.

En réponse à Yule :
Merci pour ton retour.
On voit pas bien que ton site est finalement réservé à la France exclusivement. Oui il faut que je mette en place un visuel plus repérable, je vais y réfléchir.
Je ne comprends pas cette phrase "Notre bot d'indexation ne traitera pas l'ensemble du Web mais parcourera celui-ci uniquement à partir des domaines qui seront injectés manuellement dans notre système après soumission et validation. Après soumission et validation, nous nous réservons le droit de bloquer une page" ==> C'est pas très cohérent...ou le sera plus dès que tu ouvriras ça à tout un chacun. Aujourd'hui j'ai une partie de mes bots que traite les nouveaux domaines découverts avant de les insérer dans le traitement des index. 1° Vérification du domaine (code 200, page d'accueil, contenu, langue, ...) 2° Validation de celui par critères de mots clé et leurs pertinences avec choix catégorie 3° Un domaine validé avec catégorie pourra être insérer dans le traitement d'indexation (Traitement domaine, robots.txt, pages avec découverte des nouvelles pages internes & nouveaux domaines extérieurs, sitemap, ...). La phare par contre est plus sur la soumission qui n'est pas en place actuellement, étant donné que je veux maintenir un index le propre possible, je veux me donné le droit de refuser un site ou une page parlant par exemple de haine, ... et respectant pas les thématiques du moteur.
Le logo devrait être cliquable... J'ai modifié
Fait cette recherche ==> montre puis analyse ta page de résultats, ça aidera à corriger ton tri, le poids des requêtes et élimer les multiples doublon qui polluent la page ( exemple, il 4 résultats avec location de matériel... juste par le fait que le lieu différent J'ai réaliser une modifie de critères de recherche, peux-tu me dire si cela te semble plus pertinent.
Souligne ou fait ressortir le mot recherché dans les résultats Pris en compte mais pas encore fait car il faut que je réfléchis sur le traitement des particuliers pour ma méthode.
Sinon et pour ton BOT, tu utilises quoi en php ? SimpleDomHtml et Curl ? J'utilise Curl et pas de soucis pour l'instant. Mes bots permettent aussi de gérer le taux d'injection pour chaque domaine et donc modifiable pour chacun, throughput ==> nombre de requêtes par minute.

Merci pour vos encouragements. Il y a encore du boulot.
Bonne journée à tous, je retourne à mon autre boulot.
 
WRInaute occasionnel
Re,

Merci pour tes précisions ! Je confirme, c'est bien plus pertinent ainsi.

Pour le design: je comprends que le temps est surtout consacré au développement, dès lors, je te suggère ceci.. tout simple, rapide et efficace, histoire de "fignoler" plus tard cet aspect

Simple et rapide... (a adapter tout de même) mais je débuterai par ceci
https://startbootstrap.com/previews/modern-business/ pour t’imprégner du système puis après, tu cherches boostrap free template et tu trouveras ton bonheur, de ce genre

https://themewagon.com/theme_tag/bootstrap-4-templates/ avec ce choix... https://demo.themewagon.com/preview...p-4-html5-photography-website-template-rettro

Courage pour la suite
Yule
 
Nouveau WRInaute
Re,

Merci pour tes précisions ! Je confirme, c'est bien plus pertinent ainsi.

Pour le design: je comprends que le temps est surtout consacré au développement, dès lors, je te suggère ceci.. tout simple, rapide et efficace, histoire de "fignoler" plus tard cet aspect

Simple et rapide... (a adapter tout de même) mais je débuterai par ceci
https://startbootstrap.com/previews/modern-business/ pour t’imprégner du système puis après, tu cherches boostrap free template et tu trouveras ton bonheur, de ce genre

https://themewagon.com/theme_tag/bootstrap-4-templates/ avec ce choix... https://demo.themewagon.com/preview...p-4-html5-photography-website-template-rettro

Courage pour la suite
Yule

Merci pour ton soutien et ton aide Yule.

J'ai fait quelques modifications sur le design mais je vais m'y mettre et surtout tester sur mes différents mobiles et j'espère que vous pourrez me faire des retours.

Souligne ou fait ressortir le mot recherché dans les résultats Mis en place ce matin, en prenant en compte tous les cas je pense surtout vis à vis des accents. J'ai souligné et mis en italique tous les mots trouvés dans le titre et la description.

Bonne journée à tous.
 
Discussions similaires
Haut