Moteur de recherche français : 01Search.com

Discussion dans 'Autres moteurs de recherche connus' créé par mleguillou, 30 Octobre 2020.

  1. mleguillou
    mleguillou Nouveau WRInaute
    Inscrit:
    8 Décembre 2007
    Messages:
    6
    J'aime reçus:
    1
    Bonjour,
    au mois d'avril, pendant le premier confinement, je me suis lancé dans un nouveau projet et je voudrais avoir vos avis.
    Mon projet : https://www.01search.com/
    Un moteur de recherche contenant uniquement des sites en français et sur certaines thématiques les plus courantes. Je n'indexe pas tout car vous comprenez bien que je n'ai pas la structure et les finances pour le faire.
    Je voudrais que celui-ci soit collaboratif et que chacun puisse y participer pour permettre de rajouter des domaines intéressants, pas forcément perso (Pour l'instant je donne pas ce droit) ou permettre de le faire évoluer.
    Actuellement j'ai plusieurs instances Bot multiprocessing qui indexent le Web mais indépendamment des tables utilisées par le moteurs de recherche. Les tables et index (Vues matérialisées) utilisés par l'interface du moteur de recherche 01search sont regénérés 2 fois par jours à partir données exploitées par les Bots.
    Les nouveaux domaines découverts automatiquement sont vérifiés puis validés ou non par une petite IA qui va permettre, par mots clé ou expressions, déterminer la thématique la plus logique ou refusé celui-ci.
    Désolé, l'état Français ne m'a pas donné 70 millions d'Euro comme pour Qwant, le méta-moteur Français Bing actuel, donc ne m'en voulez pas s'il peut y avoir des problèmes de performance ou autre.
    Merci de donner votre avis qui peut m'être très utile pour continuer ce projet.
    A vous tous je vous souhaite un bon Week-End.
     
  2. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 117
    J'aime reçus:
    315
  3. mleguillou
    mleguillou Nouveau WRInaute
    Inscrit:
    8 Décembre 2007
    Messages:
    6
    J'aime reçus:
    1
    Merci pour ce retour, c'est corrigé. Les bots pour l'instant sont développés en php mais si cela doit évoluer ils pourront être redéveloppé dans un autre langage comme Python puisque je viens d'installer le tout sur un nouveau dédié, pour l'instant c'est plus pour le principe et le mécanisme que je l'ai fait.
     
  4. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 848
    J'aime reçus:
    168
    Mon conseil serait de revoir l'ergonomie en version responsable. Bouton trop petit ou qui se chevauche.
    Peu importe si c'est un domaine difficile, eclate toi dans ce que tu fais !
    Courage :)
     
  5. mleguillou
    mleguillou Nouveau WRInaute
    Inscrit:
    8 Décembre 2007
    Messages:
    6
    J'aime reçus:
    1
    Merci Passion pour tes encouragements car comme tu le dis si bien c'est un domaine très difficile mais il faut bien essayer.
    Peux-tu développer un peu pour m'aider ton conseil : Mon conseil serait de revoir l'ergonomie en version responsable. Bouton trop petit ou qui se chevauche.
    Merci.
     
  6. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    415
    J'aime reçus:
    41
    Hello,

    Belle initiative !

    Je suppose que @passion parle de l'aspect sur la version mobile

    Je connais bien le domaine (moteur de recherche..) donc et si tu es encore dans les prémices, je te suggère de partir directement sur Python (je connais pas, mais j'ai lu passablement dessus) il me semble aussi que @spout avait suggéré un bon logiciel, elasticsearch) perso et pour mon moteur, j'ai tout fait avec php et mysql et c'est finalement assez limité voir même bloquant.. Mais pour moi et mon projet c'est suffisant.

    Sinon et c'est probablement secondaire dans ton projet, le design a son importance, tourne toi vers bootstrap pour du "maison"

    On voit pas bien que ton site est finalement réservé à la France exclusivement.

    Je ne comprends pas cette phrase "Notre bot d'indexation ne traitera pas l'ensemble du Web mais parcourera celui-ci uniquement à partir des domaines qui seront injectés manuellement dans notre système après soumission et validation. Après soumission et validation, nous nous réservons le droit de bloquer une page" ==> C'est pas très cohérent...ou le sera plus dès que tu ouvriras ça à tout un chacun

    Le logo devrait être cliquable...

    Fait cette recherche ==> montre puis analyse ta page de résultats, ça aidera à corriger ton tri, le poids des requêtes et élimer les multiples doublon qui polluent la page ( exemple, il 4 résultats avec location de matériel... juste par le fait que le lieu différent

    Souligne ou fait ressortir le mot recherché dans les résultats

    Sinon et pour ton BOT, tu utilises quoi en php ? SimpleDomHtml et Curl ?

    Bon courage pour la suite

    Bonne bonne
    Yule
     
  7. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 848
    J'aime reçus:
    168
    Oui je parlais de la version mobile.
    Effectivement bootstrap est très bonne alternative pour mettre en forme ton site sur les différents devices.
    Je pense aussi que tu devrais te tourner vers python, ne serait-ce que pour créer le coeur de ton bot. C'est plus rapide.
    Have fun :)
     
  8. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 117
    J'aime reçus:
    315
    Le cœur du bot avec Scrapy (Python) ou Puppeteer (Node.js) (pour parser des SPA en client side rendering) semblent des bons choix.
    Autres pistes :
    https://github.com/FriendsOfPHP/Goutte
    https://github.com/spatie/crawler

    Attention que PHP 7 est plus rapide que Python 3, à cause de la nature full objet de Python. Et PHP8 (qui sors le 26 novembre) avec le JIT va encore bien améliorer les perfs.
     
  9. mleguillou
    mleguillou Nouveau WRInaute
    Inscrit:
    8 Décembre 2007
    Messages:
    6
    J'aime reçus:
    1
    Bonjour à tous et merci de l'intérêt que vous portez à mon projet.

    Actuellement, mes bots essentiels sont développés et opérationnels en classes PHP version 7.4.11, je l'ai fait ainsi pour des raisons de facilité en réutilisant des classes et méthodes existantes et surtout étant sur un seul serveur.

    Si ce projet pourrait évoluer, amélioration de l'infrastructure et déploiement des bots dans par exemple des conteneur Cloud, cela serait intéressant de peut-être les redévelopper en Python.
    Aujourd'hui chaque instance des bots sont en mode CLI et déclenché en "crontab". Pour ne pas perturber mon serveur, les règles est de 100 processus max (traitement de 100 pages par exemple en parallèle) et ceux-ci déclenchés que si le CPU est en dessous de 60%.

    Concernant l'interface Web, je suis conscient que c'est important puisque c'est ce que voit le visite, le problème c'est que je me suis concentré au maximum sur la partie de traitement des données. J'ai fait quelques modification sur les boutons mais n'hésitez pas à me fournir des exemples visuels, je ne peux que travailler sur ce projet qu'en dehors de mes heures de travail c'est souvent difficile de traiter tous les sujets mais je ferais des tests avec différents mobiles.

    En réponse à Yule :
    Merci pour ton retour.
    On voit pas bien que ton site est finalement réservé à la France exclusivement. Oui il faut que je mette en place un visuel plus repérable, je vais y réfléchir.
    Je ne comprends pas cette phrase "Notre bot d'indexation ne traitera pas l'ensemble du Web mais parcourera celui-ci uniquement à partir des domaines qui seront injectés manuellement dans notre système après soumission et validation. Après soumission et validation, nous nous réservons le droit de bloquer une page" ==> C'est pas très cohérent...ou le sera plus dès que tu ouvriras ça à tout un chacun. Aujourd'hui j'ai une partie de mes bots que traite les nouveaux domaines découverts avant de les insérer dans le traitement des index. 1° Vérification du domaine (code 200, page d'accueil, contenu, langue, ...) 2° Validation de celui par critères de mots clé et leurs pertinences avec choix catégorie 3° Un domaine validé avec catégorie pourra être insérer dans le traitement d'indexation (Traitement domaine, robots.txt, pages avec découverte des nouvelles pages internes & nouveaux domaines extérieurs, sitemap, ...). La phare par contre est plus sur la soumission qui n'est pas en place actuellement, étant donné que je veux maintenir un index le propre possible, je veux me donné le droit de refuser un site ou une page parlant par exemple de haine, ... et respectant pas les thématiques du moteur.
    Le logo devrait être cliquable... J'ai modifié
    Fait cette recherche ==> montre puis analyse ta page de résultats, ça aidera à corriger ton tri, le poids des requêtes et élimer les multiples doublon qui polluent la page ( exemple, il 4 résultats avec location de matériel... juste par le fait que le lieu différent J'ai réaliser une modifie de critères de recherche, peux-tu me dire si cela te semble plus pertinent.
    Souligne ou fait ressortir le mot recherché dans les résultats Pris en compte mais pas encore fait car il faut que je réfléchis sur le traitement des particuliers pour ma méthode.
    Sinon et pour ton BOT, tu utilises quoi en php ? SimpleDomHtml et Curl ? J'utilise Curl et pas de soucis pour l'instant. Mes bots permettent aussi de gérer le taux d'injection pour chaque domaine et donc modifiable pour chacun, throughput ==> nombre de requêtes par minute.

    Merci pour vos encouragements. Il y a encore du boulot.
    Bonne journée à tous, je retourne à mon autre boulot.
     
    spout apprécie ceci.
  10. mleguillou
    mleguillou Nouveau WRInaute
    Inscrit:
    8 Décembre 2007
    Messages:
    6
    J'aime reçus:
    1
  11. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    415
    J'aime reçus:
    41
    Re,

    Merci pour tes précisions ! Je confirme, c'est bien plus pertinent ainsi.

    Pour le design: je comprends que le temps est surtout consacré au développement, dès lors, je te suggère ceci.. tout simple, rapide et efficace, histoire de "fignoler" plus tard cet aspect

    Simple et rapide... (a adapter tout de même) mais je débuterai par ceci
    https://startbootstrap.com/previews/modern-business/ pour t’imprégner du système puis après, tu cherches boostrap free template et tu trouveras ton bonheur, de ce genre

    https://themewagon.com/theme_tag/bootstrap-4-templates/ avec ce choix... https://demo.themewagon.com/preview...p-4-html5-photography-website-template-rettro

    Courage pour la suite
    Yule
     
  12. mleguillou
    mleguillou Nouveau WRInaute
    Inscrit:
    8 Décembre 2007
    Messages:
    6
    J'aime reçus:
    1
    Merci pour ton soutien et ton aide Yule.

    J'ai fait quelques modifications sur le design mais je vais m'y mettre et surtout tester sur mes différents mobiles et j'espère que vous pourrez me faire des retours.

    Souligne ou fait ressortir le mot recherché dans les résultats Mis en place ce matin, en prenant en compte tous les cas je pense surtout vis à vis des accents. J'ai souligné et mis en italique tous les mots trouvés dans le titre et la description.

    Bonne journée à tous.
     
Chargement...
Similar Threads - Moteur recherche français Forum Date
Premsgo.fr Webmaster tool du moteur de recherche Français Autres moteurs de recherche connus 3 Juillet 2017
Xaphir, nouveau moteur de recherche français Autres moteurs de recherche connus 11 Mai 2017
Moteur de recherche Français Annuaires et moteurs 30 Octobre 2015
Lancement de Premsgo, moteur de recherche français Annuaires et moteurs 21 Septembre 2015
Ecosia, le moteur de recherche qui plante des arbres, en français ! Annuaires et moteurs 15 Octobre 2013
Robots : n'autoriser que les 4 ou 5 moteurs de recherche principaux Crawl et indexation Google, sitemaps 15 Janvier 2021
Comment bloquer à coup sûr l'indexation par les moteurs de recherche Crawl et indexation Google, sitemaps 7 Décembre 2020
Optimisation URL pour les moteurs de recherche Débuter en référencement 15 Novembre 2020
Le moteur de recherche d'Apple va-t-il voir le jour ? Autres moteurs de recherche connus 27 Août 2020
Moteur de recherche interne Google Développement d'un site Web ou d'une appli mobile 10 Juillet 2020