Premsgo.fr le bot

Discussion dans 'Autres moteurs de recherche connus' créé par longo600, 24 Avril 2013.

  1. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Il semble que certains sites ont mis en place des commandes pour bloquer les bot inconnus.
    Pour info, merci de libérer l'accès au bot "bot-premsgo.fr" pour vos sites ou ceux de vos clients inscrits dans l'Annuaire Français.
    Le robot suit les instructions du fichier robots.txt si il existe.
    Premsgo est un moteur... shopping en partie ... mais je ne peux pas en dire plus pour le moment. Les infos à la rentrée, Septembre / Octobre.
     
  2. Madrileño

    Madrileño Madribot

    Inscrit:
    7 Juillet 2004
    Messages:
    37 803
    J'aime reçus:
    14
    Merci pour l'information concernant le bot de cet annuaire. :)
     
  3. StefouFR

    StefouFR WRInaute passionné

    Inscrit:
    31 Octobre 2012
    Messages:
    1 060
    J'aime reçus:
    0
    Information sympas, avec une pointe de mystère !
     
  4. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Bonjour,

    Petites infos sur l'avancement du moteur.
    Premsgo est toujours en développement , le projet progresse, en grande partie abouti.
    Pour info voici les infos dans le "USER-AGENT" du crawler ;
    "BOT ANNUAIREFRANCAIS.FR PREMSGO.FR"

    A ce jour, on passe en revue une par une les procédures afin de les optimiser, les premiers tests en réel du moteur sont assez sympathiques (ben oui, un peu de suspens quoi ^^). Rassurez-vous, WRI m'a assez apporté pour que l'info de lancement et le détail du fonctionnement sera exclusive au site, pour les premiers tests en réel.

    Ce moteur est limité au web Français et aux entités déclarées, je sais, c'est très limitatif, mais c'est la seule option de démarrer.

    En attendant, merci de faire vos suggestions sur les services nouveaux qu'un moteur peut apporter aux utilisateurs que l'on ne trouve pas ailleurs.
     
  5. spout

    spout WRInaute accro

    Inscrit:
    14 Mai 2003
    Messages:
    8 663
    J'aime reçus:
    2
    Technos utilisées ? Tjs en 4D ?
     
  6. sebux69

    sebux69 WRInaute occasionnel

    Inscrit:
    2 Juillet 2009
    Messages:
    306
    J'aime reçus:
    0
    c'est le robot.txt exemple

    Code:
    User-agent: ia_archiver
    Allow: /about/privacy
    Allow: /full_data_use_policy
    Allow: /legal/terms
    Allow: /policy.php
    Disallow: /
    
    User-agent: *
    Disallow: /
    de cette manière tu sélectionne tes bots
     
  7. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Pour les débuts et la version bêta oui, c'est un environnement que je maîtrise assez bien. Il sera necessaire de redevelopper sous un autre environnement j'en suis conscient, mais ca n'empeche pas de débuter tranquillement pour le moment sous 4D.
    Un peu comme l'annuaire, il y a une majorité de requêtes (les plus courantes et gourmandes en calcul) qui son préconstruites (pages de résultats pré-stockées).
     
  8. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Pour les débuts et la version bêta oui, c'est un environnement que je maîtrise assez bien. Il sera necessaire de redevelopper sous un autre environnement j'en suis conscient, mais ca n'empeche pas de débuter tranquillement pour le moment sous 4D.

    Pour palier au ressource limité au début, un peu comme l'annuaire, il y a une majorité de requêtes (les plus courantes et gourmandes en calcul) qui son préconstruites (pages de résultats pré-stockées).

    Le crawl pour le moment est en profondeur 1 en dessous de la page d'accueil.
     
  9. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Juste une recommandation pour les developpeurs et les graphistes, évitez de construire des pages web avec des centaines de milliers d'espaces, fabulations, totalements inutiles et très lourde. L'analyseur de contenu a parfois un peu de mal, pour rien, et sur le réseau, c'est aussi de la ressource inutile.

    Il y a des pages parfois de 2Mo avec a peine 3 ou 5000 mots ...

    Supprimez les espaces et tabulations en double et succéssifs, vous gagnerez aussi en vitesse d'accès à vos pages ! :D
     
  10. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
  11. zeb

    zeb WRInaute accro

    Inscrit:
    5 Décembre 2004
    Messages:
    13 577
    J'aime reçus:
    0
    Tu te base sur quoi pour déterminer si c'est français, francophone ou autre ?
     
  12. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    @Zeb , Il faut être inscrit sur l'Annuaire Français et pour cela avoir un numéro de siren, que l'on soit une administration, une association, un artiste, un indépendant, une entreprise etc … Le "filtre anti-spam" vient de là, la qualité du classement, la pertinence et la localisation.

    Une fois que tout est cadré a l'inscription, le robot visite LE ou LES sites de l'établissement (5 maxi).
    Toutes ces limitations garantissent de résultats relativement de "confiance" et pertinents, et aussi une certaine équité puisque les liens externes qui pointent sont très peu pris en compte, le contenu prime plus que sur d'autres moteurs.

    J'espère que cette mouture a une apparence sympathique et conviviale?
     
  13. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Premsgo, quelques nouvelles :

    - Ksenia Shults, scientifique en charge des algorythmes sémantiquespour le moteur Premsgo, a été embauché depuis début Septembre pour construire la stratégie sémantique du moteur.

    Nous avons travaillé sur 3 principaux algoryhtes :
    - le LDA
    - Word2vec (algo de Google Brain)
    - TF_IDF (classique)

    Après 2 mois de tests, nous avons abandonné l'algo de Google WORD2VEC, il y a beaucoups trops de parametres et d'options / extensions sur cet algo qui de plus, malgré etre public, est sous licence Google. Word2vec dessine des groupes de mots en 500 dimensions, et nécessité une connaissance très pointue et d'éenormes ressources.

    Le LDA est plus simple et pour nous plus performant, plus utilisable et paramétrable, même si c'est un algo complexe d'intelligence artificielle adapté à la sémantique. Couplé avec le TF_IDF (qui nous permet d'éliminer du spam que l'on trouve encore bcp ....), les résultats sont assez concluant.

    Voilà, les moulinettes sont en cours, dès que les 125 millions de pages web crawles seront terminées, la nouvelle version sera en ligne. ^^ (courant Janvier).
     
  14. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    merci pour ces retours d'expérience.
    peux-tu en dire un peu plus sur l'algo LDA ?
     
  15. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    LDA (Latent Dirichlet Allocation : https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente ) est un algorithme amélioré du PLSA (Probabilistic Latent Semantic Analysis : https://fr.wikipedia.org/wiki/Analyse_sémantique_latente_probabiliste) .

    En résumé, l'algorithme tente de creer des groupes (topic) en assosciation de mots. La source est un document (chez nous). Ainsi, un site généraliste aura un ensemble de groupes différents. Nous dessinons peu a peu des groupes catégorisés, par itération succéssive des résultats, pour classer les documents, puis les sites, puis les catégories.

    Pour les valeurs des mots dans les documents, nous avons le TF_IDF qui calcule les répétitions de mots, dans une fourchette (secréte) acceptable (anti-spam - ya encore bcps de sites qui font du smap de fou ... arrétez, ca passe plus ... et en ressource, c'est parfois lourd d'avoir 5 000 fois le même lien dans une page).

    C'est très long a expliquer, mais la tâche est compliquée c'est une certitude. Il faut intégrer de nombreux autres paramètres , pour le poids des mots (titre, balise H1 ...), les liens entrant et sortants (on n'est pas a ce niveau encore) etc etc.
    Le LDA doit être réglé a certains parametres, mais vu la diversité des sites et des sujets, la même regle n'est pas toujours applicable a tous les sites.

    Il y a encore d'autres algorithmes, mais franchement, Ksenia fait son maximum pour la rapidité afin que l'on puisse exploiter rapidement son travail de recherche, et repasser X fois les algo déjà fait sur des gros volumes prend un temps fou. Et puis, on se débrouille avec ce que l'on a comme moyens, c'est a dire quasi zéro.

    Néanmoins, ont devrait cette fois présenter un moteur acceptable début janvier et une solution très intéressante vraiment pour les agences web, les e-commercants.
     
  16. longo600

    longo600 WRInaute accro

    Inscrit:
    24 Février 2005
    Messages:
    2 543
    J'aime reçus:
    0
    Un autre lien intéressant : https://fr.wikipedia.org/wiki/Weka_(informatique)

    Il y a un tres grand nombre d'algorithmes différents utilisables, Ksenia est la pour faire le tri, sélectionner , adapter et utiliser.
    Nous sommes partis sur le LDA pour le moment.