Premsgo.fr le bot

longo600 · 24 Avril 2013

Il semble que certains sites ont mis en place des commandes pour bloquer les bot inconnus.
Pour info, merci de libérer l'accès au bot "bot-premsgo.fr" pour vos sites ou ceux de vos clients inscrits dans l'Annuaire Français.
Le robot suit les instructions du fichier robots.txt si il existe.
Premsgo est un moteur... shopping en partie ... mais je ne peux pas en dire plus pour le moment. Les infos à la rentrée, Septembre / Octobre.

Madrileño · 25 Avril 2013

Merci pour l'information concernant le bot de cet annuaire.

StefouFR · 25 Avril 2013

Information sympas, avec une pointe de mystère !

longo600 · 31 Octobre 2014

Bonjour,

Petites infos sur l'avancement du moteur.
Premsgo est toujours en développement , le projet progresse, en grande partie abouti.
Pour info voici les infos dans le "USER-AGENT" du crawler ;
"BOT ANNUAIREFRANCAIS.FR PREMSGO.FR"

A ce jour, on passe en revue une par une les procédures afin de les optimiser, les premiers tests en réel du moteur sont assez sympathiques (ben oui, un peu de suspens quoi ^^). Rassurez-vous, WRI m'a assez apporté pour que l'info de lancement et le détail du fonctionnement sera exclusive au site, pour les premiers tests en réel.

Ce moteur est limité au web Français et aux entités déclarées, je sais, c'est très limitatif, mais c'est la seule option de démarrer.

En attendant, merci de faire vos suggestions sur les services nouveaux qu'un moteur peut apporter aux utilisateurs que l'on ne trouve pas ailleurs.

spout · 31 Octobre 2014

Technos utilisées ? Tjs en 4D ?

teralgo · 31 Octobre 2014

longo600 a dit:
Il semble que certains sites ont mis en place des commandes pour bloquer les bot inconnus.

c'est le robot.txt exemple

Code:

User-agent: ia_archiver
Allow: /about/privacy
Allow: /full_data_use_policy
Allow: /legal/terms
Allow: /policy.php
Disallow: /

User-agent: *
Disallow: /

de cette manière tu sélectionne tes bots

longo600 · 31 Octobre 2014

spout a dit:
Technos utilisées ? Tjs en 4D ?

Pour les débuts et la version bêta oui, c'est un environnement que je maîtrise assez bien. Il sera necessaire de redevelopper sous un autre environnement j'en suis conscient, mais ca n'empeche pas de débuter tranquillement pour le moment sous 4D.
Un peu comme l'annuaire, il y a une majorité de requêtes (les plus courantes et gourmandes en calcul) qui son préconstruites (pages de résultats pré-stockées).

longo600 · 31 Octobre 2014

spout a dit:
Technos utilisées ? Tjs en 4D ?

Pour les débuts et la version bêta oui, c'est un environnement que je maîtrise assez bien. Il sera necessaire de redevelopper sous un autre environnement j'en suis conscient, mais ca n'empeche pas de débuter tranquillement pour le moment sous 4D.

Pour palier au ressource limité au début, un peu comme l'annuaire, il y a une majorité de requêtes (les plus courantes et gourmandes en calcul) qui son préconstruites (pages de résultats pré-stockées).

Le crawl pour le moment est en profondeur 1 en dessous de la page d'accueil.

longo600 · 6 Novembre 2014

Juste une recommandation pour les developpeurs et les graphistes, évitez de construire des pages web avec des centaines de milliers d'espaces, fabulations, totalements inutiles et très lourde. L'analyseur de contenu a parfois un peu de mal, pour rien, et sur le réseau, c'est aussi de la ressource inutile.

Il y a des pages parfois de 2Mo avec a peine 3 ou 5000 mots ...

Supprimez les espaces et tabulations en double et succéssifs, vous gagnerez aussi en vitesse d'accès à vos pages !

longo600 · 18 Novembre 2014

Bonjour,

Le projet avance et quasi prêt à sortir, pour les lecteurs de WRI, voici la page d'accueil du moteur de recherche que vous serez les premiers a découvrir.

Ce modeste moteur est un expérimentation qui passera au stade d'exploitation au 1er Janvier 2015.

On en parles aussi sur abondance.

zeb · 18 Novembre 2014

exclusivement sur le territoire Français

Tu te base sur quoi pour déterminer si c'est français, francophone ou autre ?

longo600 · 18 Novembre 2014

@Zeb , Il faut être inscrit sur l'Annuaire Français et pour cela avoir un numéro de siren, que l'on soit une administration, une association, un artiste, un indépendant, une entreprise etc … Le "filtre anti-spam" vient de là, la qualité du classement, la pertinence et la localisation.

Une fois que tout est cadré a l'inscription, le robot visite LE ou LES sites de l'établissement (5 maxi).
Toutes ces limitations garantissent de résultats relativement de "confiance" et pertinents, et aussi une certaine équité puisque les liens externes qui pointent sont très peu pris en compte, le contenu prime plus que sur d'autres moteurs.

J'espère que cette mouture a une apparence sympathique et conviviale?

longo600 · 1 Décembre 2017

Premsgo, quelques nouvelles :

- Ksenia Shults, scientifique en charge des algorythmes sémantiquespour le moteur Premsgo, a été embauché depuis début Septembre pour construire la stratégie sémantique du moteur.

Nous avons travaillé sur 3 principaux algoryhtes :
- le LDA
- Word2vec (algo de Google Brain)
- TF_IDF (classique)

Après 2 mois de tests, nous avons abandonné l'algo de Google WORD2VEC, il y a beaucoups trops de parametres et d'options / extensions sur cet algo qui de plus, malgré etre public, est sous licence Google. Word2vec dessine des groupes de mots en 500 dimensions, et nécessité une connaissance très pointue et d'éenormes ressources.

Le LDA est plus simple et pour nous plus performant, plus utilisable et paramétrable, même si c'est un algo complexe d'intelligence artificielle adapté à la sémantique. Couplé avec le TF_IDF (qui nous permet d'éliminer du spam que l'on trouve encore bcp ....), les résultats sont assez concluant.

Voilà, les moulinettes sont en cours, dès que les 125 millions de pages web crawles seront terminées, la nouvelle version sera en ligne. ^^ (courant Janvier).

WebRankInfo · 1 Décembre 2017

merci pour ces retours d'expérience.
peux-tu en dire un peu plus sur l'algo LDA ?

longo600 · 1 Décembre 2017

LDA (Latent Dirichlet Allocation : https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente ) est un algorithme amélioré du PLSA (Probabilistic Latent Semantic Analysis : https://fr.wikipedia.org/wiki/Analyse_sémantique_latente_probabiliste) .

En résumé, l'algorithme tente de creer des groupes (topic) en assosciation de mots. La source est un document (chez nous). Ainsi, un site généraliste aura un ensemble de groupes différents. Nous dessinons peu a peu des groupes catégorisés, par itération succéssive des résultats, pour classer les documents, puis les sites, puis les catégories.

Pour les valeurs des mots dans les documents, nous avons le TF_IDF qui calcule les répétitions de mots, dans une fourchette (secréte) acceptable (anti-spam - ya encore bcps de sites qui font du smap de fou ... arrétez, ca passe plus ... et en ressource, c'est parfois lourd d'avoir 5 000 fois le même lien dans une page).

C'est très long a expliquer, mais la tâche est compliquée c'est une certitude. Il faut intégrer de nombreux autres paramètres , pour le poids des mots (titre, balise H1 ...), les liens entrant et sortants (on n'est pas a ce niveau encore) etc etc.
Le LDA doit être réglé a certains parametres, mais vu la diversité des sites et des sujets, la même regle n'est pas toujours applicable a tous les sites.

Il y a encore d'autres algorithmes, mais franchement, Ksenia fait son maximum pour la rapidité afin que l'on puisse exploiter rapidement son travail de recherche, et repasser X fois les algo déjà fait sur des gros volumes prend un temps fou. Et puis, on se débrouille avec ce que l'on a comme moyens, c'est a dire quasi zéro.

Néanmoins, ont devrait cette fois présenter un moteur acceptable début janvier et une solution très intéressante vraiment pour les agences web, les e-commercants.

longo600 · 1 Décembre 2017

Un autre lien intéressant : https://fr.wikipedia.org/wiki/Weka_(informatique)

Il y a un tres grand nombre d'algorithmes différents utilisables, Ksenia est la pour faire le tri, sélectionner , adapter et utiliser.
Nous sommes partis sur le LDA pour le moment.