Votre avis sur le moteur de recherche de News : spider-news.com

WRInaute discret
Bonjour,

Je voulais vous présenter une première version du moteur de recherche d'actualités : spider-news.com.

Pour le moment, il permet de rechercher en texte intégral sur la page d'actualité. Un filtre est appliqué pour nettoyer celle-ci afin d'éviter la pollution des liens de navigation. Seule la fonction "S'abonner au flux RSS" est disponible, par la suite, cet outil va être couplé à un site de veille et d'e-reputation. En effet, nous avons actuellement un moteur de recherche de sites français (spider-fr.com), un moteur de recherche PDF (documentation-pdf.com) et maintenant un moteur de recherche d'actualité. Par la suite, nous allons mettre en place un moteur de recherche de boutiques en ligne.

Bref, je voudrais avoir un avis sur Spider News, d'avance merci

Bonne fin de journée
 
WRInaute accro
Ok...
Inutile.


... et le type il est sur WRI depuis 2007...
Parfois hallucine de la façon dont certain essaye de prendre leurs éleveur de vache à lait pour des moutons. :roll:
 
WRInaute discret
Argonaute a dit:
Salut,

C'est quoi l'intérêt par rapport à Google Actualités ou autre agrégateur ? D'être un MFA ?

Quel intérêt par rapport à Google Actualités ? Et bien je tape le nom d'un concurrent et j'ai ... 0 réponse !
Y a pas mal d'agrégateur qui font une sélection rude au niveau des sources pour avoir une qualité rédactionnelle.

Ici, je voudrais faire la même chose au niveau de certaines catégories mais laissez libre court aux forums et aux blogs. L'idée principale restant la veille et donc pouvoir vérifier ce que poste mon concurrent ou voir si on exploite pas certaines marques.

Mais bon, comme souvent, je prends plaisir à développer des choses techniques qui me font envie et je néglige certains aspects. Mais sur ce coup-là, j'espère avoir des retours au niveau utilisateur pour pouvoir faire évoluer l'outil en fonction des besoins chose que vous ne pourriez pas faire avec Google Actualités (ou les autres gros agrégateurs).

Bonne journée
 
Olivier Duffez (admin)
Membre du personnel
tu ne devrais pas faire indexer tes pages, surtout celles de recherches internes (exemple : -http://www.spider-news.com/actualite-google-actualites-c-est-de-la-XXX-news-france.html)

comment peut-on savoir si ton crawler reprend nos contenus ?
 
WRInaute discret
WebRankInfo a dit:
tu ne devrais pas faire indexer tes pages, surtout celles de recherches internes (exemple : -http://www.spider-news.com/actualite-google-actualites-c-est-de-la-XXX-news-france.html)

Bonjour Mister WRI ;)

C'est la première fois que nous avons l'occasion d'échanger sur ce forum.

Effectivement, le fait de laisser l'internaute faire des recherches et se baser dessus pour indexer le contenu peut être problématique. Mon soucis, c'est de faire connaître le site et effectivement, l'indexation dans google n'est peut-être pas la solution. Ou alors, pour palier à cela, je ne conserve dans l'historique de recherche que les clics sur les tag clouds ce qui permet d'éviter ce genre de dérive.

WebRankInfo a dit:
comment peut-on savoir si ton crawler reprend nos contenus ?

Peux-tu préciser ta question ? La page n'est utilisée que pour l'indexation. Je ne l'utilise pas pour les flux RSS volontairement pour éviter que des gens puissent "pomper" du contenu autre que celui qui est fourni dans les différents flux RSS.

En tout cas, ça fait plaisir de pouvoir discuter avec toi. C'est amusant, en travaillant sur cet outil, j'ai pensé à webrankinfo (surtout à ses créateurs) en me disant que ce serait intéressant d'avoir une expertise comme la votre sur ce type d'outil ;)
 
WRInaute impliqué
L'idée principale restant la veille et donc pouvoir vérifier ce que poste mon concurrent ou voir si on exploite pas certaines marques.
Et les alertes Google tu connais ? Elles concernent les actus, mais aussi les blogs, les forums et les sites.
 
WRInaute discret
Argonaute a dit:
L'idée principale restant la veille et donc pouvoir vérifier ce que poste mon concurrent ou voir si on exploite pas certaines marques.
Et les alertes Google tu connais ? Elles concernent les actus, mais aussi les blogs, les forums et les sites.

Oui je connais mais j'ai un peu de mal à comprendre son fonctionnement. Lorsque je tape le nom d'un concurrent, j'obtiens 4 résultats (avec la fonction de prévisualisation). Ce ne sont pas des choses très récentes dont la pertinence n'est pas terrible. Est-ce que les résultats affichées sont des nouvelles urls ajoutées à l'index de Google ?
 
Olivier Duffez (admin)
Membre du personnel
ACR Ing a dit:
C'est amusant, en travaillant sur cet outil, j'ai pensé à webrankinfo (surtout à ses créateurs) en me disant que ce serait intéressant d'avoir une expertise comme la votre sur ce type d'outil ;)
Les "créateurs" de WebRankInfo se résument à mon humble personne !!!

Sinon je voulais préciser que tu ne devrais pas faire indexer des pages de résultats de recherche, et informer de façon claire si tu indexes des pages avec du contenu issu des sources que tu as sélectionnées. J'entends pas là que si je ne souhaite pas que mes contenus soient sur ton site, je dois avoir la possibilité 1- de savoir si c'est le cas et 2- de l'interdire.
 
WRInaute discret
Je viens d'ajouter un petit texte de présentation sur cette page : -http://www.spider-news.com/page-action-contact.html

Ca permet de connaitre le fonctionnement et aussi la marche à suivre pour supprimer le flux RSS.

Par contre, il faudrait que je mette quelque part la liste des flux qui sont utilisés.

Je viens de changer certaines choses :
- respecter un délai de 1 heure entre chaque consultation de flux RSS
- utilisation d'une nouvelle lib qui permet de lire tous les types de flux (RSS, Atom)

Prochaine étape, utilisation des hubs

J'ai encore de quoi m'amuser ;)

Bon WE
 
WRInaute discret
WebRankInfo a dit:
ACR Ing a dit:
C'est amusant, en travaillant sur cet outil, j'ai pensé à webrankinfo (surtout à ses créateurs) en me disant que ce serait intéressant d'avoir une expertise comme la votre sur ce type d'outil ;)
Les "créateurs" de WebRankInfo se résument à mon humble personne !!!

Sinon je voulais préciser que tu ne devrais pas faire indexer des pages de résultats de recherche, et informer de façon claire si tu indexes des pages avec du contenu issu des sources que tu as sélectionnées. J'entends pas là que si je ne souhaite pas que mes contenus soient sur ton site, je dois avoir la possibilité 1- de savoir si c'est le cas et 2- de l'interdire.

Tu as raison, il n'y a pas trop d'intérêt à référencer les pages de résultats. Je vais plutôt référencer les différentes sources et peut-être quelques mots-clés important. Mais le but est surtout d'inciter l'internaute à créer des alertes.

Sinon j'ai vraiment du mal à comprendre le fonctionnement de Google Alerts. J'ai reçu avant hier une alerte contenant une news de 2007 8O
 
WRInaute discret
J'ai l'impression que ce sont des sites qui ressortent de vieux flux rss datant de la guerre et qui font croire que c'est du neuf. La news que j'ai reçu avant hier comportait un intermédiaire. Pas facile de faire le tri dans ces cas-là...
 
WRInaute discret
Oui, c'est ce qu'Olivier me disait un peu plus haut. Il serait plus intéressant de savoir qu'elles sont les sources utilisées mais les tags cloud basés sur la recherche parasite plus qu'autre chose. L'intérêt de ce site va se situer dans la mécanique d'alerte donc c'est plutôt ça qu'il va falloir mettre en avant sur la homepage.
 
WRInaute discret
Désolé, je suis en vacances actuellement mais c'est un développement qui va être fait. Du coup, le projet est un peu en stand bye. Je te tiendrais au courant lorsque ce sera fait. Bonne fin de journée
 
WRInaute discret
WebRankInfo a dit:
donc on ne peut toujours pas savoir si nos flux sont exploités ou pas ?

Bonjour,

Je suis rentré de vacances ;)

Bon je viens de créer un script pour afficher les sources utilisées dans les différentes catégories : -http://www.spider-news.com/sitemap.html

Je pense qu'il faudra que je l'améliore car très basique et pas très jolie question design.

Bonne soirée
 
Membre Honoré
ACR Ing a dit:
Je suis rentré de vacances ;)
Il y en a qui ont de la chance. :mrgreen:
ACR Ing a dit:
Bon je viens de créer un script pour afficher les sources utilisées dans les différentes catégories.
Je pense qu'il faudra que je l'améliore car très basique et pas très jolie question design.
C'est déjà un début qui va aider les webmasters. :)
 
WRInaute discret
Bon, ça y est, le système d'alertes est en place.

Ce système permet de recevoir une alerte par e-mail en fonction des mots-clés choisis.
Cela teste tous les outils ACR Editions (Spider-fr, Spider News, Documentation PDF) mais également les résultats en provenance de Google (Web, Blog, Images, Vidéos, News, PDF, Word, Excel, Powerpoint).

Pour des recherches précises, il ne faut pas hésiter à utiliser les guillemets.

Voilà

J'attends vos retours ;)
 
WRInaute discret
Il est possible de se connecter avec les logins "demo/demo"

Voici un exemple : -http://www.spider-news.com/alertes-motcle-programmation-perl.html

Et un autre utilisant les guillemets : -http://www.spider-news.com/alertes-motcle-%22google-android%22.html

Donc ça, c'est l'aperçu disponible dans le tableau de bord.
Par contre, on ne reçoit que les nouveautés par mail.
 
WRInaute discret
Bon, le système d'alertes a évolué. Désormais on reçoit des alertes concernant les outils ACR Editions, les réseaux sociaux et Google.

Voici le détail :

1/ Outils ACR Editions :

- Spider News : moteur de recherche d'actualités
- Documentation PDF : moteur de recherche de documents PDF
- Spider France : moteur de recherche de sites français
- Kel Shop : moteur de recherche de produits vendus sur Internet
- Kel Société : moteur de recherche sur les pages Contact et Mentions légales

2/ Réseaux sociaux :

- Twitter

3/ Google :

- Web
- Actualités
- Blogs
- Images
- Fichiers PDF
- Fichiers Word
- Fichiers Excel
- Fichiers Powerpoint

Voilà un peu les nouveautés. Pour le moment, les mails sont envoyés à une fréquence de 12h mais je pense mettre une option (peut-être payante mais à faible coût => quelques euros) pour pouvoir réduire les délais => très utile concernant Twitter qui bouge beaucoup.
Je vais travailler sur les autres réseaux sociaux afin d'élargir un peu.

Bonne journée
 
Discussions similaires
Haut