Mon moteur de home pages

Discussion dans 'Annuaires et moteurs' créé par yule, 31 Juillet 2014.

  1. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Hello,
    Me voilà de retour avec un nouveau moteur.. Cette fois, je l’ai appelé « Moteur de Home Pages »

    Le timide se trouve ici : http://www.0kil.com Un doux mélange entre un moteur de recherche et un annuaire

    Ca fait donc depuis 2000 que je m’essaye dans ce domaine avec d’abord des annuaires et depuis 2003-2004, avec des moteurs (moteur de sites , enfin j’appelais ça ainsi). Un de rare hobby qui me tient la jambe depuis bientôt 15 ans.. ;-)

    Préserver votre vie privée
    Donc 0kil.com a pour principe de ne récolter aucune info vous concernant. Sauf (et oui, il y a toujours un oui mais..) pour les visiteurs qui soumettent des urls, pour cette partie, je suis obligé de garder l’adresse ip et c’est l’unique information que je conserve, si vous effectuez des recherches et autres, aucune info vous concernant est enregistré. Je garde uniquement l’adresse ip pour les soumitionneurs (pas français ça..) et ce, pour gérer tous conflit qui pourrait en découdre (abus par exemple). Donc pas de stats google, pas de facebook, pas de j’aime, pas de tweet, pas de google plus, pas de addthis, pas de géolocalisation etc..

    L’ajout d’un site (ou plusieurs..)

    - Gratuit
    - Pas de lien retour demandé
    - Pas d’inscription
    - Validation instantanée (5 à 10 secondes..)
    - 1 seule page par tld sera acceptée

    Le Moteur

    Est pris en compte dans la recherche, le titre, la description, les mots clés et le texte html de la page (plaitext)
    - Utilise le Full text
    - Efficace pour des termes courts (enfin ça devrait)
    - Ré-indexation tous les ~5 à 10 jours
    - Filtre automatique des erreurs http (code 200,300,400 etc..) après chaque indexation
    - Liens en dur
    - Sorti en _blank
    - Algorithme « maison »
    - Si pas de résultat en fulltext, une alternative en like est proposée
    - Lien direct pour un rapport de bug sur un formulaire

    L’annuaire

    - Pas vraiment un annuaire mais des recherches formatés selon des termes courant

    Ce qui ne vas pas encore (vous allez certainement m’en ajouter dans vos commentaires..)

    - Comme j’essaye d’automatiser passablement de choses, je n’ai pas réussi à identifier si un site soumis est en langue de Molière ou de Shakespeare ou encore de Goth (il y aurait pour autant que çela soit idem sur tous les sites, le meta language ou le html lang="fr", donc si vous avez une soluce pour récupérer ces balises, je prends..)
    - Pour que les résultats soient pertinents, il faut plus de sites dans ma bd, si vous avez un moment pour en suggérer, je prends aussi
    - Il y a parfois des sites que j’arrive pas indexer et qui font planter ma page.. visible uniquement lors d’une soumission
    - J’ai beau essayer de prendre en compte les différents charset, j’ai des urls qui ne s’affichent pas dans le bon charset..

    Je reste un passionné bidouilleur autodidacte (hobby), je n’ai aucune prétention si ce n’est que tout roule, pour l’avenir de ce site. N’y voyez donc pas une révolution dans mon site (ça reste un hybride entre le moteur de pages et un annuaire), mais une alternative pour des utilisateurs incognitos (enfin c'es l'idée..)

    Bonne visite et vos commentaires sont les bienvenues (tout ce qui est constructif est bon à prendre )
    Cordialement
    Yule
     
  2. Return
    Return WRInaute discret
    Inscrit:
    7 Mars 2011
    Messages:
    52
    J'aime reçus:
    0
    Bonjour

    Il est pas mal votre moteur, pour le juger il faut qu'il soit bien remplis pour évaluer la pertinence et la précision des résultats.

    Il faut aussi créer quelque chose qui le différencie des autres, par exemple au lieu qu'il soit généraliste il peut être spécialisé dans un domaine bien précis.

    Cordialement
     
  3. geekyy
    geekyy Nouveau WRInaute
    Inscrit:
    4 Juillet 2014
    Messages:
    4
    J'aime reçus:
    0
    Au contraire, je pense que le fait qu'il soit généraliste est une bonne chose pour des recherches anonymes. L'idée est bien, maintenant il faut persévérer pour augmenter la visibilité.
     
  4. generalhammond
    generalhammond WRInaute discret
    Inscrit:
    26 Mai 2009
    Messages:
    192
    J'aime reçus:
    0
    Bonjour,

    en tant que "concepteur" de moteur de recherche (www.prefrance.fr , voir le fil un peu plus bas dans la mêm section du forum) je trouve cela intéressant de suivre le lancement du moteur d'un confrère :)

    L'idée de garder que les home page est intéressante, mais comment justifier ce choix ? (évidemment je me doute qu'avec des moyens limités c'est impossible de crawler beaucoup de pages d'un grand nombre de sites, j'en sais quelque chose)
    Le côté un peu "extrêmiste" sans tracking intéressera aussi sûrement un certain public.



    A propos de la détection de la langue, je ne comprends pas bien, est-ce qu'il n'est pas simplement possible d'utiliser des expressions régulières ? D'ailleurs je n'ai pas encore trié totalement ça moi-même il faut que je m'y penche :)

    Sinon pour les charset, c'est un problème récurrent que j'ai eu et pas facile à gérer. Pour le cas des url, je ne sais pas exactement, qu'est ce qui bug ? ça ne marche pas en remplaçant les caractères spéciaux par leurs équivalets (par exemple é par #E9) mais sans passer par des fonctions toutes faites ?
     
  5. Triixx
    Triixx WRInaute impliqué
    Inscrit:
    12 Mars 2011
    Messages:
    514
    J'aime reçus:
    1
    Salut,

    Je trouve le principe sympa, j'y ai ajouté deux de mes sites cependant les résultats des recherches sont pas très très fiable. Je tape "musculation", je tombe sur "Annuaire des meilleurs sites web : top annuaire".

    Quand on ajoute un site ce serait bien de pouvoir mettre une petite description car les descriptions des sites sont loin d'être de qualité.

    Sinon ce serait bien d'avoir la vignette des sites je trouve (enfin ce serait sympa)
     
  6. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Idée sympathique, mais pourquoi le formulaire me répond-il ceci à tous les coups ?
    Jean-Luc

    P.S. et il y a beaucoup trop de sites "adultes" quand on demande le "top des recherches pour annuaire" :oops:
     
  7. LeZla
    LeZla WRInaute discret
    Inscrit:
    14 Août 2014
    Messages:
    50
    J'aime reçus:
    0
    Hello,
    je suis curieux, arrivez vous a générer du trafic sur le site? avez vous un tracker qui indiquer combien de visites vous générez sur les sites enregistrés ?

    Un site soumis a t-il un réel intérêt à être présent ?

    Sinon comme dis précédemment le plus gros soucis semble être au niveau de la pertinence des résultats de recherche.
    Comme on me le conseillait encore il y a peu, il faut peut-être regarder du côté des moteurs de recherche existants pour vos données, type : elasticsearch
     
  8. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 192
    J'aime reçus:
    1
    Ce que je trouve dommage dans ce genre de projet qui est fondamentalement bon a mon avis c'est justement d'être limité a une page. L'accueil est rarement représentatif du contenu quand tu as un poil de segmentation sur ton thème, et pourvoir proposer une petite dizaine d'url serait un réel plus qui surchargerait pas le code sans pour autant ajouter une charge de mégalo au système.

    Pour te donner un exemple si le site traite des moyens de transports, tu ne trouvera rien de pertinent sur les bateaux, les voitures, les trains et les avions (etc ...) rien qu'a l'accueil (qui peut être sera en plus très dynamique et traitera d'actualité dérivée) mais si le site a une architecture segmentée cela peut devenir pertinent avec qques sous pages bien pensées et crawlées par ton système ...
     
  9. pprem
    pprem WRInaute discret
    Inscrit:
    15 Décembre 2008
    Messages:
    149
    J'aime reçus:
    0
    hello

    j'ai soumis tous mes sites il y a quelques jours, comme prévu j'ai plusieurs sites qui ont été rejetés pour cause de langue inadéquate (dont certains étaient bien en anglais)

    en plus du <html lang="fr"> as-tu pensé à tester ces deux META ?
    <meta name="LANGUAGE" content="FR">
    <meta http-equiv="CONTENT-LANGUAGE" content="FR">
     
  10. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    HEllo,

    MErci pour vos messages

    generalhammond : le choix de la home page est effectivement la praticité et la simplicité de la gestion (ca reste un plaisir et pas une industrie ;-) )

    Triixx ; Il y a que trop peu de sites pour pour une bonne pertinence dans ce domaine (musculation) mais comme c'est le seul site qui en parle franchement, l'ordre d'affichage est juste

    jeanluc : Depuis peu et après le changement de serveur, j'ai pas mal de site ou ça bug et je ne trouve pas de solution, pour le site en question et pour d'autres, le véritable message d'erreur est le suivant Curl (28): connect() timed out! j'entends de tout avec cette erreur mais pas de solution pour le moment (bug que j'avais pas avant le changement de serveur..) donc je m'arrache les cheveux que je n'ai pas.. Si vous avez une idée... JE PRENDS !!!! SNIFFFFFFFFF

    LeZla : Non pas d'info dans ce sens et pas de trackers sur le site, vierge de toute mafia..

    zeb : oui et non... je peux chercher le terme "harley Davidson" et je pourrais tomber sur une page d'un site, qui parle de vélo principalement... mais on pourrait lire sur le forum de ce site par exemple.. " pendant ma balade dominicale en vélo, j'ai vu un défilé d'harley Davidson ...." Donc en cherchant le terme Harley Davidson tu pourrais tomber sur un site de vélo... le risque est moindre avec la home page, d'un coté, moins de pertinence avec une seule page je te l'accorde (et pour le reste, je suis trop limité en prog)

    pprem : Oui c'est juste et il y a passablement de sites sans ces métas.. donc c'est mort comme pratique ! J'ai opté selon un conseil dans ce forum, sur un filtre simpliste et efficace
    Code:
    if (preg_match("/é||à|è|/i", "$texte"))
    En espérant avoir répondu au mieux :wink:

    Sinon pour le pb avec curl , si vous avez une idée, c'est volontiers


    Rien qu'en testant un exemple (bout de script fonctionnel si vous voulez tester..)

    Code:
    $url = "http://www.annuaire-info.com/";
    	$ch = curl_init();
    	curl_setopt($ch, CURLOPT_URL, $url);
    	
    	// Si l'URL est en HTTPS 
    	
    
    	if (preg_match('`^https://`i', $url)) 
    	{ 
    	// Ne pas vérifier la validité du certificat SSL 
    	curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); 
    	curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0); 
    	}
    	
    	curl_setopt($ch, CURLOPT_VERBOSE, true);
    	curl_setopt($ch, CURLOPT_HEADER, 0);
    	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    	curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
    	curl_setopt($ch, CURLOPT_USERAGENT, 'One Shot - 0kil.com');
    	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    	curl_setopt($ch, CURLOPT_MAXREDIRS, 5);
    	curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5);
    	
    	curl_exec($ch);
    	
    	$lastUrl = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL); 
    	if ($lastUrl != ""){
    	
    	
    	$url = "$lastUrl";
    	}
    	else{ 
    	$url ="$url";
    	}
    
      $curl_errno = curl_errno($ch);
            $curl_error = curl_error($ch);
            if ($curl_errno > 0) {
    		    echo "Error trouvé => ($curl_errno): $curl_error\n";
            } else { }
    
    

    ben j'ai (28): connect() timed out! :oops: :oops: :evil:

    A+
    Yule
     
  11. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Pour le Curl (28): connect() timed out!, faut peut-être essayer en ajoutant:
    Code:
    curl_setopt ($ch, CURLOPT_TIMEOUT, 5) ;
    
    P.S. je ne sais pas pourquoi mes underscores n'apparaissent pas... :?
     
  12. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18

    même erreur : (28): connect() timed out!
    Un casse tête... :?
     
  13. Schwarzer Stern
    Schwarzer Stern WRInaute impliqué
    Inscrit:
    16 Mai 2010
    Messages:
    643
    J'aime reçus:
    1
    Qu'est censé faire ce code ?
     
  14. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18

    Récupérer l'url effective (si redirection 301 par exemple)
     
  15. aproximité
    aproximité WRInaute occasionnel
    Inscrit:
    19 Janvier 2010
    Messages:
    492
    J'aime reçus:
    0
    Bonsoir,
    J'aime beaucoup le concept et je l'encourage vivement, par contre je ne comprends pas le fonctionnement et surtout les résultats des requêtes.

    Par exemple, requête : trouver de amis à Montpellier.
    Résultats : (10 résultats sur 13 en première page n'ont rien à y faire ) :
    - Costumes et déguisements
    - Comparateur de vol et billet d'avion pas cher - liligo.com
    - Gite pour groupes le relais Étoilé
    - Index of mp3 | trouver et télécharger des mp3 ou pourquoi pas simplement découvrir et écouter..
    - Rencontre milf << trouver des milf salopes pour les baiser chez elle en toute..
    - Voyant pour connaitre son horoscope | trouver un voyant ou un medium pour découvir son avenir..
    - Dominatrice transexuelle : 0899 781 140 - trouver une trans dominatrice [public averti]
    - Comment trouver des solutions à tous vos problèmes
    - Comment faire pour me trouver encore plus belle ?
    - Beyrouth - ma découverte de beyrouth,

    Peut être que, stupide, je n'ai pas bien compris l'objectif de ce moteur ?
    Mais si je suis un internaute "lambda", je me sauve...

    Désolé...
    Cordialement
     
  16. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Hello,

    C'est l'habitude de google....

    - Il est pris en compte dans la recherche, le titre, la description, les mots clefs et le texte html de la page.
    - La recherche doit se faire sur 1-2 mots clefs, exemple : amis à Montpellier
    - Avec plus de sites, il y aura plus de pertinence...

    A+
    YUle
     
  17. aproximité
    aproximité WRInaute occasionnel
    Inscrit:
    19 Janvier 2010
    Messages:
    492
    J'aime reçus:
    0
    Merci beaucoup pour la sincérité de cette réponse, et je comprends beaucoup mieux maintenant.
    Dès que le risque d'être amalgamé à ces résultats "nocifs" aura disparu, je reviendrais volontiers vers vous pour vous soumettre nos propres sites.
    Bon courage pour cette belle aventure,
    Cordialement
     
  18. LeZla
    LeZla WRInaute discret
    Inscrit:
    14 Août 2014
    Messages:
    50
    J'aime reçus:
    0
    Pour ton soucis avec Curl, j'ai également un site qui parse d'autre site pour en extraire du contenu, et je n'arrive pas non plus à 100% de connexion réussie.

    J'ai amélioré pas mal mes résultats et la rapidité de conexion via un fallback qui passe par la commande wget du serveur avec un paramêtre pour ignorer les certificats.
     
  19. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Je vais amélioré ça ce soir, j'ai trouvé une partie du pb, ovh place un fichier .ovhconfig à la racine avec environment=production par défaut , faut le changer à environment=development et une bonne partie des soucis sont résolus.. mais après et comme tu le dis .. pas tout passe

    Je ne connais pas cette "combine" de Fallback, tu peux m'en dire plus sur cette procédure ?

    Sinon, je remarque pas mal de "Access denied. your ip address [xxx.xxx.xxx.xx] is blacklisted. if you feel this is in error.." et je passe que tous les 5 jours... et ça c'est pas bon et je pense qu'à la longue je devrait supprimer ces sites.. c'est dommage

    A+
    Yule
     
  20. LeZla
    LeZla WRInaute discret
    Inscrit:
    14 Août 2014
    Messages:
    50
    J'aime reçus:
    0
    En gros si tu détectes que tu ne peux pas lire le site, tu passes par un exec(wget ...) ca te fera un fichier html qu'il te reste à lire en local.
    J'ai observé que wget était particulièrement rapide, donc ca tient la route.

    Par contre si ton Ip est blacklistée là c'est chaud. Il te faudra passer par des proxys à terme pour que ce ne soit pas ton serveur qui morfle...
     
  21. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Re,

    Pour ta première réponse, j'ai compris merci, pour la deuxième aussi mais comment procéder pour passer par d'autres proxys, j'avoue ne pas connaître un copec dans ce domaine... Donc si je scrape avec curl, c'est depuis curl que ça doit se faire :oops: :oops: :oops:
    A+
    Yule
     
  22. jeanluc
    jeanluc WRInaute accro
    Inscrit:
    3 Mai 2004
    Messages:
    2 882
    J'aime reçus:
    0
    Dans ton cas, il ne faut pas t'embêter à passer par des proxies.

    Si certains serveurs te bloquent, tant pis pour eux. Tant que ce n'est pas un gros pourcentage, il ne faut pas s'inquiéter. Si la proportion est élevée, il faudrait se demander pourquoi ils bloquent ton IP. Si c'est une IP partagée avec d'autres (mutualisé), le problème peut venir d'activités d'autres utilisateurs.

    Jean-Luc
     
  23. noren
    noren WRInaute accro
    Inscrit:
    8 Avril 2011
    Messages:
    2 906
    J'aime reçus:
    14
    salut

    J'ai peut être pas bien compris, je n'arrive pas à voir la différence avec un annuaire, hormis le moteur de recherche basé sur des critères de "pertinence".

    Qu'apporte de plus ce site par rapport aux annuaires? Il me fait également penser à des sites comme les "similarsites, reftruc, seomachin ou encore les aguea etc.", qui enfin de compte listent des sites en récupérant nos meta description (voir plus). A la différence, certes, que tous ces sites récupèrent nos url sans notre autorisation :mrgreen:

    Ce qui me dérange également c’est qu'en fin de compte tes pages de résultats sont référencés sur google créant ainsi du DC avec les copies de meta des sites référencés.

    Et pour les annuaires, ces derniers proposent au moins un contenu (description) unique pour chaque site présenté.

    ahma, un moteur de recherche n'a lieu d'exister uniquement si il crawl lui même les url, propose des résultats suffisamment pertinents et ne référence aucune page des résultats pour éviter les DC interne mais également vis a vis de nos sites.

    A côté de ça le site est très agréable visuellement.
     
  24. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Hello,

    Ton point de vue se discute mais n'est pas tout faux non plus, avec le temps je vais amélioré mon système en fonction des remarques

    Pour commencer, j'ai mis un filtre pour les sites adultes, donc les résultats peuvent être affichés avec ou sans les sites adultes

    Pour la différence avec un annuaire, il y a aussi le fait que la description d'un annuaire est statique puisque unique selon ton explication, par conséquent si sur une home page , un nouvelle rubrique, thème ou autre est ajouté, l'annuaire ne le verra pas, à moins d'apporter dans chaque annuaires la modification nécessaire... et pour la pertinence c'est extrêmement important à mon sens.

    pour les DC, initialement le titre, la description et les mots clefs sont présent pour accentuer la pertinence, certes le titre est affiché, mais pour la description elle ne devrait pas... mais pour le moment oui (à court terme ça ne sera plus le cas pour la description) , j'utiliserai le texte html pour en extraire x caratères selont le mot clef recherché... mais j'avoue que pour le moment, j'y suis pas encore arrivée... sacré php :oops: (j'ai posté un message sur ce forum pour demander de l'aide dans ce sens..)

    A+
    Yule
     
  25. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Hello,

    Je reviens avec des modifications selon vos commentaires

    => Filtre avec les sites adultes, dorénavant vous pouvez effectuer vos recherches avec ou sans les sites adultes (par défaut, c'est sans les sites adultes)

    => L'affichage des résultats ne sait fait plus avec la méta [description], la description utilisée sera celle du texte html de la page ou le terme recherché est présent (entre 170 et 250 caractères) . Je suis contre les descriptions uniques car elles sont statiques. donc je propose à mon sens un bon compromis

    => Les sites présents seront crawlés tous les 5 jours, donc si votre home page "bouge passablement", ça sera intéressant pour vous...

    => Je maintiens, il ne s'agit pas d'un annuaire :p , c'est un moteur de home pages ! Un hybride entre un annuaire et un moteur de pages.

    => Le ssl est en place https://www.0kil.com et toutes les pages sont enfin avec le cadenas vert..

    => Mon projet reste sur l'indexation d'une seule page par site pour le moment, en avoir au moins 10 comme cela a été suggéré oui.. Mais pour le moment 1 page me va très bien, par la suite et en fonction de son évolution et des ressources, ça sera certainement un point envisageable.

    Bon dimanche !
    YUle
     
  26. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    364
    J'aime reçus:
    18
    Hello, merci pour ton message, il me semblait avoir répondu à celui.ci, mais en fait pas..

    Donc oui , il y a plusieurs raisons sur le choix d'indexer une ou plusieurs pages. On m'a suggéré sur ce forum dans indexer au moins 10.

    Mes deux raisons ; il y a évidement l'aspect ressource... mon moteur n'est pas une pompe a fric car tout y est gratuit, de plus, il n'y a pas de pub pour le moment (pas certain non plus qu'il y en aura..)

    L'autre raison: Je suis parti du principe que la première page d'un site est en quelques sortes la carte de visite de l'ensemble du site et que théoriquement, ça devrait être la page avec le plus de modifications ou de MAJ... Pis L'idée de Twitter avec des messages de 140 caractères démontre que le monde d'internet doit aller vite , court, rapide etc... ça peux pas dire que ça doit être dénudé de tout intérêt, mais 1 page par url devrait suffire pour l'instant

    Voili voilà
    A+
    Yule
     
  27. generalhammond
    generalhammond WRInaute discret
    Inscrit:
    26 Mai 2009
    Messages:
    192
    J'aime reçus:
    0
    Salut,

    Ok merci pour tes précisions !
    Effectivement ça a du sens et ça peut donner quelque chose de très intéressant :)

    Je ne sais pas si tu l'as dit, mais est-ce que tu comptes crawler les urls d'autres sites que tu trouves sur les homepages, où est-ce que tu veux te limiter uniquement à l'ajout de site via suggestion ?

    Tu as réssolu ton problème de CURL ? J'essaierai de regarder ce que j'ai de mon côté si ça t'intéresse.

    Pour répondre à ceux qui critiquent la pertinence, c'est bien évidemment en raisson d'un nombre de sites insuffisant, mais ce qui est bien c'est que c'est un problème qui se résoud avec le temps :)
    ça me fait penser à ceux qui me disent que lorsqu'on cherche "téléphone portable" sur mon moteur de recherche du made in France, et qui s'étonne qu'on tombe sur des housses... Ben oui c'est normal, c'est tout ce qu'il y a de plus pertinent étant donné la thématique !

    Bon courage pour le développement de ton projet et ne manque pas de nous tenir au courant !
     
  28. bossboss
    bossboss WRInaute occasionnel
    Inscrit:
    28 Août 2004
    Messages:
    341
    J'aime reçus:
    0
    Hello,
    je profite de ce fil pour te poser une question. J'avais développé un petit moteur en php/mysql juste par amusement et voir comment ça réagissait qui faisait tout à partir d'un petit vps. je l'ai stoppé actuellement http://www.robot14.com. Comment fais-tu avec 200000 pages à avoir des temps de réponses si rapide( si ce n'est pas indiscret? ^^) quel language utilises tu? Car avec 200000 "pages" moi ça "rame" méchamment ;)

    Merci
     
  29. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 022
    J'aime reçus:
    291
    @bossboss: je n'ai pas (encore) fait de moteur de recherche de pages, mais si je devais le faire, sans hésiter:
    - Scrapy (Python) pour parser les pages
    - Elasticsearch (Java) pour le moteur de recherche
     
  30. generalhammond
    generalhammond WRInaute discret
    Inscrit:
    26 Mai 2009
    Messages:
    192
    J'aime reçus:
    0
    @bossboss
    Salut !

    C'est sympa ce moteur :), marrant de voir certaines initiatives qu'on ne soupçonnait pas !

    Alors déjà d'après mon expérience, passer en SSD fait gagner facilement x10 en vitesse + serveur dédié qui aide bien aussi.
    Rien que ça on arrive à quelque chose qui est bien plus proche... (je dirais que chez toi c'est peut être 20x plus lent)
    Ensuite peut être que le fait de pré-trier tous les résultats autant que possible

    Puis je m'arrête à un nombre de résultat assez limité (je ne sais pas ce que tu fais dans ton cas ?).
    Sinon pour passer de la page 1 à la page 2 c'est dommage de tout rechercher à nouveau alors que je pense que tu as déjà trouvé tous les résultats à l'affichage de la page 1 ;)

    @spout
    Il parait effectivement qu'ElasticSearch est très bien, mais dans mon cas il me fallait quelque chose de très spécique donc j'ai laissé tomber...
     
  31. bossboss
    bossboss WRInaute occasionnel
    Inscrit:
    28 Août 2004
    Messages:
    341
    J'aime reçus:
    0
    @generalhammond
    Oui côté serveur, je suis sur le mini vps d'ovh ( je fais pas de pub!) (c'est pour m'amuser après tout ce moteur!), donc c'est pas une bête de guerre.
    Oui l'idée de minimiser le retour de résultats, je retiens.
    J'avais lu aussi mais jamais tenté à travailler avec des tables temporaires.
    Et il y a aussi le contenu, philosophie en soit du moteur à savoir ne retenir que l'essentiel de l'information d'une page et ne pas garder "inconsistant" du contenu, pas trop le choix quand tu veux limiter la BD ou alors faut être financé par Google lol.

    @spout
    J'avais entendu parlé de ça, j'avais trouver des infos mais bon mon petit niveau de programmation ne me permets pas de me lancer dans ces langages. Je reste dans ce que je connais, php et sql de MySQL.
     
Chargement...
Similar Threads - moteur Forum Date
Moteur de recherche interne Google Développement d'un site Web ou d'une appli mobile 10 Juillet 2020
Moteur de home pages Freejungle Autres moteurs de recherche connus 12 Mai 2020
WordPress Annuaires et moteurs: quid de la thématique du site ? Débuter en référencement 23 Mars 2020
Mon site web n'est plus référencé sur les moteurs de recherche sauf Google Problèmes de référencement spécifiques à vos sites 17 Décembre 2019
Désindexer page du moteur de recherche interne Crawl et indexation Google, sitemaps 30 Octobre 2019
Nouvelle présentatation des résultats du moteur de recherche google Référencement Google 5 Octobre 2019
mon site internet n'apparaît plus dans les moteurs de recherche Problèmes de référencement spécifiques à vos sites 16 Juillet 2019
SERP sur les différents moteurs de recherches Demandes d'avis et de conseils sur vos sites 10 Mai 2019
Le moteur de recherche YouCare Le café de WebRankInfo 13 Avril 2019
Moteur Premsgo, concours graphique? Autres moteurs de recherche connus 11 Avril 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice