Fin du Yahoo Site Explorer... solutions alternatives ?

Discussion dans 'Netlinking, backlinks, liens et redirections' créé par Djibou_Te@M, 20 Août 2010.

  1. Djibou_Te@M
    Djibou_Te@M WRInaute occasionnel
    Inscrit:
    20 Avril 2010
    Messages:
    407
    J'aime reçus:
    0
    Bonjour à tous,
    Cela fait un an que Bing et Yahoo ont signé un accord et même si je fermais les yeux jusqu'à présent sur un éventuel arrêt
    des certains outils Yahoo, je me pose de plus en plus la question :
    Que va-t-il advenir du Yahoo Site Explorer ?
    :(

    Rien d'encourageant pour l'avenir.... :?
    Pour moi, c'était presque un automatisme d'aller le consulter, pour de la veille concurrentielle, pour avoir des pistes sur l'état de référencement des sites de mes clients et autres fins plus ou moins utiles...

    Parlons peu, parlons bien, connaissez-vous d'autres outils de ce type, gratuits ?

    Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?
     
  2. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 139
    J'aime reçus:
    272
    Bienvenue au forum.

    Pour votre site vous pouvez utiliser Google Webmaster Tools.
    Concernant Yahoo Site Explorer, il serait étonnant avec autant de trafic que Bing (Microsoft) ne propose pas un outil similaire.
    C'est une définition un peu vague, vous pouvez préciser un peu plus pour les webmasters qui pourraient être intéressés par votre possible outil.

    Vous pouvez aussi vous présenter : [Forum] Comment vous présenter.

    N'hésitez pas à participer sur le forum en répondant aussi à d'autres topics.
     
  3. jv2759
    jv2759 WRInaute occasionnel
    Inscrit:
    21 Novembre 2008
    Messages:
    429
    J'aime reçus:
    0
    De ce que je lit dans l'article tu veux dire faire une base de données avec l'ensemble des backlink, car pour l'indexation on ne peux inventer les donner si elle ne sont plus donnée.

    Le problème c'est que pour faire cela il faut crawler le web... Ce qui demande beaucoup de ressource, humaine et surtout financière. Car ce n'est pas 50000 pages d'un gros site que l'on doit analyser, mais des centaine de milliards de pages (j'ai vue que l'on parler de 1000 milliard en 2008). Si tu traite 10 pages à la seconde il te faudra 30 ans pour traiter 10 milliards de pages...
     
  4. Sébastien Billard
    Sébastien Billard WRInaute passionné
    Inscrit:
    7 Mai 2003
    Messages:
    1 700
    J'aime reçus:
    1
    Il restera encore actif 1 an ou 2 ans le temps que la migration vers Bing soit achevée dans l'ensemble du monde, puis sera intégré dans les outils Bing. Dans l'immédiat donc pas de panique.
     
  5. Djibou_Te@M
    Djibou_Te@M WRInaute occasionnel
    Inscrit:
    20 Avril 2010
    Messages:
    407
    J'aime reçus:
    0
    Bonjour,
    C'est vrai je ne me suis pas présenté,
    je travaille dans une Web Agency de la région toulousaine, plus spécifiquement sur le référencement et autres techniques de E-marketing pour permettre à mes clients de vendre mieux et plus.

    Pour mon idée, et pour répondre à jv2759 ainsi qu'à Madrileno, c'est un crawler de site avec (bien evidemment) stockage en BDD.
    c'est vrai, d'ou l'intérêt d'une communauté, on n'est plus seul, mais plusieurs.
    Admettons, nous sommes à trois, il ne faut plus que 10 ans :lol:
    nous sommes 30, plus qu'un an
    300, ....
    Oui j'ai arrondi plus que grossièrement les chiffres, mais l'idée est là.
    Utilisation BDD mère + BDD esclaves, installées chez chacun, et en avant la musique, bien sûr il faut poser ça sur papier, ou du moins sur écran afin de pas s'éparpiller.

    Mettre en place un tel système (serveurs gratuits vivement recommandés pour les fonds de départ) prendra surement du temps, mais ne croyez vous pas que c'est une aventure à tenter ?
    J'attend vos retours (bons ou mauvais, insultes du type gros ... interdites, je suis soupe au lait :wink: )

    En même temps, comme le dit Madrileno, il serait étonnant que Bing se prive d'un tel outil, donc peut être Wait and See
     
  6. jv2759
    jv2759 WRInaute occasionnel
    Inscrit:
    21 Novembre 2008
    Messages:
    429
    J'aime reçus:
    0
    Il faut pouvoir trouver 300 personne capable de louer une machine avec connexion internet illimitée dédier uniquement à cela... Dans mon calcul je le faisait sur 10, mais si c'est 100, cela veux dire 3000 personnes Ou alors 300 personne avec 10 serveur... Et je ne ferais même pas le calcul pour 1000. Ensuite il faut une personne pour coder et optimiser le crawler, car cela ne ce fait pas comme un plugin wordpress, entre un crawler non optimiser et un optimiser les ressource nécessaire peuvent doubler voir énormément plus... Faire des règle de filtre, de priorité, car pas question de scanner 5000 fois la même pages à cause d'un id de session non identifier...


    Qui vas avoir la bdd mère? Car ce sont des donnée qui on une vrais valeur. Impossible à stocker intégralement chez tout les monde. Cela peux faire des quantité énorme de donnée à stocker. Donc on doit tout donnée a une personne de confiance qui vas devoir mettre en place un système pour que chacun puisse récupérer ce d'on il a besoin.



    A mon avis difficile sans une structure capable d'apporter une bonne base. Sauf que ce type de structure le fait pour elle et revend par la suite. Et justement je crois que cela existe déjà des service payant de ce type. Service qui coute surement moins chère que de devoir soit même avoir 10 serveur de crawl.
     
  7. Djibou_Te@M
    Djibou_Te@M WRInaute occasionnel
    Inscrit:
    20 Avril 2010
    Messages:
    407
    J'aime reçus:
    0
    C'est vrai que cela engendre un cout important niveau ressources.
    Pour le code, si l'on part sur un système communautaire, c'est pour que tout ne soit pas fait par une seule personne
    et avoir un code plus objectif, de même pour les filtres de recherche et de crawl.

    Reste le souci de la base Mère qui doit se trouver à un endroit, du coup, oui trouver une personne de confiance, trouver les fonds, etc.

    Mais bon, la fondation Mozilla a du se poser les mêmes questions au début, de même que les différentes branches de UNIX, pourtant ils sont bien là...

    Après c'est vrai que je suis parfois un doux rêveur...
     
  8. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 372
    J'aime reçus:
    2
    il y a des solutions beaucoup moins couteuses que cela ... personnellement j'ai payé un soft de veille concurentielle 400 euros, et j'ai toutes les infos qu'il me faut.
     
  9. jv2759
    jv2759 WRInaute occasionnel
    Inscrit:
    21 Novembre 2008
    Messages:
    429
    J'aime reçus:
    0
    Il ne faut pas plein de programmeur moyen, mais quelque très bon. En sachant que ce qui sont intéresser ne sont pas les très bon programmeur.

    Reste le souci de la base Mère qui doit se trouver à un endroit, du coup, oui trouver une personne de confiance, trouver les fonds, etc.

    Mozilla à commencer avec 1 million, une bonne partie de code déjà crée, une unité dans les développeur, pas non plus de problème de confiance, tout le monde peux avoir tout les sources, et personne ne peux vraiment les vendre directement, ce qui peux ce vendre c'est l'expérience, donc celui qui triche ce retrouve moins bien positionner que les autres.

    Mais surtout la différence tien dans la nature des ressources. Pour crée un logiciel open source, quasiment tout les ressources son lier au temps. Pour un crawler, les ressources sont beaucoup plus matériel.
     
  10. pm27
    pm27 Nouveau WRInaute
    Inscrit:
    16 Juillet 2008
    Messages:
    39
    J'aime reçus:
    0
    On explore une piste actuellement en cours de développement :
    http://wikiwix.com/index.php?lang=fr&disp=article&action=site%3Afrance.fr
    La démo est à titre expérimentale, pas encore totalement fini mais on y travaille en ce moment.
     
  11. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    heu, ça n'a aucun rapport avec les fonctionnalités de Yahoo Site Explorer, c'est juste une recherche à l'intérieur de wikipedia, à ce qu'il me semble
     
  12. pm27
    pm27 Nouveau WRInaute
    Inscrit:
    16 Juillet 2008
    Messages:
    39
    J'aime reçus:
    0
    En fait, la requête que j'ai envoyé site:france.fr renvoie les informations que nous avons collecté de notre crawleur sur le site france.fr ( nombre de pages, heure du dernier crawl, heure du prochain crawl ). Après si il vous faut plus d'infos, c'est le moment.
     
  13. jv2759
    jv2759 WRInaute occasionnel
    Inscrit:
    21 Novembre 2008
    Messages:
    429
    J'aime reçus:
    0
    On parler plutôt de la commande :

    link:france.fr
     
  14. pm27
    pm27 Nouveau WRInaute
    Inscrit:
    16 Juillet 2008
    Messages:
    39
    J'aime reçus:
    0
    Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement
     
  15. SpeedAirMan
    SpeedAirMan WRInaute passionné
    Inscrit:
    2 Juin 2007
    Messages:
    2 391
    J'aime reçus:
    0
    Peux tu nous donner le nom du soft en question stp?
     
  16. milkiway
    milkiway WRInaute accro
    Inscrit:
    3 Février 2004
    Messages:
    4 238
    J'aime reçus:
    0
    Lequel ?
     
  17. Visafacile.net
    Visafacile.net WRInaute discret
    Inscrit:
    18 Mai 2009
    Messages:
    55
    J'aime reçus:
    0
    Solution gratuite made in America : j'ai lu sur une de mes sources d'informations américaines une astuce qui permet voir les backlinks en utilisant Google !
    Il faut juste mettre l'URL entre guillemets et lancer une recherche et... voilà les pages qui contiennent cet URL.
    Voici un exemple concret https://www.google.fr/search?hl=fr&q=%22boursedeparis.info%22&btnG=Rech ... =&gs_rfai=
    C'est une alternative non négligeable.
     
  18. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
    Pas mal l'histoire des guillemets :wink: merci de l'info
     
  19. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 139
    J'aime reçus:
    272
  20. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
  21. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
    A je ne sais pas si ça fonctionne à tous les coups mais en tout cas ça marche mieux en mettant une extension d'une url (.com, .net etc..) :wink:
     
  22. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    et .pro ce n'est pas une extension, par hasard ? :roll:
     
  23. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
    etant donnée que le site bourse.pro n'a pas l'air d'être indéxé dans gg ça ne risque pas de fonctionner

    La commande considere que tu mets des mots et non pas une extension
     
  24. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 139
    J'aime reçus:
    272
    GUITEL faut arrêter les jeux-vidéos. :mrgreen:
     
  25. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
    CHuttttttttttt !!

    Plus sérieusement, en tapant bourse.pro chez moi GG ne trouve pas et me suggère de taper bourse.fr
     
  26. Djibou_Te@M
    Djibou_Te@M WRInaute occasionnel
    Inscrit:
    20 Avril 2010
    Messages:
    407
    J'aime reçus:
    0
    Du coup, cette solution de GG parait assez intéressante et même pertinente dans le sens ou l'on peut faire via un applicatif web :
    nom du site -> vérifier s'il est indexé chez google
    si oui
    -> on fait la recherche "www.URL.com" et via snoopy, on compte le nb de résultats, on extrait les url,etc.
    sinon, ça envoie bouler...

    A approfondir sérieusement je pense [​IMG]
     
  27. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    je crois qu'il faut arrêter d'extrapoler à partir d'un cas particulier.
    Un 2° exemple, en plus, le .pro existe https://www.google.fr/search?q="annuaire.pro" dans la 1) page, on voit les http://www.pagesjaunes.fr et fr.kompass.com
    Otto aurait donc réussi à obtenir des BL depuis ces sites ? il est vraiment trop fort :mrgreen:
     
  28. jv2759
    jv2759 WRInaute occasionnel
    Inscrit:
    21 Novembre 2008
    Messages:
    429
    J'aime reçus:
    0
    Donc environs 4 million de pages par jour... 120 millions par mois. C'est pas encore cela mais si vous pouvez le faire, cela peux en interesser certain...
     
  29. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    à supposer que tous les sites vous laissent crawler leurs sites (si toutefois vous respectez le robots.txt). Perso, je n'autorise que les gros moteurs francophones. Mes sites n'étant pas internationaux, de me retrouver dans baidu ou yandex ne m'est d'aucune utilité et les autres "moteurs" ne m'amènent aucun visiteur. Déjà que exalead a du mal à m'en envoyer plus de 10 par trimestre :mrgreen:
     
  30. GUITEL
    GUITEL WRInaute impliqué
    Inscrit:
    8 Juin 2007
    Messages:
    844
    J'aime reçus:
    0
    @leonick

    oui effectivement ton deuxième exemple est plus parlant.

    par contre dans ta requête tu mets (seulement) annuaire.pro alors que si tu peaufines ta recherche et que tu mets avec les w devant le résultat change et semble plus cohérent.

    Cette commande semble fonctionner comme le recherche/remplacer d'un éditeur de texte qui recherche un groupe de mot dans la toile.
     
  31. finstreet
    finstreet WRInaute accro
    Inscrit:
    10 Juillet 2005
    Messages:
    13 473
    J'aime reçus:
    1
  32. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    même pas https://www.google.fr/search?hl=fr&q="www.annuaire.pro" dès le 2° site on ne trouve pas de lien. Et ne surtout pas se fier au
    de google, qu'il affiche dès qu'une page apparait dans ses serp sans que les mots cherchés ne s'y trouve, pour plein de raisons : synonymes, acronymes, ou encore parce qu'il ne trouve rien de mieux et "oublie" volontairement certains critères de la recherche...
     
  33. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 978
    J'aime reçus:
    292
  34. detectimmobilier
    detectimmobilier WRInaute passionné
    Inscrit:
    21 Février 2009
    Messages:
    1 919
    J'aime reçus:
    0
    A propos de "brider", connaissez vous un moyen de restreindre l'accès d'une URL dans Yahoo Site Explorer par mot de passe comme dans les GWT (connexion à son compte nécessaire) ?
     
  35. vitalizo
    vitalizo WRInaute impliqué
    Inscrit:
    27 Novembre 2005
    Messages:
    962
    J'aime reçus:
    0
    Ca n'existe pas :).

    De toute façon, y'a tellement de logiciels (je recommande rank tracker de seopower) qu'on trouvera de toute façon les bl d'un site donné.
     
  36. mobernard
    mobernard WRInaute discret
    Inscrit:
    22 Juin 2009
    Messages:
    95
    J'aime reçus:
    0
    Leur manière de communiquer (chez Yahoo) est peu professionnelle : annoncer qu'un service va fermer fin 2010, puis en mars 2011 pour le voir fonctionner à ce jour.

    C'est le problème des services gratuits : comme le client ne paye pas, il n'est pas un client et n'a pas à être pris en compte. Un beau jour, l'API disparaît sans fleur ni couronnes !

    C'est d'autant plus surprenant que Yahoo Site Explorer a des données beaucoup plus complètes que Open Site Explorer ou Majestic SEO (ces derniers sont vraiment faibles sur les petits sites non US), lesquels ont en plus une tarification pusillanime. Je pense que cela va perdurer, avec éventuellement une évolution vers un mode payant pour l'API.

    La solution que j'ai trouvé à ce problème de services non fiables, c'est d'acheter les données à des spécialistes du scraping massif et brutal et me construire mon petit service à moi : pas de limitation d'api calls, pas de changement intempestif sur l'interface, pas de serveur surchargé, pas de disparition possible du service, etc.

    Dans le cas de Yahoo Site Explorer, une telle base n'existe pas à ma connaissance, mais si ces %$+^$\\\ de Yahoo décident de fermer le service, je pense qu'une telle base va apparaître à la vente rapidement. Elle ne portera pas sur 100% des données, car cela n'a aucun intérêt, mais basé sur le résultats de Google obtenus sur les quelques centaines de millions de requêtes les plus importantes sur Google (marché US + Europe). En prenant une moyenne de 10 résultats par requête, on obtient quelques milliards de pages à télécharger, et à raison de 100 par seconde, cela fait une centaine de jours par tranche de 100 millions de requête. C'est du boulot et quelques débours, mais certainement pas le bout du monde !
     
  37. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 372
    J'aime reçus:
    2
     
  38. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 978
    J'aime reçus:
    292
    je suis assez surpris de lire ceci... car pour pas mal de sites je vois vraiment le contraire. Ca doit dépendre de la taille des sites sans doute.

    Si j'ai bien compris, tu as créé ton propre crawler ? Comment fais-tu pour qu'il soit exhaustif ?
     
  39. focoweb.fr
    focoweb.fr Nouveau WRInaute
    Inscrit:
    23 Novembre 2010
    Messages:
    46
    J'aime reçus:
    0
    j ai trouvé ça dans la doc de l api de site explorer :
    We’re shutting down this service in March 2011.
     
Chargement...
Similar Threads - Fin Yahoo Explorer Forum Date
Yahoo Yahoo Site Explorer fermera d'ici fin 2011 Autres moteurs de recherche connus 11 Juillet 2011
Yahoo [Yahoo!] Revend finalement Kelkoo Le café de WebRankInfo 21 Novembre 2008
La fin du tracking sur le web ? Le café de WebRankInfo 5 Septembre 2019
ptit code de fin d'été Développement d'un site Web ou d'une appli mobile 17 Août 2019
/ en fin d'url Crawl et indexation Google, sitemaps 11 Juillet 2019
Des avis sur KWFinder ? Débuter en référencement 11 Mai 2019
ordre des ressources dans le code source : JS en fin de page ou en async ? Techniques avancées de référencement 5 Mai 2019
fini les poissons d'avril Le café de WebRankInfo 2 Avril 2019
La fin de wordpress ? Le café de WebRankInfo 28 Janvier 2019
Fin export email contact (Linkedin) Autres réseaux sociaux 24 Novembre 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice