Fin du Yahoo Site Explorer... solutions alternatives ?

Djibou_Te@M · 20 Août 2010

Bonjour à tous,
Cela fait un an que Bing et Yahoo ont signé un accord et même si je fermais les yeux jusqu'à présent sur un éventuel arrêt
des certains outils Yahoo, je me pose de plus en plus la question :
Que va-t-il advenir du Yahoo Site Explorer ?

Rien d'encourageant pour l'avenir.... :?
Pour moi, c'était presque un automatisme d'aller le consulter, pour de la veille concurrentielle, pour avoir des pistes sur l'état de référencement des sites de mes clients et autres fins plus ou moins utiles...

Parlons peu, parlons bien, connaissez-vous d'autres outils de ce type, gratuits ?

Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?

Madrileño · 20 Août 2010

Bienvenue au forum.

Pour votre site vous pouvez utiliser Google Webmaster Tools.
Concernant Yahoo Site Explorer, il serait étonnant avec autant de trafic que Bing (Microsoft) ne propose pas un outil similaire.

Djibou_Te@M a dit:
Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?

C'est une définition un peu vague, vous pouvez préciser un peu plus pour les webmasters qui pourraient être intéressés par votre possible outil.

Vous pouvez aussi vous présenter : [Forum] Comment vous présenter.

N'hésitez pas à participer sur le forum en répondant aussi à d'autres topics.

jv2759 · 20 Août 2010

Djibou_Te@M a dit:
Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?

De ce que je lit dans l'article tu veux dire faire une base de données avec l'ensemble des backlink, car pour l'indexation on ne peux inventer les donner si elle ne sont plus donnée.

Le problème c'est que pour faire cela il faut crawler le web... Ce qui demande beaucoup de ressource, humaine et surtout financière. Car ce n'est pas 50000 pages d'un gros site que l'on doit analyser, mais des centaine de milliards de pages (j'ai vue que l'on parler de 1000 milliard en 2008). Si tu traite 10 pages à la seconde il te faudra 30 ans pour traiter 10 milliards de pages...

Sébastien Billard · 20 Août 2010

Il restera encore actif 1 an ou 2 ans le temps que la migration vers Bing soit achevée dans l'ensemble du monde, puis sera intégré dans les outils Bing. Dans l'immédiat donc pas de panique.

Djibou_Te@M · 20 Août 2010

Bonjour,
C'est vrai je ne me suis pas présenté,
je travaille dans une Web Agency de la région toulousaine, plus spécifiquement sur le référencement et autres techniques de E-marketing pour permettre à mes clients de vendre mieux et plus.

Pour mon idée, et pour répondre à jv2759 ainsi qu'à Madrileno, c'est un crawler de site avec (bien evidemment) stockage en BDD.

Si tu traite 10 pages à la seconde il te faudra 30 ans pour traiter 10 milliards de pages

c'est vrai, d'ou l'intérêt d'une communauté, on n'est plus seul, mais plusieurs.
Admettons, nous sommes à trois, il ne faut plus que 10 ans :lol:
nous sommes 30, plus qu'un an
300, ....
Oui j'ai arrondi plus que grossièrement les chiffres, mais l'idée est là.
Utilisation BDD mère + BDD esclaves, installées chez chacun, et en avant la musique, bien sûr il faut poser ça sur papier, ou du moins sur écran afin de pas s'éparpiller.

Mettre en place un tel système (serveurs gratuits vivement recommandés pour les fonds de départ) prendra surement du temps, mais ne croyez vous pas que c'est une aventure à tenter ?
J'attend vos retours (bons ou mauvais, insultes du type gros ... interdites, je suis soupe au lait :wink: )

En même temps, comme le dit Madrileno, il serait étonnant que Bing se prive d'un tel outil, donc peut être Wait and See

jv2759 · 20 Août 2010

Djibou_Te@M a dit:
d'ou l'intérêt d'une communauté, on n'est plus seul, mais plusieurs.
Admettons, nous sommes à trois, il ne faut plus que 10 ans :lol:
nous sommes 30, plus qu'un an
300, ....

Il faut pouvoir trouver 300 personne capable de louer une machine avec connexion internet illimitée dédier uniquement à cela... Dans mon calcul je le faisait sur 10, mais si c'est 100, cela veux dire 3000 personnes Ou alors 300 personne avec 10 serveur... Et je ne ferais même pas le calcul pour 1000. Ensuite il faut une personne pour coder et optimiser le crawler, car cela ne ce fait pas comme un plugin wordpress, entre un crawler non optimiser et un optimiser les ressource nécessaire peuvent doubler voir énormément plus... Faire des règle de filtre, de priorité, car pas question de scanner 5000 fois la même pages à cause d'un id de session non identifier...

Djibou_Te@M a dit:
Utilisation BDD mère + BDD esclaves

Qui vas avoir la bdd mère? Car ce sont des donnée qui on une vrais valeur. Impossible à stocker intégralement chez tout les monde. Cela peux faire des quantité énorme de donnée à stocker. Donc on doit tout donnée a une personne de confiance qui vas devoir mettre en place un système pour que chacun puisse récupérer ce d'on il a besoin.

Djibou_Te@M a dit:
une aventure à tenter ?

A mon avis difficile sans une structure capable d'apporter une bonne base. Sauf que ce type de structure le fait pour elle et revend par la suite. Et justement je crois que cela existe déjà des service payant de ce type. Service qui coute surement moins chère que de devoir soit même avoir 10 serveur de crawl.

Djibou_Te@M · 20 Août 2010

C'est vrai que cela engendre un cout important niveau ressources.
Pour le code, si l'on part sur un système communautaire, c'est pour que tout ne soit pas fait par une seule personne
et avoir un code plus objectif, de même pour les filtres de recherche et de crawl.

Reste le souci de la base Mère qui doit se trouver à un endroit, du coup, oui trouver une personne de confiance, trouver les fonds, etc.

Mais bon, la fondation Mozilla a du se poser les mêmes questions au début, de même que les différentes branches de UNIX, pourtant ils sont bien là...

Après c'est vrai que je suis parfois un doux rêveur...

Marie-Aude · 20 Août 2010

il y a des solutions beaucoup moins couteuses que cela ... personnellement j'ai payé un soft de veille concurentielle 400 euros, et j'ai toutes les infos qu'il me faut.

jv2759 · 20 Août 2010

Djibou_Te@M a dit:
Pour le code, si l'on part sur un système communautaire, c'est pour que tout ne soit pas fait par une seule personne
et avoir un code plus objectif, de même pour les filtres de recherche et de crawl.

Il ne faut pas plein de programmeur moyen, mais quelque très bon. En sachant que ce qui sont intéresser ne sont pas les très bon programmeur.

Reste le souci de la base Mère qui doit se trouver à un endroit, du coup, oui trouver une personne de confiance, trouver les fonds, etc.

Djibou_Te@M a dit:
Mais bon, la fondation Mozilla a du se poser les mêmes questions au début, de même que les différentes branches de UNIX, pourtant ils sont bien là...

Mozilla à commencer avec 1 million, une bonne partie de code déjà crée, une unité dans les développeur, pas non plus de problème de confiance, tout le monde peux avoir tout les sources, et personne ne peux vraiment les vendre directement, ce qui peux ce vendre c'est l'expérience, donc celui qui triche ce retrouve moins bien positionner que les autres.

Mais surtout la différence tien dans la nature des ressources. Pour crée un logiciel open source, quasiment tout les ressources son lier au temps. Pour un crawler, les ressources sont beaucoup plus matériel.

pm27 · 24 Août 2010

Djibou_Te@M a dit:
Bonjour à tous,
Cela fait un an que Bing et Yahoo ont signé un accord et même si je fermais les yeux jusqu'à présent sur un éventuel arrêt
des certains outils Yahoo, je me pose de plus en plus la question :
Que va-t-il advenir du Yahoo Site Explorer ?

Rien d'encourageant pour l'avenir.... :?
Pour moi, c'était presque un automatisme d'aller le consulter, pour de la veille concurrentielle, pour avoir des pistes sur l'état de référencement des sites de mes clients et autres fins plus ou moins utiles...

Parlons peu, parlons bien, connaissez-vous d'autres outils de ce type, gratuits ?

Seriez-vous intéressés par la création d'un site explorer communautaire, fait par une communauté issue du SEO pour tous ?

On explore une piste actuellement en cours de développement :
http://wikiwix.com/index.php?lang=fr&disp=article&action=site%3Afrance.fr
La démo est à titre expérimentale, pas encore totalement fini mais on y travaille en ce moment.

Leonick · 24 Août 2010

pm27 a dit:
On explore une piste actuellement en cours de développement

heu, ça n'a aucun rapport avec les fonctionnalités de Yahoo Site Explorer, c'est juste une recherche à l'intérieur de wikipedia, à ce qu'il me semble

pm27 · 24 Août 2010

Leonick a dit:
pm27 a dit:

On explore une piste actuellement en cours de développement

Cliquez pour agrandir...

heu, ça n'a aucun rapport avec les fonctionnalités de Yahoo Site Explorer, c'est juste une recherche à l'intérieur de wikipedia, à ce qu'il me semble

En fait, la requête que j'ai envoyé site:france.fr renvoie les informations que nous avons collecté de notre crawleur sur le site france.fr ( nombre de pages, heure du dernier crawl, heure du prochain crawl ). Après si il vous faut plus d'infos, c'est le moment.

jv2759 · 24 Août 2010

pm27 a dit:
Après si il vous faut plus d'infos, c'est le moment.

On parler plutôt de la commande :

link:france.fr

pm27 · 24 Août 2010

jv2759 a dit:
pm27 a dit:

Après si il vous faut plus d'infos, c'est le moment.

Cliquez pour agrandir...

On parler plutôt de la commande :

link:france.fr

Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement

SpeedAirMan · 24 Août 2010

Marie-Aude a dit:
il y a des solutions beaucoup moins couteuses que cela ... personnellement j'ai payé un soft de veille concurentielle 400 euros, et j'ai toutes les infos qu'il me faut.

Peux tu nous donner le nom du soft en question stp?

milkiway · 24 Août 2010

Marie-Aude a dit:
il y a des solutions beaucoup moins couteuses que cela ... personnellement j'ai payé un soft de veille concurentielle 400 euros, et j'ai toutes les infos qu'il me faut.

Lequel ?

Visafacile.net · 24 Août 2010

Solution gratuite made in America : j'ai lu sur une de mes sources d'informations américaines une astuce qui permet voir les backlinks en utilisant Google !
Il faut juste mettre l'URL entre guillemets et lancer une recherche et... voilà les pages qui contiennent cet URL.
Voici un exemple concret https://www.google.fr/search?hl=fr&q=%22boursedeparis.info%22&btnG=Rech ... =&gs_rfai=
C'est une alternative non négligeable.

GUITEL · 24 Août 2010

Pas mal l'histoire des guillemets :wink: merci de l'info

Madrileño · 24 Août 2010

Visafacile.net a dit:
Voici un exemple concret https://www.google.fr/search?hl=fr&q=%22boursedeparis.info%22&btnG=Rech ... =&gs_rfai=
C'est une alternative non négligeable.

C'est un outil de plus.

Leonick · 24 Août 2010

GUITEL a dit:
Pas mal l'histoire des guillemets :wink: merci de l'info

sauf que ça ne fonctionne pas à tous les coups https://www.google.fr/search?hl=fr&q=%22bourse.pro%22&btnG=Rechercher

GUITEL · 24 Août 2010

A je ne sais pas si ça fonctionne à tous les coups mais en tout cas ça marche mieux en mettant une extension d'une url (.com, .net etc..) :wink:

Leonick · 24 Août 2010

GUITEL a dit:
A je ne sais pas si ça fonctionne à tous les coups mais en tout cas ça marche mieux en mettant une extension d'une url (.com, .net etc..) :wink:

et .pro ce n'est pas une extension, par hasard ? :roll:

GUITEL · 24 Août 2010

etant donnée que le site bourse.pro n'a pas l'air d'être indéxé dans gg ça ne risque pas de fonctionner

La commande considere que tu mets des mots et non pas une extension

Madrileño · 24 Août 2010

GUITEL faut arrêter les jeux-vidéos. :mrgreen:

GUITEL · 24 Août 2010

faut arrêter les jeux-vidéos

CHuttttttttttt !!

Plus sérieusement, en tapant bourse.pro chez moi GG ne trouve pas et me suggère de taper bourse.fr

Djibou_Te@M · 24 Août 2010

Du coup, cette solution de GG parait assez intéressante et même pertinente dans le sens ou l'on peut faire via un applicatif web :
nom du site -> vérifier s'il est indexé chez google
si oui
-> on fait la recherche "www.URL.com" et via snoopy, on compte le nb de résultats, on extrait les url,etc.
sinon, ça envoie bouler...

A approfondir sérieusement je pense

Leonick · 24 Août 2010

GUITEL a dit:
Plus sérieusement, en tapant bourse.pro chez moi GG ne trouve pas et me suggère de taper bourse.fr

je crois qu'il faut arrêter d'extrapoler à partir d'un cas particulier.
Un 2° exemple, en plus, le .pro existe https://www.google.fr/search?q="annuaire.pro" dans la 1) page, on voit les http://www.pagesjaunes.fr et fr.kompass.com
Otto aurait donc réussi à obtenir des BL depuis ces sites ? il est vraiment trop fort :mrgreen:

jv2759 · 24 Août 2010

pm27 a dit:
Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement

Donc environs 4 million de pages par jour... 120 millions par mois. C'est pas encore cela mais si vous pouvez le faire, cela peux en interesser certain...

Leonick · 24 Août 2010

pm27 a dit:
Certes mais c'est une fonctionnalité qu'on peut facilement rajouter, c'est pour récupérer les liens entrants, j'ai environ une dizaine de serveurs qui peuvent faire çà à raison de 5 pages / secondes. Cordialement

à supposer que tous les sites vous laissent crawler leurs sites (si toutefois vous respectez le robots.txt). Perso, je n'autorise que les gros moteurs francophones. Mes sites n'étant pas internationaux, de me retrouver dans baidu ou yandex ne m'est d'aucune utilité et les autres "moteurs" ne m'amènent aucun visiteur. Déjà que exalead a du mal à m'en envoyer plus de 10 par trimestre :mrgreen:

GUITEL · 24 Août 2010

@leonick

il est vraiment trop fort

oui effectivement ton deuxième exemple est plus parlant.

par contre dans ta requête tu mets (seulement) annuaire.pro alors que si tu peaufines ta recherche et que tu mets avec les w devant le résultat change et semble plus cohérent.

Cette commande semble fonctionner comme le recherche/remplacer d'un éditeur de texte qui recherche un groupe de mot dans la toile.

finstreet · 25 Août 2010

restons dans :
https://www.google.fr/search?hl=fr&q=%22bourse.fr%22&aq=f&aqi=&aql=&oq=&gs_rfai=

Leonick · 25 Août 2010

GUITEL a dit:
par contre dans ta requête tu mets (seulement) annuaire.pro alors que si tu peaufines ta recherche et que tu mets avec les w devant le résultat change et semble plus cohérent.

même pas https://www.google.fr/search?hl=fr&q="www.annuaire.pro" dès le 2° site on ne trouve pas de lien. Et ne surtout pas se fier au

Ces termes apparaissent uniquement dans les liens pointant sur cette page :

de google, qu'il affiche dès qu'une page apparait dans ses serp sans que les mots cherchés ne s'y trouve, pour plein de raisons : synonymes, acronymes, ou encore parce qu'il ne trouve rien de mieux et "oublie" volontairement certains critères de la recherche...

WebRankInfo · 25 Août 2010

Sur Google ce n'est pas possible, l'opérateur link: est bridé (lire mon article sur les commandes link sur Google et Yahoo)
La recherche d'une URL entre guillemets ne fait que lancer une recherche des pages pertinentes pour la requête indiquée, à savoir une suite de mots. A rapprocher plutôt des citations qui ne sont pas forcément des liens

A moins que ça ait changé mais je n'ai pas l'impression

detectimmobilier · 21 Septembre 2010

A propos de "brider", connaissez vous un moyen de restreindre l'accès d'une URL dans Yahoo Site Explorer par mot de passe comme dans les GWT (connexion à son compte nécessaire) ?

vitalizo · 21 Septembre 2010

detectimmobilier a dit:
A propos de "brider", connaissez vous un moyen de restreindre l'accès d'une URL dans Yahoo Site Explorer par mot de passe comme dans les GWT (connexion à son compte nécessaire) ?

Ca n'existe pas

.

De toute façon, y'a tellement de logiciels (je recommande rank tracker de seopower) qu'on trouvera de toute façon les bl d'un site donné.

mobernard · 12 Juin 2011

Leur manière de communiquer (chez Yahoo) est peu professionnelle : annoncer qu'un service va fermer fin 2010, puis en mars 2011 pour le voir fonctionner à ce jour.

C'est le problème des services gratuits : comme le client ne paye pas, il n'est pas un client et n'a pas à être pris en compte. Un beau jour, l'API disparaît sans fleur ni couronnes !

C'est d'autant plus surprenant que Yahoo Site Explorer a des données beaucoup plus complètes que Open Site Explorer ou Majestic SEO (ces derniers sont vraiment faibles sur les petits sites non US), lesquels ont en plus une tarification pusillanime. Je pense que cela va perdurer, avec éventuellement une évolution vers un mode payant pour l'API.

La solution que j'ai trouvé à ce problème de services non fiables, c'est d'acheter les données à des spécialistes du scraping massif et brutal et me construire mon petit service à moi : pas de limitation d'api calls, pas de changement intempestif sur l'interface, pas de serveur surchargé, pas de disparition possible du service, etc.

Dans le cas de Yahoo Site Explorer, une telle base n'existe pas à ma connaissance, mais si ces %$+^$\\\ de Yahoo décident de fermer le service, je pense qu'une telle base va apparaître à la vente rapidement. Elle ne portera pas sur 100% des données, car cela n'a aucun intérêt, mais basé sur le résultats de Google obtenus sur les quelques centaines de millions de requêtes les plus importantes sur Google (marché US + Europe). En prenant une moyenne de 10 résultats par requête, on obtient quelques milliards de pages à télécharger, et à raison de 100 par seconde, cela fait une centaine de jours par tranche de 100 millions de requête. C'est du boulot et quelques débours, mais certainement pas le bout du monde !

Marie-Aude · 12 Juin 2011

French Dread a dit:
Il restera encore actif 1 an ou 2 ans le temps que la migration vers Bing soit achevée dans l'ensemble du monde, puis sera intégré dans les outils Bing. Dans l'immédiat donc pas de panique.

WebRankInfo · 14 Juin 2011

mobernard a dit:
Yahoo Site Explorer a des données beaucoup plus complètes que Majestic SEO

je suis assez surpris de lire ceci... car pour pas mal de sites je vois vraiment le contraire. Ca doit dépendre de la taille des sites sans doute.

Si j'ai bien compris, tu as créé ton propre crawler ? Comment fais-tu pour qu'il soit exhaustif ?

focoweb.fr · 12 Juillet 2011

j ai trouvé ça dans la doc de l api de site explorer :
We’re shutting down this service in March 2011.