| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
klintistwood Nouveau WRInaute
Inscrit le: 25 Oct 2007 Messages: 13
|
Posté le : Mar Avr 01, 2008 18:19 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
Bonjour à tous,
J'ai fouillé le catalogue API de Google à la recherche d'une API qui me permettrait d'exporter les résultats de recherche. J'ai vu qu'une API existait mais qu'on ne distribuait plus de cliés pour l'utiliser Dans Yahoo, il existe une possibilité d'exporter des résultats en fichier TSV, c'est pas mal du tout, ça répond assez bien à ce que je voudrais faire mais pour mes besoins Yahoo semble indexer moins de pages que Google.
J'ai essayé d'utiliser Google Alert sur les domaines pour lesquels j'aimerais être avertis des changements et je reçois effectivement des alertes mais elles ne m'apportent rien car la plupart du temps, je ne suis pas averti des changements et quand je reçois une alerte, c'est pour une url que je connais déjà.
Pour expliquer plus concretement mon besoin, voici un peu plus d'explication.
Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent. Je peux le faire indirectement avec Yahoo via l'export en TSV mais comme je l'ai dit, Yahoo n'indexe pas assez ce genre d'information.
Quelqu'un a une idée?
Merci!
Laurent |
|
| |
|
 |
webmasterlamogere WRInaute accro

Inscrit le: 17 Déc 2006 Messages: 1604 Localisation: urlrewriting.fr
|
Posté le : Mar Avr 01, 2008 18:34 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
| il n'y a pas de flux rss correspondant? |
|
| |
|
 |
jcaron WRInaute passionné

Inscrit le: 13 Fév 2004 Messages: 501 Localisation: Paris
|
Posté le : Mar Avr 01, 2008 19:24 Sujet du message: Re: Exporter les résultats Google comme avec Yahoo |
|
|
| klintistwood a écrit: |
| Mon site (http://www.mobilemultimedia.be) héberge des caractéristiques de téléphones portables et réunir ces informations me demande du temps de recherche. Ce que j'aimerais donc c'est de mettre en place quelque chose qui surveille l'apparition de nouveaux téléphones dans les répertoires où les constructeurs déposent habituellement les fichiers qui m'intéressent. |
Si tu sais déjà où ils mettent les infos, pourquoi passer par Google ou Yahoo? Tu pourrais aller directement au bon endroit voir ce que tu y trouves...
Sinon si tu as un nombre pas trop élevé de résultats, rien ne t'empêche d'interroger (avec parcimonie) Google comme un utilisateur lambda et de parser le HTML pour trouver les liens externes...
A part ça, bon courage, pour être passé par là je sais qu'ils sortent des nouveaux modèles toutes les trois minutes (ou des nouvelles versions du même modèle...), que les specs sont difficiles à trouver, et surtout qu'elles sont souvent très incomplètes voire complètement fausses
Jacques. |
|
| |
|
 |
klintistwood Nouveau WRInaute
Inscrit le: 25 Oct 2007 Messages: 13
|
Posté le : Mer Avr 02, 2008 8:52 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
merci pour vos réponses.
Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facile je suis donc obligé d'attendre qu"un moteur vienne indexer leurs fichiers. J'ai essayé de parser les résultats de Google mais quand j'ingère la page de résultat, j'ai Google qui s'énerve et qui me dit qu'il me soupçonne d'être un robot. Donc à moins qu'il existe une méthode particulière pour parser le html de Google, je me retrouve un peu coincé
Laurent |
|
| |
|
 |
jcaron WRInaute passionné

Inscrit le: 13 Fév 2004 Messages: 501 Localisation: Paris
|
Posté le : Mer Avr 02, 2008 12:35 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
| klintistwood a écrit: |
Jacques, je sais effectivement où ils mettent l'info mais ils n'autorisent bien évidemment pas le directory listing, ce serait trop facile je suis donc obligé d'attendre qu"un moteur vienne indexer leurs fichiers. |
Si le moteur l'indexe, c'est qu'il y a un lien quelque part... Même s'il n'y a pas de directory listing, il doit bien y avoir une page où ces fichiers sont liés... Ca peut être un peu plus compliqué et il peut y avoir plusieurs pages intermédiaires, mais bon...
Sinon les fichiers ont peut-être des noms avec des formats standard?
| klintistwood a écrit: |
J'ai essayé de parser les résultats de Google mais quand j'ingère la page de résultat, j'ai Google qui s'énerve et qui me dit qu'il me soupçonne d'être un robot. Donc à moins qu'il existe une méthode particulière pour parser le html de Google, je me retrouve un peu coincé  |
Ben là c'est pas tellement au niveau du parsing mais plutôt au niveau de la requête le problème, non? Moi j'ai une paire de trucs qui font quelques requêtes Google et les parsent et il ne m'a jamais dit qu'il me prenait pour un robot (bon, j'ai un "sleep 1" entre deux requêtes, ça peut aider...).
Jacques. |
|
| |
|
 |
klintistwood Nouveau WRInaute
Inscrit le: 25 Oct 2007 Messages: 13
|
Posté le : Mer Avr 02, 2008 22:55 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
Jacques, trouver la page d'origine serait le rêve mais je pense plutôt qu'ils doivent bosser avec un fichier sitemap ou un truc dans le genre, encore faut-il trouver où ils l'ont caché. Je ne comprends d'ailleurs pas pourquoi ils ne communiquent pas un peu plus à ce sujet. Les fichiers sont des fichiers xml mais qui ont un nom qui contient à chaque fois la marque et le modèle de téléphone donc pas possible de trouver une séquence qui permettrait de les rapatrier tous.
...par contre pour ta requete vers google, ça m'intéresse que mets-tu dans ta requête ? J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois. |
|
| |
|
 |
Leonick WRInaute accro

Inscrit le: 08 Aoû 2004 Messages: 8787 Localisation: Val de Marne
|
Posté le : Mer Avr 02, 2008 23:45 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
| klintistwood a écrit: |
| J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois. |
parce que tu dois être sur un mutualisé et que d'autres sites sur la même ip jouent aussi au même "jeu" et donc ip blacklisté par gg |
|
| |
|
 |
jcaron WRInaute passionné

Inscrit le: 13 Fév 2004 Messages: 501 Localisation: Paris
|
Posté le : Jeu Avr 03, 2008 1:30 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
| klintistwood a écrit: |
...par contre pour ta requete vers google, ça m'intéresse que mets-tu dans ta requête ? J'ai déjà essayé de construire des requêtes POST qui envoient le user agent de Firefox ou IE mais Google me rejette à chaque fois, je ne fais pourtant qu'une seule requête à la fois. |
Déjà c'est généralement un GET, pas un POST A part ça dans le cas présent j'utilise des requêtes que je récupère toutes faites (des referers), et puis je fais une requête toute bête avec rien de particulier et même pas un UA spécialement intelligent a priori (plutôt le genre monbot/1.0 en fait), et ça passe tout seul.
L'explication de Leonick est peut-être la bonne, je ne sais pas...
Jacques. |
|
| |
|
 |
klintistwood Nouveau WRInaute
Inscrit le: 25 Oct 2007 Messages: 13
|
Posté le : Jeu Avr 03, 2008 22:25 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
Leonick, j'ai fait les requetes à partir de mon serveur apache local sur mon pc donc j'imagine que le problème ne vient pas de là mais je n'y avais pas pensé, c'est pas bête!
Jacques, c'est vraiment très très con ce que je vais dire mais j'avais tout simplement pas pensé faire une requête en GET parce que je voulais éviter des conversions de caractères hasardeuses sur des variables comme le user agent. Je vais essayer ça ce week-end, merci d'avoir éclairé ma ptit lanterne  |
|
| |
|
 |
Leonick WRInaute accro

Inscrit le: 08 Aoû 2004 Messages: 8787 Localisation: Val de Marne
|
Posté le : Jeu Avr 03, 2008 22:47 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
| klintistwood a écrit: |
| Leonick, j'ai fait les requetes à partir de mon serveur apache local sur mon pc donc j'imagine que le problème ne vient pas de là mais je n'y avais pas pensé, c'est pas bête! |
en local, ça marche avec des get, mais faut pas trop abuser, car l'ip est bannie rapidement (genre 1 centaine de requêtes) |
|
| |
|
 |
klintistwood Nouveau WRInaute
Inscrit le: 25 Oct 2007 Messages: 13
|
Posté le : Dim Avr 06, 2008 14:50 Sujet du message: Exporter les résultats Google comme avec Yahoo |
|
|
merci les gars, j'ai réussi à faire ce que je voulais faire. Pour ceux que ça intéresse, voici un script permettant de récuperer les urls dans une page de résultat Google:
function GetToHost($link) {
$http_response = "";
$url = parse_url($link);
$fp = fsockopen($url[host], 80, $err_num, $err_msg, 30) or
die("Socket-open failed--error: ".$err_num." ".$err_msg);
fputs($fp, "GET $url[path]?$url[query] HTTP/1.0\r\n");
fputs($fp, "Host: host.org\r\n\r\n");
fputs($fp, "Connection: Close\r\n");
while(!feof($fp)) {
$http_response .= fgets($fp, 128);
}
fclose($fp);
return $http_response;
}
$test=GetToHost("http://www.google.com/search?hl=fr&num=100&q=VOTRE_SITE_A_CHERCHER");
echo $test;
$test=preg_match_all("%http://[a-zA-Z0-9\_\.\?\/\-]+\.(html|php|asp|AJOUTER ICI LES EXTENSIONS)%",$test,$matches);
echo "insert into inconnu (uaprof) values ";
foreach($matches[0] as $cle=>$val)
{
echo "('$val'),<br/>";
}
Et voilà! |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
|
|