recuperer automatiquement les urls des resultat gg

WRInaute occasionnel
Bonjour,

Voilà mon problème, je voudrais concevoir un script php qui récupère les urls des résultats de gg et me les stocks en bdd.

Mon problème c'est que je n'ai aucune idée de comment m'y prendre avez vous une idée ?
 
WRInaute accro
pourquoi ne aps utiliser un script tout fait, vu que des dizaines le font :) sinon il suffit de recuperer en php la valeur du referer, et si c est google, prendre ce qu'i ly a apres "q=" et tu as les mots clés tappés
 
WRInaute occasionnel
Je crois que je me suis mal expliqué :lol:

En fait le script fait une recherche sur gg, ensuite dans les pages de résultats il m'aspire toutes les url présente et me les stock en bdd.
 
WRInaute accro
Achete un logiciel :)
ou alors programme une fonction php qui

- ouvre la page de résultats GG
- parse son contenu
- isole et récupère les URL des sites indiqués
- les stocke dans une base de données SQL
 
WRInaute occasionnel
nickargall a dit:
Achete un logiciel :)
ou alors programme une fonction php qui

- ouvre la page de résultats GG
- parse son contenu
- isole et récupère les URL des sites indiqués
- les stocke dans une base de données SQL

lol 100 % ce que je voudrais faire comme je l'ai dit dans mon 1er post ^^' maintenant comment programmer ça c'est ma question XD

Pour info j'ai essayé avec xenu mais bloqué par gg "forbiden"
 
WRInaute passionné
oli004 a dit:
Oui je me debrouille mais je suis loin de maitriser a 100%

Quand on ne sait pas parfaitement naviguer, on ne se lance pas dans un tour du monde à la voile :twisted:

Ce n'est pas un tour du monde mais une croisière sur un lac.
A mon avis, c'est un bon projet pour apprendre.

François
 
Nouveau WRInaute
Script

J'ai ce genre de script sous la main;
Par contre, peux-tu m'éclairer sur la finalité de cette démarche ?
 
WRInaute occasionnel
Veuillez concurrentielle, récupérer les concurrent placé, analyser leur méthode de ref pour trouver mieux ^^' et suivre l'avancement de ceux qui sont moins bien placé pour comprendre pourquoi ils gagnent des places
 
WRInaute accro
johnny-57 a dit:
Pour info j'ai essayé avec xenu mais bloqué par gg "forbiden"
gg n'aime pas les appels automatisés et donc, quand il trouve trop de requêtes en provenance d'une ip, il la blackliste pendant quelques temps (1h ou plus, je ne sais pas).
Alors si tu es sur un mutualisé, avec les autres sites qui auraient la même envie, le blacklistage risque d'être continu
 
WRInaute occasionnel
Oui j'ai déjà eu le cas avec un logiciel que j'utilise pour verifier le positionnement, après trop de requête black listage pendant X temps seule astuce rebouter le modem pour changer d'ip ^^'
 
WRInaute discret
l'API google marche tres bien, lis sont juste arrete de filer des clefs d'utilisation :(

Sinon tu peux donc parser la page, c'est pas bien dur, le seul probleme est que l'architecture meme des pages google pourrait changer et comme le parsing se base sur des elements plus moins "reconnaissable", il faut faire gaffe... voila comment je ferais :

1- tu récupere la page google de ta recherche via la fonction PHP : file_get_content (php5) http://uk.php.net/manual/fr/function.fi ... ntents.php
(tu pourrait avoir besoin de trafiquer les headers HTTP genre user_agent si google refuse de te donner du contenu)

2- c'est la que ca se complique , tu utilise les REGEXP (expression rationnelles) pour récuperer les URL qui t'interressent. Tu dois donc trouver dans le code fourni par google un pattern (schema) reproduit à chaque fois par google pour afficher l'url qui te concerne...

en gros si l'URL que tu recherche est l'URL du TITLE de chaque resultat de recherche google, ca va avoir cette gueule la :

<a class="l" onmousedown="return clk(this.href,'','','res','1','')" href="http://www.testcouleur.com/">

ta regexp doit etre crée en consequence et ne te renverra que ces resultats la

je te laisse te documenter sur les regexp, tu vas avoir besoin en gros de : preg_match() ou eregi()

3- derniere etape qui peux etre importante : si ta recherche ne renvois aucun resultat, c'est que google a chagé la structure de son code (donc ton pattenr ne correspond plius) donc tu t'envoi un mail automatique pour t'en avertir et reagir au plus vite ;)
 
WRInaute occasionnel
Merci beaucoup bixi pour ses infos très intéressantes, malheureusement je n'ai pas de clé api google.

Je me demande si ce n'est pas sur l'api que yatooweb fait ses requêtes, sinon il serait vite blacklisté.

Sinon je pourrais toujours le faire sur google "classique" en limitant le nombre de requête consécutive pour éviter le blacklistage.
 
WRInaute accro
johnny-57 a dit:
Je me demande si ce n'est pas sur l'api que yatooweb fait ses requêtes, sinon il serait vite blacklisté.
avec l'API il y avait aussi une limite.
oyoy.eu par exemple se retrouve bloqué par google assez fréquemment
 
WRInaute discret
johnny-57 a dit:
Merci beaucoup bixi pour ses infos très intéressantes, malheureusement je n'ai pas de clé api google.

Je me demande si ce n'est pas sur l'api que yatooweb fait ses requêtes, sinon il serait vite blacklisté.

Sinon je pourrais toujours le faire sur google "classique" en limitant le nombre de requête consécutive pour éviter le blacklistage.

mon explication est une methode sans passer par l'API google justement, avec google API, tu aurais pas besoin de parser le HTML de la page d'un resultat de recherche :p
 
Discussions similaires
Haut