Meilleure méthode pour récupérer les résultats Google ?

wishek3 · 25 Août 2009

Bonjour,

J'ai lu quelques trucs ici et la mais je ne vois toujours pas quel est la meilleure méthode pour récupérer des résultats dans Google de façon automatisé ?

Je suis conscient qu'il y a beaucoup de chose qui rentre en ligne de compte (serveur depuis lequel on lance le script, méthode utilisée etc)

Par exemple quel est la différence si j'aspire les résultats Google directement avec la commande PHP file_get_contents en ciblant une url contenant déjà le mot-clé, le nombre de résultat etc en paramètre, ou si je simule un navigateur PHP ?

Bien que je n'ai pas encore compris comment simuler l'envoi d'un formulaire :S

FloBaoti · 25 Août 2009

Salut,

Je ne comprend pas trop ce que tu veux savoir.
Ca veut dire quoi pour toi "simuler un navigateur" ? La fonction principale d'un navigateur c'est de récupérer une page web et l'afficher non ?
Ta fonction file_get_contents récupère la page, l'affichage reste à faire.

Cela dit, il existe des fonctions beaucoup plus évoluées et spécialement développées pour HTTP, comme les fonctions CURL par exemple (PHP ne le propose pas natif me semble-t-il, ça doit être une extension).

Avec CURL tu peux tout faire: gestion des cookies, requêtes POST (envoi de données par HTTP), etc...

dmathieu · 26 Août 2009

Documentation de php_curl : http://fr3.php.net/curl

KOogar · 26 Août 2009

Cela fait des mois que Google a bloquer l'acces de ses serps a ce type de commandes (file_get_contents, curl), histoire de freiner les milliers de jeunes moteurs qui se nourrissaisent des resultats de google pour alimenter les leurs; Today Son seul accés est l'utilisation de l'API meme de Google, donc réglementé et controlé. End of the story

++
KOogar

FloBaoti · 26 Août 2009

Google n'a aucun moyen de détecter la façon dont la requete est faite (vrai navigateur ou automatiquement).
Mais c'est vrai que Google limite le nombre de requêtes autorisées par adresse IP, au bout d'un certain nombre de recherches, il bloque sur un message d'erreur.

dmathieu · 26 Août 2009

Je confirme les dires de FloBoati.
Je fais plus de 3 000 requêtes/jour (ce qui est assez peu) en utilisant CURL (pas en PHP. En Ruby) sur le site de mon profil.
Et cela fonctionne dans l'ensemble plutôt bien.

Leonick · 26 Août 2009

FloBaoti a dit:
Google n'a aucun moyen de détecter la façon dont la requete est faite (vrai navigateur ou automatiquement).

les serveurs, il connait leur ip, quand il crawle les sites pour son index. Il lui suffit ensuite de bloquer toutes ces ip :wink:

FloBaoti · 26 Août 2009

Leonick a dit:
FloBaoti a dit:

Google n'a aucun moyen de détecter la façon dont la requete est faite (vrai navigateur ou automatiquement).

Cliquez pour agrandir...

les serveurs, il connait leur ip, quand il crawle les sites pour son index. Il lui suffit ensuite de bloquer toutes ces ip :wink:

Je ne vois pas du tout la logique...
Ca voudrait dire que pour Google, on n'a pas le droit d'héberger des sites sur des machines qui servent de proxy, vpn, ou simplement sur une machine où on navigue ? N'importe quoi...

KOogar · 26 Août 2009

kazhar a dit:
Je confirme les dires de FloBoati.
Je fais plus de 3 000 requêtes/jour (ce qui est assez peu) en utilisant CURL (pas en PHP. En Ruby) sur le site de mon profil.
Et cela fonctionne dans l'ensemble plutôt bien.

O temps pour moi !! j'ai essayé en local, cher ovh et online et vu que j'ai pris un 403 a chaque fois, et mon poteau a fais de meme chez d'autres hebergeurs avec le meme resultat, j'en ai conclus que les acces etaient bien vérouillés aujourd'hui..

alors je suis passé a l'api, qui de tout facon va a ravir. les resultats sont deja triés mais ils sont legerement differents que sur l'officiel. Pour savoir si un texte est deja indexé et surtout qui l'a indexé, l'api est nickel

Leonick · 26 Août 2009

FloBaoti a dit:
Ca voudrait dire que pour Google, on n'a pas le droit d'héberger des sites sur des machines qui servent de proxy, vpn, ou simplement sur une machine où on navigue ? N'importe quoi...

il fait un reverse ip, ensuite, si il voit des dizaines, centaines ou milliers de sites sur la même plage d'ip, que cela ne correspond pas à un FAI, il bloque les requêtes.
Et même au niveau d'ip de FAI, on se retrouve assez vite bloqué en 403, sans avoir besoin d'effectuer des centaines de requêtes à la minute. Quand je veux faire des vérifs automatiques, je me retrouve souvent à devoir taper le code du captcha, voire rebooter le routeur pour obtenir une autre ip 8)

FloBaoti · 26 Août 2009

Leonick a dit:
il fait un reverse ip, ensuite, si il voit des dizaines, centaines ou milliers de sites sur la même plage d'ip, que cela ne correspond pas à un FAI, il bloque les requêtes.

Et pourquoi le fait d'accéder à Internet via une IP qui n'est pas attribuée à un "FAI" serait suspect aux yeux de Google ? Tu fais quoi des proxy, et services de VPN qui vont se multiplier dans les mois à venir ? :roll:

Leonick a dit:
Et même au niveau d'ip de FAI, on se retrouve assez vite bloqué en 403, sans avoir besoin d'effectuer des centaines de requêtes à la minute. Quand je veux faire des vérifs automatiques, je me retrouve souvent à devoir taper le code du captcha, voire rebooter le routeur pour obtenir une autre ip 8)

Et bien dans ce cas là, vérifie que tu es le seul à utiliser cette IP, vérifie tes scripts et autres plugins pour Firefox qui bugguent souvent et rechargent à la rache les pages Google. Le plugin CustomizeGoogle par exemple, chez moi, essaye souvent de recharger certaines pages de recherches de Google, ce qui me fait passer pour suspect aux yeux de Google et j'ai effectivement à entrer le captcha. SInon habituellement jamais.

Si Google agissait comme tu le dis, ce serait vraiment très agressif et je ne vois pas pourquoi autant de monde continuerait d'utiliser Google.

Leonick · 26 Août 2009

FloBaoti a dit:
vérifie tes scripts et autres plugins pour Firefox qui bugguent souvent et rechargent à la rache les pages Google.

c'est pas les plugins, c'est mon script de suivi de positionnement que vérifie plusieurs dizaines de mots clés et au bout de 2 ou 3 sites (même avec des sleep entre les requêtes) se trouve bloqué par gg. Et, effectivement, c'est à l'arrache, car c'est le seul moyen d'obtenir les vraies positions contrairement aux api

KOogar · 27 Août 2009

la tete dans l'ecran, la main droite sur la souris, la gauche sur le clavier et le pied sur l'interrupteur du routeur, c'est pas réservé a tous le monde le métier de webmaster