Bonjour, J'ai lu quelques trucs ici et la mais je ne vois toujours pas quel est la meilleure méthode pour récupérer des résultats dans Google de façon automatisé ? Je suis conscient qu'il y a beaucoup de chose qui rentre en ligne de compte (serveur depuis lequel on lance le script, méthode utilisée etc) Par exemple quel est la différence si j'aspire les résultats Google directement avec la commande PHP file_get_contents en ciblant une url contenant déjà le mot-clé, le nombre de résultat etc en paramètre, ou si je simule un navigateur PHP ? Bien que je n'ai pas encore compris comment simuler l'envoi d'un formulaire :S
Salut, Je ne comprend pas trop ce que tu veux savoir. Ca veut dire quoi pour toi "simuler un navigateur" ? La fonction principale d'un navigateur c'est de récupérer une page web et l'afficher non ? Ta fonction file_get_contents récupère la page, l'affichage reste à faire. Cela dit, il existe des fonctions beaucoup plus évoluées et spécialement développées pour HTTP, comme les fonctions CURL par exemple (PHP ne le propose pas natif me semble-t-il, ça doit être une extension). Avec CURL tu peux tout faire: gestion des cookies, requêtes POST (envoi de données par HTTP), etc...
Cela fait des mois que Google a bloquer l'acces de ses serps a ce type de commandes (file_get_contents, curl), histoire de freiner les milliers de jeunes moteurs qui se nourrissaisent des resultats de google pour alimenter les leurs; Today Son seul accés est l'utilisation de l'API meme de Google, donc réglementé et controlé. End of the story ++ KOogar
Google n'a aucun moyen de détecter la façon dont la requete est faite (vrai navigateur ou automatiquement). Mais c'est vrai que Google limite le nombre de requêtes autorisées par adresse IP, au bout d'un certain nombre de recherches, il bloque sur un message d'erreur.
Je confirme les dires de FloBoati. Je fais plus de 3 000 requêtes/jour (ce qui est assez peu) en utilisant CURL (pas en PHP. En Ruby) sur le site de mon profil. Et cela fonctionne dans l'ensemble plutôt bien.
les serveurs, il connait leur ip, quand il crawle les sites pour son index. Il lui suffit ensuite de bloquer toutes ces ip :wink:
Je ne vois pas du tout la logique... Ca voudrait dire que pour Google, on n'a pas le droit d'héberger des sites sur des machines qui servent de proxy, vpn, ou simplement sur une machine où on navigue ? N'importe quoi...
O temps pour moi !! j'ai essayé en local, cher ovh et online et vu que j'ai pris un 403 a chaque fois, et mon poteau a fais de meme chez d'autres hebergeurs avec le meme resultat, j'en ai conclus que les acces etaient bien vérouillés aujourd'hui.. alors je suis passé a l'api, qui de tout facon va a ravir. les resultats sont deja triés mais ils sont legerement differents que sur l'officiel. Pour savoir si un texte est deja indexé et surtout qui l'a indexé, l'api est nickel
il fait un reverse ip, ensuite, si il voit des dizaines, centaines ou milliers de sites sur la même plage d'ip, que cela ne correspond pas à un FAI, il bloque les requêtes. Et même au niveau d'ip de FAI, on se retrouve assez vite bloqué en 403, sans avoir besoin d'effectuer des centaines de requêtes à la minute. Quand je veux faire des vérifs automatiques, je me retrouve souvent à devoir taper le code du captcha, voire rebooter le routeur pour obtenir une autre ip 8)
Et pourquoi le fait d'accéder à Internet via une IP qui n'est pas attribuée à un "FAI" serait suspect aux yeux de Google ? Tu fais quoi des proxy, et services de VPN qui vont se multiplier dans les mois à venir ? :roll: Et bien dans ce cas là, vérifie que tu es le seul à utiliser cette IP, vérifie tes scripts et autres plugins pour Firefox qui bugguent souvent et rechargent à la rache les pages Google. Le plugin CustomizeGoogle par exemple, chez moi, essaye souvent de recharger certaines pages de recherches de Google, ce qui me fait passer pour suspect aux yeux de Google et j'ai effectivement à entrer le captcha. SInon habituellement jamais. Si Google agissait comme tu le dis, ce serait vraiment très agressif et je ne vois pas pourquoi autant de monde continuerait d'utiliser Google.
c'est pas les plugins, c'est mon script de suivi de positionnement que vérifie plusieurs dizaines de mots clés et au bout de 2 ou 3 sites (même avec des sleep entre les requêtes) se trouve bloqué par gg. Et, effectivement, c'est à l'arrache, car c'est le seul moyen d'obtenir les vraies positions contrairement aux api
la tete dans l'ecran, la main droite sur la souris, la gauche sur le clavier et le pied sur l'interrupteur du routeur, c'est pas réservé a tous le monde le métier de webmaster