Meilleure méthode pour récupérer les résultats Google ?

Discussion dans 'Débuter en référencement' créé par wishek3, 25 Août 2009.

  1. wishek3
    wishek3 WRInaute discret
    Inscrit:
    24 Août 2009
    Messages:
    79
    J'aime reçus:
    0
    Bonjour,

    J'ai lu quelques trucs ici et la mais je ne vois toujours pas quel est la meilleure méthode pour récupérer des résultats dans Google de façon automatisé ?

    Je suis conscient qu'il y a beaucoup de chose qui rentre en ligne de compte (serveur depuis lequel on lance le script, méthode utilisée etc)

    Par exemple quel est la différence si j'aspire les résultats Google directement avec la commande PHP file_get_contents en ciblant une url contenant déjà le mot-clé, le nombre de résultat etc en paramètre, ou si je simule un navigateur PHP ?

    Bien que je n'ai pas encore compris comment simuler l'envoi d'un formulaire :S
     
  2. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    640
    J'aime reçus:
    0
    Salut,

    Je ne comprend pas trop ce que tu veux savoir.
    Ca veut dire quoi pour toi "simuler un navigateur" ? La fonction principale d'un navigateur c'est de récupérer une page web et l'afficher non ?
    Ta fonction file_get_contents récupère la page, l'affichage reste à faire.

    Cela dit, il existe des fonctions beaucoup plus évoluées et spécialement développées pour HTTP, comme les fonctions CURL par exemple (PHP ne le propose pas natif me semble-t-il, ça doit être une extension).

    Avec CURL tu peux tout faire: gestion des cookies, requêtes POST (envoi de données par HTTP), etc...
     
  3. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 596
    J'aime reçus:
    0
  4. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 643
    J'aime reçus:
    81
    Cela fait des mois que Google a bloquer l'acces de ses serps a ce type de commandes (file_get_contents, curl), histoire de freiner les milliers de jeunes moteurs qui se nourrissaisent des resultats de google pour alimenter les leurs; Today Son seul accés est l'utilisation de l'API meme de Google, donc réglementé et controlé. End of the story

    ++
    KOogar
     
  5. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    640
    J'aime reçus:
    0
    Google n'a aucun moyen de détecter la façon dont la requete est faite (vrai navigateur ou automatiquement).
    Mais c'est vrai que Google limite le nombre de requêtes autorisées par adresse IP, au bout d'un certain nombre de recherches, il bloque sur un message d'erreur.
     
  6. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 596
    J'aime reçus:
    0
    Je confirme les dires de FloBoati.
    Je fais plus de 3 000 requêtes/jour (ce qui est assez peu) en utilisant CURL (pas en PHP. En Ruby) sur le site de mon profil.
    Et cela fonctionne dans l'ensemble plutôt bien.
     
  7. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    les serveurs, il connait leur ip, quand il crawle les sites pour son index. Il lui suffit ensuite de bloquer toutes ces ip :wink:
     
  8. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    640
    J'aime reçus:
    0
    Je ne vois pas du tout la logique...
    Ca voudrait dire que pour Google, on n'a pas le droit d'héberger des sites sur des machines qui servent de proxy, vpn, ou simplement sur une machine où on navigue ? N'importe quoi...
     
  9. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 643
    J'aime reçus:
    81
    O temps pour moi !! j'ai essayé en local, cher ovh et online et vu que j'ai pris un 403 a chaque fois, et mon poteau a fais de meme chez d'autres hebergeurs avec le meme resultat, j'en ai conclus que les acces etaient bien vérouillés aujourd'hui..

    alors je suis passé a l'api, qui de tout facon va a ravir. les resultats sont deja triés mais ils sont legerement differents que sur l'officiel. Pour savoir si un texte est deja indexé et surtout qui l'a indexé, l'api est nickel
     
  10. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    il fait un reverse ip, ensuite, si il voit des dizaines, centaines ou milliers de sites sur la même plage d'ip, que cela ne correspond pas à un FAI, il bloque les requêtes.
    Et même au niveau d'ip de FAI, on se retrouve assez vite bloqué en 403, sans avoir besoin d'effectuer des centaines de requêtes à la minute. Quand je veux faire des vérifs automatiques, je me retrouve souvent à devoir taper le code du captcha, voire rebooter le routeur pour obtenir une autre ip 8)
     
  11. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    640
    J'aime reçus:
    0
    Et pourquoi le fait d'accéder à Internet via une IP qui n'est pas attribuée à un "FAI" serait suspect aux yeux de Google ? Tu fais quoi des proxy, et services de VPN qui vont se multiplier dans les mois à venir ? :roll:
    Et bien dans ce cas là, vérifie que tu es le seul à utiliser cette IP, vérifie tes scripts et autres plugins pour Firefox qui bugguent souvent et rechargent à la rache les pages Google. Le plugin CustomizeGoogle par exemple, chez moi, essaye souvent de recharger certaines pages de recherches de Google, ce qui me fait passer pour suspect aux yeux de Google et j'ai effectivement à entrer le captcha. SInon habituellement jamais.

    Si Google agissait comme tu le dis, ce serait vraiment très agressif et je ne vois pas pourquoi autant de monde continuerait d'utiliser Google.
     
  12. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 274
    J'aime reçus:
    0
    c'est pas les plugins, c'est mon script de suivi de positionnement que vérifie plusieurs dizaines de mots clés et au bout de 2 ou 3 sites (même avec des sleep entre les requêtes) se trouve bloqué par gg. Et, effectivement, c'est à l'arrache, car c'est le seul moyen d'obtenir les vraies positions contrairement aux api
     
  13. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 643
    J'aime reçus:
    81
    la tete dans l'ecran, la main droite sur la souris, la gauche sur le clavier et le pied sur l'interrupteur du routeur, c'est pas réservé a tous le monde le métier de webmaster :)
     
Chargement...
Similar Threads - Meilleure méthode récupérer Forum Date
Les meilleures méthodes, astuces et outils SEO recommandés par WebRankInfo Référencement Google 13 Octobre 2017
Meilleure méthode pour référencer une boutique multilingue ? Référencement international (langues, pays) 14 Avril 2012
Désindexer 100 pages d'un coup: la meilleure methode? Débuter en référencement 21 Mai 2010
Meilleure methode pour referencer un site portail de 4 sites Problèmes de référencement spécifiques à vos sites 22 Décembre 2007
Paiement par paypal, script et meilleure méthode Développement d'un site Web ou d'une appli mobile 13 Septembre 2007
La meilleure méthode pour identifier ses backlinks Débuter en référencement 12 Juin 2007
Meilleure méthode pour une redirection Netlinking, backlinks, liens et redirections 8 Janvier 2006
detection du passage de google bot : la meilleure methode ? Crawl et indexation Google, sitemaps 3 Décembre 2005
Quelle est la meilleure méthode pour l'url rewriting et pk ? URL Rewriting et .htaccess 17 Octobre 2005
quel est la meilleure methode pour poster ses url sur google Débuter en référencement 13 Octobre 2005
Revenir dans le SEO apres 12 ans : meilleure option pour un petit site Vitrine? Débuter en référencement 25 Mai 2021
Meilleure passerelle pour vendre mon produit e-commerce 11 Avril 2021
Vos meilleures plateformes netlinking anglais ?! Référencement international (langues, pays) 10 Janvier 2021
Meilleure solution pour vendre des PDF à 1€ e-commerce 3 Décembre 2020
Meilleure solution pour les noms de fichiers HTML Débuter en référencement 6 Novembre 2020
Backlinks et meilleure stratégie SEO Netlinking, backlinks, liens et redirections 14 Octobre 2019
Meilleure façon de faire une sauvegarde site web Administration d'un site Web 3 Mai 2019
Meilleure structure de liens internes vers une landing page Référencement Google 5 Avril 2019
Meilleure façon de référencer une entreprise au niveau national Référencement Google 26 Octobre 2017
Meilleure technique pour luter contre les Titres dupliqués sur un site e-commerce ? Référencement Google 23 Juin 2017