1. ⭐⭐⭐ Grosse PROMO en cours sur ma plateforme SEO My Ranking Metrics
    Rejeter la notice

Meilleure méthode pour récupérer les résultats Google ?

Discussion dans 'Débuter en référencement' créé par wishek3, 25 Août 2009.

  1. wishek3
    wishek3 WRInaute discret
    Inscrit:
    24 Août 2009
    Messages:
    79
    J'aime reçus:
    0
    Bonjour,

    J'ai lu quelques trucs ici et la mais je ne vois toujours pas quel est la meilleure méthode pour récupérer des résultats dans Google de façon automatisé ?

    Je suis conscient qu'il y a beaucoup de chose qui rentre en ligne de compte (serveur depuis lequel on lance le script, méthode utilisée etc)

    Par exemple quel est la différence si j'aspire les résultats Google directement avec la commande PHP file_get_contents en ciblant une url contenant déjà le mot-clé, le nombre de résultat etc en paramètre, ou si je simule un navigateur PHP ?

    Bien que je n'ai pas encore compris comment simuler l'envoi d'un formulaire :S
     
  2. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    642
    J'aime reçus:
    0
    Salut,

    Je ne comprend pas trop ce que tu veux savoir.
    Ca veut dire quoi pour toi "simuler un navigateur" ? La fonction principale d'un navigateur c'est de récupérer une page web et l'afficher non ?
    Ta fonction file_get_contents récupère la page, l'affichage reste à faire.

    Cela dit, il existe des fonctions beaucoup plus évoluées et spécialement développées pour HTTP, comme les fonctions CURL par exemple (PHP ne le propose pas natif me semble-t-il, ça doit être une extension).

    Avec CURL tu peux tout faire: gestion des cookies, requêtes POST (envoi de données par HTTP), etc...
     
  3. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 626
    J'aime reçus:
    0
  4. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 506
    J'aime reçus:
    56
    Cela fait des mois que Google a bloquer l'acces de ses serps a ce type de commandes (file_get_contents, curl), histoire de freiner les milliers de jeunes moteurs qui se nourrissaisent des resultats de google pour alimenter les leurs; Today Son seul accés est l'utilisation de l'API meme de Google, donc réglementé et controlé. End of the story

    ++
    KOogar
     
  5. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    642
    J'aime reçus:
    0
    Google n'a aucun moyen de détecter la façon dont la requete est faite (vrai navigateur ou automatiquement).
    Mais c'est vrai que Google limite le nombre de requêtes autorisées par adresse IP, au bout d'un certain nombre de recherches, il bloque sur un message d'erreur.
     
  6. dmathieu
    dmathieu WRInaute accro
    Inscrit:
    9 Janvier 2004
    Messages:
    5 626
    J'aime reçus:
    0
    Je confirme les dires de FloBoati.
    Je fais plus de 3 000 requêtes/jour (ce qui est assez peu) en utilisant CURL (pas en PHP. En Ruby) sur le site de mon profil.
    Et cela fonctionne dans l'ensemble plutôt bien.
     
  7. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    les serveurs, il connait leur ip, quand il crawle les sites pour son index. Il lui suffit ensuite de bloquer toutes ces ip :wink:
     
  8. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    642
    J'aime reçus:
    0
    Je ne vois pas du tout la logique...
    Ca voudrait dire que pour Google, on n'a pas le droit d'héberger des sites sur des machines qui servent de proxy, vpn, ou simplement sur une machine où on navigue ? N'importe quoi...
     
  9. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 506
    J'aime reçus:
    56
    O temps pour moi !! j'ai essayé en local, cher ovh et online et vu que j'ai pris un 403 a chaque fois, et mon poteau a fais de meme chez d'autres hebergeurs avec le meme resultat, j'en ai conclus que les acces etaient bien vérouillés aujourd'hui..

    alors je suis passé a l'api, qui de tout facon va a ravir. les resultats sont deja triés mais ils sont legerement differents que sur l'officiel. Pour savoir si un texte est deja indexé et surtout qui l'a indexé, l'api est nickel
     
  10. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    il fait un reverse ip, ensuite, si il voit des dizaines, centaines ou milliers de sites sur la même plage d'ip, que cela ne correspond pas à un FAI, il bloque les requêtes.
    Et même au niveau d'ip de FAI, on se retrouve assez vite bloqué en 403, sans avoir besoin d'effectuer des centaines de requêtes à la minute. Quand je veux faire des vérifs automatiques, je me retrouve souvent à devoir taper le code du captcha, voire rebooter le routeur pour obtenir une autre ip 8)
     
  11. FloBaoti
    FloBaoti WRInaute impliqué
    Inscrit:
    30 Avril 2006
    Messages:
    642
    J'aime reçus:
    0
    Et pourquoi le fait d'accéder à Internet via une IP qui n'est pas attribuée à un "FAI" serait suspect aux yeux de Google ? Tu fais quoi des proxy, et services de VPN qui vont se multiplier dans les mois à venir ? :roll:
    Et bien dans ce cas là, vérifie que tu es le seul à utiliser cette IP, vérifie tes scripts et autres plugins pour Firefox qui bugguent souvent et rechargent à la rache les pages Google. Le plugin CustomizeGoogle par exemple, chez moi, essaye souvent de recharger certaines pages de recherches de Google, ce qui me fait passer pour suspect aux yeux de Google et j'ai effectivement à entrer le captcha. SInon habituellement jamais.

    Si Google agissait comme tu le dis, ce serait vraiment très agressif et je ne vois pas pourquoi autant de monde continuerait d'utiliser Google.
     
  12. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 417
    J'aime reçus:
    0
    c'est pas les plugins, c'est mon script de suivi de positionnement que vérifie plusieurs dizaines de mots clés et au bout de 2 ou 3 sites (même avec des sleep entre les requêtes) se trouve bloqué par gg. Et, effectivement, c'est à l'arrache, car c'est le seul moyen d'obtenir les vraies positions contrairement aux api
     
  13. KOogar
    KOogar WRInaute accro
    Inscrit:
    16 Novembre 2004
    Messages:
    4 506
    J'aime reçus:
    56
    la tete dans l'ecran, la main droite sur la souris, la gauche sur le clavier et le pied sur l'interrupteur du routeur, c'est pas réservé a tous le monde le métier de webmaster :)
     
Chargement...
Similar Threads - Meilleure méthode récupérer Forum Date
Les meilleures méthodes, astuces et outils SEO recommandés par WebRankInfo Référencement Google 13 Octobre 2017
Meilleure méthode pour référencer une boutique multilingue ? Référencement international (langues, pays) 14 Avril 2012
Désindexer 100 pages d'un coup: la meilleure methode? Débuter en référencement 21 Mai 2010
Backlinks et meilleure stratégie SEO Netlinking, backlinks, liens et redirections 14 Octobre 2019
Meilleure façon de faire une sauvegarde site web Administration d'un site Web 3 Mai 2019
Meilleure structure de liens internes vers une landing page Référencement Google 5 Avril 2019
Meilleure façon de référencer une entreprise au niveau national Référencement Google 26 Octobre 2017
Meilleure technique pour luter contre les Titres dupliqués sur un site e-commerce ? Référencement Google 23 Juin 2017
Meilleure option pour une image : balise alt ou ancre ? Débuter en référencement 6 Février 2017
Quelle est la meilleure forme juridique pour celui qui a des revenus adsense ? AdSense 19 Novembre 2016
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice