Analyse "automatisée" des résultats sur Google

Nouveau WRInaute
Bonjour,

Je cherche un moyen d'optimiser l'analyse des résultats du moteur de recherche google sur un mot clé.

Mon objectif est de pouvoir surveiller les 20 premières pages (c'est à dire les 200 premiers sites) sur un mot clé afin d'identifier ceux qui me paraissent les plus pertinents (notamment au niveau de l'évolution du ranking mais aussi sur d'autres critères si cela est possible)?

Par exemple, je tape "forum" sur Google et j'obtiens 4 630 000 000 de réponses, ce que je cherche à faire c'est pourvoir analyser (de manière automatisé) les résultats afin de faire une veille sur ce mot clé et savoir quels sont les 200 sites qui ressortent en premier (et surtout faire une mise à jour de ces données pour voir l'évolution).

Comment procédez-vous si vous avez le même besoin que moi? (sachant qu'une analyse sur un tableur Excel avec une mise à jour quotidienne est longue et fastidieuse^^)

Merci d'avance,
Cordialement.
tphilippet
 
WRInaute accro
avec un logiciel du type webrankexpert je parametrerai les 10 sites concurrents, et je laisserai le logiciel faire la veille (mais j'étudie 10 sites, pas 200...)
 
WRInaute passionné
A quoi cela te sert-il de surveiller les 200ers sur une requête ?

A ma connaissance, il n'existe pas de besoin exprimé en ce sens, et donc pas d'outil qui te permette de faire cela.
 
WRInaute impliqué
MagicYoyo a dit:
A quoi cela te sert-il de surveiller les 200ers sur une requête ?

A part essayer vainement de trouver LA formule par analyse statistique des positions et des données publics des sites, je vois pas. :roll:
 
WRInaute passionné
Malheureusement, LA formule est devenue trop complexe pour être "reverse-engeenérée". ;)
 
WRInaute accro
Tu choppes les liens et les positions par extraction des résultats ('faut juste pas se faire repérer donc, user agent adapté, temporisation entre deux requêtes, etc). Tu sauves en CSV et tu analyses dans un tableur et/ou un logiciel de stats (R) et/ou une moulinette maison suivant ce que tu veux faire. C'est pas trop compliqué à faire si c'est juste ponctuel. Si tu veux chopper les nouveaux entrants, c'est plus une moulinette maison qu'il te faudra, à mon avis, par exemple.
 
WRInaute discret
Ou tu fait un script en PHP avec un Cron pour l'exécuter périodiquement.

Ton script en PHP pourrais par exemple récupérer les 20 premières pages de google au format texte.
Puis dedans en les parsant récuprer les adresses. (déjà ça fait un classement des 200 premiers sites).

Ensuite, tu pourrais éventuellement ouvrir chacun des liens les uns après les autres, pour récupérer les mots clés utilisés, plus les mots de la page mis en valeur par la balise <strong> ou <b>.
(pour le PR, je sais pas mais c'est possible aussi).

Et pour finir, tu stock toutes ces infos dans une base de donnée et tu fait un second script pour générer un genre de tableau croisé dynamique depuis ta BDD.

Mais t'as intérêt d'avoir un serveur qui tiens le coup et une bonne bande passante (qui que, c'est que du texte).

C'est le coup de s'y mettre mais j'estimerais le temps de travail nécessaire à 1 journée (7 heures) de travail pour le parser. (quoi que j'ai peu être prévu large).
 
WRInaute passionné
Pour connaitre le sujet, je dois dire que c'est loin d'être aussi simple. Il faut pouvoir gérer, pour chaque moteur :
- les mises à jour des pages de résultats
- le volume de requetes autorisés et les blocages d'IP
- l'échec d'une requête
- les pages sans résultats
- les liens de redirection/ comptage (de plus en plus utilisés par Google)
- les pages intégrant des résultats "Universal Search"...

Beaucoup d'équipes de développement s'y sont cassé les dents. Mais c'est une bonne expérience. :lol:
 
WRInaute discret
J'avais pas pensé aux liens "Universal Search".

Pour les erreurs 404, avec la librairie CURL ça ce fait tout seul.

Pour le blocage des adresses IP, -> Utilisation de proxi (mais là risque d'erreur 404)

C'est vrai qu'en fait, il y a beaucoup de paramètres que j'ai oubliés.

Mais si je peu me permettre, c'est pour quoi faire ?
 
Discussions similaires
Haut