Scraper en masse les SERP

ChapeauNoir · 28 Octobre 2013

Salut,

Dans le cadre d'un projet pour les cours, j'aimerais lister toutes les pages d'un site (type Wikipedia). Plutôt que de programmer un bot qui suit les lien, ça me semble plus simple de récupérer ce que Google a déjà trouvé.
Je voudrais donc récupérer tous les liens qui sortent pour la requête "site:monsite.com/categorie_visee/" (environ 20 000 liens).
J'ai cherché pour Google mais les seuls outils que j'ai trouvé étaient limités à 100 liens. Si j'ai 1000 liens ce sera déjà suffisant pour mon étude, mais 100 c'est trop peu.
Connaissez vous des programmes qui font ça ? (si c'est Yahoo par ex ça me va très bien aussi)

Merci pour votre aide.

spout · 28 Octobre 2013

Avec PhantomJS/CasperJS: http://casperjs.org/
Il y a un exemple de scraper Google: https://github.com/n1k0/casperjs/blob/master/samples/googlelinks.js

ChapeauNoir · 28 Octobre 2013

Merci pour ce lien et pour la réactivité !
Cependant je n'ai jamais fait de JS donc j'ai peur de galérer un peu (seulement php, c++).

Je me penche sur ça dans tous les cas, mais si quelqu'un a un autre lien je reste preneur !

rand0m · 28 Octobre 2013

Tu fais du PHP/C++ et tu demandes comment développer un scraper ? wtf ? En plus, si tu veux scraper 20k liens, t'as intérêt à avoir des proxys privés rotatifs de bonne qualité.

ChapeauNoir · 29 Octobre 2013

Salut rand0m,
Je ne comprends pas trop ta réaction ? J'ai bien essayé de développer mon propre script mais je me fais tout de suite bloquer. Ça me semble donc raisonnable de chercher quelque chose de déjà fait par quelqu'un de plus compétent de moi.