probléme file_get_contents

monandroid · 4 Octobre 2019

Bonjour,
j'ai un problème avec le site leboncoin.fr quand j'utilise ( file_get_contents)

Code:

$homepage = file_get_contents('https://www.leboncoin.fr');
echo $homepage;

ou

Code:

ini_set('user_agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1) Gecko/20090615 Firefox/3.5');
    $homepage = file_get_contents('https://www.leboncoin.fr');
    echo $homepage;

le message : Warning: file_get_contents(https://www.leboncoin.fr): failed to open stream: HTTP request failed! HTTP/1.0 403 Forbidden

rick38 · 4 Octobre 2019

Leboncoin bloque les scripts de scraping.

passion · 4 Octobre 2019

Si tu y vas à la méthode bourrin, c'est certain que tu vas être boulé par leur serveur.
Je ne sais pas si c'est du scraping de masse ou juste quelques infos de temps à autre... mais une chose est sûr, tu auras plus de chances si tu simules la navigation "humaine".
Commence par utiliser plutôt du curl et de ne pas oublier de mettre un user-agent et une tempo entre chaque requête.
Have fun

rick38 · 4 Octobre 2019

Même avec curl et un user-agent ça ne marchera pas pour Leboncoin.
Ils en ont eu un peu marre de tous les sites qui viennent leur piquer leurs annonces...
Il y a sans doute une solution mais il faudra bien chercher...
Quel est le but ici ?

passion · 4 Octobre 2019

rick38 a dit:
Ils en ont eu un peu marre de tous les sites qui viennent leur piquer leurs annonces...

Tu as l'air d'en parler avec expérience, tu en as fait les frais ?

rick38 · 4 Octobre 2019

passion a dit:
Tu as l'air d'en parler avec expérience, tu en as fait les frais ?

Dans une boîte de merde que j'ai quittée, j'ai vu passer un projet comme ça. Scrapper Leboncoin, Airbnb et d'autres, pour faire une base de données à jour des évolutions des prix immobiliers... Même quand on arrive à scrapper, on est bloqué après x pages par heure, ils ont mis plein d'astuces pour décourager la copie de leur site.
Puis un projet qui repose sur le pompage d'autres sites je trouve ça malsain et sans intérêt pour un dev, bref moi j'ai dit "niet, faites-le faire par d'autres".

passion · 4 Octobre 2019

Moi c'était pages jaunes

spout · 4 Octobre 2019

Il faut faire ça avec Puppeteer.

monandroid · 6 Octobre 2019

merci