wget sur Googles Images Francais

WRInaute passionné
Bonjour,

j'essaye de faire un wget sur Googles Images francais, et j'obtiens un nombre de résultats qui correspond à Google US, comment faire pour obtenir les résultats FR.

Voila mon code
Code:
    local url="http://images.google.fr/images?hl=fr&q=site%3A$1"
          wget -qO $1".txt" "$url"  -U="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; FBSMTWB; GTB6.3"
 
WRInaute accro
parce que ton serveur doit être dans un pays anglo-saxon. Par contre, c'est bizarre qu'il ne t'ai pas rapidement éjecté
 
WRInaute passionné
Il faut que tu te créés des cookies (avec curl par exemple) puis que tu les load avec wget --load-cookies="/home/cookie"
pour les faires avec curl :
Code:
curl -c /home/cookie -d "lang=French_ou_le_nom_de_la_var" -d "ils_on_peut-etre_des_tokens_de_secu=token" -vv http://page_a_poster/change_lang
 
WRInaute passionné
mon serveur est une dédibox, donc bien en france.

Je vais voir du coté des cookies.

Peut tu me donner plus d'infos ?

quand je regarde les cookies soumis à google avec firebug, j'ai tout çà, quelle sont ceux à prendre ? j'ai essayé avec LD=fr et çà me renvoye une erreur 405.

Code:
Host	images.google.fr
User-Agent	Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7
Accept	text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language	fr,fr-fr;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding	gzip,deflate
Accept-Charset	ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive	300
Connection	keep-alive
Referer	http://images.google.fr/images?hl=fr&source=hp&q=site%3Atopflood.com&btnG=Recherche+d%27images&gbv=2&aq=f&oq=
Cookie	PREF=ID=9a86dedbfc52fece:U=63aca89c908da0ff:FF=4:LD=fr:NR=10:TM=1260741429:LM=1261316481:S=aMn1aEC_abfpFBxQ; NID=30=WUAtrtiBdYdN7LdWP1_rBhsUkvepVvIbbSnsBukIip9g8HMSZOaHo5fToOySZG4PLatrXoQTxmN0Sg35AxSsh0fQT-40n6apP0gS4gs3HTiowQ2teIlbv0pnifLTh8vc
Cache-Control	max-age=0
 
WRInaute passionné
Il faut tout prends, ils doivent être bien "chiant" là dessus.
en plus tu as ton accept language en fr (mais ça doit être ton firebug).

Sort moi l'output d'un :
Code:
curl -vv -I "http://images.google.fr/images?hl=fr&source=hp&q=site%3Atopflood.com&btnG=Recherche+d%27images&gbv=2&aq=f&oq="
Déjà tu verras si ton curl est en "anglais" ou non.

Moi je l'ai bien en français.
Attention google bloque curl, peut-être que le problème vient de là (pas testé avec wget) :
Code:
curl -vv -A "plop"  "http://images.google.fr/images?hl=fr&safe=off&client=firefox-a&rls=org.mozilla%3Afr%3Aofficial&um=1&sa=1&q=openssl&btnG=Rechercher&aq=f&oq=&start=0"
fonctionne car -A "plop" = useragent.

hum, édit tu avais déjà changé ton user agent...
 
WRInaute passionné
Code:
* About to connect() to images.google.fr port 80 (#0)
*   Trying 66.102.13.106... connected
* Connected to images.google.fr (66.102.13.106) port 80 (#0)
> HEAD /images?hl=fr&source=hp&q=site%3Atopflood.com&btnG=Recherche+d%27images&gbv=2&aq=f&oq= HTTP/1.1
> User-Agent: flo
> Host: images.google.fr
> Accept: */*
>
< HTTP/1.1 200 OK
HTTP/1.1 200 OK
< Cache-Control: private, max-age=0
Cache-Control: private, max-age=0
< Date: Mon, 18 Jan 2010 18:08:44 GMT
Date: Mon, 18 Jan 2010 18:08:44 GMT
< Expires: -1
Expires: -1
< Content-Type: text/html; charset=ISO-8859-1
Content-Type: text/html; charset=ISO-8859-1
< Set-Cookie: SS=Q0=c2l0ZTp0b3BmbG9vZC5jb20; path=/search
Set-Cookie: SS=Q0=c2l0ZTp0b3BmbG9vZC5jb20; path=/search
< Set-Cookie: PREF=ID=6399e9915a87c8bf:TM=1263838124:LM=1263838124:S=eAaxRPj6BgIAEQhv; expires=Wed, 18-Jan-2012 18:08:44 GMT; path=/; domain=.google.fr
Set-Cookie: PREF=ID=6399e9915a87c8bf:TM=1263838124:LM=1263838124:S=eAaxRPj6BgIAEQhv; expires=Wed, 18-Jan-2012 18:08:44 GMT; path=/; domain=.google.fr
< Set-Cookie: NID=31=ELuuSh-aGbYSmBqNXF9A6DlAaMIlTL-5nv7T1qjtTbN9Pan1syrQVv0zpU7udU8hsQzpkZs_HIuSlRLuTPC1BpR4mveVclGvvcSycK8mXQncDbDD0O_0Hng2qtqQpdvH; expires=Tue, 20-Jul-2010 18:08:44 GMT; path=/; domain=.google.fr; HttpOnly
Set-Cookie: NID=31=ELuuSh-aGbYSmBqNXF9A6DlAaMIlTL-5nv7T1qjtTbN9Pan1syrQVv0zpU7udU8hsQzpkZs_HIuSlRLuTPC1BpR4mveVclGvvcSycK8mXQncDbDD0O_0Hng2qtqQpdvH; expires=Tue, 20-Jul-2010 18:08:44 GMT; path=/; domain=.google.fr; HttpOnly
< Server: gws
Server: gws
< X-XSS-Protection: 0
X-XSS-Protection: 0
< Transfer-Encoding: chunked
Transfer-Encoding: chunked

<
* Connection #0 to host images.google.fr left intact
* Closing connection #0

voilà ce que donne la commande ci dessus, je n'ai pas de accept language en fr :(

leonick , comme l'a dit julia il suffit de fixer le user agent
 
WRInaute accro
Mumuri a dit:
leonick , comme l'a dit julia il suffit de fixer le user agent
quand on fait des requêtes automatisées sur gg, on se retrouve vite avec le captcha affiché qui nous demande de confirmer qu'on est bien humain, donc là ça risque de faire pareil, non ?
 
WRInaute passionné
pas si t'es raisonnable, je cherche pas à lancer un déni de service sur Google, je fais juste une requete qui m'envoie le nb de resultat sur Google par mail ^^.

j'ai essayé
Code:
curl -vv -A "plop"  "http://images.google.fr/images?hl=fr&q=site%3Awebnetters.org" -H "Accept-Language: fr-fr"

çà ne marche pas :(
 
Discussions similaires
Haut