wget sur Googles Images Francais

Discussion dans 'Administration d'un site Web' créé par Mumuri, 16 Janvier 2010.

  1. Mumuri
    Mumuri WRInaute passionné
    Inscrit:
    3 Novembre 2004
    Messages:
    1 417
    J'aime reçus:
    0
    Bonjour,

    j'essaye de faire un wget sur Googles Images francais, et j'obtiens un nombre de résultats qui correspond à Google US, comment faire pour obtenir les résultats FR.

    Voila mon code
    Code:
        local url="http://images.google.fr/images?hl=fr&q=site%3A$1"
              wget -qO $1".txt" "$url"  -U="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; FBSMTWB; GTB6.3"
    
     
  2. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    parce que ton serveur doit être dans un pays anglo-saxon. Par contre, c'est bizarre qu'il ne t'ai pas rapidement éjecté
     
  3. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Il faut que tu te créés des cookies (avec curl par exemple) puis que tu les load avec wget --load-cookies="/home/cookie"
    pour les faires avec curl :
    Code:
    curl -c /home/cookie -d "lang=French_ou_le_nom_de_la_var" -d "ils_on_peut-etre_des_tokens_de_secu=token" -vv http://page_a_poster/change_lang
     
  4. Mumuri
    Mumuri WRInaute passionné
    Inscrit:
    3 Novembre 2004
    Messages:
    1 417
    J'aime reçus:
    0
    mon serveur est une dédibox, donc bien en france.

    Je vais voir du coté des cookies.

    Peut tu me donner plus d'infos ?

    quand je regarde les cookies soumis à google avec firebug, j'ai tout çà, quelle sont ceux à prendre ? j'ai essayé avec LD=fr et çà me renvoye une erreur 405.

    Code:
    Host	images.google.fr
    User-Agent	Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7
    Accept	text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language	fr,fr-fr;q=0.8,en-us;q=0.5,en;q=0.3
    Accept-Encoding	gzip,deflate
    Accept-Charset	ISO-8859-1,utf-8;q=0.7,*;q=0.7
    Keep-Alive	300
    Connection	keep-alive
    Referer	http://images.google.fr/images?hl=fr&source=hp&q=site%3Atopflood.com&btnG=Recherche+d%27images&gbv=2&aq=f&oq=
    Cookie	PREF=ID=9a86dedbfc52fece:U=63aca89c908da0ff:FF=4:LD=fr:NR=10:TM=1260741429:LM=1261316481:S=aMn1aEC_abfpFBxQ; NID=30=WUAtrtiBdYdN7LdWP1_rBhsUkvepVvIbbSnsBukIip9g8HMSZOaHo5fToOySZG4PLatrXoQTxmN0Sg35AxSsh0fQT-40n6apP0gS4gs3HTiowQ2teIlbv0pnifLTh8vc
    Cache-Control	max-age=0
     
  5. Julia41
    Julia41 WRInaute passionné
    Inscrit:
    31 Août 2007
    Messages:
    1 779
    J'aime reçus:
    0
    Il faut tout prends, ils doivent être bien "chiant" là dessus.
    en plus tu as ton accept language en fr (mais ça doit être ton firebug).

    Sort moi l'output d'un :
    Code:
    curl -vv -I "http://images.google.fr/images?hl=fr&source=hp&q=site%3Atopflood.com&btnG=Recherche+d%27images&gbv=2&aq=f&oq="
    Déjà tu verras si ton curl est en "anglais" ou non.

    Moi je l'ai bien en français.
    Attention google bloque curl, peut-être que le problème vient de là (pas testé avec wget) :
    Code:
    curl -vv -A "plop"  "http://images.google.fr/images?hl=fr&safe=off&client=firefox-a&rls=org.mozilla%3Afr%3Aofficial&um=1&sa=1&q=openssl&btnG=Rechercher&aq=f&oq=&start=0"
    fonctionne car -A "plop" = useragent.

    hum, édit tu avais déjà changé ton user agent...
     
  6. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    d'où ma remarque d'étonnement du fait que gg ne l'ai pas déjà bloqué
     
  7. Mumuri
    Mumuri WRInaute passionné
    Inscrit:
    3 Novembre 2004
    Messages:
    1 417
    J'aime reçus:
    0
    Code:
    * About to connect() to images.google.fr port 80 (#0)
    *   Trying 66.102.13.106... connected
    * Connected to images.google.fr (66.102.13.106) port 80 (#0)
    > HEAD /images?hl=fr&source=hp&q=site%3Atopflood.com&btnG=Recherche+d%27images&gbv=2&aq=f&oq= HTTP/1.1
    > User-Agent: flo
    > Host: images.google.fr
    > Accept: */*
    >
    < HTTP/1.1 200 OK
    HTTP/1.1 200 OK
    < Cache-Control: private, max-age=0
    Cache-Control: private, max-age=0
    < Date: Mon, 18 Jan 2010 18:08:44 GMT
    Date: Mon, 18 Jan 2010 18:08:44 GMT
    < Expires: -1
    Expires: -1
    < Content-Type: text/html; charset=ISO-8859-1
    Content-Type: text/html; charset=ISO-8859-1
    < Set-Cookie: SS=Q0=c2l0ZTp0b3BmbG9vZC5jb20; path=/search
    Set-Cookie: SS=Q0=c2l0ZTp0b3BmbG9vZC5jb20; path=/search
    < Set-Cookie: PREF=ID=6399e9915a87c8bf:TM=1263838124:LM=1263838124:S=eAaxRPj6BgIAEQhv; expires=Wed, 18-Jan-2012 18:08:44 GMT; path=/; domain=.google.fr
    Set-Cookie: PREF=ID=6399e9915a87c8bf:TM=1263838124:LM=1263838124:S=eAaxRPj6BgIAEQhv; expires=Wed, 18-Jan-2012 18:08:44 GMT; path=/; domain=.google.fr
    < Set-Cookie: NID=31=ELuuSh-aGbYSmBqNXF9A6DlAaMIlTL-5nv7T1qjtTbN9Pan1syrQVv0zpU7udU8hsQzpkZs_HIuSlRLuTPC1BpR4mveVclGvvcSycK8mXQncDbDD0O_0Hng2qtqQpdvH; expires=Tue, 20-Jul-2010 18:08:44 GMT; path=/; domain=.google.fr; HttpOnly
    Set-Cookie: NID=31=ELuuSh-aGbYSmBqNXF9A6DlAaMIlTL-5nv7T1qjtTbN9Pan1syrQVv0zpU7udU8hsQzpkZs_HIuSlRLuTPC1BpR4mveVclGvvcSycK8mXQncDbDD0O_0Hng2qtqQpdvH; expires=Tue, 20-Jul-2010 18:08:44 GMT; path=/; domain=.google.fr; HttpOnly
    < Server: gws
    Server: gws
    < X-XSS-Protection: 0
    X-XSS-Protection: 0
    < Transfer-Encoding: chunked
    Transfer-Encoding: chunked
    
    <
    * Connection #0 to host images.google.fr left intact
    * Closing connection #0
    
    voilà ce que donne la commande ci dessus, je n'ai pas de accept language en fr :(

    leonick , comme l'a dit julia il suffit de fixer le user agent
     
  8. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 414
    J'aime reçus:
    0
    quand on fait des requêtes automatisées sur gg, on se retrouve vite avec le captcha affiché qui nous demande de confirmer qu'on est bien humain, donc là ça risque de faire pareil, non ?
     
  9. Mumuri
    Mumuri WRInaute passionné
    Inscrit:
    3 Novembre 2004
    Messages:
    1 417
    J'aime reçus:
    0
    pas si t'es raisonnable, je cherche pas à lancer un déni de service sur Google, je fais juste une requete qui m'envoie le nb de resultat sur Google par mail ^^.

    j'ai essayé
    Code:
    curl -vv -A "plop"  "http://images.google.fr/images?hl=fr&q=site%3Awebnetters.org" -H "Accept-Language: fr-fr" 
    çà ne marche pas :(
     
Chargement...
Similar Threads - wget Googles Images Forum Date
Wget (linux-gnu) : c'est quoi ? Administration d'un site Web 18 Septembre 2018
Wget Administration d'un site Web 13 Novembre 2011
interdire wget sauf depuis un domaine particulier URL Rewriting et .htaccess 20 Octobre 2011
Script d'extraction Googles Images Administration d'un site Web 1 Octobre 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice