Google s'attaque aux formulaires

Discussion dans 'Crawl et indexation Google, sitemaps' créé par seebz, 13 Avril 2008.

  1. seebz
    seebz WRInaute impliqué
    Inscrit:
    15 Avril 2007
    Messages:
    728
    J'aime reçus:
    0
  2. mahefarivony
    mahefarivony WRInaute accro
    Inscrit:
    14 Octobre 2002
    Messages:
    8 176
    J'aime reçus:
    0
    Encore des paniers de commande qui se rempliront tout seul..

    .... lui restera plus qu'à payer avec une CB pour avoir encore plus de résultats à "se mettre sous le bot" :)
     
  3. UsagiYojimbo
    UsagiYojimbo WRInaute accro
    Inscrit:
    23 Novembre 2005
    Messages:
    11 874
    J'aime reçus:
    71
    A priori c'est uniquement les formulaires envoyés en GET. Ca limite déjà pas mal.
     
  4. tonguide
    tonguide WRInaute passionné
    Inscrit:
    28 Novembre 2003
    Messages:
    1 169
    J'aime reçus:
    0
    Si c'est que par GET, c'est plutôt positif.

    Tout bon développeur fait passer les recherches en GET (pour qu'on puisse enregistrer l'url par exemple, ou avoir une pagination) et par POST les soumissions (un peu plus sensible).

    Néanmoins, les données sont rarement accessible uniquement après avoir remplis un formulaire (surtout sachant que tout le monde fait attention à référencer son contenu), donc je me demande quel genre de contenu de qualité pourrait-il indexé en plus.
     
  5. scores
    scores WRInaute occasionnel
    Inscrit:
    24 Novembre 2002
    Messages:
    442
    J'aime reçus:
    0
    Rahhh je me disais bien !
    Google commencait à m'afficher de 'Belles' requetes via mon get de recherche qui n'étaient pas linkées à priori, Rahhhh Lovely...
     
  6. raljx
    raljx WRInaute passionné
    Inscrit:
    10 Juillet 2006
    Messages:
    2 064
    J'aime reçus:
    0
    je confirme egalement ... et un petit duplicate content que je n'avais pas pris en compte (mes pages de recherche avaient toutes quasiment le meme titre) :|

    Donc maintenant normalement on peut passer des mots clés via des formulaires avec des champs hidden. :\
     
  7. dabYo
    dabYo Nouveau WRInaute
    Inscrit:
    25 Avril 2007
    Messages:
    49
    J'aime reçus:
    0
    C'est genial, maintenant google indexe les résultats des recherches qui sont effectuées sur un site grâce à leur API.

    Wahou :D
     
  8. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    à part créer de l'auto spam de la part de google, je ne vois pas l'intérêt. Déjà que voila invente des url en ajoutant des éléments de get sur des sites qui n'y font pas appel, que y! crée des url en recherchant à appeler la racine des sous-répertoires (du genre des photos), qui bien évidemment n'existent pas non plus.
    Encore de belles erreurs 404 en perspective.
    Et comme le signalait raljx de belles perspectives de spam avec les champs hidden :twisted:
    Pourquoi chercher à créer des url, alors qu'on peut lui fournir dans les sitemap :roll:
     
  9. ecocentric
    ecocentric WRInaute accro
    Inscrit:
    10 Février 2004
    Messages:
    2 663
    J'aime reçus:
    0
    bein, au niveau de l'indexation du deep web, ça peut quand même être pas mal. à voir comment ce sera mis en oeuvre.
     
  10. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 818
    J'aime reçus:
    261
  11. François
    François WRInaute occasionnel
    Inscrit:
    13 Novembre 2002
    Messages:
    270
    J'aime reçus:
    0
    Ca fait quelque temps déjà que j'ai remarqué cela, même sur des formulaires en post, j'ai même du interdire en urgence certains URI, googlebot remplissait les paniers tout seul !
     
  12. FroZenDooM
    FroZenDooM WRInaute discret
    Inscrit:
    11 Août 2004
    Messages:
    139
    J'aime reçus:
    0
    ça fait peur ton histoire ! 8O
    Bientôt GGbot va faire les courses sur nos sites marchant :?
    Si ça c'est pas de l'IA.. Google va finir par l'inventer avec leur algo qui devient si complexe.

    Cependant ça fait déjà un moment qu'on voit des liens de cherche indexés qui sont issus d'un formulaire. Que ça soit le robot qui remplisse le formulaire ça m'étonnerait beaucoup..
     
  13. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    [mode mettoyage du web]
    en fait, c'est pour récupérer des prix et références de ce qui est vendu sur le net et comme ça, fini les sites comparateurs de prix
    Comme gg avait déjà commencé à faire le ménage il y a quelques mois, il va continuer encore plus fort
    [/mode mettoyage du web]

    Donc encore un domaine en moins pour ceux qui veulent gagner plein de thunes sans rien faire.
    Donc on récapitule : plus de marques blanches, plus de comparateurs, plus d'agrégation de flux RSS, plus de contenu illégal (musique, film), plus de people...
    Va falloir bosser réellement d'ici peu
    :twisted: :lol:
     
  14. refman
    refman Nouveau WRInaute
    Inscrit:
    5 Septembre 2007
    Messages:
    17
    J'aime reçus:
    0
    Bof bof

    Je sens que ça va pourrir les stats ROI. Si une page de succès est indéxée par les moteurs et positionnée les stats seront fausses....

    Il faudra donc penser au robots.txt...
     
  15. Audiofeeline
    Audiofeeline WRInaute accro
    Inscrit:
    20 Octobre 2005
    Messages:
    4 200
    J'aime reçus:
    2
    J'ai bien fait de mettre des mots clés dans mes formulaires alors ! :lol: :lol: :lol:
     
  16. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    non, d'après moi, il recherche juste le contenu des bdd avec prix et références, pour faire un beau comparatif directement sur les SERP. Imaginez, les internautes n'auront plus besoin d'aller sur vos sites pour pouvoir comparer et voir que la concurrence est moins chère.
    Et là, plus de title ni description, qu'une réf et un prix. Ca va être dur de pouvoir sortir son argumentaire à l'internaute.
     
  17. dabYo
    dabYo Nouveau WRInaute
    Inscrit:
    25 Avril 2007
    Messages:
    49
    J'aime reçus:
    0
    Je viens de comprendre pourquoi Google me mettait des erreurs 404 sur des pages qui n'existent pas et ne sont pas liés.

    Un formulaire GET avec une action javascript qu'il prend en compte, mais il ne prend pas en compte la balise <base> du début. Ca peut peut être en aider certains qui ont un quickjump ;)
     
  18. Audiofeeline
    Audiofeeline WRInaute accro
    Inscrit:
    20 Octobre 2005
    Messages:
    4 200
    J'aime reçus:
    2
    J'ai également une erreur sur le form pour les commentaires de mon blog.
     
  19. david96
    david96 WRInaute passionné
    Inscrit:
    28 Août 2005
    Messages:
    1 205
    J'aime reçus:
    0
    Merci pour la news.

    Suite à ça, j'ai modifié mon script pour la recherche par critères (select) en get avec Url rewriting, on va voir ce que ça donne ! :D

    Par contre, J'espère que les bots ne feront pas 50 requêtes à la seconde ! :p
     
  20. FroZenDooM
    FroZenDooM WRInaute discret
    Inscrit:
    11 Août 2004
    Messages:
    139
    J'aime reçus:
    0
    C'est vrai que ça commence à ressembler à du spam ces crawls de robots.
    Heureusement ça doit aider au référencement mais on peut se poser la question.
    Le formulaire doit répondre à certains critères pour que ça soit utile dans le cas contraire le robot va plus spammer qu'autrechose.
     
  21. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    pas obligé. Comme je le disais au dessus, je penserais à une récupération d'infos pour faire un comparateur de prix, directement dans les SERP.
    Parce que les pages, les "bons" webmasters savent qu'il fait bien lier ses pages et, éventuellement, avoir créé un sitemap
    Donc si on compte rentabiliser les visiteurs qui n'achètent pas, en mettant de la pub, c'est cuit. Car ils décideront de ne pas acheter avant même d'arriver sur le site, si ce crawl de gg évolue dans le sens que je pense.
     
  22. FroZenDooM
    FroZenDooM WRInaute discret
    Inscrit:
    11 Août 2004
    Messages:
    139
    J'aime reçus:
    0
    Tout à fait.

    Ce qui reste peu convaincant c'est que GG remplisse un panier.
    Qu'il crawl le site en indexant les produits et listes je veux bien. Mais qu'il crée des paniers via un formulaire ou même des listings de recherche, ça me semble moins intéressant.
    On risque du duplicate content ou même qu'il crée des formulaires d'inscription...? 8O
     
  23. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    je ne pense pas qu'il indexera les url ainsi créées, mais d'aller plus loin dans le remplissage des formulaires permettra de récupérer les coûts d'envoi voire les délais de livraisons.
    Au mieux, il agrégera les contenus à celui du formulaire pour ses SERP
    Quel beau comparateur il pourra ensuite faire.

    Par contre, ceux qui n'ont pas des formulaires vraiment blindés risquent d'avoir de sacrés problèmes de gestion de stock avec des crawls comme ça.
     
  24. FroZenDooM
    FroZenDooM WRInaute discret
    Inscrit:
    11 Août 2004
    Messages:
    139
    J'aime reçus:
    0
    bah oui exactement...

    ça me parait très limite comme procédure. Même de la part de GG qui ne fait pas vraiment les choses à moitier.

    ça ne m'étonnerai pas qu'ils aient droit à quelques procès pour avoir provoqué des crashs ou erreurs stock avec ce type de crawl.
     
  25. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    il suffit de ne faire varier les stocks qu'après réception de l'accusé de paiement pour le paiement en ligne. Par contre, c'est vrai que si gg valide par défaut le paiement par chèque :lol:
     
  26. tonguide
    tonguide WRInaute passionné
    Inscrit:
    28 Novembre 2003
    Messages:
    1 169
    J'aime reçus:
    0
  27. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    oui, mais là c'est ceux qui lui donnent un fichier au bon format. Alors que ce qu'il voudrait, peut-être, faire, c'est de récupérer toutes les données, quelque soient les formats
    Mais effectivement, ça pourrait être la solution. Ensuite, il ne restera plus qu'à ce que les vendeurs ouvrent un compte gg checkout et la boucle est bouclée :wink:
     
  28. tonguide
    tonguide WRInaute passionné
    Inscrit:
    28 Novembre 2003
    Messages:
    1 169
    J'aime reçus:
    0
    En même temps, si tes produits ne sont pas accessibles sans devoir remplir un formulaire, s'est inquiétant pour le référencement mais aussi pour les visiteurs.

    Enfin, tout ça pour dire que les prix, les frais de port etc ... Google n'a pas besoin de remplir un formulaire pour les récupérer.

    Et donc j'en viens à ma première conclusion, je ne comprend pas quel genre de contenu supplémentaire google veut indexer avec cette technique.
     
  29. Audiofeeline
    Audiofeeline WRInaute accro
    Inscrit:
    20 Octobre 2005
    Messages:
    4 200
    J'aime reçus:
    2
    Les espaces d'administration de nos sites ? :lol: :lol: :lol:

    C'est peut être pour améliorer la sécurité, non ?
     
  30. tonguide
    tonguide WRInaute passionné
    Inscrit:
    28 Novembre 2003
    Messages:
    1 169
    J'aime reçus:
    0
    Si google peut indexer ton espace d'admin, faut que tu t'inquiètes :) lol

    [mode futuriste]En faites je sais, il veut pouvoir s'inscrire sur un forum, et à l'aide de son algo, il répond aux questions posé sur les sujets en plaçant directement un lien Adwords en relation[/mode futuriste]

    Plus sérieusement, à part référencer des trucs qu'ils arrivaient pas à référencer, je vois pas. Mais comme manifestement cette page ne sera pas bien optimisé, elle ne ressortira jamais sauf peut-être pour des requêtes ultra exotique (et encore).
     
  31. Audiofeeline
    Audiofeeline WRInaute accro
    Inscrit:
    20 Octobre 2005
    Messages:
    4 200
    J'aime reçus:
    2
    Ca se fait, il me semble avoir déjà lu un article sur une intelligence artificielle capable de participer à un forum phpBB.
     
  32. Leonick
    Leonick WRInaute accro
    Inscrit:
    8 Août 2004
    Messages:
    19 436
    J'aime reçus:
    0
    justement, ça peut être pour incorporer mieux les sites qui ont été développés avec les pieds.
    Et ça voudrait dire qu'on aura moins de chance de bien se positionner avec un site de quelques centaines de pages, contre des sites à plusieurs dizaines de milliers de pages mal codés, mais que gg arrivera à crawler :cry:
     
  33. tonguide
    tonguide WRInaute passionné
    Inscrit:
    28 Novembre 2003
    Messages:
    1 169
    J'aime reçus:
    0
    Enfin si ils sont mal codés, comme je le disais plus haut, à première vue, il risque probablement pas d'être optimiser pour le référencement (le mec qui rend pas accessible les pages, et qui optimise les pages à 200% pour le référencement, faut qu'il consulte)

    Title identique partout à tous les coups, par la force des choses, aucun lien directe vers la page etc...

    Bref, pour qu'avec ça, le site en question passe au dessus, je pense qu'il faudra se poser des questions sur son propre référencement.
     
  34. david96
    david96 WRInaute passionné
    Inscrit:
    28 Août 2005
    Messages:
    1 205
    J'aime reçus:
    0
    Je remonte ce sujet pour faire une requête importante.
    Voilà, Google s'acharne comme un dingue sur mes formulaires.

    Malheureusement il ne respecte pas les id des select et s'amuse à entrer un nombre infini de possibilité en GET (bonjour le spam)
    Comment l'obliger à respecter nos fourchettes mis en base ?

    Si pas de solutions, comment l'interdire de crawler nos formulaires en GET en omettant l'interdiction total genre :
    Code:
    <meta name="robots" content="noarchive,noindex,nofollow" /> 
     
  35. tonguide
    tonguide WRInaute passionné
    Inscrit:
    28 Novembre 2003
    Messages:
    1 169
    J'aime reçus:
    0
    j'ai exactement le même coup, et le pire c'est que derrière il référence le tout ... donc big duplicate vu que ça ne modifie qu'une légère partie de la page.

    Donc assez simple ...

    if (isset($_GET['nom_de_ta_variable_formulaire']))
    {
    echo '<noindex ...>';
    }
     
  36. david96
    david96 WRInaute passionné
    Inscrit:
    28 Août 2005
    Messages:
    1 205
    J'aime reçus:
    0
    C'est ce que j'ai fait, en plus radical même : une belle page en 404 ! Merci quand même ! :D

    Bon sang, je trouve dommage que Google n'ait pas prévu dans "Outils pour les webmasters" un outil justement qui nous permet de lui indiquer nos id en base.

    Pour les mots clef de type string, je peux comprendre (j'ai d'ailleurs suite à ça, remis en post un formulaire, permettant du texte), mais pour les formulaires de type int, dommage qu'il ne respecte pas les limites imposées par celui-ci et tente de son propre chef tout et n'importe quoi ! :?

    Dommage, l'idée est bonne, mais google n'a pas pensé à certaines conséquences, il met la charrue avant les boeufs ! :D
     
  37. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 818
    J'aime reçus:
    261
    peux-tu nous montrer un exemple où Google teste + de valeurs que celles présentes dans ta balise select ?
     
  38. david96
    david96 WRInaute passionné
    Inscrit:
    28 Août 2005
    Messages:
    1 205
    J'aime reçus:
    0
    Bon sang, J'me suis excité un peu trop vite, mea culpa, mais à demi quand même !

    Je sais d'où vient ces retours de spam d'error !

    Pour expliquer le souci, voilà un exemple d'error via la method get :
    Code:
    categorie => 1
    departement => 38
    region => 14
    rubrique => 20
    
    Dans mon script je ne peux pas faire autrement que d'imposer soit un département, soit une région...
    Bref, google se fichant complètement de ce genre d'anomalie (ce qui peut se comprendre) engendre des erreurs 404 à foison.

    Ce qui serait bien c'est de lui dire : toi gentil robot, quand toi prendre variable departement alors variable region sera toujours = 24.

    Maintenant de mon côté, je peux faire en sorte d'imposer cette anomalie, la crainte et que cela va engendrer des centaines de redirection et par expérience, trop de 301 dans la tronche à google peut-être très pénalisant. En même temps les 404 ne sont pas non plus géniaux :?

    La solution serait alors peut-être, même si cela ne respecte pas le protocole RFC, de mettre une belle page en 200 pour les internautes, avec un noindex dans le header, afin d'éviter le duplicate pour les moteurs de recherche.
     
  39. david96
    david96 WRInaute passionné
    Inscrit:
    28 Août 2005
    Messages:
    1 205
    J'aime reçus:
    0
    Voilà, du genre ainsi -http://www.monsite.org/cherche.php?region=4&departement=90&rubrique=20&categorie=1
    avec la balise meta :
    Code:
    <meta name="robots" content="noarchive,noindex,nofollow" /> 
    Qu'en pensez-vous ?

    En passant, le gentil robot, continue depuis minuit à faire toute les requêtes qu'il peut :lol: Je crois que j'ai bien fait de mettre en post le formulaire texte, car j'imagine les milliers de possibilités de mots clefs... :D
     
  40. ortolojf
    ortolojf WRInaute accro
    Inscrit:
    14 Août 2002
    Messages:
    2 789
    J'aime reçus:
    8
    Hé bé... ;)

    J'ai toutes les Courses de Chevaux ( de 10 à 20 courses/jour ), du 1er Janvier 2000 jusqu'à hier réactualisées tous les jours avec les courses de la veille.

    15 * 365 * (2008 - 2000 + 1) = 49275 pages, sans compter les pages intermédiaires... A multiplier par 4 ou 5...

    Les 10 derniers jours par des liens directs, le reste par un formulaire remplissable très facilement de manière automatique, vu que les variables sont dans dans des boîtes-listes ( jour, mois et année des courses ).

    Si je comprend bien, Google va se remplir ses data centers. ;(

    Là, ça va être plus que de l'inflation de données... Plutôt de l'hyper-inflation.

    Bien à vous.

    Amicalement.

    Jean-François Ortolo
     
  41. david96
    david96 WRInaute passionné
    Inscrit:
    28 Août 2005
    Messages:
    1 205
    J'aime reçus:
    0
    Je retire mon mea culpa !
    Là on peut dire que le bot ne respecte plus le formulaire, car il omet un paramètre (la variable : categorie)
    Code:
    departement => 48
    region => 24
    rubrique => 20
    Ce qui génère bien entendu plein d'erreur 404 ! :evil:
     
  42. ortolojf
    ortolojf WRInaute accro
    Inscrit:
    14 Août 2002
    Messages:
    2 789
    J'aime reçus:
    8
    Je ne comprend pas très bien...

    1/ D'une part, Google dit qu'il ne faut plus faire d'url-rewriting.

    2/ D'autre part, Google remplit désormais les formulaires.

    Celà semblerait indiquer que le 1/ ne soit pas du à la nécessité ou volonté de Google, de limiter le nombre de ses pages indexées.

    Donc, dans mon cas, l'url-rewriting n'ayant aucun autre incidence que celle-là, devrait donc être permise. Ouf.

    En tout cas, ne vous semble-t-il pas, que 1/ et 2/ sont contradictoires ?

    Bien à vous.

    Amicalement.

    Jean-François Ortolo
     
Chargement...
Similar Threads - Google attaque Forum Date
Titres et descriptions en chinois dans Google après attaque... Problèmes de référencement spécifiques à vos sites 9 Décembre 2016
GoogleBot : "Attaque" en rêgle Crawl et indexation Google, sitemaps 16 Février 2013
Apres la map google s'attaque à la météo Référencement Google 5 Février 2013
Microsoft Don't Get Scroogled, l'attaque de Bing contre Google Shopping Le café de WebRankInfo 28 Novembre 2012
66.249 googlebot attaque? Référencement Google 12 Mai 2011
Google Message Continuity : un service Web de backup pour attaquer Exchange Google : l'entreprise, les sites web, les services 11 Décembre 2010
L'attaque contre Google aurait touché le système de mot de passe Google : l'entreprise, les sites web, les services 20 Avril 2010
Tim Bray (co-inventeur du XML) rejoint Google et attaque Apple Google : l'entreprise, les sites web, les services 15 Mars 2010
Apple attaque Google via HTC Google : l'entreprise, les sites web, les services 3 Mars 2010
Google discuterait de ses attaques informatiques avec la NSA Google : l'entreprise, les sites web, les services 4 Février 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice