Google s'attaque aux formulaires

mahefarivony

WRInaute accro
Encore des paniers de commande qui se rempliront tout seul..

.... lui restera plus qu'à payer avec une CB pour avoir encore plus de résultats à "se mettre sous le bot" :)
 

tonguide

WRInaute passionné
Si c'est que par GET, c'est plutôt positif.

Tout bon développeur fait passer les recherches en GET (pour qu'on puisse enregistrer l'url par exemple, ou avoir une pagination) et par POST les soumissions (un peu plus sensible).

Néanmoins, les données sont rarement accessible uniquement après avoir remplis un formulaire (surtout sachant que tout le monde fait attention à référencer son contenu), donc je me demande quel genre de contenu de qualité pourrait-il indexé en plus.
 

scores

WRInaute occasionnel
Rahhh je me disais bien !
Google commencait à m'afficher de 'Belles' requetes via mon get de recherche qui n'étaient pas linkées à priori, Rahhhh Lovely...
 

raljx

WRInaute passionné
je confirme egalement ... et un petit duplicate content que je n'avais pas pris en compte (mes pages de recherche avaient toutes quasiment le meme titre) :|

Donc maintenant normalement on peut passer des mots clés via des formulaires avec des champs hidden. :\
 

dabYo

Nouveau WRInaute
C'est genial, maintenant google indexe les résultats des recherches qui sont effectuées sur un site grâce à leur API.

Wahou :D
 

Leonick

WRInaute accro
à part créer de l'auto spam de la part de google, je ne vois pas l'intérêt. Déjà que voila invente des url en ajoutant des éléments de get sur des sites qui n'y font pas appel, que y! crée des url en recherchant à appeler la racine des sous-répertoires (du genre des photos), qui bien évidemment n'existent pas non plus.
Encore de belles erreurs 404 en perspective.
Et comme le signalait raljx de belles perspectives de spam avec les champs hidden :twisted:
Pourquoi chercher à créer des url, alors qu'on peut lui fournir dans les sitemap :roll:
 

ecocentric

WRInaute accro
bein, au niveau de l'indexation du deep web, ça peut quand même être pas mal. à voir comment ce sera mis en oeuvre.
 

François

WRInaute occasionnel
Ca fait quelque temps déjà que j'ai remarqué cela, même sur des formulaires en post, j'ai même du interdire en urgence certains URI, googlebot remplissait les paniers tout seul !
 

FroZenDooM

WRInaute discret
François a dit:
Ca fait quelque temps déjà que j'ai remarqué cela, même sur des formulaires en post, j'ai même du interdire en urgence certains URI, googlebot remplissait les paniers tout seul !

ça fait peur ton histoire ! 8O
Bientôt GGbot va faire les courses sur nos sites marchant :?
Si ça c'est pas de l'IA.. Google va finir par l'inventer avec leur algo qui devient si complexe.

Cependant ça fait déjà un moment qu'on voit des liens de cherche indexés qui sont issus d'un formulaire. Que ça soit le robot qui remplisse le formulaire ça m'étonnerait beaucoup..
 

Leonick

WRInaute accro
[mode mettoyage du web]
en fait, c'est pour récupérer des prix et références de ce qui est vendu sur le net et comme ça, fini les sites comparateurs de prix
Comme gg avait déjà commencé à faire le ménage il y a quelques mois, il va continuer encore plus fort
[/mode mettoyage du web]

Donc encore un domaine en moins pour ceux qui veulent gagner plein de thunes sans rien faire.
Donc on récapitule : plus de marques blanches, plus de comparateurs, plus d'agrégation de flux RSS, plus de contenu illégal (musique, film), plus de people...
Va falloir bosser réellement d'ici peu
:twisted: :lol:
 

refman

Nouveau WRInaute
Bof bof

Je sens que ça va pourrir les stats ROI. Si une page de succès est indéxée par les moteurs et positionnée les stats seront fausses....

Il faudra donc penser au robots.txt...
 

Leonick

WRInaute accro
Audiofeeline a dit:
J'ai bien fait de mettre des mots clés dans mes formulaires alors ! :lol: :lol: :lol:
non, d'après moi, il recherche juste le contenu des bdd avec prix et références, pour faire un beau comparatif directement sur les SERP. Imaginez, les internautes n'auront plus besoin d'aller sur vos sites pour pouvoir comparer et voir que la concurrence est moins chère.
Et là, plus de title ni description, qu'une réf et un prix. Ca va être dur de pouvoir sortir son argumentaire à l'internaute.
 

dabYo

Nouveau WRInaute
Je viens de comprendre pourquoi Google me mettait des erreurs 404 sur des pages qui n'existent pas et ne sont pas liés.

Un formulaire GET avec une action javascript qu'il prend en compte, mais il ne prend pas en compte la balise <base> du début. Ca peut peut être en aider certains qui ont un quickjump ;)
 

david96

WRInaute passionné
Merci pour la news.

Suite à ça, j'ai modifié mon script pour la recherche par critères (select) en get avec Url rewriting, on va voir ce que ça donne ! :D

Par contre, J'espère que les bots ne feront pas 50 requêtes à la seconde ! :p
 

FroZenDooM

WRInaute discret
david96 a dit:
Par contre, J'espère que les bots ne feront pas 50 requêtes à la seconde ! :p

C'est vrai que ça commence à ressembler à du spam ces crawls de robots.
Heureusement ça doit aider au référencement mais on peut se poser la question.
Le formulaire doit répondre à certains critères pour que ça soit utile dans le cas contraire le robot va plus spammer qu'autrechose.
 

Leonick

WRInaute accro
FroZenDooM a dit:
Heureusement ça doit aider au référencement mais on peut se poser la question.
pas obligé. Comme je le disais au dessus, je penserais à une récupération d'infos pour faire un comparateur de prix, directement dans les SERP.
Parce que les pages, les "bons" webmasters savent qu'il fait bien lier ses pages et, éventuellement, avoir créé un sitemap
Donc si on compte rentabiliser les visiteurs qui n'achètent pas, en mettant de la pub, c'est cuit. Car ils décideront de ne pas acheter avant même d'arriver sur le site, si ce crawl de gg évolue dans le sens que je pense.
 

FroZenDooM

WRInaute discret
Tout à fait.

Ce qui reste peu convaincant c'est que GG remplisse un panier.
Qu'il crawl le site en indexant les produits et listes je veux bien. Mais qu'il crée des paniers via un formulaire ou même des listings de recherche, ça me semble moins intéressant.
On risque du duplicate content ou même qu'il crée des formulaires d'inscription...? 8O
 

Leonick

WRInaute accro
FroZenDooM a dit:
Tout à fait.

Ce qui reste peu convaincant c'est que GG remplisse un panier.
Qu'il crawl le site en indexant les produits et listes je veux bien. Mais qu'il crée des paniers via un formulaire ou même des listings de recherche, ça me semble moins intéressant.
On risque du duplicate content ou même qu'il crée des formulaires d'inscription...? 8O
je ne pense pas qu'il indexera les url ainsi créées, mais d'aller plus loin dans le remplissage des formulaires permettra de récupérer les coûts d'envoi voire les délais de livraisons.
Au mieux, il agrégera les contenus à celui du formulaire pour ses SERP
Quel beau comparateur il pourra ensuite faire.

Par contre, ceux qui n'ont pas des formulaires vraiment blindés risquent d'avoir de sacrés problèmes de gestion de stock avec des crawls comme ça.
 

FroZenDooM

WRInaute discret
bah oui exactement...

ça me parait très limite comme procédure. Même de la part de GG qui ne fait pas vraiment les choses à moitier.

ça ne m'étonnerai pas qu'ils aient droit à quelques procès pour avoir provoqué des crashs ou erreurs stock avec ce type de crawl.
 

Leonick

WRInaute accro
FroZenDooM a dit:
ça ne m'étonnerai pas qu'ils aient droit à quelques procès pour avoir provoqué des crashs ou erreurs stock avec ce type de crawl.
il suffit de ne faire varier les stocks qu'après réception de l'accusé de paiement pour le paiement en ligne. Par contre, c'est vrai que si gg valide par défaut le paiement par chèque :lol:
 

Leonick

WRInaute accro
oui, mais là c'est ceux qui lui donnent un fichier au bon format. Alors que ce qu'il voudrait, peut-être, faire, c'est de récupérer toutes les données, quelque soient les formats
Mais effectivement, ça pourrait être la solution. Ensuite, il ne restera plus qu'à ce que les vendeurs ouvrent un compte gg checkout et la boucle est bouclée :wink:
 

tonguide

WRInaute passionné
En même temps, si tes produits ne sont pas accessibles sans devoir remplir un formulaire, s'est inquiétant pour le référencement mais aussi pour les visiteurs.

Enfin, tout ça pour dire que les prix, les frais de port etc ... Google n'a pas besoin de remplir un formulaire pour les récupérer.

Et donc j'en viens à ma première conclusion, je ne comprend pas quel genre de contenu supplémentaire google veut indexer avec cette technique.
 

Audiofeeline

WRInaute accro
tonguide a dit:
je ne comprend pas quel genre de contenu supplémentaire google veut indexer avec cette technique.
Les espaces d'administration de nos sites ? :lol: :lol: :lol:

C'est peut être pour améliorer la sécurité, non ?
 

tonguide

WRInaute passionné
Si google peut indexer ton espace d'admin, faut que tu t'inquiètes :) lol

[mode futuriste]En faites je sais, il veut pouvoir s'inscrire sur un forum, et à l'aide de son algo, il répond aux questions posé sur les sujets en plaçant directement un lien Adwords en relation[/mode futuriste]

Plus sérieusement, à part référencer des trucs qu'ils arrivaient pas à référencer, je vois pas. Mais comme manifestement cette page ne sera pas bien optimisé, elle ne ressortira jamais sauf peut-être pour des requêtes ultra exotique (et encore).
 

Audiofeeline

WRInaute accro
tonguide a dit:
[mode futuriste]En faites je sais, il veut pouvoir s'inscrire sur un forum, et à l'aide de son algo, il répond aux questions posé sur les sujets en plaçant directement un lien Adwords en relation[/mode futuriste]
Ca se fait, il me semble avoir déjà lu un article sur une intelligence artificielle capable de participer à un forum phpBB.
 

Leonick

WRInaute accro
tonguide a dit:
En même temps, si tes produits ne sont pas accessibles sans devoir remplir un formulaire, s'est inquiétant pour le référencement mais aussi pour les visiteurs.
justement, ça peut être pour incorporer mieux les sites qui ont été développés avec les pieds.
Et ça voudrait dire qu'on aura moins de chance de bien se positionner avec un site de quelques centaines de pages, contre des sites à plusieurs dizaines de milliers de pages mal codés, mais que gg arrivera à crawler :cry:
 

tonguide

WRInaute passionné
Enfin si ils sont mal codés, comme je le disais plus haut, à première vue, il risque probablement pas d'être optimiser pour le référencement (le mec qui rend pas accessible les pages, et qui optimise les pages à 200% pour le référencement, faut qu'il consulte)

Title identique partout à tous les coups, par la force des choses, aucun lien directe vers la page etc...

Bref, pour qu'avec ça, le site en question passe au dessus, je pense qu'il faudra se poser des questions sur son propre référencement.
 

david96

WRInaute passionné
Je remonte ce sujet pour faire une requête importante.
Voilà, Google s'acharne comme un dingue sur mes formulaires.

Malheureusement il ne respecte pas les id des select et s'amuse à entrer un nombre infini de possibilité en GET (bonjour le spam)
Comment l'obliger à respecter nos fourchettes mis en base ?

Si pas de solutions, comment l'interdire de crawler nos formulaires en GET en omettant l'interdiction total genre :
Code:
<meta name="robots" content="noarchive,noindex,nofollow" />
 

tonguide

WRInaute passionné
j'ai exactement le même coup, et le pire c'est que derrière il référence le tout ... donc big duplicate vu que ça ne modifie qu'une légère partie de la page.

Donc assez simple ...

if (isset($_GET['nom_de_ta_variable_formulaire']))
{
echo '<noindex ...>';
}
 

david96

WRInaute passionné
C'est ce que j'ai fait, en plus radical même : une belle page en 404 ! Merci quand même ! :D

Bon sang, je trouve dommage que Google n'ait pas prévu dans "Outils pour les webmasters" un outil justement qui nous permet de lui indiquer nos id en base.

Pour les mots clef de type string, je peux comprendre (j'ai d'ailleurs suite à ça, remis en post un formulaire, permettant du texte), mais pour les formulaires de type int, dommage qu'il ne respecte pas les limites imposées par celui-ci et tente de son propre chef tout et n'importe quoi ! :?

Dommage, l'idée est bonne, mais google n'a pas pensé à certaines conséquences, il met la charrue avant les boeufs ! :D
 

WebRankInfo

Olivier Duffez (admin)
Membre du personnel
peux-tu nous montrer un exemple où Google teste + de valeurs que celles présentes dans ta balise select ?
 

david96

WRInaute passionné
Bon sang, J'me suis excité un peu trop vite, mea culpa, mais à demi quand même !

Je sais d'où vient ces retours de spam d'error !

Pour expliquer le souci, voilà un exemple d'error via la method get :
Code:
categorie => 1
departement => 38
region => 14
rubrique => 20
Dans mon script je ne peux pas faire autrement que d'imposer soit un département, soit une région...
Bref, google se fichant complètement de ce genre d'anomalie (ce qui peut se comprendre) engendre des erreurs 404 à foison.

Ce qui serait bien c'est de lui dire : toi gentil robot, quand toi prendre variable departement alors variable region sera toujours = 24.

Maintenant de mon côté, je peux faire en sorte d'imposer cette anomalie, la crainte et que cela va engendrer des centaines de redirection et par expérience, trop de 301 dans la tronche à google peut-être très pénalisant. En même temps les 404 ne sont pas non plus géniaux :?

La solution serait alors peut-être, même si cela ne respecte pas le protocole RFC, de mettre une belle page en 200 pour les internautes, avec un noindex dans le header, afin d'éviter le duplicate pour les moteurs de recherche.
 

david96

WRInaute passionné
Voilà, du genre ainsi -http://www.monsite.org/cherche.php?region=4&departement=90&rubrique=20&categorie=1
avec la balise meta :
Code:
<meta name="robots" content="noarchive,noindex,nofollow" />

Qu'en pensez-vous ?

En passant, le gentil robot, continue depuis minuit à faire toute les requêtes qu'il peut :lol: Je crois que j'ai bien fait de mettre en post le formulaire texte, car j'imagine les milliers de possibilités de mots clefs... :D
 

ortolojf

WRInaute accro
Hé bé... ;)

J'ai toutes les Courses de Chevaux ( de 10 à 20 courses/jour ), du 1er Janvier 2000 jusqu'à hier réactualisées tous les jours avec les courses de la veille.

15 * 365 * (2008 - 2000 + 1) = 49275 pages, sans compter les pages intermédiaires... A multiplier par 4 ou 5...

Les 10 derniers jours par des liens directs, le reste par un formulaire remplissable très facilement de manière automatique, vu que les variables sont dans dans des boîtes-listes ( jour, mois et année des courses ).

Si je comprend bien, Google va se remplir ses data centers. ;(

Là, ça va être plus que de l'inflation de données... Plutôt de l'hyper-inflation.

Bien à vous.

Amicalement.

Jean-François Ortolo
 

david96

WRInaute passionné
Je retire mon mea culpa !
Là on peut dire que le bot ne respecte plus le formulaire, car il omet un paramètre (la variable : categorie)
Code:
departement => 48
region => 24
rubrique => 20
Ce qui génère bien entendu plein d'erreur 404 ! :evil:
 

ortolojf

WRInaute accro
Je ne comprend pas très bien...

1/ D'une part, Google dit qu'il ne faut plus faire d'url-rewriting.

2/ D'autre part, Google remplit désormais les formulaires.

Celà semblerait indiquer que le 1/ ne soit pas du à la nécessité ou volonté de Google, de limiter le nombre de ses pages indexées.

Donc, dans mon cas, l'url-rewriting n'ayant aucun autre incidence que celle-là, devrait donc être permise. Ouf.

En tout cas, ne vous semble-t-il pas, que 1/ et 2/ sont contradictoires ?

Bien à vous.

Amicalement.

Jean-François Ortolo
 

Discussions similaires

Haut