Lutte contre le spam : Google peut-il vraiment s'améliorer ?

WRInaute accro
Bonjour Olivier

Très bonne synthèse, qui fait se poser de grandes questions existentielles (pour ma part en tout cas) dans l'hypothèse où la fameuse extension serait prise effectivement en compte comme tout ou partie d'un (futur ?) critère de positionnement.

On peut d'ors et déjà imaginer de nouvelles techniques black hat (ou tout du moins douteuses) pour "descendre" un concurrent, genre on sabre tel ou tel site en masse (via des comptes / IP différentes, ou plus simplement par le biais... d'un réseau de connaissances : vive les réseaux sociaux !)

J'ai toujours été très réservé quant aux systèmes de notations "par le public", que ce soit pour ce type d'action, ou pour (par exemple) des concours en ligne. Je trouve ça... naze (j'ai pas d'autres mots !)
 
WRInaute accro
J'accueille plutôt favorablement l'arrivée de cet extension.

Il convient de garder à l'esprit que tout système informatique, algorithmique ou pas, a ses propres limites. A fortiori quand ce système régit un monumental réseau ouvert qu'est l'Internet.

Le système de Google n'échappe pas à cette règle et je trouve plutôt rassurant qu'un être humain soit in fine, indispensable à ce contrôle.

Ou alors, il faudrait revoir tout le protocole qui support le Web pour en faire une forteresse imprenable, elle-même soumise à une autorité impitoyable :)
 
WRInaute impliqué
Bonjour,

pas mal de spéculations dans cet article,

Google est pragmatique et se donne la liberté de tester toutes les méthodes à l'américaine dans la "recherche fondamentale informatique" : on en créé 10 services, 2 qui restent, 1 qui cartonne.
 
Nouveau WRInaute
Très bon article! Bon constat sur le fait que Google est de plus en plus dépassé par les techniques Black hat / spam.

Par contre je me pose la question suivante: Est-ce que la prise en compte directe des résultats envoyés par cet extension ne représente pas un énorme risque?? Le risque bien sûr d'être utilisée par des SEO pour "couler" les concurrents...
 
WRInaute passionné
Pour faire un suivi des tests en technique BH et WH de manière vraiment continue je peux dire que Google n'est pas si dépassé que ça.

Du moins c'est mon avis personnel, mais surtout dernièrement il y a eu un gros mieux sur la gestion du Spam. Par contre, j'ai de plus en plus l'impression que les résultats sont "affinés" à la main sur de grosses requêtes et que certaines requêtes ne suivent pas le schéma de positionnement qu'on retrouve ailleurs.

Je rejoindrai donc l'idée avancée par Topsitemaker, GG est en changement permanent, beaucoup de tests, quelques réussites, pas mal de fail, mais on arrive à du mieux au final.

Je ne suis pas toujours content de ce que fait GG, mais je comprends très bien qu'ils ne peuvent pas proposer une perfection absolue. Ce n'est pas parce que tous mes clients ne sont pas en Top positions que je vais taper sur GG de manière générale. Par contre certains aspects sont laaargement perfectibles (des sites morts en première page, du spam report qui ne fonctionne pas ou dont les concurrents abusent etc).

Il y a donc un débat sur la question du besoin en "curator" (je hais ce mot), d'humains pour lisser les imperfections laissées par le code. Je pense qu'on doit aller vers cette tendance pour les moteurs, mais on parle là de professionnels payés pour et non pas compter sur la délation qui est la porte ouverte à toutes les dérives.

GG nie manipuler les résultats, mais je vois clairement que c'est le cas. Il privilégie une typologie de sites par rapport à d'autres selon les cas. On voit des sites se faire descendre après un Spam Report (foireux car le GGleur a marché dans la combiner de celui qui a report et qui a lui-même créé du spam link pour te couler...) alors que pour prouver son innocence à GG c'est même pas la peine d'essayer.

Pour moi c'est le grand défit de GG à horizon 5 ans. Un programme ne peut pas filtrer tout le bordel créé par 1 million de pages spammy produites par jour. Il faut de la modération manuelle assistée par IA.
 
WRInaute impliqué
Tu as fait la synthèse de toutes les questions que je me pose en ce moment. Je constate de plus en plus que les sites utilisant des techniques frauduleuses (aux yeux de Google) restent sans souci dans les résultats.
Beaucoup d'annuaires, même ceux exigeant un lien retour, ont retrouvé leur gros PR en janvier et voit leur fréquentation en hausse. L'achat de liens n'est plus pénalisé, etc...
Donc, j'ai des doutes sur la stratégie de Google à ce niveau.
 
WRInaute accro
cedric_g a dit:
J'ai toujours été très réservé quant aux systèmes de notations "par le public", que ce soit pour ce type d'action, ou pour (par exemple) des concours en ligne. Je trouve ça... naze (j'ai pas d'autres mots !)
je pense que ces notations vont allumer un clignotant chez gg, mais qu'ensuite la vérification sera manuelle, voire pour améliorer l'algo. Ensuite, je pense que les algos utilisés pour vérifier la véracité des clics chez adsense pourraient servir à vérifier la véracité des notations spam des sites
 
WRInaute passionné
Je partage le constat général sur la dégradation des pages de résultats. Je vous propose trois éléments de réflexion supplémentaires.

1/ Le côté cyclique de la qualité des résultats. Ce n'est pas la première fois qu'on constate durant plusieurs mois des Serp vraiment dégradés. S'intercalent des périodes durant lesquelles ça va quand même mieux, généralement précédées d'importants bouleversements.

2/ Le fait que les pages intéressantes sont (et seront !) de plus en plus en concurrence avec... des pages/services de Google.

3/ La communication de Google. Celui qui communique le plus dans cette boîte, Matt Cuts, est celui dont le métier est de plomber des sites. C'est un choix. Dans le contexte actuel, Google pourrait aussi décider de communiquer sur les façons dont il valorise les pages intéressantes (faire grimper ces pages est une façon très efficace de faire descendre les pages spammy).

Argument : il y a moins de pages de qualité que de pages pouraves, ça devrait coûter moins cher de s'occuper de leur coller des bonus plutôt que de poser des malus sur les milliasses de pages de spam.

Or aujourd'hui, le discours de Google est au raz-les-pâquerettes. C'est "on a une machine nickel, si elle ne fonctionne pas comme elle devrait c'est la faute aux méchants, luttons ensemble contre les méchants !".

On devrait essayer de voir un peu plus loin, non ? 8)
 
WRInaute accro
Je suis surpris que malgré les excellentes recherches faites ces dernières décennies en intelligence artificielle ça n'ait pas d'incidence sur l'algorithme le plus utilisé de la planète. Face à des difficultés, les réponses sont toujours : plus de mémoire, plus de puissance de calcul, plus de filtres, et maintenant on demande à l'être humain de pallier les insuffisances du système.
A quand des programmes indépendants chargés de surveiller et de comprendre l'apparition de pages et de sites dans un certain environnement par secteur d'activité, par taille de site, en fonction de l'actualité, et les liens qui se font et se défont dans ces microcosmes ?
Je ne dis pas que quelques malins ne passeraient pas entre les mailles, et qu'il n'y aurait pas des injustices, mais au moins ce serait fun.
 
WRInaute accro
monautoentrepreneur a dit:
Très bon article! Bon constat sur le fait que Google est de plus en plus dépassé par les techniques Black hat / spam.


Dirais l'inverse, à force de casser des sites standards depuis 3 ans (genre dupplicate par un petit copieur), il laisse maintenant passer des autres. Le retour de manivelle .... les vrais sites ne passent plus et les autres un peu mieux.

GG a tellemment été obnubiler par le spams (ou réduire ses dépenses - donc ses serveurs) qu'il a complètement modifier l'algo contre des pseudo spams au détriment des résultats. A force de casser des sites plus ou moins corrects, reste plus que d'autres qui s'insèrent bêtement dans la breche.
 
WRInaute occasionnel
-http://www.lemonde.fr/technologies/article/2011/02/15/google-s-attaque-aux-fermes-de-contenus_1480586_651865.html
La conclusion et la requête citée en exemple m'ont bien fait rigoler, un peu surréaliste avec un peu de recul, mais si vrai au fond.

Quant au fond de l'article, ça reste du grand public mais bon, chroniquer ce type de fait dans un média comme lemonde.fr est symptomatique de l'importance du "search" dans le quotidien des gens normaux.
"Content is the way"
 
WRInaute impliqué
J'imagine qu'un grand nombre de blocages Chrome provoqueraient une alerte, non une sanction. Ensuite, une analyse humaine viendrait étudiait la qualité du contenu et le respect des règles par le site.
 
Olivier Duffez (admin)
Membre du personnel
Merci pour vos réactions :)

Je suis assez d'accord avec le fait que Google n'a pas fait assez attention ces 18 derniers mois sur les dégâts collatéraux occasionnés par certains de ses nouveaux filtres, plombant des sites de qualité et faisant donc remonter des sites moins bons.

Sur le constat de plus en plus partagé de la baisse de la qualité des résultats de Google, ou sur son incapacité actuelle à lutter contre le spam, je me dis qu'il doit y avoir un paquet d'ingénieurs qui bossent comme des fous pour corriger le tir. Google ne peut pas se permettre de rester très longtemps dans cette situation. Je pronostique donc que dans moins de 3 mois on aura eu un changement d'algo important. Par exemple je ne comprends pas que les liens pourris aident encore autant...
 
WRInaute impliqué
Ce que dit lafleur2004 sur la qualité des pages est intéressant.

Il y a aussi sûrement un manque de qualité éditoriale grandissant sur Internet en général. Les internautes cherchent tout et n'importe quoi via Google, or il y a plein de requêtes ou aucune page ne répond vraiment à la demande. Plutôt que de rien mettre (d'avouer qu'il n'a pas su répondre à la question), le moteur va afficher des pages vides ou très peu remplies. Google est trop dépendant de son algorithme privilégiant la popularité à la pertinence du contenu.

Un autre souci est la rémunération du contenu. "Le contenu est roi" est peut-être vrai pour les moteurs mais pas forcément pour les annonceurs. Pour produire beaucoup de contenu de qualité, cela coûte cher et la publicité (notamment via les bannières) ne parvient pas à rentrer dans ses frais (dans les secteurs non commerciaux notamment).

Or, beaucoup de sites (même les plus grands) vont préférer créer du contenu a minima pour "envahir" les résultats de recherche et récupérer à faible coût un maximum d'impressions, plutôt que de créer du contenu vraiment intéressant pour les visiteurs. Qui peut leur reprocher puisque Google laisse faire ?
=> Je pense ainsi à l'exemple d'un site culturel leader en France, connu pour la qualité éditoriale de son contenu, qui vient de se séparer de plus de 20 personnes puisqu'ayant ses chiffres dans le rouge. Ils veulent ainsi remplacer le contenu éditorial par de l'agrégation de données et d'avis d'utilisateurs, tout en espérant conserver la même fréquentation. Ce qui est possible avec les résultats actuels de Google.

Mais comme tu le dis Olivier, on peut supposer que Google mette les bouchées doubles en ce moment pour s'attaquer à ce problème. En espérant qu'il n'y ait pas trop de dégâts collatéraux...
 
WRInaute passionné
Argonaute a dit:
Plutôt que de rien mettre (d'avouer qu'il n'a pas su répondre à la question), le moteur va afficher des pages vides ou très peu remplies. Google est trop dépendant de son algorithme privilégiant la popularité à la pertinence du contenu.

Je suis complètement d'accord: la notion de contenu semble avoir globalement disparue des algos de GG. Et les notions techniques (architecture de sites techniquement bien construits) de "fabrication" des pages ne sont plus pris en compte.

Et là, on ne parle que du Web, parce que dans les recherches images... :mrgreen: https://www.google.fr/images?hl=fr&q=bact%C3%A9rie&rlz=1B3GGGL_frFR310F ... a=N&tab=wi (j'aime bien la "bactérie mangeuse de chair" : image signalée plusieurs fois mais sans aucun résultat).
 
WRInaute impliqué
Bonjour,

Je pense que le salut pour Google et pour d'autres comme Bing viendra de l'ingéniosité à capter la transmission d'une information entre 2 entités.

J'en vois 3 pour le moment

1) avant Google checkait quel site était backlinké par d'autres sites on a un schéma sites => sites, la bonne époque des échanges de liens réciproques

2) Facebook arrive le social s'instaure, l'utilisateur transmet / partage sur Facebook on a schéma utilisateurs => sites (le mur),

3) MSN a un bon % de part de marché de la messagerie instantanée, l'utilisateur transmet à un autre utilisateur un lien :
on a le schéma utilisateurs => utilisateurs (en cliquant sur un lien on a une passerelle live)

le problème c'est que plus l'information est captée proche de l'utilisateur, plus on se rapproche de la ligne jaune ou rouge de la sphère privée.
Peut-être que lors d'une conversation webcam on ira jusqu'à analyser l'image pour extraire un contenu texte, ou le son pour en isoler une marque.
J'aimerai bien que Google puisse donc trouver un algorithme s'éloignant de la sphère privée. Peut-être est-ce vraiment trop tard ?
 
WRInaute passionné
anemone-clown a dit:
Et les notions techniques (architecture de sites techniquement bien construits) de "fabrication" des pages ne sont plus pris en compte.
Le soucis est que la technique est maitrisé par de plus en plus de monde, et donc sur des domaines concurrentiels, ça n'a presque plus d'incidence.

webrankinfo a dit:
Par exemple je ne comprends pas que les liens pourris aident encore autant...
Je fais le même constat, j'ai assez peu de temps à consacrer à tout ça, et quand je vois des concurrents vide de contenu me passer devant parce qu'ils se préoccupent davantage des liens qui pointent vers eux plutôt que le contenu qui fait leur site, j'ai tendance à trouver que quelque chose ne va pas. Alors évidemment, comme je fais du contenu je ressors bien plus, mais sur les top mots clés, c'est même plus la peine de s'embêter. Après, le contenu me parait être plus payant sur le long terme.
 
WRInaute impliqué
Je ne vois pas trop d'action contre le spam, les fermes à contenu ou le DC à titre perso...

Par exemple, actuellement, dans mon domaine, les Sciences de la Terre, beaucoup de ferme à contenu se portent très très bien.

Un site au hasars, qui se contente de mouliner wikipédia : wikibis.com. Il y a aussi pas mal de sites qui semblent être russe dans ce domaine du moulinage de wikipédia.

Rien contre ce type de site, chacun est libre de mettre sur le net ce qu'il veut bien sur, mais on doute de la puissance des algo de Google et autres quand ce type de site vit bien de ses positions dans les serps.

Pour moi, l'avenir, c'est l'humain, un algo qui fait le gros du travail, signale des sites à une équipe humaine qui peut juger ou pas de la qualité des sites.

1000 employés à 150 heure par mois, qui évalue un site en 3 minutes, à la louche, ça peut faire 3.000.000 de sites vues par des humains par mois, pour un cout en salaire pas si énorme (pour un Google ou Bing). 3 minutes pour un site, dans de très très nombreux cas de fermes à contenu ou autres c'est suffisant... Juste affecter aux sites litigieux une pénalité, qui plombe leur sortis ds les serp, pas besoind e black lsite ou autres... Plus signalement à l'équipe adsence...

Bien sur, peut être que la multiplication des fermes à contenu, riches en adsence, tirant les prix des annonces vers la bas arrange in fine google...
 
WRInaute passionné
Théophraste a dit:
Un site au hasars, qui se contente de mouliner wikipédia : wikibis.com. Il y a aussi pas mal de sites qui semblent être russe dans ce domaine du moulinage de wikipédia.
En 3minutes et n'y connaissant pas grand chose, je ne l'aurai pas exclu (sauf si j'avais des preuves évidemment). Et un humain n'est pas sans faille, ni sans possibilité de marchandé son "pouvoir" plus qu'important (vu la masse d'argent que ça peut générer). ça risquerai de poser d'autres soucis tout aussi important, notamment des conflits par le fait que ce n'est plus un algo mais un humain qui potentiellement recommanderai les sites très présents (puisque finalement il ne serait pas filtrer).

ça me semble pas dans l'intérêt de GG de faire ça, ou en tout cas de le dire.
 
WRInaute passionné
c'est peut être le déclin de google ... et l'apparition proche d'un nouveau moteur innovant (ca ne vous rappel rien ? :p )
 
WRInaute accro
aladdin a dit:
c'est peut être le déclin de google ...
en fait, gg n'est pas le meilleur, mais le moins pire des moteurs
aladdin a dit:
... et l'apparition proche d'un nouveau moteur innovant (ca ne vous rappel rien ? :p )
en dehors d'un buzz temporaire, les gg killers de ces 3-4 dernières années se sont vite essoufflés :wink:
 
WRInaute occasionnel
Il y a peu, j'ai invité pour la thèse d'un de mes étudiants un chercheur US dans le domaine de la lutte contre le spam. Ce chercheur ne travaille pas pour un moteur (mais il collabore de manière étroite avec eux) et a donc une vision différente de ce que l'on retrouve dans le discours habituel (il consulte pour l'état américain). Il nous a fait un exposé sur ce qui est selon lui le vrai problème de la manipulation des SERPS : l'influence idéologique d'un groupe motivé vis à vis du reste du monde (avec des exemples particulièrement exemplaire de groupes de pressions aux USA qui luttent les uns contre les autres).

Lorsque dans l'assistance quelqu'un a mentionné le recours aux humains pour filtrer, il a souris et a répondu comme un jésuite par une question : quel est le prix de la corruption ? Je crois que cela veut tout dire sur ce que les gens proches des moteurs et de la problématique pensent. C'est mon avis également.
 
WRInaute passionné
Enfin là, je me demande si je ne vais pas interdire les naunautes utilisant Chrome sur une ou deux projets, on ne sait jamais :lol:
 
WRInaute passionné
Concernant le cas JC Penney qui est à l'origine de la présente discussion, il reste à voir quel effet réel a la "sanction" de google.

De l'extérieur, c'est un peu tôt pour en faire l'analyse; mais à en croire Alexa (qui est relativement fiable pour de tels sites à très gros traffic) et google insight (qui certes ne donne qu'une indication indirecte sur le traffic du site), le traffic global de JC Penney ne semble guère affecté.

Les stats de google trends sites ne couvrent pas encore la période post-sanction.

Mais si j'ai bien compris le cas, il s'agit surtout de positionnements temporaires recherchés pour les ventes saisonnières en décembre. Alors, sanctionner ces positions en février, cela n'a pas bcp de sens.

Et si tout cela se confirme, la "sanction" ne va certainement pas décourager de telles pratiques

.
 
WRInaute passionné
Pénalités? vous avez dit pénalités?


chart


Rappel (en bref):
-- découverte par un journaliste du New york Times d'achats massifs de liens par JC Penney pour bootser ses ventes de fin d'année. Google n'avait rien vu et en tout cas rien fait contre. JC Penney est un tout gros client adwords.
-- suite à la publication de l'info, Cutts (google) annonce des pénalités précises mises en oeuvre mi-février 2011.
-- un mois après, il n'y a pas la moindre trace d'effets négatifs de ces pénalités sur l'audience de JC Penney.


" Selon que vous serez puissant ou misérable, ..."
Jean de la Fontaine

.
 
WRInaute accro
sauf que :
1°) cette courbe ne donne pas la provenance des visiteurs, sur Alexa on voit bien une baisse en provenance des serp
2°) en dehors des pénalités "publicitaires", gg doit fournir les meilleures réponses aux demandes des internautes et si un internaute veut acheter en sécurité, on doit lui donner les entreprises les plus fiables
3°) si l'internaute recherche "JC Penney", gg DOIT lui donner ce site là et non pas un obscur annuaire
 
WRInaute accro
Leonick a dit:
sauf que :
1°) cette courbe ne donne pas la provenance des visiteurs, sur Alexa on voit bien une baisse en provenance des serp
2°) en dehors des pénalités "publicitaires", gg doit fournir les meilleures réponses aux demandes des internautes et si un internaute veut acheter en sécurité, on doit lui donner les entreprises les plus fiables
3°) si l'internaute recherche "JC Penney", gg DOIT lui donner ce site là et non pas un obscur annuaire

Search Traffic
The percentage of site visits from search engines.
Period Percent of Site Traffic
Last 30 days 23.1%
Last 7 days 21.9%
Yesterday 19.8%

http://www.alexa.com/siteinfo/jcpenney.com
 
WRInaute passionné
Leonick a écrit:sauf que :
1°) cette courbe ne donne pas la provenance des visiteurs, sur Alexa on voit bien une baisse en provenance des serp

Finstreet a déjà répondu et voici ce que cela donne en graphique cad quasi statu quo à 30 jours d'intervalle:

graph


NB la hausse passagère juste après la mi février s'explique aisément par le "buzz" lié à la révélation du NY Times.

Leonick a écrit:sauf que :
2°) en dehors des pénalités "publicitaires", gg doit fournir les meilleures réponses aux demandes des internautes et si un internaute veut acheter en sécurité, on doit lui donner les entreprises les plus fiables
3°) si l'internaute recherche "JC Penney", gg DOIT lui donner ce site là et non pas un obscur annuaire

12 février: The New Yorks Times presented their findings to Google. Googler Matt Cutts, head of webspam, confirmed that the tactics violated the Google webmaster guidelines and shortly after, the J.C. Penney web site was nowhere to found for the queries they had previously ranked number one for. Matt tweeted that “Google’s algorithms had started to work; manual action also taken
http://searchengineland.com/new-york-times-exposes-j-c-penney-link-sch ... ogle-64529

NB Sur "JC Penney", la firme se classe naturellement en tête. C'est évidemment sur des expressions-clés plus subtiles que JC Penney avait fait des achats de liens.

Mon opinion est que:
-- les faits: les pénalités par google n'ont pas eu d'effets significatifs sur le traffic de Penney
-- sur l'analyse de cette situation, on peut diverger; mais, un élément est certainement que "il s'agit surtout de positionnements temporaires recherchés pour les ventes saisonnières en décembre. Alors, sanctionner ces positions en février, cela n'a pas bcp de sens."

.
 
WRInaute discret
Vivement l'IPO de Yandex.

Tout a s 'accélerer et Google aura au moins un incitant a fournir des bons résultats.

Yandex c est aps de la petite galette comme Cuil, ou Blekko. C est du lourd, du costaud. Un rouleau compresseur.

Parce que si il faut attendre la Commission européenne pour faire le petit nettoyage chez Google, on est pas arrivé.
J ai la nette impression que Google les mène en bateau.
 
Discussions similaires
Haut