Spam reporting automatisé

WRInaute discret
Hello tous,

Depuis le temps que j'entend des personnes utilisant le Spam reporting de Google, je suis en train de me dire qu'un outils de détection automatique de spam serait une bonne idée de développement.

Voila mon idée:
- Effectuer une recherche Google sur un terme donné.
- Garder en mémoire les X premiers résultats
- Pour chaque résultat :
+ Visiter la page et ses dépendances JS et CSS
+ Vérifier la présence de META REFRESH
+ Parser le code JS à la recherche d'une redirection du genre "windows.location=..."
+ Faire ressortir la présence de DIV et de SPAN cachés (visibility:hidden, position négative)
- Puis afficher les résultats, une intervention humaine est alors nécessaire pour vérifier le caractère frauduleux des résultats.
- Ensuite, pour chaque résultat, possibilité de soumettre automatiquement à Google par le biais du formulaire disponible ici: https://www.google.com/contact/spamreport.html

Je ne sais pas si quelqu'un s'est déjà intéressé à ce genre de développement. Si c'est le cas, qu'il n'hésite pas à me faire partager soon expérience surtout en ce qui concerne l'interprétation du JavaScript.

Si vous connaissez d'autre techniques de Spamdexing, si vous avez d'autres idées sur la détection des techniques de Spamdexing ou si cette idée vous intéresse, faites m'en part.
 
WRInaute occasionnel
Tu comprendra en y réfléchissant que pour 8 milliard de pages il faudra vérifier à peu près 1 milliard de pages car elles comportent toute une description ou des mots ou un div qq part qui pourrait sembler "répréhensible".

Le mieux c'est comme fait google actuellement ca ne leur coute rien.

A partir d'un certain nombre de plaintes distinctes à propos d'un même site un être humain doté d'un cervau analyse le site.

./
 
Nouveau WRInaute
En outre, par expérience j'ai pu constater que de nombreux scripts window.location.href sont parfois utiles, sans pour autant faire du spamdexing...

Idem pour les CSS, les div hidden ou autres display:none ; on les trouve régulièrement dans l'affichage d'éléments de menus, de versions imprimables, etc...

Alors du coup, le spam report automatisé me semble tout de suite beaucoup plus complexe.
 
WRInaute discret
>>Røi
Je suis tout à fait d'accord. Je pensait plutôt à un scénario du genre:

J'essaie de ressortir sur tel ou tel terme de recherche mais je n'y arrive pas car de nombreux sites utilisent le spamdexing. J'effectue une analyse pour le ou les termes de recherche sur les X premières pages de résultats précédant mon apparition.

Cela resterais pour des applications très ciblées. Je pense bien qu'il est impossible de le faire pour l'essemble de l'index, je laisse d'ailleur Google s'en charger.

>>Bat

Je suis aussi d'accord avec toi, j'utilise d'ailleurs cette technique pour les menus de certains de mes sites. C'est pourquoi je pensait laisser à l'utilisateur la possibilité de vérifier manuellement les résultats de l'analyse. Si c'était plus simple, Google l'aurait déjà fait.

Je ne dit pas qu'un tel soft serait dépourvu d'erreur, mais pour la pluspart des cas, c'est quand-même flagrant et facile à détecter.
 
Discussions similaires
Haut