La faille des spammeurs

kill the spam

J'ai réussi à faire le tri dans les 3 000 URL enregistrées en 1 minute (moins d'une heure pour écrire le script).

Mon réducteur d'URL (en haut à droite du blog) s'appuie sur une base de données dont la table principale a cette tronche:

id url updatetime ip
rVk http://rkobruhmucvu.com/ 2010-12-31 09:52:51 XXX.XXX.XXX.XXX
L6o http://blog-du-grouik.tinad.fr/index.php?post/2010... 2011-01-31 07:33:07 XXX.XXX.XXX.XXX

Ayant sur les 3000 liens enregistrés, 2700 liens douteux ou renvoyant vers de la vente de viagra. Un ménage s'imposait. Mais pas à la main, et je ne veux pas me galérer à m'imposer un captcha sur ce truc, tout en le laissant ouvert.

Le(s) spammeur(s) utilise(nt) beaucoup de domaines. Les black lister serait épuisant. De même il a beaucoup d'IP; idem.

Et si on croisait les deux?

Sa faille c'est qu'il utilise plusieurs IP pour spammer un lien vers le même domaine. Et que chaque IP sert à plusieurs liens.

J'explique la méthode:

Manuellement je relève un premier lien qui est du spam. Je l'enregistre (l'url) dans la blacklist. Mon script va ensuite relever toutes les IP qui ont posé un lien vers les domaines blacklistés. Elles sont aussi posées dans une black list. Le script black-liste à présent toutes les URL postés par les IP de la blacklist et recommence en boucle jusqu'à ce qu'il ne trouve plus rien.

En trois coups, je suis passé de 3000 liens à 300 :D

Ça a marché car il n'y avait pas un seul faux positif. Le spammeur n'a posté que du spam, et aucun lien vers mon blog par exemple.

Je crois que si j'avais fait ça le moins prochain, je me retrouvais avec le botnet entier enregistré dans ma blacklist.

Commentaires

1. Le mardi, mars 1 2011, 03:56 par zigazou

Hello Gnieark !

En blacklistant une ou plusieurs adresses IP, ne risques-tu pas de finir par blacklister des machines qui ont été infestées mais pour lequel le propriétaire n’est pas au courant ?

Question subsidiaire : As-tu déclaré ta base de données à la Cnil ? Car celle-ci contient des données à caractère personnel (les adresses IP)

2. Le mardi, mars 1 2011, 18:45 par gnieark

C'est déclaré à la cnil, le temps de recevoir le récépissé de la déclaration pour indiquer le numéro.

>ne risques-tu pas de finir par blacklister
>des machines qui ont été infestées mais pour
>lequel le propriétaire n’est pas au courant ?

C'est que ça, mais je n'ai pas de moyen de les contacter, hormis déclencher une abuse sur leur FAI

3. Le mardi, mars 1 2011, 18:57 par gnieark

numéro CNIL de http://url-courtes.tinad.fr : 1488358

Page top