banneer2

Réducteur d'URL tinad:

Collez l'adresse du site:

Rechercher sur le blog du grouik:

kill the spam

J'ai réussi à faire le tri dans les 3 000 URL enregistrées en 1 minute (moins d'une heure pour écrire le script).

Mon réducteur d'URL (en haut à droite du blog) s'appuie sur une base de données dont la table principale a cette tronche:

id url updatetime ip
rVk http://rkobruhmucvu.com/ 2010-12-31 09:52:51 XXX.XXX.XXX.XXX
L6o http://blog-du-grouik.tinad.fr/index.php?post/2010... 2011-01-31 07:33:07 XXX.XXX.XXX.XXX

Ayant sur les 3000 liens enregistrés, 2700 liens douteux ou renvoyant vers de la vente de viagra. Un ménage s'imposait. Mais pas à la main, et je ne veux pas me galérer à m'imposer un captcha sur ce truc, tout en le laissant ouvert.

Le(s) spammeur(s) utilise(nt) beaucoup de domaines. Les black lister serait épuisant. De même il a beaucoup d'IP; idem.

Et si on croisait les deux?

Sa faille c'est qu'il utilise plusieurs IP pour spammer un lien vers le même domaine. Et que chaque IP sert à plusieurs liens.

J'explique la méthode:

Manuellement je relève un premier lien qui est du spam. Je l'enregistre (l'url) dans la blacklist. Mon script va ensuite relever toutes les IP qui ont posé un lien vers les domaines blacklistés. Elles sont aussi posées dans une black list. Le script black-liste à présent toutes les URL postés par les IP de la blacklist et recommence en boucle jusqu'à ce qu'il ne trouve plus rien.

En trois coups, je suis passé de 3000 liens à 300 :D

Ça a marché car il n'y avait pas un seul faux positif. Le spammeur n'a posté que du spam, et aucun lien vers mon blog par exemple.

Je crois que si j'avais fait ça le moins prochain, je me retrouvais avec le botnet entier enregistré dans ma blacklist.

Commentaires

1. Le mardi, mars 1 2011, 03:56 par zigazou
gravatar

Hello Gnieark !

En blacklistant une ou plusieurs adresses IP, ne risques-tu pas de finir par blacklister des machines qui ont été infestées mais pour lequel le propriétaire n’est pas au courant ?

Question subsidiaire : As-tu déclaré ta base de données à la Cnil ? Car celle-ci contient des données à caractère personnel (les adresses IP)

2. Le mardi, mars 1 2011, 18:45 par gnieark
gravatar

C'est déclaré à la cnil, le temps de recevoir le récépissé de la déclaration pour indiquer le numéro.

>ne risques-tu pas de finir par blacklister
>des machines qui ont été infestées mais pour
>lequel le propriétaire n’est pas au courant ?

C'est que ça, mais je n'ai pas de moyen de les contacter, hormis déclencher une abuse sur leur FAI

3. Le mardi, mars 1 2011, 18:57 par gnieark
gravatar

numéro CNIL de http://url-courtes.tinad.fr : 1488358

Ajouter un commentaire

Nom ou pseudo:
Adresse email:
Site web (facultatif):
Commentaire:

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.

La discussion continue ailleurs

URL de rétrolien : http://blog-du-grouik.tinad.fr/trackback/849

Fil des commentaires de ce billet

Dans la même catégorie:
dev web


Creer un tchat (chat) en AJAX php

bulle_tchat-406.jpg
Un tchat, mélangeant les techniques suivantes: javascript, AJAX, PHP, mysql et JSON, en moins de 150 lignes. Il y a quelques mois Hempstar proposait sur ce blog sa version du chat. Comme j'ai énormément progressé dans ces langages de programmation, je me demandais si je saurai le faire, en quelques

Lire la suite...



Php, générer un e-mail avec plusieurs pièces jointes.

E-mail
Voici une fonction pour envoyer un e-mail en PHP avec des pièces jointes quelque soit leur extension (ou presque). La machine qui m'a servi à faire les tests est un champs MX du domaine, et l'adresse de l'expéditeur appartient au domaine (ça aide.) Le résultat des essais: Vers une boite e-mail free

Lire la suite...


setAttribute - Patch pour internet explorer - Javascript

Internet explorer interprète mal ou pas du tout la function setAttribute. Ci dessous mon prototype à insérer en début de script pour patcher ce navigateur. Il manque surement des cas particuliers que je n'ai pas pris en compte, il suffira de rajouter des "case" dans ce prototype.

Lire la suite...


Le sélecteur de dates en javascript Version 0.3.1

calendriers.jpg
Edit du 17/11/2011, passage en version 0.3.1 pour patcher internet explorer. test ok sur IE8 et IE 9, les autres versions n'ont pas été testées. L'objet de ce codage est de permettre l'intégration simple (#feignasse) sur des sites web d'un sélecteur de date plus sexy que 3 listes déroulantes. Je me

Lire la suite...


Un filtre antispam supplémentaire pour dotclear

kill the spam
J'ai remarqué que les spammeurs qui sévissent sur mon blog, ont souvent ces deux points communs: Le nom de l'auteur contient la description du site dont il fait la promotion, souvent plus de trois mots. Il a renseigné un lien vers un site internet, évidemment. Vu que dans les commentaires légitimes,

Lire la suite...


Propulsé par Dotclear