SPAM – aneb nevyžádaná pošta – začíná být v oblasti IT velkým problémem. Spameři každodenně rozesílají do emailových schránek po celém světě miliony nevyžádaných zpráv.
Nejčastějším obsahem sex?
Donedávna byl hlavním obsahem nevyžádané pošty erotický obsah. Takové emaily většinou lákají k návštěvě erotických webových stránek, obsahujících plno různých nebezpečných Active-X prvků nebo alespoň minimálně velkou řadu reklam různého formátu – od klasických reklamních bannerů až po řetězově se otevírající série vyskakujících oken.
V poslední době mění spam svou strukturu
Spam celkově mění svoji strukturu a cílení. Výsledky dlouhodobého monitoringu internetového provozu společnosti Clearswift ukazují velmi zajímavé výsledky.
V minulosti převažující erotický obsah spamu začíná v současné době postupně ustupovat na úkor nových trendů – nabídce finančních půjček, nelegálního software a nabídce léků bez lékařského předpisu.
Určitě vám již v emailové schránce skončil nevyžádaný email nabízející například Viagru či tabletky s jiným názvem, ale podobným účinkem (snad). Podle studií je mnoho uživatelů ochotných připlatit si za anonymitu internetu a využít tak nabídky těchto nevyžádaných emailů. To je zajímavý poznatek pro všechny pracovníky internetového marketingu - u zboží, které se lépe kupuje pod rouškou anonymity, může forma nabídky hrát velmi důležitou roli. Digitální fotoaparát si tímto způsobem, i v případě lepší ceny, zpravidla nekoupíte, ale krabičku posilňujících tabletek nejspíš ano.
Těžko zodpověditelnou otázkou však podle společnosti Clearswift zůstává, zda tento ústup eroticky laděných emailů není pouze výsledkem nasazovaných antispamových filtrů, které jsou již na tento obsah z minulosti dobře vycvičeny.
Zajímavostí je i nízká odhadovaná úspěšnost – na odkaz ve spamu klikne zhruba jeden ze 40 000 příjemců.
Jak umí spam procházet filtry?
Metod pro klasifikaci spamu je velká řada. Od prostého počítání úrovně často používaných slov až po složité analýzy celého dokumentu s učící se schopností. Bohužel se zdá, že spameři jsou vždy o krok napřed.
Často používanými technikami jsou například „zdeformovaná slova“. Například ve spamu oblíbené slovo Viagra lze napsat různými způsoby tak, aby bylo stále příjemci čitelné. Posuďte sami: vi.agra, v1agra, vi(a)gra, \/iagra, viaagra atd. Lidský mozek význam pochopí, ovšem pro program se jedná o naprosto jiná slova.
Antispamové filtry klasifikující množství „závadných“ slov jsou často překonávány dokopírováním několika stránek „nezávadného“ a často nesmyslného textu na konec reklamního emailu. Ten bývá navíc většinou napsán bílým písmem, které ve výsledku příjemce ani nezaznamená. Email tak dostane pro „elektronické kontrolóry“ úplně jiný nádech i když se stále jedná o pouhý spam.
Dalším alternativním způsobem je odesílání spamu ve formě obrázků, který je současnými běžně dostupnými prostředky stále špatně analyzovatelný.
Odkud to k nám chodí?
Rozesílatelé spamu nejsou většinou žádní hlupáci, aby rozesílali poštu ze svého Outlook Expresu. Velmi často jsou zneužívány tzv. „zombie PC“. To jsou vesměs počítače třetích osob, napadené nějakým trojským koněm, který zprostředkovává spamerům vzdálený počítač k rozesílání velkých objemů nevyžádané pošty bez vědomí uživatele.
Statistiky rozesílatelů jsou zajímavé
Společnost CipherTrust nabízí na svých stránkách zajímavé statistiky o zachyceném spamu. Z výsledků statistik, založených na zkoumání schránek tisíce zákazníků po dobu tří měsíců, vyplývá, že nejvíce nevyžádaných zpráv pochází zhruba z 200 zdrojů v USA.

Graf 1 – Podíly rozesílaného spamu z hlediska zemí
Země |
Podíl |
USA |
85,93 % |
Jižní Korea |
3,02 % |
Čína a Hong Kong |
2,63 % |
Kanada |
2,28 % |
Ukrajina |
1,47 % |
Austrálie |
1,24 % |
Argentina |
0,37 % |
Brazílie |
0,37 % |
Tchaj-wan |
0,28 % |
Velká Británie |
0,21 % |
Tab. 1 – Přehled jednotlivých zemí a jejich procentuálního podílu z celosvětově rozesílaného spamu
Podle výsledků statistiky v této kategorii naprosto jasně vedou Spojené státy. Nicméně z celkového počtu bylo pouze zhruba 28,5 procenta možné spojit s IP adresami v USA. Zbytek je pravděpodobně dílem zahraničních spamerů používajících „americká“ doménová jména. Následující obrázek shrnuje jednotlivé podíly rozesílaného spamu roztříděného podle rozsahů IP adres.

Graf 2 – Podíly rozesílaného spamu z hlediska rozsahů IP adres
Země |
Podíl |
Jižní Korea |
28,58 % |
USA |
28,41 % |
Čína a Hong Kong |
23,3 % |
Brazílie |
3,57 % |
Kanada |
1,6 % |
Indie |
0,98 % |
Španělsko |
0,98 % |
Francie |
0,65 % |
Mexiko |
0,63 % |
Tchaj-wan |
0,60 % |
Tab. 2 – Přehled jednotlivých zemí z hlediska IP adres a jejich procentuálního podílu z celosvětově rozesílaného spamu
Jednotlivé statistiky různých společností se ale někdy relativně dost liší a proto je nelze brát jako absolutně směrodatné.
Co se chystá v budoucnosti?
Metody pro analýzu spamu jdou neustále dopředu ve svém vývoji. Jednou ze zajímavých možností by se v budoucnu mohla stát například technologie vyvíjená v laboratořích IBM, vycházející z myšlenky rozluštění DNA.
Nově vyvíjený algoritmus pracuje na principu genetických sekvencí. Filtr se průběžně automaticky učí vzorky „spamu“ a má přibližně 96,5 procentní úspěšnost. V průběžných testech se v klasifikaci netrefil pouze v jedné ze šesti tisíc zpráv.
Algoritmus, používaný pro automatické určování vlastností proteinů (jako je funkce a struktura) přímo z řetězce byl částečně adaptován na počítačovou problematiku spamu - místo řetězce proteinu identifikuje řetězec znakových sekvencí vyskytujících se ve spamu a zároveň nevyskytujících se v běžné „čisté“ komunikaci.
Základním kamenem budoucích algoritmů bude zřejmě neustálý „učící se“ režim. Výše uvedený algoritmus například potřebuje pro svůj trénink na skupině 88.000 zpráv zhruba 15 minut strojového času běžného jednoprocesorového počítače.
Jaké máte zkušenosti se spamem vy? Vyjádřete se v diskuzi pod článkem.