Video: Evropska noč raziskovalcev 2020: Izolacija DNA (November 2024)
Če bi želeli raziskati, kako lahko program razlikuje zlonamerna e-poštna sporočila od navadne pošte, bi želeli analizirati milijone vzorcev iz resničnega sveta, slabe in dobre. Vendar pa, če ne bi imeli prijatelja v NSA, bi težko dobili te vzorce. Twitter je na drugi strani medij za oddajanje. Skoraj vsak tvit je viden vsem, ki jih to zanima. Profesorica Jeanna Matthews in dr. študent Joshua White z univerze Clarkson je to dejstvo izkoristil, da je odkril zanesljiv identifikator tvitov, ki jih je ustvaril Blackhole Exploit Kit. Njihova predstavitev je bila priznana kot najboljši članek na 8. mednarodni konferenci o zlonamerni in nezaželeni programski opremi (na kratko Malware 2013).
Kdor z željo po pošiljanju neželene pošte, ustvari vojsko botov ali ukrade osebne podatke, lahko začne z nakupom Blackhole Exploit Kit. Matthews poroča, da ena ocena kaže, da je bil BEK v letu 2012 vključen v več kot polovico vseh napadov zlonamerne programske opreme. Drugo poročilo povezuje BEK z 29 odstotki vseh zlonamernih URL-jev. Kljub nedavni aretaciji domnevnega avtorja Blackhole-a je kit velik problem in eden od njegovih številnih načinov širjenja vključuje prevzem računov na Twitterju. Okuženi računi pošiljajo tvitove, ki vsebujejo povezave, ki ob kliku zahtevajo svojo naslednjo žrtev.
Pod črto
Matthews in White sta v letu 2012 z Twitterja zbrala več terabajtov podatkov. Ocenjuje, da njihov nabor podatkov vsebuje od 50 do 80 odstotkov vseh tvitov v tem času. Dobili so veliko več kot le 140 znakov na tvit. Glava JSON vsakega tvita vsebuje obilico informacij o pošiljatelju, tvitu in njegovi povezavi z drugimi računi.
Začeli so s preprostim dejstvom: nekateri tvitovi, ki jih ustvarijo BEK, vsebujejo posebne stavke, kot je "To si na fotografiji?" ali bolj provokativne besedne zveze, na primer "kje ste bili goli) kul fotografija". Z izkopavanjem ogromnega nabora teh znanih stavkov so identificirali okužene račune. To pa jim omogoča, da prikažejo nove stavke in druge oznake tvitov, ki jih ustvarijo BEK.
Papir je sam po sebi znan in dovršen, vendar je končni rezultat precej preprost. Razvili so sorazmerno preprosto metriko, ki lahko z uporabo izhoda določenega računa Twitter zanesljivo loči okužene račune od čistih. Če ima račun nad določeno vrstico, je račun v redu; pod črto je okužen.
Kdo je okužil koga?
S to jasno metodo za razlikovanje okuženih računov so nadaljevali z analizo postopka okužbe. Predpostavimo, da je račun B, čist, po računu A, ki je okužen. Če se račun B okuži kmalu po objavi v BEK računu A, je zelo verjetno, da je bil račun A vir. Raziskovalci so ta razmerja modelirali v grozdnem grafu, ki je zelo jasno pokazal majhno število računov, ki so povzročili ogromno število okužb. To so računi, ki jih je lastnik Blackhole Exploit Kit ustanovil posebej za širjenje okužbe.
Matthews je ugotovil, da imajo v tem trenutku možnost obveščanja uporabnikov, katerih računi so okuženi, vendar menijo, da bi to lahko videli kot preveč invazivno. Dela na druženju s Twitterjem, da bi videla, kaj je mogoče storiti.
Sodobne tehnike rudarjenja podatkov in analize velikih podatkov omogočajo raziskovalcem, da najdejo vzorce in odnose, ki bi jih bilo pred nekaj leti preprosto nemogoče doseči. Vsako iskanje znanja se ne izplača, vendar je to storilo v lopatah. Iskreno upam, da profesorju Matthewsu uspe zainteresirati Twitterja za praktično uporabo te raziskave.