Mindenkiről mindent tudni
Az óriási digitális lábnyomunk, az hozza a nyakunkra az NSA-t. Az IBM új adatvizualizációs szoftvere épp úgy használható bűnmegelőzésre, mint egy terroristacsoport kapcsolati hálójának elkészítéséhez. Az egyik fejlesztő, Mark Ploszay korábban a katonai hírszerzésnek dolgozott; szolgált az amerikai és a brit légierőnél, de dolgozott külföldi hadseregek tanácsadójaként és profi kódfejtőként is. Az idei ITBN-en ő mutatta be, hogy mire képes a big data-analízis, ha bűnüldözésre használják.
„Rá kell szánni napi 16 órát. Persze, van, akinek ösztönös érzéke van hozzá. A legtehetségesebb jóformán csak ránézett a lapra, és azonnal meglátta a kódban az összefüggést. Én 16 órán át izzadtam és gyűrögettem a papírokat.” – mondja Mark Ploszay. Épp azt kérdeztem tőle, hogy lett belőle az amerikai Nemzetbiztonsági Hivatal (NSA) egyik legjobb kriptográfusa. De tényleg, a legjobb 2 százalékba tartozik.
Ploszay több mint harminc évig dolgozott katonai hírszerzőként és biztonsági szakértőként három- és négybetűs kormányügynökségeknél. Az amerikai és a brit légierő egyaránt leigazolta, részt vett a Sivatagi Viharban, és a szakértelmére az FBI épp úgy igényt tartott, mint a spanyol vagy japán védelmi erők. Súlyos bűncselekmények, terrorista-elhárítás, gyilkossági esetek, bűnszövetkezetek felderítése, kódfejtés – ez mind az ő asztala. Sajnos Ploszay nem beszélhet a katonai múltjáról – köti a szigorú titoktartási szerződés –, pedig érdekelne, milyen lehetett az SR-71 és U-2 repülőgépek kémfotóiból kibogarászni a kommunizmus bukását. Vajon izgalmasabb az IBM hátszelével adatvizualizációs rendszert tervezni, ami automatikusan készíti el a bűnszövetkezetek és terroristacsoportok kapcsolati térképét?
„A Sivatagi Vihar idején is információk feldolgozásával és rendszerezésével foglalkoztam – mondja. „Ez bármilyen formában érkezhet. Lehet elektronikus adat, műholdas felvétel, emberi forrás; igazából mindegy. A legnehezebb mindezt használható információvá alakítani.” A konferencián bemutatott adatvizualizációs technika az emberi agy csekély számítási kapacitását bővíti ki. Egybilliós (igen, ezermilliárdos) adatbázissal az agy nem boldogul, a számítógép igen. Márpedig a big data-elemzés lényege – az IBM modern kori vesszőparipája –, hogy minél több adatból dolgozunk, annál pontosabb lesz az előrejelzés. Akármit akarunk megjósolni.
3 nap helyett 30 másodperc
A big data-analízist lehet ártalmatlan, de hasznos dolgokra is használni; ilyen például egy mozifilm bevételeinek előrejelzése. A magánszféra szentségéért aggódók és a terroristák viszont valószínűleg frászt kapnak, ha meghallják, a technológiát milyen hatékonyan lehet használni a bűnüldözésben is. Az új adatvizualizációs rendszer fél perc alatt elvégzi azt a munkát, ami az elemzőknek tollal-papírral három napig tartana – már ha hihetünk Ploszaynak, de ha valakinek, neki nyilván van rálátása a dologra.
A hírszerző és bűnüldöző szervezetek csak úgy tarthatják a lépést a bűnözőkkel, ha naprakész adatokkal dolgoznak, valamint részletes kapcsolati térképet és előrejelzést készíthetnek a gyanús személyekről, illetve arról, hogy mire készülnek. (Nyugalom, ez még nem a Különvélemény; a bűnmegelőzés fogalmát nem ma találták föl.) Az IBM rendszere a látszólag kaotikus adathalmazban is megtalálja a kapcsolódási pontokat, így a szoftver felépíthet egy összefüggésrendszert, amivel az elemzők dolgozhatnak.
Itt jön a képbe, amit Ploszay mondott: hogy a hírszerzőknek használható adatokra van szükségük. Az új rendszerrel több ezer terabájtnyi adatot lehet komplex keresési feltételek szerint csoportosítani, de az igazi húzóereje, hogy magától találja meg az összefüggéseket – csak adatmennyiség kérdése a dolog. (Ezt az IBM is tudja; valószínűleg nem véletlen, hogy a Big Blue Innovation Centre nemrég leszerződött vagy száz indiai céggel, akik big datával (is) foglalkoznak.)
„Gyakorlatilag végtelen adatforrásaink vannak, fuldokolhatunk az adatokban.” – mondja Ploszay. Az adat származhat telekommunikációs forrásból, bűnüldöző szervek jelentéseiből, de lehet akár földrajzi koordináta is. Az adatvizualizációs rendszer épp úgy használható nemzetbiztonsági célokra, mint a pénzmosó hálózatok vagy a szomáliai kalóztevékenység feltérképezésére. A lényeg mindig ugyanaz: milliónyi adat közt megtalálni az összefüggéseket, elvégezni a leegyszerűsítéseket, és kinyerni a nettó információt.
Ki, hol, kivel, mit
Ploszay szerint az elmúlt évtizedekben a hírszerzés célja nem változott, csak az eszközei. Az elemzőknek most máshogy van nehéz dolguk, mint húsz-harminc éve: régen a befutó adatokra vártak, hogy elkezdhessenek dolgozni, de ma a releváns információt kell megtalálni a több ezer petabájtnyi adatkupacban. Némi segítséget nyújt, hogy az értesítési rendszer automatikusan figyelmeztet az állapotváltozásokra: így az elemzők tudni fogják, ha történt az adott járműre, helyszínre vagy személyre vonatkozó változás. Ha hagyják, hogy ezt a gép csinálja, több száz manuális lekérdezést spórolhatnak meg.
Ploszay – aki nyilván belülről is látta ezeknek a szervezeteknek a működését – azt mondja, az adatvizualizáció egyik nagy előnye, hogy segíti a különböző munkacsoportok együttműködését. A nyers adatokkal dolgozó hírszerzők és a geográfiai analízist készítő munkatársaik például egyszerre használhatják ugyanazt az interaktív térképet, amire könnyű felvinni az adatokat, így meghatározható a célszemélyek lakóhelye, mozgástere és tevékenységi köre, és hozzá lehet fogni a kapcsolatok kiismeréséhez. Tehát a „ki” után jön a „hol”, majd a „kivel”. Tudni fogják, hogy az illető melyik kávézóban fizetett, hogy kivel találkozott, és hogy megint azzal az autóval mentek-e, aminek a nyilvántartási száma az egyik ismerős nevére volt regisztrálva. Ha van ilyen adat, a rendszer megtalálja.
Ploszay megjegyzi, hogy a közösségi hálózat analízisének semmi köze a Facebook vagy a Twitter mechanizmusához; ők nem szimpla kapcsolati térképet készítenek, hanem csoportdinamikai vizsgálatokat végeznek. Sokszor a kapcsolódási pont nem más, mint egy műholdfelvétel, egy dokumentumra mutató link, vagy egy fénykép. Nem egyszerű töredékinformációkból összelegózni a teljes képet, mivel manapság olyan adatokat is felhasználnak az elemzéshez, amire korábban nem is tekintettek használható adatként.
Az ember a legfőbb értékelő
„Aha. Tehát ha a gép kidobja, hogy az adatok szerint bűnös vagyok, rám rúghatja az ajtót az FBI?” – kérdezhetik. Nem egészen. A fejlesztők már korábban rájöttek, hogy gondolni kell majd a duplikációkra is, mert ha például egy milliárdos adatbázisban rákeresünk a Smith (Kovács) vezetéknevű személyekre, jó eséllyel kapunk vagy 2,8 millió találatot. Az IBM fejlesztői ezért készítettek egy Identity Insight nevű szoftvert, ami a duplikációkra vadászik. Ploszay szerint az elemzőkben megfagyott a vér, amikor a mérnökök ezt a folyamatot is automatizálni akarták. „Nem állhatunk oda a bíróság elé, arra hivatkozva, hogy azért tartóztatjuk le ezt a személyt, mert egy gép így döntött.”
Itt jön a képbe a recommendation engine, az ajánlórendszer. Ha mondjuk 250 ezer bejegyzésből 150 duplikáció – például azonos a születési név és a születési dátum, de nem stimmel a cím –, az elemző eldöntheti, hogy mekkora az esélye annak, hogy ugyanarról a személyről van szó, majd megad egy valószínűségi értéket. Az információ fajsúlyát tehát az ember határozza meg, nem a gép – még akkor is, ha ez az eljárás a mérnököknek nem igazán tetszett. Ennek részben az az oka, hogy a bigdata-elemzésben friss, sőt, lehetőség szerint valós idejű információkkal érdemes dolgozni; nyilván, mert az új változók egyre pontosabbá teszik az előrejelzési modellt.
Könyvtárakkal legózó
Tehát hogy is működik a rendszer? Attól függ, mire szeretnénk használni. Ha banki adatbázisokból dolgozunk, felrajzolhatjuk a pénzmosó szervezetek tevékenységét. Ha szervezett bűnözői csoportokat akarunk kiismerni, a potenciális tagok személyes információit és kapcsolatait kell felhasználni, nyilván bűnügyi adatbázisokra alapozva. Az elemzők ilyenkor még azokat az adatokat is figyelembe veszik, amiknek látszólag nincs relevanciája – legfeljebb alacsonyabbra értékelik. De az is adat.
A több millió adatbázis több millió petabájtjában természetesen rengeteg hulladék lesz, de az ajánlórendszer elvégzi az egyszerűsítéseket, illetve a folyamatosan érkező újabb adatokat is feldolgozza. Nagyjából olyan az egész, mint amikor a rendőrök a mágneses táblán tologatják a fantom- és fényképeket és post-it cetliket. Csak itt egész könyvtárakkal legózik egy gép, miközben tűket keres és talál egy szénakazalban.
Ploszay szerint a rendszer kapcsolatban áll 1,7 millió telefonos adótoronnyal, 100 millió egyedi telefonszámból válogathat, 120 millió személyről van ilyen-olyan információjuk, és még a napi egymilliárd telefonhívásra, SMS-re és faxra is marad kapacitása. És ez nem a jövő – ez a rendszer már most is működik. Megrendelik, leszállítják, 5 nap alatt betanítják a személyzetet, 5 nap alatt a menedzsmentet, és máris használhatják – pénzmosási ügyek felderítésére, gyilkossági esetek feltérképezésére, vagy bármilyen összefüggés felismerésére; egyre megy.
Régi nóta, új eszköz
Kicsit később a kínai kiberbűnözésről is kérdezem Ploszayt. Vajon mekkora esély van rá, hogy Kína behozza a húszéves haditechnikai lemaradását az Egyesült Államokkal szemben, ha az alulfizetett programozóik elég ügyesen lopják az F-22-es vadászgépek tervrajzait?
„Egy háborút nem lehet csak légierővel megnyerni” - mondja, majd hozzáteszi: az ipari kémkedés nem új keletű dolog, és lehet is védekezni ellene – csak éppen most más eszközöket használnak hozzá, mint tíz-húsz éve. Ugyanez igaz az adatvizualizációs szoftverre is: az elemzői munkát továbbra is el kell végezni, csak nem mágneses táblával, fotókkal és térképekkel, hanem két kattintással, automatizmussal, kézműves rating rendszerrel.
(Hegyeshalmi Richárd, index.hu)