In un mondo sempre più connesso si prospettano nuove frontiere per la sicurezza degli apparati strategici di un Paese. Più centrale il ruolo della data science nell’assicurare un approccio “olistico” che vede affiancati sistemi human e machine driven. Un’analisi delle forze in campo
Marco Santarelli
Esperto in Network Analysis, Critical Infrastructures, Big Data and Future Energies
La digital transformation consegna sempre più alla cybersecurity il compito di proteggere le Infrastrutture critiche. Nel contesto dell’intelligence lo studio dei fenomeni si basa su tre macro sistemi: scenari e contesti internazionali, analisi e attenzione su fenomeni di data driven, analisi sui cosiddetti fenomeni sociali.
Il primo macro sistema riguarda il mondo della geopolitica e gli equilibri tra le nazioni; il secondo tratta dei fenomeni “invisibili”, come le minacce cyber, i blackout, gli attacchi terroristici, i brevetti non conosciuti e le ricerche scientifiche eccellenti e altamente impattanti nell’ambito della difesa; il terzo si occupa di indagini sui bisogni primari di una società(energia, acqua, cibo, socializzazione, etc.), e come questi bisogni vengono manipolati, diventando oggetto di attacchi criminali, dalla frode fiscale alla corruzione nell’ambito climatico ed energetico.
In campo scientifico questi tre macro sistemi, presi nel loro insieme, hanno un nome: Infrastrutture Critiche, o meglio Infrastrutture riconosciute come primarie. Oggi uno studio di intelligence non può fare a meno dell’analisi dei fenomeni che rappresentano tali infrastrutture, ponendosi l’obiettivo di capire le relazioni e le interrelazioni di tali fenomeni in determinati contesti.
Facciamo un esempio: se per lo scenario globale si analizza la guerra in Siria, non si può non correlarla al coinvolgimento degli altri Stati (in che modo e perché) dal punto di vista economico, politico e giuridico. Una sorta di approfondimento sul fenomeno e come tale fenomeno viene inteso nella relazione tra le parti.
Infrastrutture critiche: la definizione della Ue
Le infrastrutture critiche sono sistemi transnazionali altamente connessi e, quindi, altamente vulnerabili. La Direttiva Europea che definisce l’infrastruttura critica è la 114/08 CE. Con questa si intende infrastruttura critica (IC) un elemento, un sistema o parte di questo, ubicato negli stati membri ed essenziale al mantenimento delle funzioni vitali della società, della salute, della sicurezza e del benessere economico e sociale dei cittadini, il cui danneggiamento o la cui distruzione avrebbe un impatto significativo.
Ogni Stato attraverso l’intelligence deve assicurare ai propri cittadini i servizi fondamentali dai quali dipende il benessere della società: cibo, trasporti, servizi sanitari, telecomunicazioni, rete bancaria, servizi finanziari, istituzioni politiche, sicurezza pubblica e privata. Ogni interruzione o perdita del servizio di una delle infrastrutture chiave menzionate può essere seriamente invalidante per la società e per il singolo individuo fruitore.
Le interconnessioni tra infrastrutture possono essere di tipo fisico, ambientale, cibernetico e sono mutuamente dipendenti, a tal punto che il grado di interconnessione ha un effetto reciproco sulle funzioni operative. Molte cose avvengono per interdipendenza, tali da generare a loro volta la capacità di non soddisfare i bisogni primari. L’Intelligence oggi, per effetto degli ultimi black-out (vedi Venezuela) e attacchi cyber (vedi i vari attacchi web, non ultimo l’attacco con malware a Whatsapp), ne sta diventando sempre più consapevole.
Quello che va analizzato e che rappresenta la nuova frontiera è una serie di sistemi che, una volta attaccati, ridondano, cioè si propagano, dando un input che, se replicato, genera un “imbuto” o “collo di bottiglia”, con conseguente amplificazione dei cosiddetti “effetti a cascata” e problemi seri sul sociale e sulla rete attiva tra le parti.
Se un semplice semaforo di una grande città qualunque una bella mattina impazzisse, il traffico finirebbe nel caos e i pedoni ne pagherebbero le conseguenze, quindi si creerebbero ritardi sul posto di lavoro, mancanza di produttività, mancata monetizzazione e tensioni sociali. Ecco quello che va messo in analisi: un reticolato interdipendente che genera l’effetto a cascata di cui sopra.
La soluzione a tale problematica, e su questo la comunità dell’intelligence internazionale è sempre più attenta, non è solo la stesura di piani di emergenza adeguati, ma soprattutto analisi accurate sulla “decadenza” del sistema, partendo prima di tutto dallo studio sulle interdipendenze.
Intelligence, due tipi di approccio alle difesa delle infrastrutture
L’analisi deve tenere conto della capacità di un fenomeno di portare, a livello quantitativo e qualitativo, informazioni da un punto x ad un punto y: a livello quantitativo ormai l’approccio di riferimento deve e dovrà essere il processo di modellizzazione statistica attraverso il Machine Learning e il Data Mining nell’ambito più generale del Data Science; da un punto di vista qualitativo si utilizza il contesto del giudizio umano supportato dalla logica e dalla capacità del pensiero critico.
Potremmo parlare quindi di due approcci: critico per quello qualitativo e di Deep Learning per quello dettato dall’analisi quantitativa. In sintesi il modello da adottare, sulla base di algoritmi e intelligenza artificiale, è quello quantitativo di Data Science che corrisponderà a degli indicatori qualitativi e predeterminati, prettamente fisici e umani.
Simuliamo un approccio: se si dovesse monitorare una cellula terroristica in un determinato posto, sarebbe necessaria un’analisi di quante persone sono in tal luogo ogni giorno e nel calcolatore avremmo come indicatori dei tipi delle persone di riferimento la razza, l’età, i dettagli di viso, naso e bocca, altezza e così via (sia di chi cerchiamo sia di chi frequenta il luogo abitualmente). Pertanto, per fare delle estrazioni automatiche dal calcolatore, bisognerebbe considerare le ripetitività (sempre le stesse persone, gli stessi animali, etc. in un’ottica spazio-temporale) e per ottenere i primi risultati, si dovrà partire da schemi ricorrenti predeterminati e umani per tornare alla razionalizzazione di tali dati attraverso un peso specifico del pensiero critico.
Questo ci deve aiutare a capire che il futuro deve necessariamente passare dallo studio serio e da un metodo interdisciplinare sulla vulnerabilità e la prevenzione.
Minacce in aumento nel mondo iper-connesso
Il discorso qui esposto ha delle evidenti potenzialità associate alla possibilità di effettuare delle valutazioni di tipo multidisciplinare sullo sviluppo dei sistemi delle reti ed infrastrutture in generale. Bisogna sviluppare metodologie complementari e/o alternative di modellazione e analisi delle reti infrastrutturali che ci caratterizzano e bisogna studiare la distribuzione delle informazioni basate sulla teoria delle reti complesse.
Il potenziale di applicazione di tali metodologie appare rilevante in termini di valutazione della vulnerabilità delle reti di collegamento (pensiamo a strade, stati, cellule terroristiche), alla penetrazione della generazione di nuove informazioni, di stabilità di sistema, di valutazione del processo evolutivo della rete, di definizione di modelli di sviluppo della rete, di sviluppo di sistemi di gestione della rete, di pianificazione dello sviluppo delle reti, di integrazione con altri tipi di reti infrastrutturali, quali quelle delle telecomunicazioni, di definizione, di valutazione, monitoraggio e previsione della qualità delle reti e del loro contributo alla vita sociale.
Questo passaggio si traduce in contesto reale. Da anni viviamo qualcosa di più di una semplice tendenza: oggi siamo abituati a vivere in uno spazio in cui gli impianti di riscaldamento sono comandati da un’app, i servizi di sorveglianza ci offrono report direttamente sul telefonino, le tv sono sempre più «smart» e ampliano l’offerta garantita da un’antenna o una parabola con nuovi contenuti che arrivano direttamente da internet, mentre auto intelligenti studiano le nostre abitudini per offrirci percorsi più veloci e garantirci consumi ridotti.
In estrema sintesi il mondo è interamente proiettato in una profonda trasformazione. Si iniziano ad abbandonare sistemi isolati per svilupparne altri che comunicano tra di loro. Trattasi di una realtà modificata guidata dal concetto di “convergenza” verso dispositivi sempre connessi. Tale cambiamento sta generando opportunità senza precedenti, ma anche problemi di interruzione di servizi che prima non esistevano. La robustezza della rete e della stessa infrastruttura viene messa in discussione e bisognerà aumentare la produttività e l’efficienza delle analisi di intelligence, migliorare il processo di prevenzione delle crisi, la gestione e la loro comunicazione in tempo reale e risolvere problemi sviluppando nuove e innovative user experience.
Reti e casualità: la teoria dei grafi
Tutto questo discorso ci rimanda ad una possibile soluzione che potremmo ritrovare nella Teoria delle Reti. Spesso designata, a seconda del contesto, anche con il nome di Teoria dei Grafi, risale alla prima metà del ‘700, quando il matematico svizzero Leonhard Euler formulò il celebre problema dei sette ponti di Königsberg. Per circa due secoli essa si sviluppò principalmente come una branca della topologia, ma nel corso della prima metà del ‘900 divennero chiari i possibili legami con diversi altri settori della matematica e della fisica, quali la meccanica statistica o la Teoria dell’Ottimizzazione.
Nel 1959 i matematici ungheresi Paul Erdős e Alfréd Rényi definirono il concetto di “grafo casuale”, una rete che presenta un’architettura omogenea, in cui nessun nodo è privilegiato rispetto agli altri. Modificando questa struttura, che non fornisce un modello in grado di spiegare il fenomeno dei “Sei gradi di separazione”, i matematici Duncan Watts e Steve Strogatz enunciarono nel 1998 la nozione di “rete piccolo mondo” (small-world network), sostanzialmente un grafo regolare, in cui soltanto pochi nodi hanno connessioni casuali con nodi lontani. Nel 1999 Réka Albert e Albert-László Barabási definirono una differente tipologia di rete complessa, detta “ad invarianza di scala”, più appropriata a descrivere, ad esempio, la dinamica di Internet o del Web.
Ridotte ad un piccolo mondo le Infrastrutture possiamo chiamarle, all’interno del loro essere, topiche. Queste ultime sono definite così perché sono lo stadio intermedio nel percorso di un sistema globale che manda segnali intorno da un sistema più grande ad uno più piccolo, generando, appunto, informazioni e produttività.
Più nodi nella rete, più rischi: ecco perché
Uno dei limiti dei modelli tradizionali della scienza e della filosofia della scienza, e ancor prima della sociologia, che studia i grafi e le reti, è che tengono conto del fatto che il numero dei nodi di una rete sia fissa. Tuttavia la rete delle informazioni che caratterizzano le infrastrutture critiche, per effetto della moltitudine dei dati, come il web, non è statica: ogni giorno accediamo a un flusso di dati discontinuo, nel web si generano pagine nuove che vengono connesse, le società diventano iper globalizzate, le case e gli uffici hanno nuovi router attivati e i nodi (gli smistatori di informazioni) collassano.
I nodi con il più alto numero di connessioni (vedi gli stati membri in una geopolitica europea) saranno anche quelli più sensibili ad eventuali problemi o rischi che potrebbero sorgere nella rete. La rete delle strade ad esempio è basata su un numero relativamente piccolo di strumenti per la generazione di smistamento, che distribuiscono il traffico alle strade secondarie per mezzo di una rete ad alto scorrimento. Da ogni strada intermedia un’ulteriore strada o vicoli, distribuiti in modo da poter conservare la strada da cui si proviene. Questo significa che le strade principali devono essere raggiungibili rispetto alla quantità di veicoli che transitano in quel luogo. Quindi un prodotto al variare della domanda, che potrà essere ottenuto per mezzo di una serie di intelligence a capacità variabile. Se si considera una tipica curva di rischi, si nota che per l’uso di prevenzioni bisogna impegnare una larga frazione del sistema, più uomini, più dati e più collegamenti.
Non necessariamente però una struttura interconnessa che non dialoghi (in qualità e quantità) genera una maggiore stabilità. Se valutiamo il rischio originario con i nodi più connessi, la tolleranza casuale e il numero dei nodi misurato dalla dimensione del più grande componente connesso della rete, detto Hub, risultano essere funzionali, ma non necessari alla risoluzione della cosa.
Attacchi alle infrastrutture, come si forma un “evento a cascata”
Immaginiamo di individuare un mandante per un omicidio di un importante uomo di Stato: non è detto che arrestando quel mandante si risolva il problema, se si tratta di un omicidio a scopo sentimentale allora possiamo dire di aver chiuso il cerchio. Per capirci, nel caso della rete terroristica che ha colpito l’uomo politico, se viene arrestato solo il mandante i carichi o le responsabilità passano su altri nodi, tanti quanti erano le relazioni che l’uomo politico aveva, per cui quella stessa rete funziona allo stesso modo di un sistema di trasporto in caso di guasto localizzato. I nodi più vicini sono in grado di reggere la pressione di un arresto, lo scaricano sui nodi circostanti e organizzano altri illeciti. In ogni caso ci troviamo davanti ad un evento a cascata, la cui portata dipenderà dall’importanza e dalla capacità dei nodi monitorati.
La probabilità che un omicidio localizzato metta in crisi l’intero sistema sarà più bassa se i nodi colpiti sono quelli più connessi, quelli cioè in grado di aprire altre opportunità. Questo pericolo viene confermato dalle scoperte di D. Watts della Columbia University, che analizzò un modello per catturare le proprietà fondamentali dei guasti a cascata. Stando alle simulazioni di Watts, le cascate non sono quasi mai istantanee, ma le crisi di sistema passano talvolta per lungo tempo inosservate, prima di dare origine a una valanga.
Abbassare la frequenza di tali fenomeni è però controproducente perché le cascate successive rischiano di essere più devastanti. Se applicassimo i modelli dal punto di vista computazionale e il pensiero critico umano, potremmo svolgere un’analisi dinamica sulle criticità a cascata, creando dei parametri oggettivi per la definizione del grado di robustezza degli interventi, quantizzandoli mediante indici legati al rapporto tra vulnerabilità del fenomeno e grado di risposta.
A questo punto sarebbe bello mutuare un esempio dalla fisica, il risultato ottenuto da Matì Rosas, che è quello di analizzare queste crisi e generare le simulazioni, mostrando una decrescenza monotona della dimensione relativa al componente connesso per la variazione crescente della frazione di nodi eliminati. Oltre ai risultati numerici, l’approccio analitico per lo studio della tolleranza a errori e attacchi si basa sulla cosiddetta Percolation Theory. In tal senso, la rete “percola” sotto una probabilità critica in relazione alla presenza o assenza di uno specifico numero di connessioni, cioè in base all’analisi quantitativa di connessioni dei criminali più esposti e la loro capacità di attuare altre connessioni. Questa probabilità critica fornisce la percentuale di nodi che può essere rimossa senza che venga distrutto il componente maggiormente connesso o Giant Component. Il grado con cui i nodi di una rete accrescono la loro connettività dipende dal loro livello di competere per soddisfare la richiesta.
Modelli matematici e sistemi informativi: il PageRank di Google
Da questa teoria e per dare senso al metodo, molti scienziati prendono in prestito leggi che governano l’ecosistema, da quella del formicaio o del comportamento delle api. Distribuzioni di questo tipo sono definite nella teoria delle reti “scale-free” (prive di scala o a invarianza di scala), intendendo con questo che esse non sono dominate da un’unica scala rappresentativa e unico centro di smistamento. Dalla fisica la più vicina a tale analisi, dopo Barabasi, è stata Ginestra Bianconi con il suo parametro chiamato “fitness”: da ora in poi si tiene conto della competizione tra i nodi e della distribuzione reale dei rapporti. Dal traffico al terrorismo e per ogni infrastruttura critica.
I nodi aggiunti alla rete classica e dorsale hanno la possibilità di prendersi più link, dato che, innestatisi nel momento della degradazione della rete, in un blackout o in un attacco informatico, hanno la capacità di essere il connettore più attendibile per il fatto di essere arrivato per primo nella forma classica della crisi dell’intero sistema. I nodi hanno diversi valori di prestazione e conquistano in maniera diversa la propria connettività.
La risposta è tutta nel modo in cui nuovi nodi (che diventano “hub di soccorso”, i nuovi capi di un’organizzazione criminale per esempio) hanno successo nonostante si siano inseriti relativamente tardi nel panorama di una rete. Questo è ciò che comunemente chiamiamo divide et impera: il nuovo capo, dopo l’arresto del mandante, per tornare all’esempio precedente, farà emergere la sua figura attraverso un’apparente forma di consenso tra le parti dell’organizzazione, che in realtà cela un dissenso dovuto al suo smistamento non lineare delle informazioni tra le parti (quello che in gergo chiamiamo il gioco delle tre carte). Pensiamo ai leader politici inseriti alla fine, ma che pesano di più rispetto ad un leader anziano. O pensiamo a Google in cui Lawrence Page e Sergey Brin idearono e brevettarono un metodo matematico originale per il calcolo della link popularity di una pagina o di un sito web: il PageRank.
Di solito si definiscono 5 fattori più importanti che influenzano il calcolo della link popularity di un nodo descritti proprio da Lawrence Page:
- Visibilità di un Link
- Posizione di un Link all’interno di un documento
- Distanza tra le pagine
- Importanza di una pagina linkata
- Aggiornamento di una pagina linkata
- Invecchiamento
Grazie a questo esempio da Google, Luis Amaral e Gene Anely della Boston University hanno dimostrato che i nodi, invecchiando (o morendo, vedi Bin Laden, o altri criminali catturati) perdono gradualmente la loro capacità di annettersi a dei link e di socializzare. Pertanto, l’abilità dell’intelligence deve essere legata a un doppio atteggiamento che deve corrispondere a una matematizzazione dei processi informativi e a una capacità critica e analitica fuori dal comune.
Perché si rafforza il ruolo della data science
Per un futuro migliore bisogna attivare un processo che comprenda tutte le criticità di un luogo attraverso un approccio globale e non più settoriale. Dato questo, si può proporre un algoritmo, che va dal semplice black-out ad un potenziale attacco terroristico, che prenda in visione prima il contesto e non renda un sistema per forza replicabile su vasta scala quando le condizioni di riferimento sono diverse. Il primo atteggiamento da avere è prevenire quello che chiamiamo attacco, a prescindere, cioè dobbiamo sviluppare un pensiero che pensi a proteggere.
Paragoniamo una rete di tipo casuale ed una a invarianza di scala sulla base delle reazioni a due tipi di attacco: l’attacco casuale e l’attacco mirato. Un attacco casuale (il maltempo ad esempio) non sceglie i nodi da sopprimere, ma agisce a caso e in una rete casuale la perdita di funzionalità sarà quindi proporzionale al danno inflitto, mentre una rete ad invarianza, avendo la sua funzionalità concentrata in pochissimi centri, sarà virtualmente insensibile a danni di questo tipo fintanto che il numero di nodi non-hub rimane alto.
Un attacco mirato invece sceglie con cura i nodi da attaccare per massimizzare il danno e nel caso di una rete casuale, avendo tutti i nodi approssimativamente la stessa importanza (con un margine di errore di 1N dove N è il numero dei nodi della rete), non ha quindi differenze sostanziali da un attacco casuale. L’effetto su di una rete ad invarianza di scala è invece l’opposto: con pochi singoli attacchi mirati agli hub è possibile abbattere la funzionalità praticamente del 100% (anche con milioni di nodi!). L’effetto è pertanto studiato per via delle conseguenze che un eventuale attacco informatico da parte di malintenzionati potrebbe avere sulla struttura di internet, o di come batteri mirati possano distruggere interi ecosistemi in seguito ad un attacco chimico.
Sempre più importante è il ruolo del Data Science nel campo dell’intelligence e della sicurezza. Un’interessante iniziativa è stata lanciata dal Defence Science and Technology Laboratory, un challenge con il servizio inglese MI5 ai Data Scientist più brillanti per risolvere problemi legati al mondo della difesa attraverso approcci innovativi basati su algoritmi di machine learning. Dall’individuazione e classificazione di veicoli in immagini aeree all’estrazione di resoconti relativi ad aree di crisi degli elementi utili alla classificazione stessa. Questo tipo di approccio in una situazione di sicurezza reale dovrebbe essere usato per preservare l’incolumità delle persone in una zona di conflitto.
Altra applicazione di Data Science è quella di Iarpa, l’Advanced Research Projects Activity, un ente americano che investe in programmi di ricerca nel campo dell’intelligence, uno tra i 32 attualmente attivi l’Hybrid Forecasting Competition, che mira a migliorare il dialogo tra uomo e macchina, quindi tra i sistemi human driven e i machine driven, e quindi ad aumentare l’accuratezza delle previsioni geopolitiche e geoeconomiche.
In quest’ottica confluiscono tutte le macro applicazioni dell’intelligence, HUMINT, SIGINT, IMINT, MASINT. Se pensiamo alla HUMINT, acronimo di HUMan INTelligence, che si occupa della raccolta di informazioni per mezzo di contatti interpersonali, non possiamo slegarla ad elementi di Data Science preliminari che sono mutuati dalla SIGINT, acronimo di SIGnals INTelligence, l’attività di raccolta di informazioni mediante l’intercettazione e l’analisi di segnali, sia emessi tra persone sia tra macchine. A loro volta HUMINT e SIGINT non possono prescindere dall’IMINT, acronimo di IMagery INTelligence, che raccoglie informazioni mediante l’analisi di fotografie aeree o satellitari, così come dalla MASINT, acronimo di Measurement and Signature intelligence, atta alla raccolta di informazioni non visibili tramite sensori elettronici o radar, quindi non classificabili in alcuna delle altre discipline principali di raccolta.
Partendo dal concetto che l’infrastruttura critica si lega a quello di obiettivi sensibili, oggetti fisici di particolare importanza e peculiarità, tutte queste applicazioni devono lavorare particolarmente sull’affinamento basato sull’analisi della società a forma di rete, intesa come nodi, hub e link. Analisi della distribuzione e disseminazione nella società delle informazioni per poter disinnescare ogni tipo di problema (con prevenzione e gestione) ed evitare l’interruzione dei servizi principali che caratterizzano poi i problemi a cascata.
Fonte: