È controintuitivo rispetto all’idea di razionalità, velocità, efficacia ed efficienza che ci siamo fatti dei computer, ma la realtà è che i sistemi di intelligenza artificiale (IA) presentano una caratteristica molto simile all’analogo concetto umano di ingenuità. E, pertanto, sono vulnerabili all’inganno ed alla manipolazione.
Un pò come avviene tra gli umani, ove spesso assistiamo a truffe perpetrate approfittando subdolamente dell’ignoranza o dell’innocenza della vittima, così avviene anche per le IA durante il processo di apprendimento automatico, più noto col termine di Machine Learning (ML): la capacità di imparare lo svolgimento dei compiti tipici dell’intelligenza umana, quali ad esempio la classificazione delle immagini o il riconoscimento vocale.
Per rimediare a questo problema si è sviluppato il cosiddetto Adversarial Machine Learning (AML), quel settore che studia il modo di rendere più sicura la fase dell’apprendimento automatico in modo da rendere il sistema più robusto rispetto a tentativi di inganno.
Per i non addetti ai lavori, machine learning comprende un insieme di tecniche basate su approcci statistici o tecniche matematiche di ottimizzazione, che consentono di riconoscere schemi e similitudini tra i dati: ad esempio, negli approcci di Supervised Learning, l’apprendimento del computer è supervisionato da un esperto che insegna alla macchina quali decisioni prendere o quali azioni fare in presenza di un determinato evento; in quelli di Unsupervised Learning, invece, viene spiegato alla macchina come riconoscere elementi di comunanza o di diversità tra le informazioni, ma poi si lascia che sia lei a lavorare sui dati da sola; o, infine, nel Reinforcement Learning gli si insegna a riconoscere la bontà delle decisione prese dal fatto di aver ricevuto un feedback positivo, così assicurando l’apprendimento per rinforzo.
I terreni di elezione per un attacco cyber alle Intelligenze Artificiali sono fondamentalmente tre. Anzitutto il dominio fisico rappresentato dai sensori e dagli attuatori che permettono il dialogo con l’ambiente, quelli che per noi umani sono i cinque sensi, giacché essi possono essere danneggiati per creare malfunzionamenti. Si pensi ad esempio al fatto che, sabotando un microfono, si disturbi il sistema intelligente nell’ascoltare un comando vocale; oppure che, sabotando un relè, si impedisca ad una intelligenza di controllo industriale di spegnere il forno di una fonderia al raggiungimento di una temperatura critica. Poi, vi sono attacchi che sfruttano le debolezze dei meccanismi di rappresentazione digitale dei dati, sostituendo ad esempio le informazioni corrette con dati inquinati. Ed infine vi sono gli assalti agli algoritmi di apprendimento, per inoculare nei computer - ad esempio - un metodo di studio manipolato per fini occulti oppure, per altro verso, per capire come impara: in fin dei conti è proprio partendo dalla conoscenza di “come” la macchina si auto-istruisce, che si può boicottarne l’apprendimento o prevederne il comportamento.
L’attacco può avvenire secondo tecniche diverse: sia va dalle metodiche di addestramento malevolo, alle operazioni di interazione elusiva o alle procedure di esplorazione subdola.
Nella prima categoria rientrano tutte quelle tattiche di poisoning con cui, in via diretta o indiretta, si inquinano le conoscenze acquisite o la logica di apprendimento. In questi casi, gli hacker devono per necessità accedere clandestinamente all’intelligenza artificiale per falsificare i dati salvati in memoria o per alterare l’algoritmo di apprendimento. Le conseguenze di questi attacchi possono essere molto serie ed avere impatto tangibile nel mondo fisico, come ad esempio i casi di addestramento malevolo descritti recentemente dagli accademici dell’Università di Cagliari in uno studio su autovetture a guida automatica nelle smart city: potrebbero, queste autovetture senza conducente, non fermassi ad un incrocio qualora, a seguito di un attacco di Label Manipulation dei dati relativi al riconoscimento del segnale di “stop”, l’intelligenza fosse indotta a considerare la nozione contraria a quella di arresto del veicolo.
Nelle tecniche di esplorazione subdola, invece, si attuano interazione con l’intelligenza artificiale finalizzate a capire la logica di assimilazione cognitiva. Tipico esempio è l’attacco Oracle, ove si inviano al software di apprendimento una serie ragionata di domande e, dall’esame del pattern delle relative risposte, si struttura un modello per prevedere il comportamento futuro. Le tattiche gradient-based invece sono chiari esempi della tecnica di interazione elusiva con cui si ingaggia l’intelligenza - ad esempio - con segnali visivi che presentano perturbazioni non rilevabili dalla percezione umana, ma sufficienti a provocare nell’algoritmo di apprendimento esiti paradossali che impediscono o disturbano - appunto eludono - la capacità di classifica delle immagini. In altre parole, queste tecniche hanno l’obiettivo di individuare il numero più piccolo di modifiche necessarie per costruire una immagine che confonda le capacità decisionali del sistema.
La ricerca ha già tirato fuori idonee strategie di difesa. Per contrastare ad esempio l’addestramento occulto e malevolo, si sono messi a punto algoritmi di cifratura delle partizioni di memoria che contengono le nozioni apprese o la logica di apprendimento; per difendersi dalle interazioni elusive si sono progettate contromisure che tendono a ridurre la sensibilità ai disturbi - una sorta di anestetico digitale che riduce la suscettibilità agli artefatti ingannevoli, meglio noto negli ambienti della cybersicurezza col termine di Gradient Masking - o si iniettano nel database di allenamento degli esempi di segnali di disturbo, affinché questi vengano riconosciuti come malevoli e dunque scartati (tecnica cosiddetta di Adversarial Training); ed infine per proteggere l’intelligenza artificiale dalle tattiche di esplorazione subdola, gli si insegna a rilevare le azioni di monitoraggio, test e controllo degli avversari sulla rete.
Insomma la ricerca sta facendo passi enormi per rendere i sistemi intelligenti più sicuri e resilienti, pur conservando però la dipendenza dal controllo umano: questione imprescindibile quest’ultima, soprattutto per quelle intelligenze artificiali ad impatto critico, come quelle asservite a materiali d’armamento ed a prodotti a duplice uso utilizzati per sviluppare i Lethal Autonomous Weapons Systems (LAWS), i sistemi d'arma intelligenti per intenderci, il cui utilizzo ed i cui effetti devono sempre e comunque rimanere attribuibili a chiare e determinabili responsabilità umane, sia statuali che individuali.
Per approfondire:
https://smartcities.ieee.org/newsletter/june-2021/explainable-machine-le...
https://gradientscience.org/intro_adversarial/
https://nvlpubs.nist.gov/nistpubs/ir/2019/NIST.IR.8269-draft.pdf