Metodi di formazione nell'analisi video
L'intelligenza artificiale (AI) nella videosorveglianza continuerà a guadagnare slancio grazie ai rapidi sviluppi tecnologici. Uno status quo.
Il termine intelligenza artificiale viene spesso equiparato - in modo un po' inflazionato - a molti termini equivalenti. Ma cos'è in realtà una semplice analisi e dove entra in gioco l'intelligenza artificiale? Che si tratti di un'auto a guida autonoma, di un riconoscimento vocale, di una telecamera abilitata all'intelligenza artificiale: la base di ogni sistema che prende decisioni in autonomia è l'analisi dei dati. Le serie di dati esistenti vengono spesso analizzate alla ricerca di determinati modelli per prendere decisioni o prevedere eventi. Un'intelligenza artificiale utilizza questa analisi e fa delle ipotesi per conto proprio. Le decisioni e le previsioni si basano sul futuro e non solo sui dati esistenti. È importante distinguere tra diverse forme di analisi intelligente.
Che cosa significa AI?
L'IA debole (chiamata IA stretta o Intelligenza Artificiale Stretta [ANI]) è condizionata a svolgere compiti specifici. L'IA debole descrive gran parte di tutte le applicazioni di IA robuste come Siri di Apple, Alexa di Amazon o Watson di IBM. Si parla della cosiddetta IA forte, una forma teorica di IA, se avesse un'intelligenza paragonabile a quella degli esseri umani. In questo modo avrebbe acquisito una vera e propria coscienza in grado di risolvere i problemi in modo indipendente e di pianificare gli eventi per il futuro. Una superintelligenza artificiale (ASI) che supererebbe il cervello umano è ancora di natura teorica, ma ciò non esclude che i ricercatori stiano già lavorando al suo sviluppo. Si parla di analisi video intelligente quando si utilizzano moduli di analisi basati su software da utilizzare su server, registratori o telecamere per il rilevamento automatico di oggetti o eventi rilevanti per la sicurezza. Questi consentono il riconoscimento, il tracciamento, l'identificazione e l'interpretazione della scena in tempo reale. A seconda delle impostazioni, ora, data, lunghezza focale e velocità dell'otturatore possono essere letti dai cosiddetti metadati dei flussi video. Per ottenere ed espandere questo pool di metadati aggregati in scene e viste diverse, è necessario un numero estremamente elevato di unità di addestramento di scene e oggetti classificati.
Una cosa è certa: l'uso di metadati e ausili tecnici aumenta enormemente l'efficienza e l'affidabilità dell'analisi dei dati video. Le GPU (Graphics Processing Unit) discrete delle schede grafiche utilizzano oggi la propria memoria video. Gli algoritmi che operano direttamente nella telecamera utilizzano GPU dedicate e condizionate per l'analisi video. La potenza di calcolo aggiuntiva può essere fornita da vari sistemi. Sia attraverso i server dell'azienda e il suo ambiente IT (on-premise), sia attraverso l'elaborazione dei dati su server (approcci basati sul cloud), sia attraverso approcci ibridi.
Grazie alla crescente potenza di calcolo, nel corso degli anni sarà possibile integrare algoritmi sempre migliori. È stato quindi sufficiente un piccolo passo per ricostruire scene tridimensionali da un'immagine video 2D. Nel frattempo, non è più possibile solo riconoscere gli oggetti, ma anche registrare in modo procedurale ulteriori attributi relativi a velocità, dimensioni, direzione e comportamento di un percorso. La "Legge di Moore", secondo la quale la potenza di calcolo quasi raddoppia ogni 18 mesi, dovrebbe continuare a contribuire alla determinazione di oggetti di interesse sempre più validi.
Analisi basata sui bordi
Una telecamera di sicurezza dotata di analisi non solo rileva una persona utilizzando il deep learning e converte le informazioni video in dati, ma crea anche metadati. In pratica, lo spettro consente all'intelligenza artificiale di riconoscere, ad esempio, un'auto, una persona o una bicicletta, o di seguire un'intera scena. Più dati sono inclusi, più scenari possono essere formati. Attualmente gli esseri umani sono ancora molto più intelligenti degli algoritmi di deep learning: Nel dominio dei video, i metodi di addestramento richiedono da 100.000 a milioni di serie di dati per ottenere un risultato ampiamente accurato. Ad esempio, la classificazione viene effettuata in base a diversi oggetti, come esseri umani, animali, oggetti e angoli di ripresa. Le telecamere attuali sono dotate di potenti processori che spesso consentono il funzionamento in parallelo dell'analisi video e della codifica dei dati video da parte di un processore della telecamera. Si tratta della cosiddetta analisi basata sui bordi. L'analisi video basata su server è attualmente la soluzione più diffusa, tuttavia è possibile realizzare due diverse architetture di sistema che consentono, ad esempio, di utilizzare più moduli di analisi in parallelo.
Scenari d'uso tipici dell'IA nei sistemi di videosorveglianza
Il campo di applicazione dell'intelligenza artificiale nei sistemi di videosorveglianza è molto ampio. Si va dal rilevamento precoce degli incendi, al riconoscimento delle targhe delle auto, al riconoscimento facciale, all'analisi della temperatura della pelle e al conteggio delle persone, fino alla previsione di possibili furti (comportamentale), insieme all'analisi audio o all'osservazione degli incidenti stradali. I casi tipici di soluzioni per il traffico si basano sul conteggio, sul conteggio dei flussi di traffico, sul riconoscimento delle targhe, sulla densità del traffico e sulla distanza. Un cosiddetto sistema di rilevamento degli eventi (ED) è in grado di rilevare immediatamente tutti gli eventi desiderati in una galleria o su un tratto di strada aperto, come ad esempio le norme, l'arresto della ventilazione della galleria, la chiusura delle corsie di traffico.
Prerequisiti per un utilizzo efficace dell'IA nella tecnologia di videosorveglianza
L'utilizzo dei migliori prodotti basati sull'intelligenza artificiale dipende dall'unità telecamera/obiettivo e dall'applicazione prevista. Non solo la risoluzione, la qualità dell'oggetto, ma anche la distanza o l'angolo di visione, l'illuminazione e l'angolo di inclinazione di una telecamera IP giocano un ruolo fondamentale nella sorveglianza. È quindi indispensabile una buona fiducia da parte dell'operatore nella catena di fornitura della soluzione AI. Questo può essere promosso attraverso la trasparenza e lo scambio regolare tra operatore, installatore e produttore. Criteri come il tipo, l'origine e la portata dei dati di formazione forniscono un quadro chiaro. Ad esempio, si può discutere se gli algoritmi migliorati possono essere inseriti a posteriori nel sistema e se possono essere addestrati in tutte le condizioni (ad esempio, per condizioni come estate/inverno, giorno/notte e condizioni meteorologiche).
La conformità al Regolamento generale sulla protezione dei dati (GDPR) è obbligatoria in ogni circostanza. Alcuni fornitori di telecamere IP rilasciano dichiarazioni sulla precisione del rilevamento. Ma cosa significano, ad esempio, le dichiarazioni tecniche di un'accuratezza del 95%? Esempio: Se un sistema di riconoscimento facciale basato sull'IA deve essere utilizzato per identificare una persona criminale, in questo caso un'accuratezza del 99,9% risulterebbe comunque in un tasso di falsi positivi di 100 persone su 100.000 volti. Le domande cruciali in questo contesto sono: Quali sono i tassi di errore accettabili per la particolare applicazione prevista? Come e in quali circostanze si sono verificate le precisioni dei dati? Altrettanto importanti, tuttavia, sono le specifiche di base dei produttori e degli sviluppatori.
L'intelligenza artificiale nella tecnologia di videosorveglianza manca ancora di standard industriali o normativi e di standard etici. Pertanto, la tecnologia di videosorveglianza basata sull'intelligenza artificiale presenta ancora delle curve di apprendimento da superare. Data la complessità dell'argomento, l'Associazione svizzera degli installatori di sistemi di sicurezza (Associazione SES) consiglia ai fornitori di offrire, se possibile, un'installazione di prova nell'oggetto, nel senso di un "proof of concept", per verificare se le aspettative dell'operatore possono essere soddisfatte dalla tecnologia del produttore. È necessario assicurarsi che le tecnologie di ripresa e di illuminazione e le altre condizioni quadro per un uso ottimale di tutte le apparecchiature possano essere utilizzate esattamente ai fini di un'applicazione nella fase di test.
Se si prendono in considerazione più soluzioni basate sull'IA, occorre prestare attenzione a utilizzare gli stessi segnali delle telecamere per alimentare l'IA, in modo da poter comprendere un confronto reale in termini di condizioni diverse, come giorno/notte e condizioni meteorologiche.
Possibilità future
Lo spettro delle soluzioni basate sull'IA è ancora aperto a molti sviluppi interessanti. Nel medio-lungo termine, l'IA contribuirà probabilmente a una significativa riduzione dei falsi allarmi, che diventerà particolarmente importante nel caso di commutazione remota dei centri di controllo 24/7, e a una significativa riduzione dell'onere di centralizzare le informazioni, in modo che il PSAP possa concentrarsi meglio sugli allarmi reali senza aumentare il personale del PSAP. Inoltre, in generale, un maggiore supporto delle telecamere AI contribuirà a un enorme risparmio di tempo nelle valutazioni forensi. Gli attributi più piccoli e le funzioni di ricerca specializzate per persone con lo stesso abbigliamento esterno, come ad esempio i pantaloni blu, possono portare a risultati di ricerca estremamente veloci con enormi quantità di dati. Anche le distorsioni dell'immagine dovute a obiettivi grandangolari estremi un giorno saranno un ricordo del passato grazie alla correzione dell'immagine basata sull'intelligenza artificiale. Anche gli insetti che si trovano davanti all'obiettivo di una telecamera non sono sempre causa di falsi allarmi.
Sintesi del documento "Artificial Intelligence in Video Security Technology" dell'Associazione svizzera degli installatori di sistemi di sicurezza (SES) (di prossima pubblicazione) e dell'Associazione tedesca BHE.