Un passo avanti al ladro
Un nuovo metodo di apprendimento automatico sviluppato dagli scienziati dell'ETH consente di prevedere i furti con scasso anche in aree scarsamente popolate.
I furti non avvengono sempre e ovunque. Esistono comunità, quartieri e strade, nonché periodi dell'anno e della giornata a minor e maggior rischio. L'apprendimento automatico può essere utilizzato per riconoscere i modelli dalle statistiche sui furti e prevedere il rischio di furto in un determinato luogo. I programmi informatici possono quindi aiutare la polizia a identificare i cosiddetti hotspot - luoghi con un rischio particolarmente elevato di furti - per ogni giorno e a distribuire le pattuglie di conseguenza.
Lo squilibrio rende difficile l'apprendimento
Finora, tuttavia, tali sistemi di allerta funzionano solo nelle aree densamente popolate, cioè principalmente nelle città. Questo perché i programmi informatici hanno bisogno di un numero sufficiente di dati per poter riconoscere i modelli. Nelle aree rurali e scarsamente popolate, gli incidenti criminali sono più rari. Le statistiche parlano di "squilibrio di classe". In concreto, ciò significa che per ogni tratto di strada con un furto, ce ne sono diverse centinaia o addirittura 1.000 senza.
Gli algoritmi lavorano in parallelo
Cristina Kadar è un'informatica e dottoranda presso il Dipartimento di Management, Tecnologia ed Economia. Ha sviluppato un metodo in grado di fare previsioni affidabili nonostante la distribuzione non uniforme dei dati. Ha presentato il suo lavoro sulla rivista Decision Support Systems. Utilizzando un ampio set di dati sui furti nel cantone di Argovia, il ricercatore ha testato numerosi metodi di apprendimento automatico, li ha combinati tra loro e ha confrontato le percentuali di successo. Un metodo che utilizza l'intelligenza di gruppo e combina le analisi di diversi algoritmi si è rivelato il più accurato.
Nell'apprendimento automatico, un algoritmo utilizza grandi serie di dati per addestrarsi a classificare correttamente i dati. Nell'esempio attuale, il sistema apprende da variabili quali l'ora del giorno, la posizione, la densità di popolazione e molto altro ancora per classificare un determinato appezzamento di terreno come a rischio di furto con scasso o meno in un determinato momento.
La sfida è stata quella di riuscire ad addestrare gli algoritmi di classificazione nonostante il numero ridotto di casi di furto con scasso presenti nel dataset. Kadar ha elaborato il set di dati a questo scopo: Le unità senza intrusioni sono state rimosse in modo casuale fino a quando le unità con e senza intrusioni si sono bilanciate. Questo metodo statistico è chiamato "sottocampionamento casuale". Con questo set di dati ridotto, Kadar ha addestrato numerosi algoritmi di classificazione in parallelo. Le loro previsioni aggregate hanno dato luogo alla previsione di furto con scasso. Kadar ha utilizzato come unità di dati appezzamenti di 200 metri per 200 in un determinato giorno.
Mentre i sistemi di allarme convenzionali utilizzano principalmente i dati sulle effrazioni, Kadar ha alimentato gli algoritmi di classificazione con dati aggregati impersonali sulla popolazione, ad esempio sulla densità di popolazione, sulla struttura per età, sul tipo di edificio, sulle infrastrutture (presenza di scuole, stazioni di polizia, ospedali, strade), sulla vicinanza ai confini nazionali o su informazioni temporali come i giorni della settimana, i giorni festivi, la luce del giorno e persino la fase della luna.
Tasso di successo migliore rispetto alle città
Con il nuovo metodo, Kadar è riuscito a migliorare significativamente il tasso di successo rispetto ai metodi convenzionali. Ha fatto in modo che il computer prevedesse con il suo metodo i punti in cui era probabile che avvenissero i furti sul territorio cantonale (hotspot). Il controllo ha mostrato che circa il 60% dei furti effettivi sono stati commessi nei punti caldi previsti. In confronto, se i punti caldi sono stati previsti con il metodo tradizionale utilizzato dalla polizia, solo il 53% dei furti effettivi si è verificato nella regione prevista. "Il metodo raggiunge tassi di successo almeno altrettanto buoni e in alcuni casi migliori con dati distribuiti in modo non uniforme rispetto ai metodi convenzionali nelle aree urbane, dove i dati sono più densi e distribuiti in modo più uniforme", spiega Kadar.
Questi risultati sono utili soprattutto per la polizia. Il metodo può essere utilizzato anche per prevedere le regioni e gli orari a maggior rischio di furto con scasso nelle aree meno densamente popolate. Ma sarebbe anche possibile utilizzare il metodo per prevedere altri rischi: I rischi per la salute, ad esempio, o la probabilità di chiamate di emergenza alle ambulanze. Anche il settore immobiliare potrebbe utilizzare questo metodo per prevedere l'andamento dei prezzi degli immobili in base a fattori spaziali. Fonte: Notizie ETH
Riferimento: Kadar C., Maculan R., Feuerriegel S.: Supporto alle decisioni pubbliche per aree a bassa densità di popolazione: un hyper-ensemble consapevole degli squilibri per la previsione dei crimini spazio-temporali. Decision Support Systems, 2019, doi: 10.1016/j.dss.2019.03.001
Per saperne di più sulla tecnologia di previsione qui