Une longueur d'avance sur le cambrioleur
Une nouvelle méthode d'apprentissage automatique mise au point par des scientifiques de l'EPFZ permet de prévoir les cambriolages même dans les zones peu peuplées.
Les cambriolages ne se produisent pas partout et à tout moment. Il existe des communes, des quartiers et des rues ainsi que des périodes de l'année et de la journée où le risque est plus ou moins élevé. L'apprentissage automatique permet d'identifier des modèles à partir des statistiques sur les cambriolages et de prédire le risque de cambriolage à un endroit donné. Des programmes informatiques peuvent donc aider la police à identifier pour chaque jour ce que l'on appelle des hotspots - des lieux où le risque de cambriolage est particulièrement élevé - et à déployer des patrouilles en conséquence.
Le déséquilibre rend l'apprentissage difficile
Mais jusqu'à présent, ces systèmes d'alerte ne fonctionnent que dans les zones à forte densité de population, c'est-à-dire principalement dans les villes. En effet, pour pouvoir reconnaître des modèles, les programmes informatiques ont besoin de suffisamment de données. Dans les zones rurales peu peuplées, les incidents criminels sont plus rares. Dans les statistiques, on parle d'un "déséquilibre de classe". Concrètement, cela signifie que pour un tronçon de rue avec cambriolage, il y en a quelques centaines, voire 1000 sans.
Les algorithmes travaillent en parallèle
Cristina Kadar est informaticienne et doctorante au Département de gestion, de technologie et d'économie. Elle a développé une méthode qui permet de faire des prévisions fiables malgré des données inégalement réparties. Elle a présenté son travail dans la revue spécialisée Decision Support Systems. La chercheuse a testé de nombreuses méthodes de machine learning sur un grand ensemble de données de cambriolages dans le canton d'Argovie, les a combinées entre elles et a comparé les taux de réussite. La méthode qui s'est avérée la plus précise est celle qui utilise l'intelligence de groupe et combine les analyses de différents algorithmes.
Dans le cadre de l'apprentissage automatique, un algorithme s'entraîne lui-même à classer correctement les données à l'aide de grands ensembles de données. Dans l'exemple actuel, il apprend, à partir de variables telles que le moment de la journée, le lieu, la densité de population et bien d'autres, à classer une certaine parcelle de terrain comme présentant un risque de cambriolage ou non à un moment donné.
Le défi consistait à pouvoir entraîner les algorithmes de classification malgré le faible nombre de cas de cambriolage dans le jeu de données. Pour ce faire, Kadar a traité le jeu de données : Les unités sans intrusion ont été éliminées de manière aléatoire jusqu'à ce que le nombre d'unités avec et sans intrusion s'équilibre. Cette méthode statistique s'appelle "Random Undersampling". Avec ce jeu de données réduit, Kadar a entraîné en parallèle de nombreux algorithmes de classification. Leurs prédictions agrégées ont permis d'établir les prévisions d'intrusion. Kadar a utilisé comme unité de données des parcelles de 200 mètres par 200 mètres à une date donnée.
Alors que les systèmes d'alerte traditionnels utilisent surtout des données sur les cambriolages, Kadar a en outre alimenté les algorithmes de classification avec des données agrégées impersonnelles sur la population, par exemple sur la densité de population, la structure d'âge, le type de construction, l'infrastructure (présence d'écoles, de postes de police, d'hôpitaux, de routes), la proximité des frontières nationales ou avec des indications temporelles telles que les jours de la semaine, les jours fériés, la lumière du jour et même les phases de la lune.
Meilleur taux de réussite que dans les villes
Grâce à cette nouvelle méthode, Kadar a pu améliorer considérablement le taux de réussite par rapport aux méthodes traditionnelles. Elle a laissé l'ordinateur prédire avec sa méthode les endroits du territoire cantonal où des cambriolages sont susceptibles de se produire (hotspots). La vérification a montré qu'environ 60% des cambriolages effectifs ont eu lieu dans les hotspots prédits. A titre de comparaison, si les hotspots ont été prédits à l'aide de la méthode traditionnelle utilisée par la police, seuls 53 pour cent des cambriolages effectifs ont eu lieu dans la région prédite. "Avec des données inégalement réparties, cette méthode obtient des taux de réussite au moins aussi bons et parfois meilleurs que les méthodes traditionnelles dans les zones urbaines, où les données sont plus denses et en outre réparties plus uniformément", explique Kadar.
Ces connaissances sont utiles en premier lieu à la police. La méthode permet de prédire les régions et les périodes où le risque de cambriolage est plus élevé, même dans les zones moins peuplées. Mais il serait également envisageable d'utiliser la méthode pour prédire d'autres risques : Les risques sanitaires par exemple ou la probabilité d'appels d'urgence des ambulances. Le secteur de l'immobilier pourrait également utiliser cette méthode pour prévoir l'évolution des prix de l'immobilier en fonction de facteurs spatiaux. Source : ETH-News
Référence : Kadar C., Maculan R., Feuerriegel S. : Public decision support for low population density areas : An imbalance-aware hyper-ensemble for spatio-temporal crime prediction. Decision Support Systems, 2019, doi : 10.1016/j.dss.2019.03.001
En savoir plus sur les techniques de prévision ici