Méthodes d'entraînement dans l'analyse vidéo
L'intelligence artificielle (IA) dans la vidéosurveillance va continuer à prendre de l'ampleur grâce aux développements technologiques rapides. Un statu quo.
Le terme d'intelligence artificielle est souvent assimilé - de manière quelque peu inflationniste - à de nombreux termes équivalents. Mais qu'est-ce qu'une simple analyse et où intervient l'intelligence artificielle ? Qu'il s'agisse d'une voiture qui se conduit toute seule, d'une reconnaissance vocale ou d'une caméra compatible avec l'IA, l'analyse des données constitue la base de tout système qui prend des décisions de manière autonome. Ainsi, les ensembles de données existants sont souvent analysés selon certains modèles afin de pouvoir prendre des décisions ou prédire des événements. Une IA se sert de cette analyse et fait des hypothèses de manière autonome. Les décisions et les prédictions sont basées sur l'avenir et ne s'appuient pas uniquement sur des données existantes. Il convient de distinguer différentes formes d'analyse intelligente.
Qu'est-ce que l'IA ?
Une IA faible (appelée Narrow AI ou Artificial Narrow Intelligence [ANI]) est conditionnée à l'exécution de tâches spécifiques. L'IA faible décrit une grande partie de toutes les applications d'IA robustes telles que Siri d'Apple, Alexa d'Amazon ou Watson d'IBM. On parle d'IA dite forte, une forme théorique d'IA, si elle disposait d'une intelligence comparable à celle de l'homme. Celle-ci aurait alors acquis une véritable conscience, capable de résoudre des problèmes de manière autonome et de planifier des événements pour l'avenir. Une superintelligence artificielle (ASI) qui dépasserait le cerveau humain est encore de nature théorique, ce qui n'exclut pas que des chercheurs travaillent déjà à son développement. On parle généralement d'analyse vidéo intelligente lorsque des modules d'analyse basés sur des logiciels sont utilisés sur des serveurs, des enregistreurs ou dans des caméras pour la détection automatique d'objets ou d'événements liés à la sécurité. Ils permettent la reconnaissance d'objets en temps réel, le suivi d'objets, l'identification et l'interprétation de scènes. Les "métadonnées" des flux vidéo permettent, en fonction des paramètres, de déterminer l'heure, la date, la distance focale et la vitesse d'obturation. Pour obtenir et développer ce pool de métadonnées agrégées dans différentes scènes et vues, un nombre extrêmement élevé d'unités d'entraînement de scènes et d'objets classifiés est nécessaire.
Une chose est sûre : l'utilisation de métadonnées et d'outils techniques augmente considérablement l'efficacité et la fiabilité de l'analyse des données vidéo. Les GPU (Graphics Processing Unit) discrets des cartes graphiques utilisent aujourd'hui leur propre mémoire vidéo. Les algorithmes qui opèrent directement dans la caméra utilisent des GPU dédiés et conditionnés pour l'analyse vidéo. Une puissance de calcul supplémentaire peut être mise à disposition via différents systèmes. Que ce soit via les serveurs de l'entreprise et avec son propre environnement informatique (on-premise), via des processus de traitement des données basés sur des serveurs (approches basées sur le cloud) ou via des approches hybrides.
En raison de l'augmentation de la puissance de calcul, des algorithmes de plus en plus performants pourront être intégrés au fil des années. Il n'y avait donc plus qu'un petit pas à franchir pour reconstruire des scènes tridimensionnelles à partir d'une image vidéo 2D. Ainsi, il est désormais possible non seulement de reconnaître des objets, mais aussi d'enregistrer de manière procédurale d'autres attributs relatifs à la vitesse, à la taille, à la direction et au comportement d'un trajet. La "loi de Moore", selon laquelle la puissance de calcul double pratiquement tous les 18 mois, devrait continuer à contribuer à la détermination d'objets d'intérêt de plus en plus valides.
Analyse basée sur l'Edge
Une caméra de sécurité équipée d'Analytics ne se contente pas de reconnaître une personne grâce à l'apprentissage en profondeur et de convertir les informations vidéo en données, elle crée également des métadonnées. Dans la pratique, le spectre de l'IA permet par exemple de reconnaître une voiture, une personne ou un vélo, ou de suivre une scène entière. Plus les données incluses sont nombreuses, plus il est possible d'entraîner de scénarios. Actuellement, les humains sont encore bien plus intelligents que les algorithmes d'apprentissage en profondeur : Dans le domaine de la vidéo, les méthodes d'entraînement nécessitent entre 100 000 et des millions de jeux de données pour obtenir un résultat précis et diversifié. La classification se fait par exemple en fonction de différents objets comme les personnes, les animaux, les objets et l'angle de la caméra. Les caméras actuelles disposent de processeurs puissants qui permettent souvent à un processeur de la caméra de fonctionner en parallèle pour l'analyse vidéo et l'encodage des données vidéo. On parle alors d'analyse basée sur les bords. L'analyse vidéo basée sur un serveur est actuellement la solution la plus répandue, qui permet également de réaliser deux architectures de système différentes, ce qui permet par exemple de faire fonctionner plusieurs modules d'analyse en parallèle.
Scénarios typiques d'utilisation de l'IA dans les systèmes de sécurité vidéo
Le champ d'application de l'IA dans les installations de sécurité vidéo est très vaste. Il va de la détection précoce des incendies, de la reconnaissance des plaques d'immatriculation, de la reconnaissance des visages à l'analyse de la température de la peau et au comptage des personnes, en passant par la prédiction d'éventuels vols (comportements), avec pour corollaire l'analyse audio ou l'observation des perturbations du trafic. Les cas typiques de solutions de trafic sont basés sur le comptage, le comptage du flux de trafic, la reconnaissance des plaques de contrôle, la densité du trafic et la distance. Un système de détection d'événements (ED) est en mesure de reconnaître immédiatement tous les événements souhaités dans un tunnel ou sur une voie ouverte, comme par exemple les régulations, les arrêts de la ventilation du tunnel, les fermetures de voies de circulation.
Conditions préalables à une utilisation réussie de l'IA dans la technologie de sécurité vidéo
L'utilisation des meilleurs produits basés sur l'IA dépend de l'unité caméra/objectif ainsi que de l'application prévue. La résolution, la qualité de l'objet, mais aussi la distance ou l'angle de vue, l'éclairage et l'angle d'inclinaison d'une caméra IP jouent un rôle décisif dans la surveillance. Il est donc indispensable que l'exploitant ait une bonne confiance dans la chaîne d'approvisionnement de la solution d'IA. Celle-ci peut être favorisée par la transparence et par des échanges réguliers entre l'exploitant, l'installateur et le fabricant. Des critères tels que le type, l'origine et l'étendue des données d'entraînement permettent de se faire une idée claire. On peut par exemple discuter de la possibilité d'intégrer ultérieurement des algorithmes améliorés dans le système et de la possibilité de les entraîner dans toutes les conditions (par exemple pour des conditions telles que l'été/l'hiver, le jour/la nuit et les conditions météorologiques).
Le règlement général sur la protection des données (RGPD) doit impérativement être respecté en toutes circonstances. Certains fournisseurs de caméras IP font des déclarations sur la précision de la détection. Mais que signifient par exemple les indications techniques d'une précision de 95 % ? Exemple : Si un système de reconnaissance faciale basé sur l'IA doit être utilisé pour identifier une personne criminelle, dans ce cas, avec une précision de 99,9 pour cent pour 100 000 visages, il y aurait encore un taux de faux positifs de 100 personnes. Les questions décisives dans ce contexte sont les suivantes : Quels sont les taux d'erreur acceptables pour l'application prévue ? Comment et dans quelles circonstances les précisions des données ont-elles été obtenues ? Les spécifications de base des fabricants et des développeurs sont toutefois tout aussi importantes.
L'IA dans le domaine de la sécurité vidéo n'est toujours pas soumise à des normes industrielles et éthiques. C'est pourquoi il faudra encore maîtriser quelques courbes d'apprentissage dans la technique de sécurité vidéo basée sur l'IA. En raison de la complexité du sujet, l'Association suisse des constructeurs d'installations de sécurité (Association SES) conseille aux fournisseurs de proposer, dans le sens d'une "preuve de concept" et dans la mesure du possible, une installation test dans l'objet afin de vérifier si les attentes de l'exploitant peuvent être satisfaites par la technique du fabricant. Il faut veiller à ce que les techniques de caméra et d'éclairage ainsi que d'autres conditions générales pour une utilisation optimale de tous les appareils puissent être sollicitées pour une utilisation dans la phase de test.
Si plusieurs solutions basées sur l'IA doivent être envisagées, il faut veiller à utiliser les mêmes signaux de caméra pour alimenter l'IA, afin de pouvoir effectuer une véritable comparaison en fonction des différentes conditions telles que le jour/la nuit et les conditions météorologiques.
Possibilités futures
L'éventail des solutions basées sur l'IA laissera encore la porte ouverte à de nombreux développements passionnants. À moyen et long terme, l'IA devrait contribuer à une réduction significative des fausses alertes, ce qui gagnera en importance, notamment en cas d'activation à distance de centres de contrôle 24h/24 et 7j/7 et d'allègement considérable de la centralisation des informations, afin que le centre d'appels d'urgence puisse mieux se concentrer sur les vraies alertes sans augmenter le personnel du centre d'appels d'urgence. D'une manière générale, un soutien accru des caméras d'IA permettra également de gagner énormément de temps lors des évaluations médico-légales. Les attributs les plus petits et les fonctions de recherche spécialisées pour les personnes portant les mêmes vêtements, par exemple un pantalon bleu, peuvent conduire à des résultats de recherche extrêmement rapides en cas d'énormes quantités de données. Même les distorsions d'image des objectifs grand angle extrêmes appartiendront un jour au passé grâce aux corrections d'image basées sur l'IA. Même les insectes devant l'objectif d'une caméra n'entraîneront pas toujours de fausses alertes.
Résumé du document "Künstliche Intelligenz in der Video-Sicherheitstechnik" de l'Association suisse des constructeurs de systèmes de sécurité (SES) (à paraître) et de l'association allemande BHE.