Trainingsmethoden in der Videoanalyse
Künstliche Intelligenz (KI) in der Videoüberwachung wird dank der rasanten technologischen Entwicklungen weiterhin an Fahrt gewinnen. Ein Status Quo.
Der Begriff künstliche Intelligenz wird häufig – etwas inflationär – vielen äquivalenten Begriffen gleichgesetzt. Doch was ist eigentlich eine einfache Analyse und wo setzt die künstliche Intelligenz ein? Ob selbstfahrendes Auto, Spracherkennung, KI-fähige Kamera: Die Grundlage jedes Systems, das selbstständig Entscheidungen trifft, bildet die Datenanalyse. So werden bestehende Datensätze oft nach bestimmten Mustern gescannt, um Entscheidungen treffen oder Ereignisse vorhersagen zu können. Eine KI bedient sich dieser Analyse und trifft selbstständig Annahmen. Entscheidungen und Vorhersagen sind zukunftsbasiert und stützen sich nicht nur auf vorhandene Daten. Dabei gilt es, zwischen verschiedenen Formen einer intelligenten Analyse zu unterscheiden.
Was heisst eigentlich KI?
Eine schwache KI (Narrow AI oder Artificial Narrow Intelligence [ANI] genannt) ist auf die Ausführung bestimmter Aufgaben konditioniert. Die schwache KI beschreibt einen Grossteil aller robusten KI-Anwendungen wie Apples Siri, Amazons Alexa oder IBM Watson. Von einer sogenannten starken KI, einer theoretischen Form der KI, spricht man, wenn sie über eine mit dem Menschen vergleichbare Intelligenz verfügen würde. Diese hätte dann ein eigentliches Bewusstsein erlangt, welches in der Lage wäre, Probleme selbstständig zu lösen und Ereignisse für die Zukunft zu planen. Eine künstliche Superintelligenz (ASI), welche das menschliche Gehirn übertreffen würde, ist noch von theoretischer Natur, was aber nicht ausschliesst, dass Forscher bereits an ihrer Entwicklung arbeiten. Von einer intelligenten Videoanalyse ist meist dann die Rede, wenn softwarebasierte Analysemodule für den Betrieb auf Servern, Rekordern oder in Kameras bei der automatischen Erkennung sicherheitsrelevanter Objekte oder Ereignisse zur Anwendung gelangen. Diese ermöglichen Echtzeit-Objekterkennung, Verfolgung von Objekten, Identifikation und Szeneninterpretation. Aus den sogenannten Metadaten der Videostreams lassen sich, abhängig von den Einstellungen, Uhrzeit, Datum, Brennweite und Verschlusszeit herauslesen. Um diesen Pool an aggregierten Metadaten in unterschiedlichen Szenen und Ansichten zu erhalten und auszubauen, werden extrem viele Trainingseinheiten klassifizierter Szenen und Objekte benötigt.
Als sicher gilt: Durch die Verwendung von Metadaten und technischer Hilfsmittel steigt die Effizienz und Zuverlässigkeit bei der Analyse von Videodaten enorm. Diskrete GPUs (Graphics Processing Unit) von Grafikkarten verwenden heute ihren eigenen Videospeicher. Algorithmen, die direkt in der Kamera operieren, verwenden dedizierte, für die Videoanalyse konditionierte GPUs. Zusätzliche Rechenleistung kann über verschiedene Systeme bereitgestellt werden. Sei dies über unternehmenseigene Server und mit der eigenen IT-Umgebung (On-Premise), über serverbasierte Datenverarbeitungsprozesse (Cloud-basierte Ansätze) oder über hybride Ansätze.
Aufgrund der zunehmenden Rechenleistung werden sich über die Jahre hinweg immer bessere Algorithmen integrieren lassen. Es war somit nur noch ein kleiner Schritt, aus einem 2D-Videobild auch dreidimensionale Szenen zu rekonstruieren. So lassen sich mittlerweile nicht mehr nur Objekte erkennen, sondern auch weitere Attribute zu Geschwindigkeit, Grösse, Richtung und Verhalten einer Strecke prozessual registrieren. Das «Moore’sche Gesetz», nach welchem sich alle 18 Monate die Rechenleistung nahezu verdoppelt, dürfte auch weiterhin dazu beitragen, zunehmend validere Objekte von Interesse bestimmen zu können.
Edge-basierte Analyse
Eine mit Analytics ausgestattete Sicherheitskamera erkennt eine Person nicht nur mittels Deep-Learning und wandelt Videoinformationen in Daten um, sondern erstellt auch Metadaten. In der Praxis ermöglicht das Spektrum der KI, beispielsweise ein Auto, eine Person oder ein Fahrrad zu erkennen oder eine ganze Szene zu verfolgen. Je mehr Daten einbezogen werden, desto mehr Szenarien können trainiert werden. Menschen sind derzeit noch einiges schlauer als Deep-Learning-Algorithmen: Im Videobereich werden für Trainingsmethoden 100’000 bis Millionen von Datensätzen benötigt, um ein breit gefächertes, akkurates Ergebnis zu erzielen. Klassifiziert wird zum Beispiel nach verschiedenen Objekten wie Mensch, Tier, Gegenstand und Kamerawinkel. Aktuelle Kameras verfügen über leistungsfähige Prozessoren, mit welchen der Parallelbetrieb in der Videoanalyse und die Encodierung der Videodaten oftmals durch einen Prozessor der Kamera möglich ist. Man spricht dann von edge-basierter Analyse. Serverbasierte Videoanalyse gilt aber derzeit noch als die verbreitetste Lösung, bei welcher ebenfalls zwei unterschiedliche Systemarchitekturen realisiert werden können, was beispielsweise mehrere Analysemodule im Parallelbetrieb ermöglicht.
Typische Einsatzszenarien von KI in Videosicherheitsanlagen
Das Einsatzgebiet von KI in Videosicherheitsanlagen eröffnet ein sehr breites Spektrum. Es reicht von der Brandfrüherkennung, Autokennzeichenerkennung, Gesichtserkennung über Hauttemperaturanalyse und Personenzählung bis hin zur Voraussage möglicher Diebstähle (Verhaltensweisen), damit einhergehend auch Audioanalyse oder die Beobachtung von Verkehrsstörungen. Typische Fallbeispiele von Verkehrslösungen basieren auf Zählung, Verkehrsstromzählung, Kontrollschilderkennung, Verkehrsdichte und Distanz. Ein sogenanntes Ereignisdetektionssystem (ED) ist dabei in der Lage, alle gewünschten Ereignisse in einem Tunnel oder auf einer offenen Strecke sofort zu erkennen wie beispielsweise Regulierungen, Abschaltungen der Tunnelventilation, Sperrungen von Verkehrsspuren.
Voraussetzungen für einen erfolgreichen Einsatz der KI in der Videosicherheitstechnik
Der Einsatz der besten KI-basierten Produkte hängt von der Kamera/Objektiv-Einheit sowie von der geplanten Anwendung ab. Nicht nur die Auflösung, Objektgüte, sondern auch der Betrachtungsabstand beziehungsweise Blickwinkel, die Beleuchtung und der Neigungswinkel einer IP-Kamera spielen bei der Überwachung eine entscheidende Rolle. Ein gutes Vertrauen des Betreibers in die Lieferkette der KI-Lösung ist daher unabdingbar. Gefördert werden kann dieses durch Transparenz und durch einen regelmässigen Austausch zwischen Betreiber, Errichter und Hersteller. Ein klares Bild verschaffen Kriterien wie Art, Herkunft und Umfang der Trainingsdaten. Besprochen werden kann beispielsweise, ob sich verbesserte Algorithmen nachträglich in das System einspielen und ob sich diese unter allen Bedingungen trainieren lassen (beispielsweise für Bedingungen wie Sommer/Winter, Tag/Nacht und Witterungsverhältnisse).
Die Datenschutz-Grundverordnung (DSGVO) ist unter allen Umständen zwingend einzuhalten. Einige Anbieter von IP-Kameras machen Aussagen zur Genauigkeit der Detektion. Doch was bedeuten beispielsweise technische Angaben einer Genauigkeit von 95 Prozent? Beispiel: Wenn ein KI-basiertes Gesichtserkennungssystem zur Identifikation einer kriminellen Person genutzt werden soll, würde es in diesem Fall bei einer Genauigkeit von 99,9 Prozent bei 100 000 Gesichtern noch immer zu einer False-Positive-Rate von 100 Personen kommen. Entscheidende Fragen in diesem Zusammenhang sind: Welche Fehlerraten sind bei der jeweils geplanten Anwendung akzeptabel? Wie und unter welchen Umständen sind die Datengenauigkeiten zustande gekommen? Genauso wichtig sind jedoch die Grundspezifikationen der Hersteller und Entwickler.
Nach wie vor fehlen bei der KI in der Videosicherheitstechnik sowohl Industrie- bzw. Normenstandards als auch ethische Standards. Daher wird es in der KI-basierten Videosicherheitstechnik noch einige Lernkurven zu meistern geben. Der Verband Schweizerischer Errichter von Sicherheitsanlagen (SES-Verband) rät aufgrund der Komplexität der Thematik, dass Anbieter im Sinne eines «proof of concept» nach Möglichkeit eine Teststellung im Objekt anbieten, um zu verifizieren, ob die Erwartungen des Betreibers durch die Technik des Herstellers erfüllt werden können. Es sei darauf zu achten, dass exakt die Kamera- und Beleuchtungstechniken sowie weitere Rahmenbedingungen für einen optimalen Einsatz aller Gerätschaften zwecks eines Einsatz in der Testphase beansprucht werden können.
Sollen mehrere KI-basierte Lösungen in Betracht gezogen werden, ist darauf zu achten, die gleichen Kamerasignale zur Speisung in die KI zu nutzen, um einen echten Vergleich hinsichtlich der verschiedenen Konditionen wie Tag/Nacht und Witterungsverhältnisse nachvollziehen zu können.
Zukünftige Möglichkeiten
Das Spektrum der KI-basierten Lösungen wird noch viele spannende Entwicklungen offenhalten. Mittel- bis langfristig dürfte KI zu einer deutlichen Reduktion der Falschalarme beitragen, was insbesondere bei Fernaufschaltungen von 24/7-Leitstellen und einer wesentlichen Entlastung beim Zentralisieren der Informationen an Bedeutung gewinnen wird, damit sich die Notrufzentrale besser auf echte Alarme konzentrieren kann, ohne das Personal in der Notrufzentrale aufzustocken. Auch generell wird eine vermehrte KI-Kamera-Unterstützung zu enormen Zeitersparnissen bei forensischen Auswertungen beitragen. Kleinste Attribute und spezialisierte Suchfunktionen nach Personen mit gleicher Oberbekleidung wie zum Beispiel einer blauen Hose können bei enormen Datenmengen zu extrem schnellen Suchergebnissen führen. Auch Bildverzerrungen extremer Weitwinkelobjektive werden mittels KI-basierter Bildkorrekturen dereinst der Vergangenheit angehören. Selbst Insekten vor einer Kameralinse werden nicht immer zwingend zu falschen Alarmen führen.
Zusammenfassung des Dokuments «Künstliche Intelligenz in der Video-Sicherheitstechnik» vom Verband Schweizerischer Errichter von Sicherheitsanlagen (SES) (erscheint demnächst) und vom deutschen BHE-Verband.