Ein generisches System zur automatischen Detektion, Verfolgung und Wiedererkennung von Personen in Videodaten

Jüngling, K.

2011

Doctoral Thesis

Abstract

Eine wichtige Aufgabe im Bereich des maschinellen Sehens ist die personenzentrierte Videoanalyse. Diese findet in vielen Bereichen des heutigen Lebens, wie z.B. bei Fahrerassistenzsystemen, bei der Mensch-Maschine-Interaktion, militärischen Gefahrenerkennung und insbesondere auch visuellen Überwachung Anwendung. Die Basis dieser personenzentrierten Analyse bildet die Detektion und Verfolgung von Personen in Videodaten. Diese ist Voraussetzung für alle folgenden Analyse- und Interpretationsschritte. Darüber hinaus ist auch die Wiedererkennung von Personen wichtiger Bestandteil vieler Anwendungen. So ist eine solche Wiedererkennung von Personen notwendig, wenn ein langer Zeitraum oder ein großer räumlicher Bereich betrachtet wird, da in diesem Fall Verbindungen zwischen den zeitlich oder räumlich nicht direkt zusammenhängenden Auftreten von Personen etabliert werden müssen. Ein typisches Beispiel hierfür ist die Überwachung großer öffentlicher Bereiche wie z.B. Flughäfen, bei der eine Vielzahl von Kameras vernetzt eingesetzt wird und typischerweise ein ausgedehnter Zeitraum relevant ist. Aufgrund der Diversität der Anwendungsfälle für die Personendetektion, -verfolgung und -wiedererkennung ist es wünschenswert, ein generisches System zu entwickeln, das möglichst unabhängig von bestimmten Aspekten einzelner Anwendungsfälle und somit umfassend einsetzbar ist. In dieser Arbeit wird ein solches System zur Personendetektion, -verfolgung und -wiedererkennung vorgestellt. Dieses System weist Generizität bzgl. verschiedener Aspekte auf. So ist das System unabhängig vom Anwendungsszenario, d.h. es werden keine Annahmen über die Anwendungsumgebung getroffen. So wird z.B. nicht vorausgesetzt, dass der Szenenhintergrund bekannt ist, oder dass weitere Informationen über die Szene vorliegen. Ebenso wird nicht angenommen, dass der aufzeichnende Sensor stationär ist, was bedeutet, dass das hier vorgestellte System auch bei bewegter Kamera einsetzbar ist. Gleichsam ist das System nicht auf eine bestimmte Objektklasse beschränkt, da auser Beispielen f¨ur das vollautomatische Training kein objektklassenspezifisches Wissen eingebracht wird. Darüber hinaus ist das System durch die ausschliesliche Nutzung von auf Intensitätsgradienten basierenden lokalen Merkmalen weitestgehend unabhängig vom verwendeten Sensor. So ist das gesamte System sowohl im sichtbaren als auch im infraroten Spektralbereich anwendbar, da keine sensorspezifischen Merkmale wie Farbe oder Tiefe genutzt werden. Die Systemgenerizität wird insbesondere durch ausschliesliche Nutzung und Erweiterung des Implicit Shape Model (ISM) Ansatzes und lokalen Bildmerkmalen für alle drei Systemebenen erreicht. Diese sind dabei eng gekoppelt und verschmelzen zu einem integrierten Lösungsansatz. Für die Personenverfolgung wird eine Erweiterung des Implicit Shape Models vorgestellt, welche die Personendetektion und -verfolgung durch Kombination von bottom-up tracking-by-detection mit top-down modellbasierten Strategien vereinigt. Hierdurch wird eine Stabilisierung der Detektion sowie das automatische Tracking über Verdeckungssituationen erreicht. Ebenso werden separate Schritte und Heuristiken zur Datenassoziation, d.h. der Assoziation von Objekthypothesen über der Zeit, und Modellaktualisierung im Tracking überflüssig. Während der Verfolgung einer Person wird ein ISM-basiertes Identitätsmodell aufgebaut, welches zur Wiedererkennung der Person genutzt wird. Diese enge Kopplung von der Detektion bis zur Wiedererkennung macht das Gesamtsystem autark unter realen Bedingungen einsetzbar.

;

An important area in computer vision is the person-centered video analysis. Applications cover many areas of today's life like driver assistance, human-machine-interaction, threat assessment in military context and specifically visual surveillance. The basis of this person-centered analysis is person detection and tracking in video data. This is a precondition for all subsequent analysis or interpretation approaches. Moreover, person reidentification is a substantial component of many applications. Such a reidentification of persons is necessary in cases where a long time period or a large spatial area is considered. In these cases, connections between the occurrences of people that are not directly temporally or spatially connected are to be established. A typical example of this is the surveillance of large public spaces like airports where multiple networked cameras are utilised and a long time period is relevant. Due to the diversity of application areas for person detection, tracking, and reidentification, it is desirable to develop a generic system that is most independent of certain aspects of application scenarios and thus universally applicable. In this work, such a system for person detection, tracking and reidentification is introduced. This system is generic regarding different aspects. The system is independent of the application scenario, meaning that no assumptions on the application environment are made. For instance, it is not assumed that the scene background is known or other information regarding the scene is available. It is also not assumed that the recording sensor is stationary, which means the system introduced in this work is applicable in the case of a moving camera. Equally, the system is not limited to certain object classes since no object class specific knowledge other than a set of training samples is used. In addition, the system is mostly independent of the used sensor since no other than the intensity-gradient based local features are used. Thus, the overall system is applicable in the visible and the infrared spectral range since no features like color or depth are employed. The system generality is specifically accomplished by the exclusive use of the Implicit Shape Model approach and local image features for all three system levels, whereby the levels are closely connected and merge in an integrated approach. For person tracking, an extension of the Implicit Shape Model, which combines bottom-up tracking-by-detection with top-down model-based strategies, is introduced. By that, a stabilisation of person detection and automatic tracking through short-term occlusion is accomplished. Likewise, separate steps and heuristics for data association, i.e the association of object hypotheses over time, and model update become redundant. During person tracking, an Implicit Shape Model based identity model, that is used for person reidentification, is established. By that tight coupling of all levels from detection to reidentification, the system is independently applicable under real conditions.

ThesisNote

Karlsruhe, Inst. für Technologie (KIT), Diss., 2011

Author(s)

Jüngling, K.

Verlagsort

Karlsruhe

Options

Ein generisches System zur automatischen Detektion, Verfolgung und Wiedererkennung von Personen in Videodaten