Options
2023
Doctoral Thesis
Title
3D Human Body Pose-Based Activity Recognition for Driver Monitoring Systems
Abstract
Traffic accidents are unfortunately an unavoidable part of our modern transport system. In many cases the behavior of drivers is a contributing factor. Different studies show that distractions caused by secondary activities, like the use of mobile phones, play a large role. In addition, the trend to occupy oneself with other activities rises with increasing vehicle automation because drivers are less involved in the driving task. For this reason, driver monitoring systems will be required for future automated cars. In this thesis we therefore investigate how to detect the activities of drivers in automated cars using a modular recognition system based on 3D data. The proposed system consists of two stages. The first stage creates a 3D interior state model from camera data including the 3D body pose of the driver, the location of elements of the interior as well as the position of objects involved in certain activities. The second stage uses this representation to detect activities. We base this design on two hypotheses: First, a rich 3D interior state model including other elements in addition to the 3D driver body pose is important to discern fine-grained activities. Second, the interior state model, created by the first stage, is a sensor modality and sensor location independent representation allowing the second stage to successfully detect activities even with large changes to the camera system. To verify these assumptions, we contribute to the research field in three areas. The foundation of all our efforts are annotated datasets. Based on our extensive literature review we show that there are no suitable public automotive data sources. We therefore collect multiple datasets for different subtasks leading to our final dataset, published under the name Drive&Act. It includes a large-scale hierarchical activity recognition benchmark with multiple 3D input modalities for the task, like the 3D body pose of the driver, the location of interior elements like the steering wheel, as well as 3D trajectories of objects like smartphones. In addition, the dataset includes a public benchmark for 3D driver body pose estimation with challenging partial occlusion of the driver’s body. The main feature of the 3D interior state model is the body pose of the driver. Here we contribute methods for real-time 3D driver body pose estimation based on depth images. The primary challenge of using depth data for this task is occlusion of body parts. A second challenge is the lack of public automotive datasets to train these methods. In our first approach we therefore rely on simulated depth images with automated annotation for training. Our second approach handles this problem on the algorithm level. It uses a novel split of 2D body pose estimation followed by separate 3D keypoint regression guided by the depth image. This enables us to rely on advances in 2D body pose estimation using large-scale datasets from other domains. We can demonstrate the robustness of this method to partial occlusion on the 3D body pose benchmark of Drive&Act. While the primary input of many related activity recognition methods is just the 3D human body pose, we research how to expand the input to a complex 3D state model including elements of the surrounding vehicle interior as well as positions of objects relevant for certain activities. We follow one central paradigm and assume that the distance in 3D space of keypoints of the driver’s body to other elements in the state model is an important indicator of their relevance for the performed activity. Based on this hypothesis we develop different methods with increasing complexity of the interior state model. Our final method casts all parts of the interior state model into a spatio-temporal graph. To generate this graph, we rely on the distance of keypoints of the driver’s body to other parts of the state model to determine which nodes to include in the graph and what edges to create. We analyze this graph using a neural network based on graph convolutions. We can show the advantage of our graph creation method in selecting relevant interior elements and objects and the usefulness of object location data to discern activities represented by similar body poses of the driver. Consequently, we can prove our initial hypothesis that additional input modalities improve the detection of fine-grained activities based on 3D data and we can quantify their impact. We also investigate the overall performance of our modular system regarding sensor modality and viewpoint changes. We can demonstrate the capability to switch between creating the interior state model based on a multi-view camera system and creating it using data from a single depth sensor. We can show that our activity recognition approach can be trained on one of these representations and evaluated on the other with just a moderate performance drop. In addition, the overall system can generalize across different datasets recorded in different vehicles and in vastly different conditions, switching between data recorded in a simulator for automated driving and data recorded on a test track driving manually. This supports our second hypothesis that the 3D interior state model resulting from our first stage of algorithms is sensor independent to a large degree.
;
Verkehrsunfälle sind leider ein unvermeidbarer Bestandteil unseres modernen Verkehrssystems. In vielen Fällen trägt das Verhalten der Fahrer zum Unfall bei. Verschiedene Studien zeigen, dass Ablenkung durch Nebentätigkeiten, wie die Nutzung von Smartphones, eine große Rolle spielt. Die Tendenz sich mit anderen Tätigkeiten zu beschäftigen steigt mit zunehmender Automatisierung, da die Fahrer weniger in die Fahraufgabe eingebunden sind. Aus diesem Grund werden für zukünftige automatisierte Fahrzeuge Fahrerüberwachungssysteme benötigt.
In dieser Arbeit wird daher untersucht, wie die Aktivität von Fahrern in automatisierten Fahrzeugen mit Hilfe eines modularen Erkennungssystems auf der Grundlage von 3DDaten erkannt werden kann. Die Erfassung läuft in zwei Schritten ab. Im ersten Schritt wird aus Kameradaten ein 3D-Zustandsmodell des Innenraums erstellt das die Körperpose des Fahrers, die Position von Elementen des Innenraums sowie die Position von Objekten, die an bestimmten Aktivitäten beteiligt sind, enthält. Im zweiten Schritt wird diese Darstellung zur Erkennung von Aktivitäten genutzt. Dieses Vorgehen stützt sich auf zwei Hypothesen: Erstens ist ein umfangreiches 3D-Zustandsmodell, das neben der 3D-Körperpose des Fahrers auch andere Elemente enthält, wichtig, um feingranular Aktivitäten zu erkennen. Zweitens ist das im ersten Schritt erstellte Zustandsmodell eine Repräsentation die sensorunabhängig ist und es der zweiten Stufe ermöglicht, selbst bei großen Veränderungen des Kamerasystems erfolgreich Aktivitäten zu erkennen. Um diese Annahmen zu verifizieren, leisten wir in drei Bereichen Beiträge zum Forschungsfeld.
Die Grundlage all unserer Verfahren sind annotierte Datensätze. Basierend auf unserer umfangreichen Literaturrecherche zeigen wir, dass es keine geeigneten öffentlichen Datenquellen für dieses Konzept gibt. Wir sammeln daher mehrere Datensätze für verschiedene Teilprobleme, die zu unserem endgültigen Datensatz führen, der unter dem Namen Drive&Act veröffentlicht wurde. Er umfasst einen hierarchischen AktivitätserkennungsBenchmark mit mehreren 3D-Eingabemodalitäten für die Aufgabe, wie die Körperpose des Fahrers, die Position von Innenraumelementen wie dem Lenkrad, sowie Trajektorien von Objekten wie Smartphones. Darüber hinaus enthält der Datensatz einen Benchmark für die 3D-Körperposenschätzung des Fahrers auch bei Teilverdeckung des Körpers.
Das Hauptmerkmal des 3D-Zustandsmodells ist die Körperpose des Fahrers. Wir tragen Methoden zur Echtzeitschätzung der 3D-Körperpose auf der Grundlage von Tiefenbildern bei. Die größte Herausforderung bei der Verwendung von Tiefenbildern für diese Aufgabe ist der Umgang mit Verdeckungen von Körperteilen. Eine zweite Herausforderung ist der Mangel an öffentlichen Fahrzeugdatensätzen zum Trainieren dieser Methoden. Unser erster Ansatz stützt sich daher auf synthetisch generierte Trainingsdaten.
Unser zweiter Ansatz behandelt dieses Problem algorithmisch. Er verwendet eine neuartige Aufteilung in 2D-Körperposenschätzung, gefolgt von einer separaten Regression der 3D-Position auf Basis des Tiefenbilds. Dadurch können wir uns auf Fortschritte bei der 2D-Körperposenschätzung stützen und große Datensätze aus anderen Bereichen für das Training verwenden. Wir können die Robustheit dieser Methode gegenüber teilweiser Verdeckung von Körperteilen anhand des Drive&Act Datensatzes zeigen.
Während die primäre Eingabe vieler verwandter Aktivitätserkennungsmethoden nur die 3D-Körperpose umfasst, erforschen wir, wie die Eingabe auf ein komplexes 3DZustandsmodell des Innenraums erweitert werden kann, das sowohl Elemente des umgebenden Fahrzeuginnenraums als auch die Position von Objekten enthält. Wir folgen einem zentralen Paradigma und gehen davon aus, dass der Abstand von Körperteilen des Fahrers zu anderen Elementen im Zustandsmodell ein wichtiger Indikator für deren Relevanz ist. Unser letzter Ansatz erstellt aus dem Zustandsmodell einen Graphen der sowohl die räumliche Position als auch die zeitliche Entwicklung der Einzelkomponenten abbildet. Für die Erstellung des Graphen verwenden wir den Abstand von Körperteilen des Fahrers zu anderen Teilen des Zustandsmodells, um zu bestimmen, welche Komponenten in den Graphen aufgenommen und welche Kanten erstellt werden. Der Graph wird anschließend mit auf graph convolution basierenden neuronalen Netzen analysiert.
Wir können den Vorteil unseres Ansatzes zur Erstellung des Graphen bei der Auswahl relevanter Elemente anhand des Drive&Act Datensatzes zeigen. Weiterhin können wir durch die Analyse verschiedener Eingabemodalitäten auf dem Datensatz deren Nützlichkeit bestimmen und folglich unsere erste initiale Hypothese zur Nützlichkeit weiterer Eingabemodalitäten bestätigen. Wir untersuchen auch die Gesamtleistung unseres modularen Systems in Bezug auf Wechsel des Sensortyps und des Kamerablickwinkels. Wir erstellen hierfür das 3DZustandmodell sowohl auf Basis eines Multi-Kamera Systems als auch auf Basis eines einzelnen Tiefensensors. Wir können zeigen, dass unser Aktivitätserkennungsansatz auf einer dieser Repräsentationen trainiert und auf der anderen mit nur geringem Leistungsabfall evaluiert werden kann. Darüber hinaus demonstrieren wir, dass das Gesamtsystem auch über verschiedene Datensätze hinweg verwendet werden kann, die in verschiedenen Fahrzeugen und unter sehr unterschiedlichen Bedingungen aufgezeichnet wurden. Mit diesen Experimenten können wir die Robustheit unseres Ansatzes bezüglich Veränderungen des Sensorsystem, und somit auch unsere zweite initiale Hypothese, nachweisen.
In dieser Arbeit wird daher untersucht, wie die Aktivität von Fahrern in automatisierten Fahrzeugen mit Hilfe eines modularen Erkennungssystems auf der Grundlage von 3DDaten erkannt werden kann. Die Erfassung läuft in zwei Schritten ab. Im ersten Schritt wird aus Kameradaten ein 3D-Zustandsmodell des Innenraums erstellt das die Körperpose des Fahrers, die Position von Elementen des Innenraums sowie die Position von Objekten, die an bestimmten Aktivitäten beteiligt sind, enthält. Im zweiten Schritt wird diese Darstellung zur Erkennung von Aktivitäten genutzt. Dieses Vorgehen stützt sich auf zwei Hypothesen: Erstens ist ein umfangreiches 3D-Zustandsmodell, das neben der 3D-Körperpose des Fahrers auch andere Elemente enthält, wichtig, um feingranular Aktivitäten zu erkennen. Zweitens ist das im ersten Schritt erstellte Zustandsmodell eine Repräsentation die sensorunabhängig ist und es der zweiten Stufe ermöglicht, selbst bei großen Veränderungen des Kamerasystems erfolgreich Aktivitäten zu erkennen. Um diese Annahmen zu verifizieren, leisten wir in drei Bereichen Beiträge zum Forschungsfeld.
Die Grundlage all unserer Verfahren sind annotierte Datensätze. Basierend auf unserer umfangreichen Literaturrecherche zeigen wir, dass es keine geeigneten öffentlichen Datenquellen für dieses Konzept gibt. Wir sammeln daher mehrere Datensätze für verschiedene Teilprobleme, die zu unserem endgültigen Datensatz führen, der unter dem Namen Drive&Act veröffentlicht wurde. Er umfasst einen hierarchischen AktivitätserkennungsBenchmark mit mehreren 3D-Eingabemodalitäten für die Aufgabe, wie die Körperpose des Fahrers, die Position von Innenraumelementen wie dem Lenkrad, sowie Trajektorien von Objekten wie Smartphones. Darüber hinaus enthält der Datensatz einen Benchmark für die 3D-Körperposenschätzung des Fahrers auch bei Teilverdeckung des Körpers.
Das Hauptmerkmal des 3D-Zustandsmodells ist die Körperpose des Fahrers. Wir tragen Methoden zur Echtzeitschätzung der 3D-Körperpose auf der Grundlage von Tiefenbildern bei. Die größte Herausforderung bei der Verwendung von Tiefenbildern für diese Aufgabe ist der Umgang mit Verdeckungen von Körperteilen. Eine zweite Herausforderung ist der Mangel an öffentlichen Fahrzeugdatensätzen zum Trainieren dieser Methoden. Unser erster Ansatz stützt sich daher auf synthetisch generierte Trainingsdaten.
Unser zweiter Ansatz behandelt dieses Problem algorithmisch. Er verwendet eine neuartige Aufteilung in 2D-Körperposenschätzung, gefolgt von einer separaten Regression der 3D-Position auf Basis des Tiefenbilds. Dadurch können wir uns auf Fortschritte bei der 2D-Körperposenschätzung stützen und große Datensätze aus anderen Bereichen für das Training verwenden. Wir können die Robustheit dieser Methode gegenüber teilweiser Verdeckung von Körperteilen anhand des Drive&Act Datensatzes zeigen.
Während die primäre Eingabe vieler verwandter Aktivitätserkennungsmethoden nur die 3D-Körperpose umfasst, erforschen wir, wie die Eingabe auf ein komplexes 3DZustandsmodell des Innenraums erweitert werden kann, das sowohl Elemente des umgebenden Fahrzeuginnenraums als auch die Position von Objekten enthält. Wir folgen einem zentralen Paradigma und gehen davon aus, dass der Abstand von Körperteilen des Fahrers zu anderen Elementen im Zustandsmodell ein wichtiger Indikator für deren Relevanz ist. Unser letzter Ansatz erstellt aus dem Zustandsmodell einen Graphen der sowohl die räumliche Position als auch die zeitliche Entwicklung der Einzelkomponenten abbildet. Für die Erstellung des Graphen verwenden wir den Abstand von Körperteilen des Fahrers zu anderen Teilen des Zustandsmodells, um zu bestimmen, welche Komponenten in den Graphen aufgenommen und welche Kanten erstellt werden. Der Graph wird anschließend mit auf graph convolution basierenden neuronalen Netzen analysiert.
Wir können den Vorteil unseres Ansatzes zur Erstellung des Graphen bei der Auswahl relevanter Elemente anhand des Drive&Act Datensatzes zeigen. Weiterhin können wir durch die Analyse verschiedener Eingabemodalitäten auf dem Datensatz deren Nützlichkeit bestimmen und folglich unsere erste initiale Hypothese zur Nützlichkeit weiterer Eingabemodalitäten bestätigen. Wir untersuchen auch die Gesamtleistung unseres modularen Systems in Bezug auf Wechsel des Sensortyps und des Kamerablickwinkels. Wir erstellen hierfür das 3DZustandmodell sowohl auf Basis eines Multi-Kamera Systems als auch auf Basis eines einzelnen Tiefensensors. Wir können zeigen, dass unser Aktivitätserkennungsansatz auf einer dieser Repräsentationen trainiert und auf der anderen mit nur geringem Leistungsabfall evaluiert werden kann. Darüber hinaus demonstrieren wir, dass das Gesamtsystem auch über verschiedene Datensätze hinweg verwendet werden kann, die in verschiedenen Fahrzeugen und unter sehr unterschiedlichen Bedingungen aufgezeichnet wurden. Mit diesen Experimenten können wir die Robustheit unseres Ansatzes bezüglich Veränderungen des Sensorsystem, und somit auch unsere zweite initiale Hypothese, nachweisen.
Thesis Note
Karlsruhe, Karlsruher Institut für Technologie (KIT), Diss., 2023