Now showing 1 - 10 of 116
  • Publication
    Attribute-Based Person Retrieval in Multi-Camera Networks
    Attribute-based person retrieval is a crucial component in various realworld applications, including surveillance, retail, and smart cities. Contrary to image-based person identification or re-identification, individuals are searched for based on descriptions of their soft biometric attributes, such as gender, age, and clothing colors. For instance, attribute-based person retrieval enables law enforcement agencies to efficiently search enormous amounts of surveillance footage gathered from multi-camera networks to locate suspects or missing persons. This thesis presents a novel deep learning framework for attribute-based person retrieval. The primary objective is to research a holistic approach that is suitable for real-world applications. Therefore, all necessary processing steps are covered. Pedestrian attribute recognition serves as the base framework to address attribute-based person retrieval in this thesis. Various design characteristics of pedestrian attribute recognition approaches are systematically examined toward their suitability for attribute-based person retrieval. Following this analysis, novel techniques are proposed and discussed to further improve the performance. The PARNorm module is introduced to normalize the model’s output logits across both the batch and attribute dimensions to compensate for imbalanced attributes in the training data and improve person retrieval performance simultaneously. Strategies for video-based pedestrian attribute recognition are explored, given that videos are typically available instead of still images. Temporal pooling of the backbone features over time proves to be effective for the task. Additionally, this approach exhibits faster inference than alternative techniques. To enhance the reliability of attributebased person retrieval rankings and address common challenges such as occlusions, an independent hardness predictor is proposed that predicts the difficulty of recognizing attributes in an image. This information is utilized to remarkably improve retrieval results by down-weighting soft biometrics with an increased chance of classification failure. Additionally, three further enhancements to the retrieval process are investigated, including model calibration based on existing literature, a novel attribute-wise error weighting mechanism to balance the attributes’ influence on retrieval results, and a new distance measure that relies on the output distributions of the attribute classifier. Meaningful generalization experiments on pedestrian attribute recognition and attribute-based person retrieval are enabled for the first time. For this purpose, the UPAR dataset is proposed, which contributes 3.3 million binary annotations to harmonize semantic attributes across four existing datasets and introduces two evaluation protocols. Moreover, a new evaluation metric is suggested that is tailored to the task of attribute-based person retrieval. This metric evaluates the overlap between query attributes and the attributes of the retrieved samples to obtain scores that are consistent with the human perception of a person retrieval ranking. Combining the proposed approaches yields substantial improvements in both pedestrian attribute recognition and attribute-based person retrieval. State-of-the-art performance is achieved concerning both tasks and existing methods from the literature are surpassed. The findings are consistent across both specialization and generalization settings and across the well-established research datasets. Finally, the entire processing pipeline, from video feeds to the resulting retrieval rankings, is outlined. This encompasses a brief discussion on the topic of multi-target multi-camera tracking.
  • Publication
    Nutzung von Blickbewegungen für die Mensch-Computer-Interaktion mit dynamischen Bildinhalten am Beispiel der Videobildauswertung
    (KIT Scientific Publishing, 2024) ;
    Interaktion mit dynamischen Bildinhalten ist für Systemnutzer herausfordernd bezüglich Wahrnehmung, Kognition und Motorik. Die vorliegende Arbeit identifiziert geeignete blickbasierte Interaktionstechniken zur Selektion bewegter Objekte in Bildfolgen mithilfe mehrerer Querschnitt- und einer Längsschnittstudie. Sie untersucht, wie blickbasierte Interaktion und automatische Verfahren bei der Videobildauswertung unterstützen und ob blickbasierte Klassifikation der Benutzertätigkeit möglich ist.
  • Publication
    Methodische Evaluation von Verfahren zur Korrektur atmosphärischer Turbulenz in Bildsequenzen
    (KIT, 2023-03-01) ; ;
    Lühe, Oskar von der
    Bei langen horizontalen Ausbreitungswegen in Bodennähe ist die Atmosphäre und nicht die Qualität moderner bildgebender Systeme ausschlaggebend für die Qualität aufgenommener Bilddaten. Besonders wird die Bildqualität durch atmosphärische Turbulenz beeinträchtigt, die je nach Schweregrad zeitlich und räumlich variierende Unschärfe, (scheinbare) Bildbewegungen und geometrische Deformationen, sowie Intensitätsfluktuationen (Szintillation), verringerten (Farb-)Kontrast und Rauschen verursacht. Korrekturverfahren haben entsprechend die Aufgabe, einen, mehrere oder ggfs. alle dieser Turbulenzeffekte in Bilddaten zu reduzieren und diese bestmöglich zu rekonstruieren. Im Idealfall wäre eine solche Rekonstruktion identisch mit einer Aufnahme am Diffraktionslimit ohne Turbulenz.
  • Publication
    Abbildende Ellipsometrie mit Lichtwegumkehrung für die optische Charakterisierung von gekrümmten Oberflächen
    (KIT Scientific Publishing, 2023)
    Negara, Christian Emanuel
    ;
    ;
    Lemmer, Uli
    Die Ellipsometrie ist ein Messverfahren zur Oberflächencharakterisierung und Dünnschichtmessung von ebenen Oberflächen unter Verwendung von polarisiertem Licht. Ein neues Messprinzip basierend auf Lichtwegumkehrung und Retroreflexion ermöglicht jedoch die Erfassung von beliebigen Freiformflächen. Dieses neue Messprinzip und damit verbundene Fragestellungen zur Messabbildung, Auswertealgorithmik und Mehrdeutigkeiten sowie Freiheitsgrade der Lösungsmenge werden in dieser Arbeit untersucht.
  • Publication
    Über die Formalisierung und Analyse medizinischer Prozesse im Kontext von Expertenwissen und künstlicher Intelligenz
    (KIT Scientific Publishing, 2023) ; ;
    Beigl, Michael
    Die Digitalisierung hat bereits viele Bereiche der Wirtschaft und des gesellschaftlichen Lebens verändert. Auch unterliegen die Aspekte des Gesundheitswesens und der klinischen Praxis einem digitalen Wandel. Im Hinblick auf diese Entwicklungen beleuchtet die vorliegende Dissertation die Akquisition, Repräsentation und Nutzung von Prozesswissen im Kontext hybrider KI-Methoden. Zentraler Beitrag ist die strukturerhaltende Hin- und Rücktransformation von Prozessbäumen zu Prozessplänen.
  • Publication
    Detektion, Verfolgung und Posenschätzung von Personen im urbanen Straßenverkehr mit mobilen Multisensorsystemen
    Für die Erkennung von Gefährdungssituationen und -bereichen im Verkehrsraum werden LiDAR- und RGB-Daten mobil aufgenommen. Zur Personendetektion in LiDAR-Daten wird ein neuronales Netz mit einem Abstimmverfahren kombiniert. Die Detektionsleistung wird durch ein nachfolgendes Trackingverfahren verbessert. Basierend auf der Detektion werden die Körperposen in RGB-Bildausschnitten geschätzt. Für die Detektion konnte eine Genauigkeit von 0,81 bei gleichzeitiger Sensitivität von 0,74 erreicht werden.
  • Publication
    Fast Dense Depth Estimation from UAV-borne Aerial Imagery for the Assistance of Emergency Forces
    (KIT Scientific Publishing, 2023) ;
    Hinz, Stefan
    ;
    Nex, Francesco
    This work addresses the use of commercial off-the-shelf rotor-based unmanned aerial vehicles (UAVs) to facilitate emergency forces in the rapid structural assessment of a disaster site by means of aerial image-based reconnaissance. It proposes a framework that consists of two parts and relies on the integrated stereo vision sensor and the visual payload camera of the UAV to execute three high-level applications that aim at facilitating first responders in disaster relief missions.
  • Publication
    Nutzung von Blickbewegungen für die Mensch-Computer-Interaktion mit dynamischen Bildinhalten am Beispiel der Videobildauswertung
    ( 2023) ; ;
    Schultz, Tanja
    Die dynamischen Bildinhalte von Bildfolgen, insbesondere bewegte Objekte, sind für den menschlichen Systemnutzer herausfordernd bezüglich Wahrnehmung, Kognition und Motorik. Die vorliegende Arbeit erforscht, ob die Nutzung von Eyetracking die Benutzungsschnittstelle für die Aufgabe der Bildfolgenanalyse leistungsfähiger und belastungsärmer machen kann. Beim Eyetracking erfasst ein Eyetracker die Blickbewegungen der Systemnutzerin oder des Systemnutzers und liefert so einen Hinweis auf den Fokus der visuellen Aufmerksamkeit. Blickbasierte Interaktion gilt daher als intuitiv für Zeigeoperationen, da der Mensch gewöhnlich an die Stelle blickt, an der eine Systemeingabe erfolgt.
  • Publication
    Anomaliedetektion in räumlich-zeitlichen Datensätzen
    (KIT Scientific Publishing, 2023) ;
    Eine Unterstützung des Menschen in Überwachungsaufgaben spielt eine immer wichtigere Rolle, da die schiere Menge der anfallenden Daten von heterogenen Sensoren eine Überforderung des Menschen zur Folge hat. Hierfür müssen dem Menschen in kritischen Entscheidungen die wichtigsten Informationen transparent dargebracht werden, um so das Situationsbewusstsein zu stärken. In dieser Arbeit wird der maritime Raum als Beispiel für die Entwicklung verschiedener Datenfusionsverfahren zu ebendiesem Zweck herangezogen. Der maritime Raum als Anwendungsszenario bietet durch seine enorme wirtschaftliche Bedeutung für den Welthandel, das Auftreten verschiedenster Anomalien und krimineller Handlungen wie Piraterie und illegaler Fischerei und die Verfügbarkeit von Datenquellen ein gut für die Erprobung der Verfahren geeignetes Umfeld. Die entwickelten und untersuchten Verfahren decken hierbei die gesamte Bandbreite von einfachen Positions- und kinematischen Anomalien, über kontextuelle Anomalien bis zu komplexen Anomalien ab. Für die Untersuchung werden verschiedene Datensätze mit realen Schiffsverkehrsinformationen genutzt. Außerdem werden die Verfahren teilweise in Live Trials mit Küstenwachen erprobt. Zur Entwicklung der Verfahren wird als Grundlage zunächst das objektorientierte Weltmodell um Verhaltensmodelle erweitert sowie das EUCISE-Datenmodell als Basis für die Modellierung des verfügbaren Hintergrundwissens identifiziert. Die ersten untersuchten Verfahren detektieren Anomalien in der Position und der Kinematik basierend auf einzelnen Datenpunkten oder ganzen Trajektorien. Hierbei wurde festgestellt, dass zwar Anomalien erkannt werden, die Korrektklassifikationsrate für einen tatsächlichen Einsatz aber deutlich zu hoch ausfällt sowie bestimmte Anomalien ohne Kontext nicht bestimmbar sind. Im nächsten Schritt wird ein Multiagentensystem aufgestellt, welches das Verhalten der beobachteten Objekte durch spieltheoretische Modelle simuliert. Die hierzu notwendigen Nutzenfunktionen werden sowohl wissensbasiert als auch datengetrieben hergeleitet. Mit den integrierten Kontextinformationen können echte Anomalien deutlich besser von normalem Verhalten abgegrenzt werden. Des Weiteren wird gezeigt, wie mit Hilfe von Merkmalen, die aus georeferenzierten Informationen abgeleitet werden, Kontextinformationen zur Klassifikation von Schiffstypen in neuronalen Netzen integriert werden können. Im letzten Schritt werden komplexe Anomalien in Form von spezifischen Situationen basierend auf dynamischen Bayes’schen Netzen modelliert und in Live Trials erprobt. Hierbei werden Kontextinformationen, wie das Wetter, sowie Datenquellen mit unterschiedlicher Zuverlässigkeit integriert, um Situationen in verschiedenen durch Endanwender/-innen mitgestalteten Anwendungsszenarien zu erkennen. Insgesamt wird gezeigt, dass mit automatischen Verfahren Anomalien unterschiedlicher Art erkannt werden können. Die Verfahren werden jeweils mit realen Daten evaluiert, um die Möglichkeit des tatsächlichen Einsatzes als Entscheidungsunterstützung für Menschen in realen Anwendungsszenarien aufzuzeigen.
  • Publication
    3D Human Body Pose-Based Activity Recognition for Driver Monitoring Systems
    Traffic accidents are unfortunately an unavoidable part of our modern transport system. In many cases the behavior of drivers is a contributing factor. Different studies show that distractions caused by secondary activities, like the use of mobile phones, play a large role. In addition, the trend to occupy oneself with other activities rises with increasing vehicle automation because drivers are less involved in the driving task. For this reason, driver monitoring systems will be required for future automated cars. In this thesis we therefore investigate how to detect the activities of drivers in automated cars using a modular recognition system based on 3D data. The proposed system consists of two stages. The first stage creates a 3D interior state model from camera data including the 3D body pose of the driver, the location of elements of the interior as well as the position of objects involved in certain activities. The second stage uses this representation to detect activities. We base this design on two hypotheses: First, a rich 3D interior state model including other elements in addition to the 3D driver body pose is important to discern fine-grained activities. Second, the interior state model, created by the first stage, is a sensor modality and sensor location independent representation allowing the second stage to successfully detect activities even with large changes to the camera system. To verify these assumptions, we contribute to the research field in three areas. The foundation of all our efforts are annotated datasets. Based on our extensive literature review we show that there are no suitable public automotive data sources. We therefore collect multiple datasets for different subtasks leading to our final dataset, published under the name Drive&Act. It includes a large-scale hierarchical activity recognition benchmark with multiple 3D input modalities for the task, like the 3D body pose of the driver, the location of interior elements like the steering wheel, as well as 3D trajectories of objects like smartphones. In addition, the dataset includes a public benchmark for 3D driver body pose estimation with challenging partial occlusion of the driver’s body. The main feature of the 3D interior state model is the body pose of the driver. Here we contribute methods for real-time 3D driver body pose estimation based on depth images. The primary challenge of using depth data for this task is occlusion of body parts. A second challenge is the lack of public automotive datasets to train these methods. In our first approach we therefore rely on simulated depth images with automated annotation for training. Our second approach handles this problem on the algorithm level. It uses a novel split of 2D body pose estimation followed by separate 3D keypoint regression guided by the depth image. This enables us to rely on advances in 2D body pose estimation using large-scale datasets from other domains. We can demonstrate the robustness of this method to partial occlusion on the 3D body pose benchmark of Drive&Act. While the primary input of many related activity recognition methods is just the 3D human body pose, we research how to expand the input to a complex 3D state model including elements of the surrounding vehicle interior as well as positions of objects relevant for certain activities. We follow one central paradigm and assume that the distance in 3D space of keypoints of the driver’s body to other elements in the state model is an important indicator of their relevance for the performed activity. Based on this hypothesis we develop different methods with increasing complexity of the interior state model. Our final method casts all parts of the interior state model into a spatio-temporal graph. To generate this graph, we rely on the distance of keypoints of the driver’s body to other parts of the state model to determine which nodes to include in the graph and what edges to create. We analyze this graph using a neural network based on graph convolutions. We can show the advantage of our graph creation method in selecting relevant interior elements and objects and the usefulness of object location data to discern activities represented by similar body poses of the driver. Consequently, we can prove our initial hypothesis that additional input modalities improve the detection of fine-grained activities based on 3D data and we can quantify their impact. We also investigate the overall performance of our modular system regarding sensor modality and viewpoint changes. We can demonstrate the capability to switch between creating the interior state model based on a multi-view camera system and creating it using data from a single depth sensor. We can show that our activity recognition approach can be trained on one of these representations and evaluated on the other with just a moderate performance drop. In addition, the overall system can generalize across different datasets recorded in different vehicles and in vastly different conditions, switching between data recorded in a simulator for automated driving and data recorded on a test track driving manually. This supports our second hypothesis that the 3D interior state model resulting from our first stage of algorithms is sensor independent to a large degree.