Options
2024
Doctoral Thesis
Title
Attribute-Based Person Retrieval in Multi-Camera Networks
Abstract
Attribute-based person retrieval is a crucial component in various realworld applications, including surveillance, retail, and smart cities. Contrary to image-based person identification or re-identification, individuals are searched for based on descriptions of their soft biometric attributes, such as gender, age, and clothing colors. For instance, attribute-based person retrieval enables law enforcement agencies to efficiently search enormous amounts of surveillance footage gathered from multi-camera networks to locate suspects or missing persons.
This thesis presents a novel deep learning framework for attribute-based person retrieval. The primary objective is to research a holistic approach that is suitable for real-world applications. Therefore, all necessary processing steps are covered. Pedestrian attribute recognition serves as the base framework to address attribute-based person retrieval in this thesis. Various design characteristics of pedestrian attribute recognition approaches are systematically examined toward their suitability for attribute-based person retrieval. Following this analysis, novel techniques are proposed and discussed to further improve the performance. The PARNorm module is introduced to normalize the model’s output logits across both the batch and attribute dimensions to compensate for imbalanced attributes in the training data and improve person retrieval performance simultaneously. Strategies for video-based pedestrian attribute recognition are explored, given that videos are typically available instead of still images. Temporal pooling of the backbone features over time proves to be effective for the task. Additionally, this approach exhibits faster inference than alternative techniques. To enhance the reliability of attributebased person retrieval rankings and address common challenges such as occlusions, an independent hardness predictor is proposed that predicts the difficulty of recognizing attributes in an image. This information is utilized to remarkably improve retrieval results by down-weighting soft biometrics with an increased chance of classification failure. Additionally, three further enhancements to the retrieval process are investigated, including model calibration based on existing literature, a novel attribute-wise error weighting mechanism to balance the attributes’ influence on retrieval results, and a new distance measure that relies on the output distributions of the attribute classifier.
Meaningful generalization experiments on pedestrian attribute recognition and attribute-based person retrieval are enabled for the first time. For this purpose, the UPAR dataset is proposed, which contributes 3.3 million binary annotations to harmonize semantic attributes across four existing datasets and introduces two evaluation protocols. Moreover, a new evaluation metric is suggested that is tailored to the task of attribute-based person retrieval. This metric evaluates the overlap between query attributes and the attributes of the retrieved samples to obtain scores that are consistent with the human perception of a person retrieval ranking.
Combining the proposed approaches yields substantial improvements in both pedestrian attribute recognition and attribute-based person retrieval. State-of-the-art performance is achieved concerning both tasks and existing methods from the literature are surpassed. The findings are consistent across both specialization and generalization settings and across the well-established research datasets. Finally, the entire processing pipeline, from video feeds to the resulting retrieval rankings, is outlined. This encompasses a brief discussion on the topic of multi-target multi-camera tracking.
This thesis presents a novel deep learning framework for attribute-based person retrieval. The primary objective is to research a holistic approach that is suitable for real-world applications. Therefore, all necessary processing steps are covered. Pedestrian attribute recognition serves as the base framework to address attribute-based person retrieval in this thesis. Various design characteristics of pedestrian attribute recognition approaches are systematically examined toward their suitability for attribute-based person retrieval. Following this analysis, novel techniques are proposed and discussed to further improve the performance. The PARNorm module is introduced to normalize the model’s output logits across both the batch and attribute dimensions to compensate for imbalanced attributes in the training data and improve person retrieval performance simultaneously. Strategies for video-based pedestrian attribute recognition are explored, given that videos are typically available instead of still images. Temporal pooling of the backbone features over time proves to be effective for the task. Additionally, this approach exhibits faster inference than alternative techniques. To enhance the reliability of attributebased person retrieval rankings and address common challenges such as occlusions, an independent hardness predictor is proposed that predicts the difficulty of recognizing attributes in an image. This information is utilized to remarkably improve retrieval results by down-weighting soft biometrics with an increased chance of classification failure. Additionally, three further enhancements to the retrieval process are investigated, including model calibration based on existing literature, a novel attribute-wise error weighting mechanism to balance the attributes’ influence on retrieval results, and a new distance measure that relies on the output distributions of the attribute classifier.
Meaningful generalization experiments on pedestrian attribute recognition and attribute-based person retrieval are enabled for the first time. For this purpose, the UPAR dataset is proposed, which contributes 3.3 million binary annotations to harmonize semantic attributes across four existing datasets and introduces two evaluation protocols. Moreover, a new evaluation metric is suggested that is tailored to the task of attribute-based person retrieval. This metric evaluates the overlap between query attributes and the attributes of the retrieved samples to obtain scores that are consistent with the human perception of a person retrieval ranking.
Combining the proposed approaches yields substantial improvements in both pedestrian attribute recognition and attribute-based person retrieval. State-of-the-art performance is achieved concerning both tasks and existing methods from the literature are surpassed. The findings are consistent across both specialization and generalization settings and across the well-established research datasets. Finally, the entire processing pipeline, from video feeds to the resulting retrieval rankings, is outlined. This encompasses a brief discussion on the topic of multi-target multi-camera tracking.
;
Die attributbasierte Personensuche ist eine entscheidende Komponente in verschiedenen realen Anwendungen. Dazu gehören die Videoüberwachung, der Einzelhandel und intelligente Städte. Im Gegensatz zu bildbasierten Ansätzen zur Identifizierung oder Wiedererkennung von Personen zielt sie darauf ab Personen anhand von Beschreibungen ihrer weichen biometrischen Merkmale wie Geschlecht, Alter und Kleidungsfarbe zu suchen. Die attributbasierte Personensuche ermöglicht es beispielsweise Strafverfolgungsbehörden, enorme Mengen an Bildmaterial, das von einem Netzwerk aus Kameras gesammelt wurde, effizient zu durchsuchen, um verdächtige oder vermisste Personen zu finden.
In dieser Dissertation wird ein neuartiger Deep Learning Ansatz für die attributbasierte Personensuche vorgestellt. Das primäre Ziel ist die Erforschung eines ganzheitlichen Ansatzes, der für reale Anwendungen geeignet ist. Daher werden alle hierfür notwendigen Verarbeitungsschritte betrachtet. Die Erkennung von Personenattributen dient in dieser Dissertation als Grundgerüst für die attributbasierte Personensuche. Es werden verschiedene Designmerkmale von Ansätzen für die Personenattributerkennung systematisch auf ihre Eignung für die attributbasierte Personensuche untersucht. Darüber hinaus wird das PARNorm-Modul eingeführt, das die Ausgaben des Attributerkennungsmodells sowohl über die Batch- als auch über die Attributdimensionen normalisiert, um den Einfluss unausgewogener Attribute in den Trainingsdaten zu kompensieren und gleichzeitig die Leistung der Personensuche zu verbessern. Da in der Regel Videos anstelle von Einzelbildern zur Verfügung stehen, werden Strategien zur videobasierten Erkennung von Personenattributen untersucht. Die zeitliche Zusammenführung von abstrakten Merkmalsvektoren, die vom Basismodell generiert werden, erweist sich als effektiv für diese Aufgabe. Darüber hinaus ermöglicht dieser Ansatz eine schnellere Inferenz im Vergleich zu alternativen Ansätzen. Um die Zuverlässigkeit der attributbasierten Personenerkennung zu verbessern und häufige Probleme wie Verdeckungen zu lösen, wird ein unabhängiger Schwierigkeitsermittler vorgeschlagen, der die Schwierigkeit der Bestimmung von Personenattributen in einem Bild erkennt. Die Schwierigkeitsinformationen werden genutzt, um die Suchergebnisse deutlich zu verbessern, indem schwierige Attribute niedriger gewichtet werden. Zusätzlich werden drei weitere Verbesserungen des Suchprozesses untersucht: eine Modellkalibrierung auf der Grundlage bestehender Literatur, ein neuartiger Mechanismus zur attributweisen Fehlergewichtung, um den Einfluss der Attribute auf die Suchergebnisse auszugleichen, und ein neues Distanzmaß, das auf den Ausgabeverteilungen des Attributklassifikators beruht.
Es werden erstmals aussagekräftige Generalisierungsexperimente zur Erkennung von Personenattributen und zur attributbasierten Personensuche ermöglicht. Zu diesem Zweck wird der UPAR-Datensatz vorgeschlagen, der 3,3 Millionen neue binäre Annotationen verfügbar macht, um die semantischen Attribute von vier bestehenden Datensätzen zu harmonisieren.
Zusätzlich werden zwei Auswertungsprotokolle eingeführt. Darüber hinaus wird eine neue Evaluationsmetrik vorgeschlagen, die auf die attributbasierte Personensuche zugeschnitten ist. Diese Metrik wertet die Übereinstimmung zwischen den Attributen der Abfrage und den Attributen der abgerufenen Beispiele aus.
Die Kombination der vorgeschlagenen Ansätze führt zu erheblichen Verbesserungen sowohl bei der Erkennung von Personenattributen als auch bei der attributbasierten Personensuche. Bezüglich beiden Aufgaben wird der aktuelle Stand der Technik übertroffen. Diese Erkenntnisse gelten sowohl für die etablierten Spezialisierungsdatensätze als auch für den UPAR-Generalisierungsdatensatz. Abschließend wird die gesamte Verarbeitungspipeline von den Videodaten der Kameras bis zu den resultierenden Suchergebnissen skizziert. Dies beinhaltet eine kurze Diskussion von Verfahren zum kameraübergreifenden Verfolgen von Personen.
In dieser Dissertation wird ein neuartiger Deep Learning Ansatz für die attributbasierte Personensuche vorgestellt. Das primäre Ziel ist die Erforschung eines ganzheitlichen Ansatzes, der für reale Anwendungen geeignet ist. Daher werden alle hierfür notwendigen Verarbeitungsschritte betrachtet. Die Erkennung von Personenattributen dient in dieser Dissertation als Grundgerüst für die attributbasierte Personensuche. Es werden verschiedene Designmerkmale von Ansätzen für die Personenattributerkennung systematisch auf ihre Eignung für die attributbasierte Personensuche untersucht. Darüber hinaus wird das PARNorm-Modul eingeführt, das die Ausgaben des Attributerkennungsmodells sowohl über die Batch- als auch über die Attributdimensionen normalisiert, um den Einfluss unausgewogener Attribute in den Trainingsdaten zu kompensieren und gleichzeitig die Leistung der Personensuche zu verbessern. Da in der Regel Videos anstelle von Einzelbildern zur Verfügung stehen, werden Strategien zur videobasierten Erkennung von Personenattributen untersucht. Die zeitliche Zusammenführung von abstrakten Merkmalsvektoren, die vom Basismodell generiert werden, erweist sich als effektiv für diese Aufgabe. Darüber hinaus ermöglicht dieser Ansatz eine schnellere Inferenz im Vergleich zu alternativen Ansätzen. Um die Zuverlässigkeit der attributbasierten Personenerkennung zu verbessern und häufige Probleme wie Verdeckungen zu lösen, wird ein unabhängiger Schwierigkeitsermittler vorgeschlagen, der die Schwierigkeit der Bestimmung von Personenattributen in einem Bild erkennt. Die Schwierigkeitsinformationen werden genutzt, um die Suchergebnisse deutlich zu verbessern, indem schwierige Attribute niedriger gewichtet werden. Zusätzlich werden drei weitere Verbesserungen des Suchprozesses untersucht: eine Modellkalibrierung auf der Grundlage bestehender Literatur, ein neuartiger Mechanismus zur attributweisen Fehlergewichtung, um den Einfluss der Attribute auf die Suchergebnisse auszugleichen, und ein neues Distanzmaß, das auf den Ausgabeverteilungen des Attributklassifikators beruht.
Es werden erstmals aussagekräftige Generalisierungsexperimente zur Erkennung von Personenattributen und zur attributbasierten Personensuche ermöglicht. Zu diesem Zweck wird der UPAR-Datensatz vorgeschlagen, der 3,3 Millionen neue binäre Annotationen verfügbar macht, um die semantischen Attribute von vier bestehenden Datensätzen zu harmonisieren.
Zusätzlich werden zwei Auswertungsprotokolle eingeführt. Darüber hinaus wird eine neue Evaluationsmetrik vorgeschlagen, die auf die attributbasierte Personensuche zugeschnitten ist. Diese Metrik wertet die Übereinstimmung zwischen den Attributen der Abfrage und den Attributen der abgerufenen Beispiele aus.
Die Kombination der vorgeschlagenen Ansätze führt zu erheblichen Verbesserungen sowohl bei der Erkennung von Personenattributen als auch bei der attributbasierten Personensuche. Bezüglich beiden Aufgaben wird der aktuelle Stand der Technik übertroffen. Diese Erkenntnisse gelten sowohl für die etablierten Spezialisierungsdatensätze als auch für den UPAR-Generalisierungsdatensatz. Abschließend wird die gesamte Verarbeitungspipeline von den Videodaten der Kameras bis zu den resultierenden Suchergebnissen skizziert. Dies beinhaltet eine kurze Diskussion von Verfahren zum kameraübergreifenden Verfolgen von Personen.
Thesis Note
Karlsruhe, Karlsruher Institut für Technologie KIT, Diss., 2024
Open Access
Rights
CC BY 4.0: Creative Commons Attribution
Language
English