Scene Understanding Meets Realistic Scene Synthesis: Novel Learning-based Technologies for Scene Digitization, Analysis and Editing

Sinha, Saptarshi Neil

doi:10.26083/tuda-7595

2025

Doctoral Thesis

Abstract

Understanding a scene from acquired visual data is a primary objective of computer vision and serves as the foundation for critical tasks such as semantic segmentation, extrapolation and interpolation of sparse scene observations in real-time systems like autonomous driving, anomaly and defect detection, tracking of objects, material-based segmentation, as well as estimating physical properties like lighting and material characteristics. This process involves the detection, classification, realistic reconstruction and interpretation of physical objects and their relationships in a visual environment to enable meaningful analysis and informed decision-making. While humans can effortlessly extract insights from visual data, neural vision systems face challenges in integrating information from multiple sensory sources, such as audio, acceleration, and 3D depth sensors like LiDAR, RADAR, or Kinect. Achieving multi-modal scene understanding, which identifies semantic connections between different sensors, is essential for creating a comprehensive representation and understanding of the scene. This task is complicated by inherent ambiguities in the data, often arising from the physical properties of the scene, such as varying material characteristics and lighting conditions. Accurately representing this data is crucial for enhanced scene understanding for tasks like scene digitization in terms of inference of geometry, material properties and lighting characteristics, scene analysis and editing. These capabilities are particularly important in fields such as virtual prototyping, advertisement, digital preservation of artifacts, autonomous driving, surveillance, architectural design, creation of digital twins, immersive media development, interactive gaming and product evaluation. This thesis presents technologies that improve scene understanding by leveraging learning-based approaches for scene digitization, analysis, and editing. We begin by introducing scene digitization in terms of inference of geometry, material properties, and lighting characteristics from RGB and sparse spectral data. Our novel learning-based spectral scene digitization approach leverages 3D Gaussian Splatting (3DGS) to create a comprehensive multi-spectral explicit scene representation framework. This framework enhances the accuracy and realism of rendered outputs through improved physicallybased rendering techniques that estimate reflectance and lighting for each spectrum. Additionally, it facilitates enhanced scene analysis by enabling semantic segmentation of the scene per spectrum. We also present technologies for scene digitization from sparse observations, such as visualizing fragile historical artifacts in Virtual Reality. Furthermore, by employing a calibrated measurement-arm-camera (MAC) setup, we improve the accuracy and alignment of reconstructed models using 3D Gaussian Splatting (3DGS) from a limited number of views. Finally, to improve material asset management of inferred digitized materials, we introduce a framework for generating digital material assets utilizing learning-based approaches, ensuring these assets are available in standardized formats. The thesis further investigates scene editing in terms of segment-wise style and material appearance transfer, introducing methods for 3D semantic style transfer. By incorporating semantic information into the style transfer process, the research achieves superior fidelity and multi-view consistency in stylization. Furthermore, a novel hybrid pipeline for scene editing is proposed that allows learning based scene analysis to performed on scenes digitized using learning-based or high-quality scanning devices. Additionally, it also includes a use case for controllable style transfer between portraits and busts. Finally, the thesis addresses scene editing in terms of data restoration based on purely synthetic data. It presents a method for synthesizing defects in visual arts and train deep learning models aimed at restoring degraded artworks. This innovative technique effectively addresses the challenges posed by the scarcity of ground-truth data in restoration, showcasing the potential of synthetic data to enhance restoration practices. The effectiveness of the proposed solutions is validated through extensive evaluations, showing notable improvements in the accuracy and realism of reconstructed scenes, as well as better user experiences in interactive platforms like virtual reality. In conclusion, the techniques developed in this thesis - including multi-spectral learning-based scene digitization, scene digitization from sparse observations, advanced stylization and material transfer methods, and data restoration based on purely synthetic data - provide a strong foundation for future applications. These contributions are especially beneficial for projects that aim to utilize learning-based approaches in scene digitization, analysis and editing, effectively tackling the complexities of diverse datasets and enhancing the quality of visual representations across various fields. The methods proposed not only have aesthetic applications but also serve functional purposes in industries such as automotive design, visual inspection, medical applications, and smart farming, where precise material representation and scene understanding are essential.

;

Das Verständnis einer bildhaften Szene auf der Grundlage von gesammelten visuellen Daten ist eines der primären Ziele der Computer Vision und dient als Grundlage zur Lösung schwieriger Problemstellungen wie z.B. die der semantischen Segmentierung, der Extrapolation und Interpolation von unvollständigen Szenenerfassungen in Echtzeitsystemen wie dem autonomen Fahren, bei der Fehlererkennung oder Objektverfolgung, bei der materialbasierten Segmentierung sowie bei der Schätzung physikalischer Merkmale wie Beleuchtung und Materialeigenschaften. Dieser Prozess umfasst die Erkennung, Klassifizierung, realistische Rekonstruktion und Interpretation physischer Objekte und ihrer Beziehungen innerhalb einer visuellen Umgebung, um eine aussagekräftige Analyse und fundierte Entscheidungsfindung zu ermöglichen. Während Menschen mühelos Erkenntnisse aus visuellen Daten gewinnen können, stehen neuronale Bildverarbeitungssysteme vor der Herausforderung, Informationen aus mehreren sensorischen Quellen zu integrieren, wie beispielsweise mittels Audio-, Beschleunigungs- und 3DTiefensensoren wie LiDAR, RADAR oder Kinect. Ein multimodales Szenenverständnis zu erreichen, das semantische Verbindungen zwischen verschiedenen Sensoren identifiziert, ist für die Erstellung einer umfassenden Darstellung und das Verständnis der Szene unerlässlich. Diese Aufgabe wird durch inhärente Mehrdeutigkeiten der Daten erschwert, die häufig auf die physikalischen Eigenschaften der Szene zurückzuführen sind, wie z. B. unterschiedliche Materialeigenschaften und Lichtverhältnisse. Bei Aufgaben wie der Digitalisierung von Szenen im Hinblick auf die Ableitung von Geometrie, Materialeigenschaften und Beleuchtungseigenschaften, Szenenanalyse und -bearbeitung ist die genaue Darstellung dieser Daten entscheidend – insbesondere in Bereichen wie virtuellem Prototyping, Werbung, digitaler Konservierung von Artefakten, autonomem Fahren, Überwachung, Architekturdesign, Erstellung digitaler Zwillinge, Entwicklung immersiver Medien sowie interaktiver Spiele oder Produktbewertung.
Die vorliegende Arbeit stellt Technologien vor, die das Verständnis von Szenen verbessern, indem sie lernbasierte Ansätze für die Digitalisierung, Analyse und Bearbeitung von Szenen nutzen. Wir beginnen mit einer Einführung in die Szenendigitalisierung im Hinblick auf die Ableitung von Geometrie, Materialeigenschaften und Beleuchtungseigenschaften aus RGB- und spärlichen Spektraldaten. Unser neuartiger lernbasierter Ansatz zur spektralen Szenendigitalisierung nutzt 3D Gaussian Splatting (3DGS), um einen umfassenden multispektralen eindeutigen Rahmen der Szenendarstellung bereitzustellen. Dieser Rahmen steigert die Genauigkeit und den Realismus der gerenderten Ergebnisse durch verbesserte physikalisch basierte Rendering-Techniken, die die Reflexion und Beleuchtung für jedes Spektrum schätzen. Darüber hinaus bietet er eine verbesserte Szenenanalyse, indem eine semantische Segmentierung der Szene pro Spektrum ermöglicht wird. Gleichermaßen stellen wir Technologien zur Szenendigitalisierung auf der Grundlage von spärlichen Beobachtungen vor, wie beispielsweise die Visualisierung fragiler historischer Artefakte in der virtuellen Realität. Darüber hinaus verbessern wir durch den Einsatz einer kalibrierten Messarm-Kamera-Konfiguration (MAC) die Genauigkeit und Ausrichtung rekonstruierter Modelle unter Verwendung von 3D Gaussian Splatting (3DGS) aus einer begrenzten Anzahl von Ansichten. Schließlich führen wir zur Verbesserung der Verwaltung von digitalisierten Materialien einen Rahmen für die Generierung digitaler Materialien unter Verwendung lernbasierter Ansätze ein, um die Verfügbarkeit dieser Materialien in standartisierten Formaten zu gewährleisten. Die vorliegende Arbeit untersucht außerdem die Szenenbearbeitung im Hinblick auf segmentweise Stil- und Materialübertragung und stellt Methoden für die semantische 3D-Stilübertragung vor. Durch die Einbeziehung semantischer Informationen in den Stilübertragungsprozess wird eine überragende Wiedergabetreue und Konsistenz der Stilisierung aus mehreren Blickwinkeln erreicht.
Darüber hinaus wird eine neuartige hybride Pipeline für die Szenenbearbeitung vorgeschlagen, die eine lernbasierte Analyse von Szenen ermöglicht, die mit gleichermaßen lernbasierten hochwertigen Scannern digitalisiert wurden. Gleichermaßen bietet die vorliegende Dissertation ebenso einen Anwendungsfall für den steuerbaren Stil-Transfer zwischen Porträts und Büsten. Schließlich befasst sich die Arbeit mit der Szenenbearbeitung im Hinblick auf die Datenwiederherstellung auf der Grundlage rein synthetischer Daten. Es wird eine Methode vorgestellt, mit der Defekte in der bildenden Kunst synthetisiert und Deep-Learning-Modelle trainiert werden können, um beschädigte Kunstwerke zu restaurieren. Diese innovative Technik begegnet effektiv den Herausforderungen, die sich aus der unzulänglichen Verfügbarkeit von Ground-Truth-Daten bei der Restaurierung ergeben, und zeigt das Potenzial synthetischer Daten zur Verbesserung der Restaurierungspraxis auf. Die Wirksamkeit der vorgeschlagenen Lösungen wird durch umfangreiche Bewertungen validiert, die bemerkenswerte Verbesserungen hinsichtlich der Genauigkeit und des Realismus der rekonstruierten Szenen sowie eine bessere Benutzererfahrung auf interaktiven Plattformen auf der Grundlage von virtueller Realität zeigen. Zusammenfassend lässt sich sagen, dass die in dieser Arbeit entwickelten Techniken – darunter die multispektrale, lernbasierte Szenendigitalisierung, die Szenendigitalisierung aus spärlichen Beobachtungen, fortschrittliche Stilisierungs- und Materialübertragungsmethoden sowie die Datenwiederherstellung auf der Grundlage rein synthetischer Daten - eine solide Grundlage für zukünftige Anwendungen bilden. Diese Beiträge sind besonders vorteilhaft für Projekte, die lernbasierte Ansätze bei der Szenendigitalisierung, -analyse und -bearbeitung nutzen wollen, um die Komplexität vielfältiger Datensätze effektiv zu bewältigen und die Qualität visueller Darstellungen in verschiedenen Bereichen zu verbessern. Die vorgeschlagenen Methoden haben nicht nur ästhetische Anwendungen, sondern dienen auch funktionalen Zwecken in Branchen wie Automobilbau, visuelle Inspektion, medizinische Anwendungen und intelligente Landwirtschaft, wo eine präzise Materialdarstellung und ein Szenenverständnis unerlässlich sind.

Thesis Note

Darmstadt, TU, Diss., 2025

Author(s)

Sinha, Saptarshi Neil

Fraunhofer-Institut für Graphische Datenverarbeitung IGD

Advisor(s)

Kuijper, Arjan