Options
2023
Doctoral Thesis
Title
Lifelong Learning in the Clinical Open World
Abstract
Despite mounting evidence that data drift causes deep learning models to deteriorate over time, the majority of medical imaging research is developed for - and evaluated on - static close-world environments. There have been exciting advances in the automatic detection and segmentation of diagnostically-relevant findings. Yet the few studies that attempt to validate their performance in actual clinics are met with disappointing results and little utility as perceived by healthcare professionals. This is largely due to the many factors that introduce shifts in medical image data distribution, from changes in the acquisition practices to naturally occurring variations in the patient population and disease manifestation. If we truly wish to leverage deep learning technologies to alleviate the workload of clinicians and drive forward the democratization of health care, we must move away from close-world assumptions and start designing systems for the dynamic open world.
This entails, first, the establishment of reliable quality assurance mechanisms with methods from the fields of uncertainty estimation, out-of-distribution detection, and domain-aware prediction appraisal. Part I of the thesis summarizes my contributions to this area. I first propose two approaches that identify outliers by monitoring a self-supervised objective or by quantifying the distance to training samples in a low-dimensional latent space. I then explore how to maximize the diversity among members of a deep ensemble for improved calibration and robustness; and present a lightweight method to detect low-quality lung lesion segmentation masks using domain knowledge.
Of course, detecting failures is only the first step. We ideally want to train models that are reliable in the open world for a large portion of the data. Out-of-distribution generalization and domain adaptation may increase robustness, but only to a certain extent. As time goes on, models can only maintain acceptable performance if they continue learning with newly acquired cases that reflect changes in the data distribution. The goal of continual learning is to adapt to changes in the environment without forgetting previous knowledge. One practical strategy to approach this is expansion, whereby multiple parametrizations of the model are trained and the most appropriate one is selected during inference. In the second part of the thesis, I present two expansion-based methods that do not rely on information regarding when or how the data distribution changes.
Even when appropriate mechanisms are in place to fail safely and accumulate knowledge over time, this will only translate to clinical usage insofar as the regulatory framework allows it. Current regulations in the USA and European Union only authorize locked systems that do not learn post-deployment. Fortunately, regulatory bodies are noting the need for a modern lifecycle regulatory approach. I review these efforts, along with other practical aspects of developing systems that learn through their lifecycle, in the third part of the thesis.
We are finally at a stage where healthcare professionals and regulators are embracing deep learning. The number of commercially available diagnostic radiology systems is also quickly rising. This opens up our chance - and responsibility - to show that these systems can be safe and effective throughout their lifespan.
This entails, first, the establishment of reliable quality assurance mechanisms with methods from the fields of uncertainty estimation, out-of-distribution detection, and domain-aware prediction appraisal. Part I of the thesis summarizes my contributions to this area. I first propose two approaches that identify outliers by monitoring a self-supervised objective or by quantifying the distance to training samples in a low-dimensional latent space. I then explore how to maximize the diversity among members of a deep ensemble for improved calibration and robustness; and present a lightweight method to detect low-quality lung lesion segmentation masks using domain knowledge.
Of course, detecting failures is only the first step. We ideally want to train models that are reliable in the open world for a large portion of the data. Out-of-distribution generalization and domain adaptation may increase robustness, but only to a certain extent. As time goes on, models can only maintain acceptable performance if they continue learning with newly acquired cases that reflect changes in the data distribution. The goal of continual learning is to adapt to changes in the environment without forgetting previous knowledge. One practical strategy to approach this is expansion, whereby multiple parametrizations of the model are trained and the most appropriate one is selected during inference. In the second part of the thesis, I present two expansion-based methods that do not rely on information regarding when or how the data distribution changes.
Even when appropriate mechanisms are in place to fail safely and accumulate knowledge over time, this will only translate to clinical usage insofar as the regulatory framework allows it. Current regulations in the USA and European Union only authorize locked systems that do not learn post-deployment. Fortunately, regulatory bodies are noting the need for a modern lifecycle regulatory approach. I review these efforts, along with other practical aspects of developing systems that learn through their lifecycle, in the third part of the thesis.
We are finally at a stage where healthcare professionals and regulators are embracing deep learning. The number of commercially available diagnostic radiology systems is also quickly rising. This opens up our chance - and responsibility - to show that these systems can be safe and effective throughout their lifespan.
;
Trotz zunehmender Beweise dafür, dass Deep Learning Modelle im Laufe der Zeit an Qualität verlieren, wird der Großteil der Forschung im Bereich der medizinischen Bildgebung in statischen Umgebungen entworfen und evaluiert. Es gab in den letzten Jahren spannende Entwicklungen bei der automatischen Erkennung und Segmentierung diagnostisch relevanter Befunde. Allerdings haben die wenigen prospektiven Studien, die es dazu gab, enttäuschende Ergebnisse gezeigt. Dies ist vor allem auf die vielen Faktoren zurückzuführen, die zu Verschiebungen in der Verteilung medizinischer Bilddaten führen. Diese reichen von Änderungen in den Bildgebungsverfahren bis hin zu natürlich vorkommenden Variationen in der Patientenpopulation und der Ausprägung von Krankheiten. Wenn wir Deep Learning wirksam einsetzen wollen, müssen wir uns von den Annahmen einer geschlossenen Umgebung lösen und damit beginnen, Systeme für die dynamische offene Welt zu entwerfen.
Dies erfordert zunächst die Einrichtung zuverlässiger Qualitätssicherungsmaßnahmen. Der erste Teil dieser Dissertation fasst meine Beiträge zu diesem Themengebiet zusammen. Ich schlage zuerst zwei Ansätze vor, welche Ausreißer durch ein selbst überwachtes Lernziel oder durch die Quantifizierung des Abstands zu Trainingsbeispielen in einem niedrig dimensionalen latenten Raum identifizieren. Anschließend untersuche ich, wie die Vielfalt unter den Mitgliedern eines tiefen Ensembles maximiert werden kann, um die Kalibrierung und Robustheit zu verbessern. Zudem stelle ich eine domänenbasierte Methode zur Erkennung schlechter Segmentierungsmasken für Lungenläsionen vor.
Natürlich ist die Erkennung von Fehlern nur der erste Schritt. Im Idealfall wollen wir Modelle trainieren, die in der offenen Welt für einen großen Teil der Daten zuverlässig funktionieren. Bisherige Verfahren, unter anderem aus der Domänenanpassung, können zwar die Robustheit erhöhen, aber nur bis zu einem gewissen Grad. Mit der Zeit behalten Modelle nur dann eine akzeptable Leistung bei, wenn sie mit neu erfassten Beispielen weiterlernen, welche die Änderungen in der Verteilung der Daten widerspiegeln. Das Ziel des kontinuierlichen Lernens besteht darin, sich an Veränderungen in der Umgebung anzupassen, ohne bereits Gelerntes zu vergessen. Eine praktische Strategie, um dies zu erreichen, ist die Expansion, bei der mehrere Parametrisierungen des Modells trainiert werden, und während der Inferenz die am besten geeignete ausgewählt wird. Im zweiten Teil der Arbeit stelle ich zwei Methoden vor, welche auf Expansion basieren, aber nicht auf Informationen darüber angewiesen sind, wann oder wie sich die Datenverteilung ändert.
Selbst wenn geeignete Mechanismen vorhanden sind, um Fehler zu erkennen und mit der Zeit neues Wissen zu erwerben, kann dies nur dann in die klinische Anwendung übertragen werden, wenn der rechtliche Rahmen dies zulässt. Die derzeitigen Vorschriften in den USA und der Europäischen Union lassen nur abgeschlossene, deterministische Systeme zu, deren Parameter sich nicht mehr verändern dürfen. Glücklicherweise erkennen die Aufsichtsbehörden die Notwendigkeit eines modernen, lebenszyklusorientierten Regulierungsansatzes an. Im dritten Teil der Dissertation gehe ich auf diese Bemühungen ein, sowie auf andere nötige Aspekte der Entwicklung von Systemen, die während ihres Lebenszyklus weiterlernen.
Wir befinden uns endlich in einer Phase, in der medizinische Fachkräfte und Aufsichtsbehörden Deep Learning begrüßen, und in der die Zahl der kommerziell erhältlichen diagnostischen Radiologiesysteme schnell ansteigt. Dies eröffnet uns die Chance - und die Verantwortung - zu zeigen, dass diese Systeme während ihrer gesamten Lebensdauer sicher und effektiv sein können.
Dies erfordert zunächst die Einrichtung zuverlässiger Qualitätssicherungsmaßnahmen. Der erste Teil dieser Dissertation fasst meine Beiträge zu diesem Themengebiet zusammen. Ich schlage zuerst zwei Ansätze vor, welche Ausreißer durch ein selbst überwachtes Lernziel oder durch die Quantifizierung des Abstands zu Trainingsbeispielen in einem niedrig dimensionalen latenten Raum identifizieren. Anschließend untersuche ich, wie die Vielfalt unter den Mitgliedern eines tiefen Ensembles maximiert werden kann, um die Kalibrierung und Robustheit zu verbessern. Zudem stelle ich eine domänenbasierte Methode zur Erkennung schlechter Segmentierungsmasken für Lungenläsionen vor.
Natürlich ist die Erkennung von Fehlern nur der erste Schritt. Im Idealfall wollen wir Modelle trainieren, die in der offenen Welt für einen großen Teil der Daten zuverlässig funktionieren. Bisherige Verfahren, unter anderem aus der Domänenanpassung, können zwar die Robustheit erhöhen, aber nur bis zu einem gewissen Grad. Mit der Zeit behalten Modelle nur dann eine akzeptable Leistung bei, wenn sie mit neu erfassten Beispielen weiterlernen, welche die Änderungen in der Verteilung der Daten widerspiegeln. Das Ziel des kontinuierlichen Lernens besteht darin, sich an Veränderungen in der Umgebung anzupassen, ohne bereits Gelerntes zu vergessen. Eine praktische Strategie, um dies zu erreichen, ist die Expansion, bei der mehrere Parametrisierungen des Modells trainiert werden, und während der Inferenz die am besten geeignete ausgewählt wird. Im zweiten Teil der Arbeit stelle ich zwei Methoden vor, welche auf Expansion basieren, aber nicht auf Informationen darüber angewiesen sind, wann oder wie sich die Datenverteilung ändert.
Selbst wenn geeignete Mechanismen vorhanden sind, um Fehler zu erkennen und mit der Zeit neues Wissen zu erwerben, kann dies nur dann in die klinische Anwendung übertragen werden, wenn der rechtliche Rahmen dies zulässt. Die derzeitigen Vorschriften in den USA und der Europäischen Union lassen nur abgeschlossene, deterministische Systeme zu, deren Parameter sich nicht mehr verändern dürfen. Glücklicherweise erkennen die Aufsichtsbehörden die Notwendigkeit eines modernen, lebenszyklusorientierten Regulierungsansatzes an. Im dritten Teil der Dissertation gehe ich auf diese Bemühungen ein, sowie auf andere nötige Aspekte der Entwicklung von Systemen, die während ihres Lebenszyklus weiterlernen.
Wir befinden uns endlich in einer Phase, in der medizinische Fachkräfte und Aufsichtsbehörden Deep Learning begrüßen, und in der die Zahl der kommerziell erhältlichen diagnostischen Radiologiesysteme schnell ansteigt. Dies eröffnet uns die Chance - und die Verantwortung - zu zeigen, dass diese Systeme während ihrer gesamten Lebensdauer sicher und effektiv sein können.
Thesis Note
Darmstadt, TU, Diss., 2023
Author(s)
Advisor(s)