Options
2022
Master Thesis
Title
Exploring Shift Operations as Attention Mechanism for Capturing Heterogeneous Information in Medical Image Segmentation
Abstract
The segmentation of heterogeneous information in medical images is a current research topic. Structures in the human body are individual, which results in different shapes, positions, sizes and characteristics. Deep learning-based approaches, mainly convolutional neural networks (CNNs), have been used for image-based segmentation in the past. CNNs can learn spatial relationships, but not necessarily long-range dependencies, which are responsible for the segmentation of heterogeneous information. For capturing long-range dependencies, the attention mechanism has recently gained much recognition in computer vision. The attention mechanism is initially implemented in Transformers, which are architecturally different to CNNs. Recent work demonstrates that the attention mechanism can also be implemented into CNNs. Contradicting voices have been raised recently, pointing out that it is not necessarily the attention mechanism that drives the success of Transformers but other components of Transformers, such as, e.g. the use of image patches as input. Finding the primary driver of Transformers is scientifically relevant since the architecture of Transformers brings certain disadvantages, such as the need for large datasets and computational inefficiency. Related work investigates whether the attention block in Transformers can be exchanged with similar modules to solve these disadvantages. It is valid to perform these exchanges since the attention mechanism is related to depthwise convolutions, which are applied to the depth of feature maps instead of their spatial dimensions. One such possible operation is the shift operation since it also operates on the depth of feature maps. This thesis investigates the exchange of the attention block with various shift operation variants. In contrast to recent work, the exchange is not done in the Transformer architecture but in the architecture of a CNN for segmentation purposes. It is intended to focus on the attention mechanism instead of focussing on other, possibly responsible modules inside the Transformer architecture. It is examined whether shift operations can be an efficient alternative for the attention mechanism. 2D and 3D medical image data are used to evaluate the method. Quantitative and qualitative results are presented for comparisons and in order to investigate whether the attention mechanism or shift operations use long-range dependencies due to heterogeneous image information. An improvement for the visual explainability of deep learning algorithms, namely Seg-HiRes-Grad CAM, is proposed for the qualitative evaluation of heterogeneous image information. Seg-HiRes-Grad CAM lifts the state-of-the-art (SOTA) in visualisation of class activation maps (CAMs) for classification tasks to segmentation tasks. In the case of two-dimensional data, higher metric results in terms of F1 score and intersection over union (IoU) are achieved when shift operations are implemented instead of the attention mechanism. Visual differences regarding long-range dependencies and spatial relationships could not be detected between the shift operations and the attention mechanism. However, this is not the case for three-dimensional data, even if the results are close to each other. It is elaborated that for a positive effect of the attention mechanism, the amount of spatial and depth-wise information must be sufficiently large. Regarding Seg-HiRes-Grad CAM, the inaccurate visualisation of the decision-making process in CNNs for segmentation tasks with previous methods is solved.
;
Die Segmentierung von heterogenen Informationen in medizinischen Bildern ist ein aktuelles Forschungsthema. Die Strukturen im menschlichen Körper sind individuell und führen demnach zu variablen Formen, Positionen, Größen und Eigenschaften. Bei Deep Learning Ansätzen für die bildbasierte Segmentierung werden hauptsächlich convolutional neural networks (CNNs) verwendet. CNNs sind in der Lage, räumliche Beziehungen zu lernen, aber nicht unbedingt weitreichende Beziehungen, die für die Segmentierung heterogener Informationen verantwortlich sind. Für das Erlernen weitreichender Beziehungen hat der Attention-Mechanismus in letzter Zeit viel Aufmerksamkeit im Bereich der Computer Vision erhalten. Ursprünglich wurde der Attention-Mechanismus in Transformern implementiert, die sich architektonisch von CNNs unterscheiden. Neueste Arbeiten zeigen, dass der Attention-Mechanismus auch in CNNs implementiert werden kann. Allerdings kommen gegenteilige Stimmen auf, die darauf hinwiesen, dass nicht unbedingt der Attention-Mechanismus für den Erfolg von Transformern verantwortlich ist, sondern andere Komponenten, wie z. B. die Nutzung von Patches als Input. Dies ist wissenschaftlich relevant, da die Architektur von Transformern gewisse Nachteile mit sich bringt, wie z.B. den Bedarf an großen Datensätzen und die Rechenineffizienz. In verwandten Arbeiten wird untersucht, ob das Attention-Modul in Transformern gegen ähnliche Module ausgetauscht werden kann, um diese Nachteile zu beheben. Ein solcher Austausch ist sinnvoll, da der Attention-Mechanismus mit depthwise convolutions zusammenhängt, die auf die Tiefe von Feature Maps anstelle ihrer räumlichen Dimensionen angewendet werden. Eine dieser möglichen Operationen ist die Shift-Operation, da sie ebenfalls auf die Tiefe der Feature Maps angewendet wird. In dieser Arbeit wird der Austausch des Attention-Moduls mit verschiedenen Varianten von Shift-Operationen untersucht. Im Gegensatz zu verwandten Arbeiten erfolgt der Austausch nicht in der Transformerarchitektur, sondern in der Architektur eines CNN für Segmentierungszwecke. Damit soll der Fokus auf den Attention-Mechanismus gelegt werden, anstatt sich auf andere Module innerhalb der Transformerarchitektur zu konzentrieren. Es wird untersucht, ob Shift-Operationen eine effiziente Alternative für den Attention-Mechanismus sein können. Zur Evaluierung der Methode werden medizinische 2D- und 3D-Bilddaten verwendet. Die quantitativen und qualitativen Ergebnisse werden verglichen, um zu untersuchen, ob der Attention-Mechanismus oder die Shift-Operationen weitreichende Beziehungen aufgrund heterogener Bildinformationen ausnutzen. Zur Verbesserung der qualitativen Evaluierung hinsichtlich heterogener Bildinformationen wird eine Verbesserung der visuellen Erklärbarkeit von Deep-Learning-Algorithmen, Seg-HiRes-Grad CAM, vorgeschlagen. Seg-HiRes-Grad CAM hebt den Stand der Forschung bei der Visualisierung einer class activation map (CAM) für Segmentierungsaufgaben auf den Stand von Klassifikationsaufgaben an. Es stellt sich heraus, dass im Fall von 2D Daten höhere metrische Ergebnisse in Bezug auf F1-Score und Intersection over Union (IoU) erzielt werden, wenn Shift-Operationen anstelle des Attention-Mechanismus implementiert werden. Visuelle Unterschiede in Bezug auf weitreichende Beziehungen und räumliche Beziehungen können zwischen der Shift-Operation und dem Attention-Mechanismus ebenfalls nicht festgestellt werden. Bei 3D Daten ist dies nicht der Fall, auch wenn die Ergebnisse nahe beieinander liegen. Es wird herausgearbeitet, dass für einen positiven Effekt des Attention-Mechanismus, die Menge der räumlichen und tiefenmäßigen Informationen ausreichend groß sein muss. Hinsichtlich Seg-HiRes-Grad CAM, wird die ungenaue Visualisierung des Entscheidungsprozesses von bisherigen Methoden in CNNs für
Segmentierungsaufgaben gelöst.
Segmentierungsaufgaben gelöst.
Thesis Note
Darmstadt, TU, Master Thesis, 2022