Options
2005
Bachelor Thesis
Titel
Entwicklung von Strategien zur Erkennung von Schreibvarianten bei der automatischen Namenserkennung von Proteinnamen
Abstract
Ziel dieser Bachelor Thesis war es, Strategien für eine Erkennung von Schreibvarianten in biomedizinischen Texten zu entwickeln. Die entwickelten Methoden fokussieren auf Schreibvarianten, die im Text permutiert vorkommen oder bei denen Insertionen oder Deletionen stattgefunden haben. Zur Lösung der Aufgabenstellung wurde vorhandene Literatur gesichtet und annotiert, um darauf eigene Ansaetze entwickeln zu können. Ein wichtiger Teil der Arbeiten an der Thesis bestand in der Entwicklung eines Benchmark- Sets zur Evaluierung der Qualität des zu Beginn der Arbeiten bestehenden Systems zur Erkennung von Gen- und Proteinnamen ProMiner sowie zur Evaluierung der eigenen Methoden. Zu diesem Zweck wurde die zugrunde liegende Synonymliste, d.h. die Liste, welche die im Text zu suchenden Objekte enthält, um permutierte Einträge und solche mit Insertionen und Deletionen bereinigt, um eine Verfälschung der Ergebnisse zu verhindern. Eine reduzierte Synonymliste wurde erstellt. Desweiteren wurde ein Referenzkorpus aufgebaut, welcher später zur Evaluierung der Qualität der ProMiner-Ausgaben und der entwickelten Methoden herangezogen wurde. Auf der Basis der evaluierten ProMiner-Ausgaben wurden die gefundenen Fehler des ProMiner in Fehlerklassen unterteilt, getrennt nach Fehlern bei Permutationen und Fehlern bei Insertionen und Deletionen. Für jede dieser Fehlerklassen wurde nachfolgend ein Java-Filter entwickelt. Diese Filter haben zum Ziel, möglichst viele der falschen ProMiner-Treffer herauszufiltern, ohne jedoch korrekte Treffer mit zu löschen. Ziel ist also eine Erhöhung der Spezifität und somit des F-Scores, möglichst unter Beibehaltung der Sensitivität. Bei den Permutationen wurden insgesamt vier Filter entwickelt, die die Performanz des Systems enorm steigern konnten: Die Filter haben im Testset zusammen zu einem Anstieg an Spezifität von 52,2 % von 0,57 auf 0,87 geführt. Das harmonische Mittel aus Sensitivität und Spezifität stieg dadurch um 20,3 % von 0,68 auf 0,82 an. Dabei kam es zu einem Abfall an Sensitivität um 8,2 % von 0,84 auf 0,77. Bei Insertionen und Deletionen war nur eine geringe Verbesserung der Spezifität um 2,6 % von 0,85 auf 0,87 und des harmonischen Mittels aus Sensitivität und Spezifität um 1,3 % von 0,89 auf 0,90 möglich. Die Sensitivität blieb trotz dieser Filter gleichbleibend hoch bei 0,94. Die Problematik bei den Insertionen und Deletionen war die zu geringe Größe des Benchmarksets, die dazu führte, dass sich bei der Evaluierung lediglich ca. 60 falsch positive Treffer ergaben, die sich noch dazu aufgrund ihrer Diversität nur schwer in Fehlerklassen einordnen ließen. Hier wurden zwei Filter entwickelt, von denen jedoch nur einer zum Einsatz kommen wird. Die entwickelten Methoden sollen nach Abschluss dieser Bachelor Thesis in die vorhandene Software des ProMiner integriert werden und somit die Qualität des Systems erhöhen. ProMiner wird bereits in verschiedenen industriellen Kontexten eingesetzt. Die im Rahmen dieser Thesis durchgeführten Weiterentwicklungen werden somit zukünftig dazu beitragen, dass in diesem Einsatzkontext eine Steigerung der Leistungsfähigkeit des Systems erreicht werden kann.
ThesisNote
Sankt Augustin, FH Bonn Rhein-Sieg, Bachelor Thesis, 2005
Verlagsort
Sankt Augustin