Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Runtime Prediction von Textmining-Applikationen im Grid am Beispiel von ProMiner

 
: Ginzel, S.

:
Volltext urn:nbn:de:0011-n-709339 (2.0 MByte PDF)
MD5 Fingerprint: 4a248b8ad2a533283b3545c2b51711e2
Erstellt am: 27.3.2008


Element named row_ProjectData has starweb_type Output Field Repeater but ID not found in STAR Web Designer.
Sankt Augustin, 2007, 75 S.
Sankt Augustin, FH Bonn Rhein-Sieg, Bachelor Thesis, 2007
 
Deutsch
Bachelor Thesis, Elektronische Publikation
Fraunhofer SCAI ()

Abstract
Grid Infrastrukturen sind heute in der Lage, auch große Datenmengen verteilt zu ver- arbeiten. Ein Anwendungsgebiet, das davon profitiert, ist das Textmining. Es zeichnet sich vor allem durch die große Anzahl voneinander unabhängiger Teiljobs aus, in die eine Aufgabe zerlegt werden kann. Um die Gesamtlaufzeit bis zur Fertigstellung eines Textmininglaufes für einen großen Datenbestand zu optimieren, ist Load-Balancing unerlässlich. Dafür muss abgeschätzt werden, wie lange eine Ressource für die Lösung eines Teil- problems benötigt. Diese Abschätzungen beruhen auf den Aufzeichnungen vorangegangener Textminingverarbeitungen. Sind darüber noch keine Daten vorhanden, muss die Laufzeitvorhersage anhand der Leistungsfähigkeit der Hardware einer Ressource prognostiziert werden. Wir stellen in dieser Arbeit Methoden vor, mit denen die Laufzeit für Textmining-Applikationen mittels historischer Daten und Hardwareeigenschaften vorhergesagt werden kann. Dabei nutzen wir Methoden der Statistik und des maschinellen Lernens, um eine Prognose zu berechnen. Anschließend wird ein Dienst vorgestellt, der eine Laufzeitvorhersage im Grid anbietet. Er kann auch für andere Anwendungsgebiete als das Textmining eingesetzt werden und ist in der Lage, Informationen über die Laufzeiten von Jobs auf den Ressourcen abzurufen. Dazu nutzt er bereits vorhandene Dienste der Grid-Middleware und kann sich so dynamisch in bestehende Strukturen eingliedern.

[]
Inhalt S.7-8
Einleitung S.9-12
- Motivation S.9
- Problemstellung und Ziele S.9
- Aufbau der Arbeit S.10
- Definitionen und Begriffe S.10-12
Grundlagen S.13-24
- Begriffe S.13-17
- Textmining S.13
- Load Balancing S.13
- Grid S.14-15
- Advance Reservation und Co-Allocation S.17
- Geeignete Merkmale für eine Vorhersage S.17-24
- Hardware S.18-24
Aufzeichnung und Analyse von Testdaten S.25-28
- Das Umfeld S.25
- Datensammlung S.25-28
Prognosemodell S.29-46
- Eingehende Betrachtung S.30
- Bekannte Maschinen S.31
- Fehlerabschätzung S.31
- Unbekannte Maschinen S.32-41
- Einflussfaktoren Analyse S.32-36
- Neuronale Netze S.36-37
- Hardwareorientiertes Modell S.37-41
- Vorhersage der Laufzeit S.41-46
- Load-Balancing als Spezialfall S.42-46
Verallgemeinerung und Diskussion S.47-50
- Vergleich S.47
- Textmining Vorhersage S.47
- Allgemeine Laufzeitvorhersage S.48
- Grenzen S.48-50
- Historische Daten S.48
- Genauigkeit S.49-50
Laufzeitvorhersage-Architektur S.51-60
- Technology Stack S.51-53
- Grid-Middleware S.51
- UNICORE S.51
- Meta Scheduling Service (MSS) S.52
- Resource Broker S.52-53
- Run Time Prediction Service (RTPS) S.53-60
- Szenarien S.54
- Anforderungen S.54-56
- Teilnehmer S.56
- Komponenten S.56-59
- Interaktion S.59-60
Fazit und Ausblick S.61-75
- Laufzeitvorhersage S.61
- Laufzeitvorhersagedienst S.61
- Integration im MSS S.62-75