Fraunhofer-Gesellschaft

Publica

Hier finden Sie wissenschaftliche Publikationen aus den Fraunhofer-Instituten.

Hardwarebeschleunigung des Verfahrens der konjugierten Gradienten mithilfe paralleler FPGA-Architekturen

 
: Becker, Ralf; Tetzlaff, Ronald; Bayer, Christian

:
Fulltext urn:nbn:de:0011-n-2414928 (445 KByte PDF)
MD5 Fingerprint: abbf87ffcbdbca05a7f470399597d019
Created on: 22.5.2013


Schneider, Peter (Hrsg.); Klotz, Thomas (Hrsg.) ; Fraunhofer-Institut für Integrierte Schaltungen -IIS-, Institutsteil Entwurfsautomatisierung -EAS-, Dresden:
Dresdner Arbeitstagung Schaltungs- und Systementwurf, DASS 2013. Tagungsband. CD-ROM : 25. - 26. April 2013, Dresden
Stuttgart: Fraunhofer Verlag, 2013
ISBN: 978-3-8396-0545-5
ISBN: 3-8396-0545-8
pp.118-123
Dresdner Arbeitstagung Schaltungs- und Systementwurf (DASS) <2013, Dresden>
German
Conference Paper, Electronic Publication
Fraunhofer IIS, Institutsteil Entwurfsautomatisierung (EAS) ()

Abstract
Modelle der Finiten-Elemente-Methode (FEM) sind heutzutage aus der aktuellen Forschung nicht mehr wegzudenken, da Probleme aus vielen physikalischen Disziplinen damit berechnet werden können. So kommen sie beispielsweise in gekoppelten Feldberechnungen, Wettervorhersagen oder bei technischen Aufgabenstellungen in den Bereichen Medizintechnik, Fahrzeugbau, Maschinenbau oder Luft- und Raumfahrttechnik zur Anwendung. Als Zwischenschritt entstehen bei der FEM zum Teil sehr große Gleichungssysteme, die mithilfe von direkten oder iterativen Lösungsverfahren gelöst werden. Steigt die Anzahl der Freiheitsgrade in den Bereich von mehreren Millionen, nimmt die Rechenzeit auch bei Hochleistungsrechnern stark zu. Diese Arbeit widmet sich der Beschleunigung eines iterativen Lösungsverfahrens durch Implementierung auf einem FPGA. Hierbei wurde das Verfahren der konjugierten Gradienten [1] ausgewählt, da es für die Hardwareimplementierung einige vorteilhafte Eigenschaften aufweist und sich hervorragend parallelisieren lässt. Als Plattform dient ein FPGA des Typs Virtex-6-SX475T. Durch effiziente Ausnutzung der vorhandenen FPGA-Ressourcen ist es theoretisch möglich, bei einer Festkommaimplementierung von 32-bit, 500 Vektoren gleichzeitig zu berechnen. Die parallel arbeitenden Rechenkerne führen dabei alle im Algorithmus vorkommenden elementaren Schritte wie Matrix-Vektor-Multiplikation, Vektor-Update oder Skalarprodukt aus. Durch die effiziente Ausnutzung der parallelen Strukturen auf einem FPGA ist es möglich die Performance gegenüber High-end CPUs für Probleme mit bis zu 100.000 Freiheitsgraden um ein Vielfaches zu erhöhen. Dies wurde sowohl in einer Simulation mit ModelSim nachgewiesen, als auch erfolgreich auf der Hardware getestet.

: http://publica.fraunhofer.de/documents/N-241492.html