• English
  • Deutsch
  • Log In
    Password Login
    Research Outputs
    Fundings & Projects
    Researchers
    Institutes
    Statistics
Repository logo
Fraunhofer-Gesellschaft
  1. Home
  2. Fraunhofer-Gesellschaft
  3. Konferenzschrift
  4. Effizientes Fine-Tuning eines Roboter-Basismodells für industrielle Manipulationsaufgaben
 
  • Details
  • Full
Options
March 12, 2026
Conference Paper not in Proceedings
Title

Effizientes Fine-Tuning eines Roboter-Basismodells für industrielle Manipulationsaufgaben

Title Supplement
Paper presented at VDI Mechatroniktagung, 12. und 13. März 2026, Berlin
Other Title
Efficient Fine-Tuning of a Robot Foundation Model for Industrial Manipulation
Abstract
Montageprozesse machen rund 50 % der Produktionszeit und 30 % der Kosten in der industriellen Fertigung aus, sind aber weiterhin schwer automatisierbar. Klassische Robotersysteme scheitern oft an Variantenvielfalt und komplexer Programmierung. Roboter-Basismodelle nach dem Vorbild großer Sprachmodelle bieten hier neue Ansätze: Vision-Language-Action-Modelle verknüpfen Bilddaten, Spracheingaben und Aktionen und versprechen flexible Robotiklösungen mit geringem Trainingsaufwand. Ziel des Beitrags ist es, das vortrainierte Modell π0 durch Kombination aus simulierten und wenigen realen Demonstrationen für industrielle Aufgaben zu adaptieren. Trainingsdaten wurden sowohl in einer abstrahierten Simulationsumgebung mit einem digitalen Cousin in Isaac Sim als auch in einem realen Versuchsaufbau erzeugt. Verglichen wurden drei Trainingsstrategien: rein reales Training, Sim-and-Real Co-Training und der sequenzielle Sim-then-Real-Ansatz. Bewertet wurde der Ansatz anhand zweier Aufgaben aus der industriellen Fertigung. Der Sim-then-Real-Ansatz erzielte dabei die besten Ergebnisse, besonders bei geringer Verfügbarkeit realer Daten.

; 

Assembly processes account for around 50 percent of production time and 30 percent of total costs in industrial manufacturing, yet they remain difficult to automate. Traditional robotic systems often struggle with high product variability and complex programming requirements. Robot foundation models inspired by large language models offer new approaches. Vision-Language-Action models combine visual input, language prompts, and actions, promising flexible robotic solutions with minimal training effort. This paper aims to adapt the pretrained model π0 for industrial tasks by combining simulated and a small number of real demonstrations. Training data were generated both in an abstracted simulation environment using a digital cousin in Isaac Sim and in a real-world testbed. Three training strategies were compared: purely real-data training, Sim-and-Real co-training, and the sequential Sim-then-Real approach. The approach was evaluated using two representative industrial manipulation tasks. The Sim-then-Real strategy achieved the best results, particularly in data-scarce scenarios.
Author(s)
Martin, Ron
Fraunhofer-Institut für Integrierte Schaltungen IIS  
Wrede, Konstantin  orcid-logo
Fraunhofer-Institut für Integrierte Schaltungen IIS  
Neumann, Julius
Fraunhofer-Institut für Integrierte Schaltungen IIS  
Di, Yibo
Fraunhofer-Institut für Integrierte Schaltungen IIS  
Schneider, Peter
Fraunhofer-Institut für Integrierte Schaltungen IIS  
Project(s)
Prototyping- und Test-Zentrum für Systeme der Künstlichen Intelligenz am Fraunhofer-Institutsteil Entwicklung Adaptiver Systeme (EAS) Dresden  
Funder
Freistaat Sachsen  
Conference
Mechatroniktagung 2026  
Open Access
File(s)
Download (439.18 KB)
Rights
CC BY 4.0: Creative Commons Attribution
DOI
10.24406/publica-8421
Language
German
Fraunhofer-Institut für Integrierte Schaltungen IIS  
Keyword(s)
  • Basismodell

  • Robot Learning

  • Vision-Language-Action Modell

  • Cookie settings
  • Imprint
  • Privacy policy
  • Api
  • Contact
© 2024