Effizientes Fine-Tuning eines Roboter-Basismodells für industrielle Manipulationsaufgaben

Martin, Ron; Wrede, Konstantin; Neumann, Julius; Di, Yibo; Schneider, Peter

doi:10.24406/publica-8421

March 12, 2026

Conference Paper not in Proceedings

Abstract

Montageprozesse machen rund 50 % der Produktionszeit und 30 % der Kosten in der industriellen Fertigung aus, sind aber weiterhin schwer automatisierbar. Klassische Robotersysteme scheitern oft an Variantenvielfalt und komplexer Programmierung. Roboter-Basismodelle nach dem Vorbild großer Sprachmodelle bieten hier neue Ansätze: Vision-Language-Action-Modelle verknüpfen Bilddaten, Spracheingaben und Aktionen und versprechen flexible Robotiklösungen mit geringem Trainingsaufwand. Ziel des Beitrags ist es, das vortrainierte Modell π0 durch Kombination aus simulierten und wenigen realen Demonstrationen für industrielle Aufgaben zu adaptieren. Trainingsdaten wurden sowohl in einer abstrahierten Simulationsumgebung mit einem digitalen Cousin in Isaac Sim als auch in einem realen Versuchsaufbau erzeugt. Verglichen wurden drei Trainingsstrategien: rein reales Training, Sim-and-Real Co-Training und der sequenzielle Sim-then-Real-Ansatz. Bewertet wurde der Ansatz anhand zweier Aufgaben aus der industriellen Fertigung. Der Sim-then-Real-Ansatz erzielte dabei die besten Ergebnisse, besonders bei geringer Verfügbarkeit realer Daten.

;

Assembly processes account for around 50 percent of production time and 30 percent of total costs in industrial manufacturing, yet they remain difficult to automate. Traditional robotic systems often struggle with high product variability and complex programming requirements. Robot foundation models inspired by large language models offer new approaches. Vision-Language-Action models combine visual input, language prompts, and actions, promising flexible robotic solutions with minimal training effort. This paper aims to adapt the pretrained model π0 for industrial tasks by combining simulated and a small number of real demonstrations. Training data were generated both in an abstracted simulation environment using a digital cousin in Isaac Sim and in a real-world testbed. Three training strategies were compared: purely real-data training, Sim-and-Real co-training, and the sequential Sim-then-Real approach. The approach was evaluated using two representative industrial manipulation tasks. The Sim-then-Real strategy achieved the best results, particularly in data-scarce scenarios.