Edge-based imitation learning for autonomous tasks: a case study on tractor-trailer positioning

Menz, Christoph; Wenzel, Andreas

doi:10.1515/auto-2025-0081

2026

Journal Article

Abstract

In this work, we investigate imitation learning and offline reinforcement learning approaches for controlling a tractor-trailer system with a steerable front axle during backward maneuvers. We first develop an expert policy using a kinematic model and Proximal Policy Optimization to generate high-quality demonstration data. Leveraging this dataset, we compare Behavioral Cloning, Implicit Q-Learning, and TD3-BC as representative offline learning methods. Our experiments evaluate sample efficiency, generalization to unseen initial conditions, and model parameter count highlighting trade-offs between pure imitation, value-based optimization, and model complexity. We further analyze trajectory-level behavior and robustness under varying starting configurations. Results show that the applied methods can achieve performance comparable to or exceeding the expert policy while requiring fewer demonstrations, providing insights into the design of data-efficient learning-based controllers for complex trailer systems.

;

In dieser Arbeit untersuchen wir Methoden des Imitationslernens und des Offline-Reinforcement-Learnings zur Steuerung eines Traktor-Anhänger-Gespanns mit Drehschemel bei Rückwärtsfahrmanövern. Zunächst entwickeln wir eine Expert Policy auf Basis eines kinematischen Modells und Proximal Policy Optimization, um hochwertige Demonstrationsdaten zu erzeugen. Auf Grundlage dieses Datensatzes vergleichen wir Behavioral Cloning, Implicit Q-Learning und TD3-BC als repräsentative Offline-Lernmethoden. Unsere Experimente bewerten die Sample-Effizienz, die Generalisierung auf unbekannte Startkonfigurationen sowie die Anzahl der Modellparameter und beleuchten die Trade-offs zwischen reinem Imitationslernen, wertbasierter Optimierung und Modellkomplexität. Darüber hinaus analysieren wir das Verhalten auf Trajektorienebene und die Robustheit unter variierenden Anfangsbedingungen. Die Ergebnisse zeigen, dass die eingesetzten Methoden eine vergleichbare oder bessere Leistung als die Expert Policy erreichen können, während sie weniger Demonstrationen benötigen, und liefern wertvolle Erkenntnisse für die daten-effiziente Gestaltung lernbasierter Regler für komplexe Anhängersysteme.

Author(s)

Menz, Christoph

Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB

Wenzel, Andreas

Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB

Journal

Automatisierungstechnik : AT

Options

Edge-based imitation learning for autonomous tasks: a case study on tractor-trailer positioning