Bibliographic Metadata
Bibliographic Metadata
- TitleModular transfer reinforcement learning in industrial robotics / von Christian Bitter (geb. Scheiderer)
- Additional TitlesModulares Transfer Reinforcement Learning für Industrieroboter
- Author
- Degree supervisor
- Published
- Description1 Online-Ressource (168 Seiten)
- Institutional NoteBergische Universität Wuppertal, Dissertation, 2025
- Defended on2025-10-31
- LanguageEnglish
- Document typeDissertation (PhD)
- TopicsBestärkendes Lernen / Künstliche neuronale Netze / Asynchrones bestärkendes Lernen / Hierarchisches bestärkendes Lernen / Transferlernen / Sim-to-Real-Transfer / Aufgabenübergreifender Transfer / Roboterübergreifender Transfer / Domänenrandomisierung / Imitationslernen / Industrierobotik / Modulare Robotersteuerung / Bildbasierte Wahrnehmung / Montage durch Demontage / Reinforcement Learning / Deep Reinforcement Learning / Artificial Neural Networks / Asynchronous Reinforcement Learning / Hierarchical Reinforcement Learning / Transfer Learning / Sim-to-Real Transfer / Cross-Task Transfer / Cross-Robot Transfer / Domain Randomization / Imitation Learning / Industrial Robotics / Modular Robot Control / Vision-based Perception / Assembly-by-Disassembly
- URN
- DOI
Restriction-Information
- The document is publicly available on the WWW
Links
- Social MediaShare
- Reference
- Archive
- IIIF
Files
Classification
Zusammenfassung
Diese Dissertation trägt wesentlich zum Bereich des modularen Transfer Reinforcement Learning (TRL) im Kontext der Industrierobotik bei. Sie befasst sich systematisch mit der Problematik der Dateneffizienz und Transferierbarkeit von Deep Reinforcement Learning (DRL) in der Industrierobotik. Da monolithische end-to-end DRL-Ansätze hohe Datenanforderungen haben und es an Interpretierbarkeit und Übertragbarkeit mangelt, wird in der Dissertation eine modulare Entscheidungspipeline vorgeschlagen und validiert. Diese Pipeline unterteilt die Robotersteuerung in vier Phasen, die verschiedene Aspekte des Entscheidungsprozesses abdecken: Wahrnehmung, Planung, Ausführung und Steuerung. Die Beiträge dieser Dissertation sind nach diesen vier Phasen gegliedert.Die Arbeit befasst sich zunächst mit der Anpassung von diskretem DRL für Robotikanwendungen, indem ein asynchroner DRL-Ansatz und kontinuierliche, glatte Aktionsräume mittels Bézier-Kurven entwickelt werden. Dies ermöglicht eine ruckfreie Robotersteuerung und reduziert die mechanische Belastung sowie die Ausführungszeit. Darüber hinaus wird die Vorhersage zukünftiger visueller Zustände mit generativen Modellen erforscht. Für das Wahrnehmungsmodul wird in dieser Arbeit eine semi-überwachte Lernstrategie eingeführt, die Autoencodermodelle verwendet, um hochdimensionale Bildzustände zu komprimieren, um kombiniert mit Domänenwissen in Form von Segmentierungskarten latente Repräsentationen zu extrahieren, welche von einem DRL-Agenten genutzt werden können. Das Modul wird vollständig in der Simulation mit Domain Randomization trainiert und benötigt nur ein einziges annotiertes reales Bild, um einen Zero-Shot-Transfer in die reale Welt zu erreichen.Darüber hinaus werden wesentliche Beiträge zur Strukturausnutzung in Roboterbewegungen für TRL erbracht. Es wird gezeigt, dass hierarchisches Reinforcement Learning (HRL) modulare, aufgabenunabhängige Verhaltensstrategien auf unteren Ebenen erlernt, die sich auf neue Aufgaben übertragen lassen. Zusätzlich wird das Konzept der „Montage durch Demontage“ im Kontext von TRL beleuchtet. Basierend auf der Erkenntnis, dass das Erlernen einer Demontageaufgabe aufgrund einer stärkeren Eingrenzung meist einfacher ist als die eigentliche Montageaufgabe, wird in dieser Arbeit eine Strategie vorgeschlagen, bei der zunächst die Demontageaufgabe gelöst und anschließend die invertierten Trajektorien zum Vortraining eines Montageagenten verwendet werden. Die Ergebnisse zeigen, dass mit dieser Strategie eine Montageaufgabe erfolgreich gelöst wird, bei der ein direkter DRL-Ansatz versagt. Schließlich wird in dieser Arbeit ein roboterübergreifender Imitationsansatz vorgestellt, bei dem Trajektorien zwischen Robotern unterschiedlicher Morphologie unter Verwendung expliziter Vorwärts- und Rückwärtskinematiken und Embodiment-Metriken übertragen werden. Es wird gezeigt, dass die übertragenen Demonstrationen für ein effektives Vortraining genutzt werden können.Diese Beiträge werden anhand von drei repräsentativen Fallbeispielen evaluiert: dem akademischen Wire-Loop-Spiel, einem visuell gesteuerten Objekt-Picking-Szenario und einer industriellen Montageaufgabe für Flugzeug-Clips. Insgesamt zeigen die Ergebnisse, dass modulares TRL eine effizientere, leistungsfähigere und besser wartbare Automatisierung in der Industrierobotik ermöglicht. Die Dissertation schließt mit einer kritischen Würdigung, die aus den Ergebnissen Schlüsse für zukünftige Forschungsansätze hinsichtlich modularer und transferierbarer KI in industriellen Robotikanwendungen zieht.
Abstract
This dissertation makes significant contributions to the field of modular transfer reinforcement learning (TRL) in the context of industrial robotics. It systematically addresses the key issue of sample efficiency and transferability in the application of deep reinforcement learning (DRL) to industrial robotics. Given that monolithic end-to-end DRL approaches have high data requirements and lack interpretability and transferability, the dissertation proposes and validates a modular decision pipeline. This pipeline decomposes robot control into four stages that address different aspects of the decision-making process: perception, planning, execution and control. The contributions of this dissertation are organized according to these four stages.The thesis first addresses the issue of applying the discretized DRL paradigm to industrial robot applications by devising an asynchronous DRL framework and continuous, smooth action spaces based on Bézier curves. This allows for real-time, jerk-free robot control, reducing mechanical stress and execution time. Further, the possibility to predict future vision-based states with generative models is explored. For the perception module, this thesis introduces a semi-supervised learning strategy which applies unsupervised autoencoder models to compress high-dimensional image states in combination with domain knowledge in the form of segmentation maps to extract latent representations usable by a DRL agent. The module is fully trained in simulation with domain randomization, requiring only a single annotated real-world image to achieve zero-shot transfer to the real-world.Substantial contributions are further made regarding the exploitation of structure in robotic motion for TRL. Here, the thesis shows that hierarchical reinforcement learning (HRL) enables learning modular, task-agnostic behavioral policies at lower levels, which are shown to be transferable to new tasks. Additionally, the concept of assembly-by-disassembly is examined in the context of TRL. Based on the insight that learning a corresponding disassembly task is easier than the actual assembly task as the former is more constrained, the thesis proposes a strategy to first solve the disassembly task and afterward use the reversed trajectories to pretrain an assembly agent. The results demonstrate the strategy to successfully solve an assembly task on which a direct DRL approach fails. Finally, the thesis introduces a cross-robot imitation learning approach, where trajectories are mapped between robots of different morphologies using explicit forward/inverse kinematics and embodiment metrics. It is shown that the mapped demonstrations can be used for effective pretraining.These contributions are robustly evaluated across three representative use cases: the academic wire-loop game, a vision-driven object picking scenario, and an industrial aircraft clip assembly task. Collectively, the results establish that modular TRL enables more sample-efficient, performant, and more maintainable automation in industrial robotics. The dissertation concludes with a critical appraisal, drawing lessons from the results towards future research directions for modular and transferable AI in industrial robotic applications.
Content
License/Rightsstatement

