Titelaufnahme
Titelaufnahme
- TitelHybrid method for continual learning in convolutional Neural Networks / Basile Tousside, M.Sc. (TUM)
- Verfasser
- Gutachter
- Erschienen
- Umfang1 Online-Ressource (xvi, 123 Seiten)
- HochschulschriftBergische Universität Wuppertal, Dissertation, 2025
- Verteidigung2025-02-07
- SpracheEnglisch
- DokumenttypDissertation
- Schlagwörter
- URN
- DOI
Zugriffsbeschränkung
- Das Dokument ist frei verfügbar
Links
- Social MediaShare
- Nachweis
- Archiv
- IIIF
Dateien
Klassifikation
Zusammenfassung
Der Mensch ist in der Lage, sich hervorragend an eine sich ständig verändernde Umgebung anzupassen, während Convolutional Neural Networks (CNNs) mit Herausforderungen wie dem katastrophalen Vergessen unter dynamischen Bedingungen konfrontiert sind. Das Ziel von Continual Learning (CL) ist es, dieses Problem zu lösen, indem CNNs die Fähigkeit erhalten, sequentiell neues Wissen zu erlernen. Dabei wird ein Gleichgewicht zwischen Stabilität, d.h. der Beibehaltung des zuvor erworbenen Wissens, und Plastizität, d.h. der Anpassung an neue Aufgaben, angestrebt. Diese Fähigkeit ist für Systeme, die in dynamischen Umgebungen betrieben werden, von entscheidender Bedeutung. Bestehende Methoden basieren jedoch häufig auf Modellen mit fester Größe, die nur schwer unterschiedliche Verhaltensweisen erlernen können, oder auf Modellen mit wachsender Größe, die nur unzureichend an wachsende Aufgaben angepasst werden können.Die vorliegende Arbeit widmet sich der Untersuchung von Möglichkeiten zur Implementierung von Continual Learning in CNNs in dynamischen Multitasking-Umgebungen. Der Schwerpunkt liegt dabei auf der Vermeidung des katastrophalen Vergessens bei gleichzeitiger Erhaltung der Anpassungsfähigkeit des Netzes. Zu diesem Zweck wird zunächst ein Top-Down-Ansatz verwendet, um die theoretischen Grundlagen von CL zu definieren. In einem zweiten Schritt werden praktische Implementierungen und Evaluationen vorgestellt.Insbesondere werden drei wissenschaftliche Beiträge präsentiert:Der erste Beitrag befasst sich mit dem Problem des katastrophalen Vergessens und stellt eine innovative Methode vor, um wichtige CNN-Filter für vorherige Aufgaben zu identifizieren und ihre Veränderung während des Trainings neuer Aufgaben durch einen Regularisierungsterm zu begrenzen. Traditionelle Ansätze konzentrieren sich in der Regel auf einzelne Netzparameter. Im Gegensatz dazu wird in dieser Arbeit eine neue Metrik auf Filterebene eingeführt, um die Relevanz des aufgabenspezifischen Lernens zu bewerten. Die Wichtigkeit jedes Filters wird anhand der durchschnittlichen Standardabweichung seiner Post-Aktivierungswerte, bewertet, wodurch ein detaillierterer und effizienterer Ansatz zur Verhinderung des Vergessens gewährleistet wird.Im zweiten Beitrag wird ein Framework für kontinuierliches Lernen vorgestellt, das für neuronale Netze mit fester Kapazität geeignet ist. In diesem Beitrag wird ein neuartiger Sparse-Algorithmus vorgestellt, der darauf abzielt, die begrenzte Kapazität des Netzes optimal zu nutzen. Im Gegensatz zu einer dichten Architektur basiert das Framework auf einer sparsamen Architektur, wodurch die Plastizität des Netzes erhöht wird. Dies wird erreicht, indem nicht benötigte Filter während des Trainings der Aufgabe deaktiviert werden. Dieser in den Trainingsprozess integrierte Mechanismus gewährleistet eine effiziente Nutzung der Filter und ermöglicht es dem Netz, mehrere Aufgaben ohne wesentliche Leistungseinschränkungen zu bewältigen.Der dritte Beitrag erweitert den Rahmen des zweiten Beitrags, indem die Beschränkung auf eine feste Netzkapazität aufgehoben wird. Dadurch kann das neuronale Netz eine unbegrenzte Anzahl von Aufgaben erlernen. Es wird ein heuristischer Mechanismus eingeführt, der erkennt, wann die Kapazität des Netzes gesättigt ist. Bei Bedarf wird eine Erweiterung des Netzes angestoßen. Die Erweiterung des Netzes wird durch innovative Techniken gesteuert, die sicherstellen, dass die neu hinzugefügten Filter die Funktionalität des Netzes nicht beeinträchtigen. Darüber hinaus werden Mechanismen entwickelt, um gesättigte Schichten zu identifizieren und diese mit zusätzlichen Filtern zu ergänzen. Dadurch kann eine effiziente und zielgerichtete Erweiterung des Netzes gewährleistet werden.
Abstract
Humans excel at adapting to constantly changing environments, while convolutional neural networks (CNNs) face challenges like catastrophic forgetting in dynamic conditions. Continual learning (CL) aims to address this issue by enabling CNNs to sequentially acquire new knowledge, balancing stability, the retention of past knowledge, and plasticity, the adaptation to new tasks. This ability is essential for systems operating in dynamic environments. However, existing methods often rely on fixed-size models, which struggle to learn diverse behaviors, or growing-size models, which scale poorly as tasks increase. To address these challenges, this thesis explores strategies for enabling continual learning in CNNs within dynamic, multi-task environments. The focus is on mitigating catastrophic forgetting while maintaining the network's adaptability. A top-down approach is used to define the theoretical foundations of CL, followed by real-world implementation and evaluation. In particular, three scientific contributions are presented: The first contribution addresses the issue of catastrophic forgetting by introducing a novel method to identify crucial CNN filters for previous tasks and restrict their changes during new task training through a regularization term. While traditional approaches typically focus on individual network parameters, this thesis introduces a new filter-level metric to assess importance in task-specific learning. This metric evaluates the significance of each filter based on the average standard deviation of its post-activation values, providing a more granular and effective approach to mitigating forgetting.The second contribution introduces a continual learning framework tailored for fixed-capacity neural networks. A novel sparsification algorithm is proposed to maximize the use of the limited network capacity. Instead of using a dense architecture, the framework leverages a sparse architecture, which enhances the network’s plasticity by deactivating unnecessary filters during task training. This sparsity mechanism, embedded in the training process, ensures efficient filter utilization and allows the network to handle multiple tasks without significant performance degradation. The third contribution extends the framework from the second contribution by removing the constraint of fixed capacity, enabling the network to learn an infinite number of tasks. A heuristic mechanism is introduced to detect when the network's capacity saturates, triggering an expansion of the network when necessary. This expansion is managed through sophisticated techniques that ensure the newly added neurons and filters do not disrupt the network's functionality. Additionally, mechanisms are developed to identify saturated layers and augment them with additional filters or neurons, ensuring efficient and targeted network expansion.
Inhalt
Lizenz-/Rechtehinweis

