Deep Reinforcement Learning gehört zum Machine Learning und ermöglicht es Ihnen, Regler und Entscheidungssysteme für komplexe Anlagen wie Roboter und autonome Systeme zu implementieren. Mit Deep Reinforcement Learning können Sie tiefe neuronale Netze implementieren. Durch das Trainieren mit dynamisch aus simulierten oder physischen Systemen generierten Daten erlernen diese komplexe Verhaltensweisen. Im Gegensatz zu anderen Machine-Learning-Techniken sind keine vordefinierten Trainingsdatensätze nötig, weder gekennzeichnet noch ungekennzeichnet. In der Regel brauchen Sie nur ein Simulationsmodell, das Ihre Umgebung darstellt.
Mithilfe von MATLAB®, Simulink® und der Reinforcement Learning Toolbox™ können Sie den kompletten Ablauf zum Entwerfen und Bereitstellen eines Entscheidungssystems durchlaufen. Dabei haben Sie folgende Optionen:
- Mithilfe von Beispielen für einfache Regelungssysteme, autonome Systeme, Robotik und Planungsprobleme einsteigen
- Im Handumdrehen gängige Reinforcement-Learning-Algorithmen mit nur wenigen Codeänderungen auswechseln, auswerten und vergleichen
- Die Umgebung in MATLAB oder Simulink simulieren
- Tiefe neuronale Netze verwenden, um komplexe Deep-Reinforcement-Learning-Strategien auf Grundlage von Bild-, Video- und Sensordaten definieren
- Strategien durch Ausführung mehrerer gleichzeitiger Simulationen mithilfe von lokalen Rechenkernen oder in der Cloud schneller als zuvor trainieren
- Deep-Reinforcement-Learning-Strategien auf Embedded Devices bereitstellen
Deep-Reinforcement-Learning-Agenten
Deep-Reinforcement-Learning-Agenten bestehen aus einer Strategiefunktion für tiefe neuronale Netze, die einen Eingangszustand auf eine Ausgangsaktion abbildet, sowie einem Algorithmus zur Aktualisierung dieser Strategie. Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), Soft Actor Critic (SAC) und Proximal Policy Optimization (PPO) sind beliebte Beispielalgorithmen. Der Algorithmus aktualisiert die Strategie auf Grundlage der in der Umgebung gesammelten Beobachtungen und Belohnungen, um die erwartete langfristige Belohnung zu maximieren.
Mit der Reinforcement Learning Toolbox können Sie Deep-Reinforcement-Learning-Agenten programmatisch oder interaktiv mit der Reinforcement Learning Designer-App erstellen. Wählen Sie aus gängigen, direkt einsatzbereiten Algorithmen oder implementieren Sie eigene individuell angefertigte Algorithmen mithilfe verfügbarer Vorlagen und Beispiele.
Weitere Informationen
Umgebungsmodellierung in MATLAB und Simulink
Das Trainieren mit Deep-Reinforcement-Learning-Algorithmen ist ein dynamischer Prozess, da der Agent mit seiner Umgebung interagiert. Bei Anwendungen wie der Robotik und autonomen Systemen kann das Durchführen dieses Trainings mit realer Hardware teuer und sogar gefährlich sein. Darum werden in der Regel virtuelle Modelle der Umgebung, die Daten durch Simulationen erzeugen, für das Deep Reinforcement Learning bevorzugt.
Sie können in MATLAB und Simulink ein Modell Ihrer Umgebung erstellen, das Folgendes beschreibt: die Systemdynamik und wie diese von den vom Agenten ergriffenen Maßnahmen abhängt, sowie eine Belohnung, die die Güte der ausgeführten Maßnahme bewertet. Diese Modelle können kontinuierlich oder diskret sein und Ihr System unterschiedlich genau darstellen. Darüber hinaus ist auch eine Parallelisierung von Simulationen möglich, um die Trainingsdauer zu verkürzen. In einigen Fällen können Sie auch vorhandene MATLAB- oder Simulink-Modelle Ihres Systems mit nur minimalen Abänderungen zum Deep Reinforcement Learning wiederverwenden.
Weitere Informationen

Beispiele und Referenzanwendungen
Steigen Sie in das Deep Reinforcement Learning ein, indem Sie Strategiefunktionen für einfache Probleme wie das Ausbalancieren eines invertierten Pendels, das Navigieren eines Grid-World-Problems und das Ausbalancieren eines Wagen-Pendel-Systems trainieren. Außerdem können Sie Systeme für die automatische Distanzregelung und Spurhalteassistenten für autonome Fahrzeuge entwerfen. Das Deep Reinforcement Learning lässt sich auch bei Robotikanwendungen wie der Bewegungslinienplanung und beim Anlernen von Verhaltensweisen wie der Fortbewegung nutzen.
