Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 56): Nuklearnorm als Antrieb für die Erkundung nutzen"
Sie verpassen Handelsmöglichkeiten:
- Freie Handelsapplikationen
- Über 8.000 Signale zum Kopieren
- Wirtschaftsnachrichten für die Lage an den Finanzmärkte
Registrierung
Einloggen
Sie stimmen der Website-Richtlinie und den Nutzungsbedingungen zu.
Wenn Sie kein Benutzerkonto haben, registrieren Sie sich
Neuer Artikel Neuronale Netze leicht gemacht (Teil 56): Nuklearnorm als Antrieb für die Erkundung nutzen :
Die Untersuchung der Umgebung beim Verstärkungslernen ist ein dringendes Problem. Wir haben uns bereits mit einigen Ansätzen beschäftigt. In diesem Artikel werden wir uns eine weitere Methode ansehen, die auf der Maximierung der Nuklearnorm beruht. Es ermöglicht den Agenten, Umgebungszustände mit einem hohen Maß an Neuartigkeit und Vielfalt zu erkennen.
Das Verstärkungslernen basiert auf dem Paradigma der unabhängigen Erkundung der Umgebung durch den Agenten. Der Agent wirkt auf die Umgebung ein, was zu deren Veränderung führt. Im Gegenzug erhält der Agent eine Art Belohnung.
Hier werden die beiden Hauptprobleme des Verstärkungslernens hervorgehoben: die Erkundung der Umgebung und die Belohnungsfunktion. Eine richtig strukturierte Belohnungsfunktion ermutigt den Agenten, die Umgebung zu erkunden und nach den optimalsten Verhaltensstrategien zu suchen.
Bei der Lösung der meisten praktischen Probleme sind wir jedoch mit sparsamen externen Belohnungen konfrontiert. Um dieses Hindernis zu überwinden, wurde der Einsatz von so genannten internen Belohnungen vorgeschlagen. Sie ermöglichen es dem Agenten, sich neue Fähigkeiten anzueignen, die ihm in Zukunft bei der Erlangung externer Belohnungen von Nutzen sein können. Interne Belohnungen können jedoch aufgrund der Stochastik der Umgebung verrauscht sein. Die direkte Anwendung verrauschter Prognosewerte auf Beobachtungen kann sich negativ auf die Effizienz des Trainings der Agentenpolitik auswirken. Außerdem verwenden viele Methoden die L2-Norm oder die Varianz, um die Neuheit einer Studie zu messen, was das Rauschen aufgrund der Quadrierung erhöht.
Um dieses Problem zu lösen, schlägt der Artikel „Nuclear Norm Maximization Based Curiosity-Driven Learning“ einen neuen Algorithmus zur Stimulierung der Neugier des Agenten auf der Grundlage der Nuklearnorm-Maximierung (NNM) vor. Eine solche interne Belohnung ist in der Lage, die Neuartigkeit der Umgebungserkundung genauer zu bewerten. Gleichzeitig bietet es eine hohe Störfestigkeit gegenüber Rauschen und Spannungsspitzen.
Autor: Dmitriy Gizlyk