Diskussion zum Artikel "Neuronale Netze leicht gemacht (Teil 65): Abstandsgewichtetes überwachtes Lernen (DWSL)"

 

Neuer Artikel Neuronale Netze leicht gemacht (Teil 65): Abstandsgewichtetes überwachtes Lernen (DWSL) :

In diesem Artikel werden wir einen interessanten Algorithmus kennenlernen, der an der Schnittstelle von überwachten und verstärkenden Lernmethoden angesiedelt ist.

Methoden zum Klonen von Verhalten, die weitgehend auf den Prinzipien des überwachten Lernens beruhen, zeigen recht gute Ergebnisse. Ihr Hauptproblem bleibt jedoch die Suche nach idealen Vorbildern, die manchmal sehr schwer zu finden sind. Die Methoden des Verstärkungslernens wiederum sind in der Lage, mit nicht-optimalen Rohdaten zu arbeiten. Gleichzeitig können sie aber auch suboptimale Strategien finden, um das Ziel zu erreichen. Bei der Suche nach einer optimalen Strategie stoßen wir jedoch häufig auf ein Optimierungsproblem, das in hochdimensionalen und stochastischen Umgebungen von größerer Bedeutung ist.

Um die Lücke zwischen diesen beiden Ansätzen zu schließen, schlug eine Gruppe von Wissenschaftlern die Methode des Abstandsgewichtetes überwachtes Lernen (Distance Weighted Supervised Learning, DWSL) vor und beschrieb sie in dem Artikel „Distance Weighted Supervised Learning for Offline Interaction Data“. Es handelt sich dabei um einen Algorithmus für offline-überwachtes Lernen für eine zielgerichtete Politik. Theoretisch konvergiert DWSL zu einer optimalen Strategie mit einer minimalen Rückkehrgrenze auf der Ebene der Trajektorien aus dem Trainingssatz. Die praktischen Beispiele in dem Artikel zeigen die Überlegenheit der vorgeschlagenen Methode gegenüber dem Imitationslernen und den Algorithmen des Verstärkungslernens. Ich schlage vor, dass Sie sich diesen DWSL-Algorithmus genauer ansehen. Wir werden ihre Stärken und Schwächen bei der Lösung unserer praktischen Probleme bewerten.

Autor: Dmitriy Gizlyk