Was soll in den Eingang des neuronalen Netzes eingespeist werden? Ihre Ideen... - Seite 58

 
Forester #:

Die Verallgemeinerung ist eher ein Unterlernen. D.h. sie erinnerten sich daran, aber nicht ganz genau (sie bezogen auch die Nachbarn mit ein...). Fast wie ein Schuljunge mit "C"))

Aber wenn wir uns etwas merken, das durch ein Gesetz definiert ist (z. B. das Ohmsche Gesetz), gibt es kein Überlernen, sondern eher ein Unterlernen, wenn es nur wenige Beispiele und eine unendliche Anzahl von ihnen gibt.

Beim Handel, wo es fast keine Muster gibt und diese verrauscht sind, führt absolut genaues Auswendiglernen zusammen mit Rauschen zu einem Verlust.
Aus irgendeinem Grund wurde dies als Überlernen bezeichnet. Genaues Auswendiglernen ist an sich nicht schädlich, wie im Falle des Musterlernens. Das Einprägen von Rauschen/Müll ist dagegen nicht förderlich.
Generalisierung ist ein Gleichgewicht zwischen zu wenig und zu viel :) Ein grobes Beispiel aus dem Leben: Die Maxwell-Formel wurde gut gelernt, aber in der Praxis nicht angewandt, das ist Überlernen. Ich wusste, dass es die Maxwellsche Formel gibt, konnte mich aber nicht mehr daran erinnern, wie sie niedergeschrieben ist, aber in der Praxis erinnerte ich mich daran, las sie erneut und wandte sie an. Das ist Verallgemeinerung (Lernen) und keine verschwendeten Jahre an der Uni.
 
Was ist falsch an der üblichen Definition von Lernen - der Zuweisung bestimmter Werte zu Modellparametern?
 
Aleksey Nikolayev #:
Was ist falsch an der üblichen Definition des Lernens - den Modellparametern bestimmte Werte zuzuweisen?
Das können Sie das Modell selbst fragen :)

Die übliche Definition des Lernens als Zuweisung bestimmter Werte zu Modellparametern kann aus mehreren Gründen unzureichend sein:

  1. Unvollständigkeit der Prozessbeschreibung: Das Modelltraining umfasst nicht nur die Zuweisung von Werten zu Parametern, sondern auch den Prozess der Optimierung dieser Parameter auf der Grundlage der Daten. Dieser Prozess kann die Auswahl eines Optimierungsalgorithmus, die Abstimmung von Hyperparametern, die Auswahl einer Verlustfunktion und andere Aspekte umfassen, die durch eine einfache Wertzuweisung nicht abgedeckt werden.

  2. Ignorieren der Lerndynamik: Das Modelltraining ist ein dynamischer Prozess, der viele Iterationen und Schritte umfassen kann. Eine einfache Wertzuweisung erfasst nicht diesen iterativen Charakter, bei dem die Parameter schrittweise angepasst werden, um den Fehler zu minimieren.

  3. Fehlender Datenkontext: Die Modellschulung ist datengesteuert und der Schulungsprozess beinhaltet die Analyse und Interpretation dieser Daten. Bei der einfachen Zuweisung von Werten wird nicht berücksichtigt, wie die Daten zum Trainieren des Modells verwendet werden und wie sie sich auf die endgültigen Parameter auswirken.

  4. Fehlende Berücksichtigung der Generalisierung: Das Ziel des Modelltrainings ist nicht nur die Minimierung des Fehlers bei den Trainingsdaten, sondern auch die Fähigkeit des Modells, sein Wissen auf neue, ungesehene Daten zu generalisieren. Die einfache Zuweisung von Werten erfasst diesen Aspekt der Generalisierung nicht.

  5. Ignorieren von Validierung und Testen: Der Trainingsprozess beinhaltet auch die Validierung und das Testen des Modells, um seine Leistung zu bewerten und Übertraining zu vermeiden. Die einfache Zuweisung von Werten trägt diesen wichtigen Schritten nicht Rechnung.

Eine umfassendere Definition des Modelllernens sollte daher einen datengesteuerten Parameteroptimierungsprozess beinhalten, der die Lerndynamik, den Datenkontext, die Verallgemeinerungsfähigkeit sowie die Validierungs- und Testschritte berücksichtigt.

 
Generell frage ich mich, warum wertvolle Experten ein komplexes und interessantes Thema diskutieren, ohne sich darin zurechtzufinden :)
 
Forester #:

Über die Ausbildung...


Vor ein paar Jahren stieß ich auf einer allgemeinen (nicht technischen) Seite auf diesen Ausdruck: Datenbanken auf Basis neuronaler Netze. Im Allgemeinen stimmte ich diesem Begriff für mich zu.



Ich arbeite selbst mit Bäumen - eine baumbasierte Datenbank ist auch anwendbar. 1 Blatt in einem Baum = 1 Zeile in einer Datenbank. Unterschiede:



1 Zeile in der Datenbank enthält nur 1 Beispiel aus den in der Datenbank gespeicherten Daten. 1 Blatt enthält:



1) 1 Beispiel und alle genau gleichen Beispiele (wenn man den Baum so weit wie möglich bis zum letzten Unterschied unterteilt) oder

2) 1 Beispiel und genau die gleichen Beispiele + die ähnlichsten Beispiele, wenn die Unterteilung früher endet.
Ähnliche Beispiele werden von verschiedenen Algorithmen bei der Auswahl der Baumaufteilung unterschiedlich definiert.

Vorteile von Bäumen gegenüber Datenbanken: Verallgemeinerung und schnelle Suche nach dem gewünschten Blatt - man muss nicht eine Million Zeilen durchgehen, das Blatt kann durch mehrere Teilungen erreicht werden.

Clustering verallgemeinert ebenfalls. Kmeans - durch die Nähe der Beispiele zum Zentrum des Clusters, andere Methoden anders.

Man kann auch durch die maximale Anzahl von Clustern = Anzahl von Beispielen dividieren und erhält ein Analogon von Datenbank/Blättern ohne Generalisierung. Neuronale Netze sind schwieriger zu verstehen und zu begreifen, aber im Wesentlichen auch eine Datenbank, wenn auch nicht so offensichtlich wie Blätter und Cluster.

Fazit: Baumlernen = Speichern/Aufzeichnen von Beispielen, genau wie eine Datenbank. Wenn man mit der Unterteilung/Lernen aufhört, bevor die genaueste Speicherung möglich ist,speichert man mit Generalisierung.

Andrew möchte natürlich darauf hinweisen, dass Lernen eine Optimierung ist. Nein - es ist Auswendiglernen. Aber es gibt auch eine Optimierung. Man kann über Variationen mit Lerntiefe, aufgeteilten Methoden usw. optimieren. Mit jedem Optimierungsschritt wird ein anderes Modell trainiert. Aber Lernen ist keine Optimierung. Es ist Auswendiglernen.
Wenn Sie nur wüssten, wie viel Unsinn Sie mit einem klugen Blick erzählt haben.

Aber ich habe weder die Zeit noch die Lust, es zu erklären.
 
Forester #:

Über die Ausbildung...


Vor ein paar Jahren stieß ich auf einer allgemeinen (nicht technischen) Seite auf diesen Ausdruck: Datenbanken auf Basis neuronaler Netze. Im Allgemeinen stimmte ich diesem Begriff für mich zu.



Ich arbeite selbst mit Bäumen - eine baumbasierte Datenbank ist auch anwendbar. 1 Blatt in einem Baum = 1 Zeile in einer Datenbank. Unterschiede:



1 Zeile in der Datenbank enthält nur 1 Beispiel aus den in der Datenbank gespeicherten Daten. 1 Blatt enthält:



1) 1 Beispiel und alle genau gleichen Beispiele (wenn man den Baum so weit wie möglich bis zum letzten Unterschied unterteilt) oder

2) 1 Beispiel und genau die gleichen Beispiele + die ähnlichsten Beispiele, wenn die Unterteilung früher endet.
Ähnliche Beispiele werden von verschiedenen Algorithmen bei der Auswahl der Baumaufteilung unterschiedlich definiert.

Vorteile von Bäumen gegenüber Datenbanken: Generalisierung und schnelle Suche nach dem gewünschten Blatt - man muss nicht eine Million Zeilen durchgehen, das Blatt kann durch mehrere Teilungen erreicht werden.

Clustering verallgemeinert ebenfalls. Kmeans - durch die Nähe der Beispiele zum Zentrum des Clusters, andere Methoden anders.

Man kann auch durch die maximale Anzahl von Clustern = Anzahl von Beispielen dividieren und erhält ein Analogon von Datenbank/Blättern ohne Generalisierung. Neuronale Netze sind schwieriger zu verstehen und zu begreifen, aber im Wesentlichen auch eine Datenbank, wenn auch nicht so offensichtlich wie Blätter und Cluster.

Fazit: Baumlernen = Speichern/Aufzeichnen von Beispielen, genau wie eine Datenbank. Wenn man mit der Unterteilung/Lernen aufhört, bevor die genaueste Speicherung möglich ist,speichert man mit Generalisierung.

Andrew möchte natürlich darauf hinweisen, dass Lernen eine Optimierung ist. Nein - es ist Auswendiglernen. Aber es gibt auch eine Optimierung. Man kann über Variationen mit Lerntiefe, aufgeteilten Methoden usw. optimieren. Mit jedem Optimierungsschritt wird ein anderes Modell trainiert. Aber Lernen ist keine Optimierung. Es ist Auswendiglernen.

Und wie wird die Qualität des Lernens bestimmt?
 
Andrey Dik #:

und wie wird die Qualität des Unterrichts bestimmt?

Die höchste Lernqualität ergibt sich bei absolut exaktem Auswendiglernen, d. h. bei einer vollständigen Erfassung aller Daten in der Datenbank, oder beim Trainieren eines Baums bis zum allerletzten möglichen Split oder beim Clustering mit Anzahl der Cluster = Anzahl der Beispiele.

Bäume, bei denen die Aufteilung früher aufhört oder die mit weniger Clustern arbeiten, verallgemeinern und verschmelzen die Daten in den Blättern/Clustern. Es handelt sich dabei um unzureichend trainierte Modelle, die jedoch bei Vorhandensein von Rauschen erfolgreicher sein können als Modelle mit exaktem Recall.

Zu Beginn des MO-Zweiges gab es ein Beispiel, bei dem einem Gerüst das Einmaleins beigebracht wurde. Da es nicht mit einer unendlichen Anzahl von Auswahlmöglichkeiten gefüttert wurde, produziert der Wald manchmal exakte Antworten, aber meistens ungefähre Antworten. Er ist eindeutig untertrainiert. Aber er ist in der Lage, zu verallgemeinern - er findet und mittelt die Antworten, die den richtigen Antworten der einzelnen Bäume am nächsten kommen.

Beim Lernen im Rauschen ist es schwierig, die Qualität zu beurteilen. Vor allem, wenn das Rauschen viel stärker ist als die Muster, wie beim Handel.

Zu diesem Zweck erfand man die Bewertung anhand von Validierungs- und Teststichproben, die Kreuzvalidierung, das "Jacking Forward", usw.
 
Forester #:

Die höchste Qualität des Trainings wird bei absolut exakter Speicherung erreicht, d. h. wenn alle Daten vollständig in der Datenbank erfasst sind, oder wenn ein Baum bis zum letztmöglichen Split oder Clustering mit Anzahl der Cluster = Anzahl der Beispiele trainiert wird.

Bäume, bei denen die Aufteilung früher aufhört oder die Clusterbildung mit weniger Clustern erfolgt, verallgemeinern und verschmelzen die Daten in den Blättern/Clustern. Es handelt sich dabei um unzureichend trainierte Modelle, die jedoch bei Vorhandensein von Rauschen erfolgreicher sein können als Modelle mit exaktem Recall.

Zu Beginn des MO-Zweiges gab es ein Beispiel, bei dem einem Gerüst das Einmaleins beigebracht wurde. Da es nicht mit einer unendlichen Anzahl von Auswahlmöglichkeiten gefüttert wurde, produziert der Wald manchmal exakte Antworten, aber meistens ungefähre Antworten. Es ist offensichtlich, dass er nicht ausreichend trainiert ist. Aber er ist in der Lage, zu verallgemeinern - er findet und mittelt die Antworten, die den richtigen Antworten der einzelnen Bäume am nächsten kommen.

Beim Lernen im Rauschen ist das schwer zu beurteilen. Vor allem, wenn das Rauschen viel stärker ist als die Muster, wie beim Handel.

Die Maximierung der Qualität des Trainings bedeutet die Maximierung der Qualität der Vorhersagen für neue Daten. Niemand ist an Vorhersagen für die Trainingsstichprobe interessiert, da diese bereits bekannt sind. Dies ist kein Lernen mehr, sondern eine Annäherung. Annäherung nennt man nicht Lernen.

Ein zweischichtiger MLP ist zum Beispiel ein universeller Approximator, der jede beliebige Funktion mit beliebiger Genauigkeit approximieren kann. Heißt das, dass er maximal gut trainiert ist - natürlich nicht. Andernfalls würde man nicht andere neuronale Netzwerkarchitekturen erfinden, die für bestimmte Aufgaben besser geeignet sind, um genau zu lernen und nicht um sich anzupassen.

Schwach, obwohl Sie sich anscheinend schon lange mit dem Thema befassen.
 
Aleksey Nikolayev #:
Was ist falsch an der üblichen Definition des Lernens - der Zuweisung bestimmter Werte zu Modellparametern?

Sie erfasst nicht das Wesentliche.



Man kann jede Art von Kauderwelsch und Unsinn zuordnen. Wenn wir vom Gegenteil ausgehen (Auswendiglernen/Erinnern), dann ist Lernen das Erkennen bestimmter Muster, durch die man neues Wissen schaffen oder erkennen kann. Ein Beispiel: Chat schreibt Gedichte über ein beliebiges Thema.

 
Maxim Dmitrievsky #:
Die Maximierung der Qualität der Ausbildung bedeutet die Maximierung der Qualität der Vorhersagen für neue Daten. Niemand ist an Vorhersagen für die Trainingsstichprobe interessiert, da diese bereits bekannt sind. Das ist kein Lernen, das ist eine Annäherung. Annäherung nennt man nicht Lernen.

Ein zweischichtiger MLP ist zum Beispiel ein universeller Approximator, der jede beliebige Funktion mit beliebiger Genauigkeit approximieren kann. Bedeutet das, dass er mit maximaler Qualität trainiert ist - natürlich nicht. Andernfalls würden wir nicht andere neuronale Netzarchitekturen erfinden, die für bestimmte Aufgaben besser lernen und nicht passen.
Sie müssen sich also entscheiden.

Annäherung ist kein Lernen, aber Neuronics ist ein Annäherer...

Neuronics trainiert nicht?


Der eine hält die Datenbank für einen Klassifikator, der andere verwechselt sie mit Approximation....

Was seid ihr Experten? 😀.