Marktknigge oder gute Manieren im Minenfeld - Seite 81

 
Vergessen Sie bei dieser Rundung nicht, die Anzahl der Werte, die in der Verteilung gleich Null sind, durch 2 zu dividieren.
 
Ja, ich hab's (+/-0).
 
Neutron >> :

Der Punkt ist, dass ich die Statistiken nicht für ein und dieselbe Trainingsstichprobe eintrage, sondern ich verschiebe eine Stichprobe nach der anderen in jedem Zyklus. Daher stimmen die Trainingsergebnisse nicht miteinander überein. Ich weiß nicht mehr, warum ich das getan habe, aber das ändert nichts am Kern der Sache. Offensichtlich wollte ich die quasistationären Prozesse auf dem Markt aufzeigen und ihren Einfluss auf die Lerngeschwindigkeit widerspiegeln.

So sehen die Ergebnisse aus, wenn man den Durchschnitt von 10 Experimenten mit der gleichen Trainingsstichprobe bildet (Abb. links):

Sie können sehen, dass es keine statistische Variation für Gewichte mit Null-Initialisierung gibt.

Die Abbildung auf der rechten Seite basiert auf einer Netzarchitektur mit 12 Eingängen, 5 Neuronen in der versteckten Schicht und 1 Neuron im Ausgang und mit einer Trainingsstichprobe von 120 Stichproben, d.h. es ist eine Kopie Ihres Falls. Die statistischen Daten wurden aus 50 unabhängigen numerischen Experimenten gewonnen. Außerdem funktioniert alles korrekt.

Nein, ich habe die erste Eröffnungskursdifferenz als Input verwendet (ich dachte, das sei aus dem Kontext klar ersichtlich). Es ist klar, dass der Durchschnitt gleich Null ist. Vorhersage von Amplitude und Vorzeichen der nächsten Differenz.

Was das Theorem betrifft, so hat es mir gefallen. Aber es betrifft unsere Netzwerke als Sonderfall!

Sie haben den entarteten Fall bewiesen, dass die Länge der Trainingsstichprobe gegen unendlich tendiert. Tatsächlich erhalten wir in diesem Fall für einen Vektor von Eingangsdaten, die SV mit Null MO repräsentieren, Null-Gewichte - die beste Prognose für morgen für integrierte SV ist der aktuelle Wert heute! Sobald wir jedoch eine Trainingsstichprobe von endlicher Länge nehmen, tendieren die trainierten Gewichte zum Gleichgewicht und minimieren das Quadrat des Fehlers. Als Beispiel für den Beweis dieser Aussage nehmen wir den Fall von SLAE (der gleiche NS). In diesem Fall sind die Gewichte eindeutig definiert, der Trainingsfehler auf der Trainingsstichprobe ist identisch gleich Null (die Anzahl der Unbekannten ist gleich der Anzahl der Gleichungen) und die Gewichte (Koeffizienten an den Unbekannten) sind offensichtlich nicht gleich Null.

Ich stimme mit Ihrem Kommentar zu meinem Theorem überein. Eine Verringerung der Anzahl der Sätze in der Trainingsmenge führt zu einer Abweichung der Gewichte von Nullen. Ich glaube aber, dass das Theorem auch auf Netze anwendbar ist, denn um die Korrelation zu berechnen, muss ich nicht unendlich viele Trainingssätze verwenden. Der statistische Durchschnitt R(m)=E{x[i]x[i+m]} wird als Summe (x[i]x[i+m]) der verfügbaren Daten berechnet. Das Theorem ist insofern von Bedeutung, als es zeigt, dass das Netz nur dann eine Vorhersagekraft hat, wenn sich diese Summen (Korrelationen) signifikant von Null unterscheiden; andernfalls konvergieren die Gewichte zu Nullen. Deshalb ist es wichtig, Trainingsdaten zu finden, bei denen die Korrelation zwischen Eingaben und Ausgaben nicht Null ist. Eingaben, die eine geringe Korrelation aufweisen, können verworfen werden, da sie dem Netz bei der Vorhersage nicht helfen.

Soweit ich weiß, wird Ihr Trainingsfehler in den obigen Diagrammen nicht durch 2 oder durch die Anzahl der Sätze geteilt. Ist das richtig? Ich würde Ihre Eingaben gerne in meinem Netzwerk ausführen, um sicherzustellen, dass alles richtig funktioniert. Könnten Sie sie in einer Datei speichern, so wie sie in die Netzwerkeingänge und -ausgänge eingespeist werden, und sie hier einfügen? Sie könnten Ihr 5-4-1-Netz mit 40 Proben verwenden, um die Datenmenge zu reduzieren.

 

Zuteilungen der Baukagi und Transaktionsreihenschultern für verschiedene H


1. H = 1(eine Streuung)


2. Н = 4


3. Н = 15


 
gpwr >> :

Ich stimme mit Ihrem Kommentar zu meinem Theorem überein. Eine Verringerung der Anzahl der Sätze in der Trainingsstichprobe führt dazu, dass die Gewichte von Nullen abweichen. Ich denke aber, dass das Theorem auf Netze anwendbar ist, weil man zur Berechnung der Korrelation nicht unendlich viele Trainingssätze verwenden muss. Der statistische Durchschnitt R(m)=E{x[i]x[i+m]} wird als Summe (x[i]x[i+m]) der verfügbaren Daten berechnet. Das Theorem ist insofern von Bedeutung, als es zeigt, dass das Netz nur dann eine Vorhersagekraft hat, wenn sich diese Summen (Korrelationen) signifikant von Null unterscheiden; andernfalls konvergieren die Gewichte zu Nullen. Deshalb ist es wichtig, Trainingsdaten zu finden, bei denen die Korrelation zwischen Eingaben und Ausgaben nicht Null ist. Eingaben, die eine geringe Korrelation aufweisen, können verworfen werden, da sie dem Netz bei der Vorhersage nicht helfen.

Soweit ich weiß, wird Ihr Trainingsfehler in den obigen Diagrammen nicht durch 2 oder durch die Anzahl der Trainingssätze geteilt. Ist das richtig? Ich würde gerne Ihre Eingaben in meinem Netzwerk ausführen, um sicherzustellen, dass alles richtig funktioniert. Könnten Sie sie in einer Datei speichern, so wie sie in die Netzwerkeingänge und -ausgänge eingespeist werden, und sie hier einfügen? Sie können Ihr 5-4-1-Netz mit 40 Proben verwenden, um die Daten zu reduzieren.

Die Epochenzahl wurde auf 1000 erhöht und die iProp+-Einstellungen wurden so angepasst, dass der Gewichtsschritt nicht so schnell abnimmt. Außerdem wurde die Division des Lernfehlers durch 2*Anzahl der Epochen entfernt. Ich erhalte zufriedenstellendere Ergebnisse, die näher an Neutron liegen. Der Lernfehler für zufällige Gewichte ist 2-3 mal geringer als für Nullgewichte, was darauf hindeutet, dass es eine Korrelation zwischen Eingaben und Ausgaben gibt. Aber es gefällt mir immer noch nicht, dass der Lernfehler von Epoche 4 bis 70 fast unverändert ist. Wir müssen den Lernalgorithmus verbessern. Obwohl die meisten kommerziellen NS-Pakete iProp+ verwenden, vertraue ich diesem Algorithmus. Bleiben noch langsame und komplexe ML und BFGS.


 
gpwr >> :

Ich stimme mit Ihrem Kommentar zu meinem Theorem überein.


Da Sie so gut in Mathematik sind, warum versuchen Sie nicht, ein weiteres Theorem über die optimale Dimension der Netzeingabe bei Markt-GP (besser nicht BPs, sondern Serien von Kagi-Transaktionen) zu beweisen - das ist wirklich nützlich!

 
paralocus >> :

Da Sie so gut in Mathematik sind, warum versuchen Sie nicht, ein weiteres Theorem über das Optimum der Netz-Eingangsdimension auf Markt-GP's zu beweisen (vorzugsweise keine BP's, sondern eine Reihe von Kagi-Transaktionen) - das ist die wahre Sache!

Ich werde es ausprobieren.

 
gpwr писал(а) >>

Ich stimme mit Ihrem Kommentar zu meinem Theorem überein. Eine Verringerung der Anzahl der Sätze in der Trainingsmenge führt zu einer Abweichung der Gewichte von Nullen. Ich glaube aber, dass das Theorem auch auf Netze anwendbar ist, denn um die Korrelation zu berechnen, muss ich nicht unendlich viele Trainingssätze verwenden. Der statistische Durchschnitt R(m)=E{x[i]x[i+m]} wird als Summe (x[i]x[i+m]) der verfügbaren Daten berechnet. Das Theorem ist insofern von Bedeutung, als es zeigt, dass das Netz nur dann eine Vorhersagekraft hat, wenn sich diese Summen (Korrelationen) signifikant von Null unterscheiden; andernfalls konvergieren die Gewichte zu Nullen. Deshalb ist es wichtig, Trainingsdaten zu finden, bei denen die Korrelation zwischen Eingaben und Ausgaben nicht Null ist. Eingaben, die eine geringe Korrelation aufweisen, können verworfen werden, da sie dem Netz bei der Erstellung von Vorhersagen nicht helfen.

Es gibt auch eine nichtlineare Korrelation zwischen den Proben. Sie wird von der nichtlinearen Doppelschicht-NS erfasst und nicht vom linearen Diskriminator, für den Sie den Grenzwertsatz bewiesen haben.

Soweit ich verstanden habe, wird Ihr Fehler beim Training an gegebenen Diagrammen nicht durch 2 oder durch die Anzahl der Sätze geteilt. Richtig? Ich würde Ihre Eingabedaten gerne in meinem Netz ausprobieren, um sicherzustellen, dass alles richtig funktioniert. Könnten Sie sie in einer Datei speichern, so wie sie in die Netzwerkeingänge und -ausgänge eingespeist werden, und sie hier einfügen? Sie können Ihr 5-4-1-Netz mit 40 Proben verwenden, um die Daten zu reduzieren.

Nachstehend finden Sie die Datei mit den von mir verwendeten Eingaben.

Dateien:
dif.zip  14 kb
 
Neutron >> :

Es gibt auch eine nicht-lineare Korrelation zwischen den Proben. Sie wird von der nichtlinearen Doppelschicht-NS erfasst und nicht vom linearen Diskriminator, für den Sie den Grenzwertsatz bewiesen haben.

Im Anhang finden Sie eine Datei mit Eingabedaten, die ich verwendet habe.

>> Danke. Es wird viel über nichtlineare Korrelation gesprochen. Ich werde in Kürze meine Gedanken dazu äußern. In der Zwischenzeit bin ich von Ihrer interessanten Schlussfolgerung über das "Tetra-Mädchen" fasziniert. Die Tatsache, dass das ungelernte Netz ("ternary girl") genauere Vorhersagen bei Daten außerhalb der Stichprobe zeigt, alarmiert mich. Die Varianz des ungelernten Zustands ist viel größer als die Varianz des gelernten Zustands. Und wenn der gelernte Zustand das globale Entropieminimum (Fehlerquadrat) ist, dann ist die Varianz eines solchen Zustands Null, da es nur ein globales Minimum gibt. Da es im Netz viele nicht aufgeblähte Zustände gibt, wird es für dieselben Eingabedaten viele verschiedene Vorhersagen geben. Das können Sie in Ihren Diagrammen sehen. Alles in allem eine interessante, aber alarmierende Schlussfolgerung.

 

Das ist der Punkt, den ich selbst nicht ganz verstanden habe.

Nach der Aussage(Alexander Ezhov, Sergey Shumsky"Neurocomputing") gibt es eine optimale Länge, bei der der Generalisierungsfehler Popt=w^2/d minimiert wird, wobei d die Dimension des NS-Eingangs und w die Anzahl aller einstellbaren Parameter des NS ist . Unter diesem Gesichtspunkt ist die NS also übertrainiert, wenn P<Popt die NS sich an die Trainingsstichprobe "erinnert". Auch die Variante P>Popt ist nicht gut, denn bei längerer Dauer ist die Wahrscheinlichkeit einer Trendumkehr am Markt größer, was einer Verringerung der Korrelationen zwischen den Stichproben gleichkommt.

Andererseits kann NS bei einer zu großen Anzahl von Trainingsepochen "gezogen" werden, was zur Folge hat, dass der Generalisierungsfehler wieder ansteigt, oder er wird nicht gezogen... Im Allgemeinen müssen wir numerische Experimente mit einer Reihe von Statistiken durchführen, was an sich schon sehr rekursiv ist! Aber es muss getan werden. Es wird viel einfacher sein, die obige Gleichung für die optimale Länge des Trainingsvektors zu beweisen. gpwr, willst du basteln?