Marktknigge oder gute Manieren im Minenfeld - Seite 58

 
gpwr >> :

Ich glaube, Sie haben mich schon wieder missverstanden.

Ich verstehe wirklich nicht, wie Sie die Koeffizienten dieses Polynoms beeinflussen wollen, um den globalen minimalen Fehler (d. h. das Lernen) zu finden. Ich werde Ihnen die Gewichte des trainierten Neurons zeigen:


Drei Versuche mit demselben Vektor. Die Erfahrung ganz rechts war die erfolgreichste. Das heißt, ich verstehe, dass, wenn man eine fertige Topologie hat, es nicht schwierig ist (theoretisch), ein solches Polynom zu wählen, das diese Topologie sehr schön glätten würde, aber erklären Sie mir, wie Sie diese Topologie (bereits trainierte Masche) für eine untrainierte berechnen werden? Mit anderen Worten: Wie lautet der Algorithmus zur Beeinflussung von kf, der zu einer Verringerung der Lernfehlerfunktion führt? Kennen Sie es?

 
Neutron >> :

Speziell für Sie gebaut:

Sie können deutlich sehen, dass FZ immer vorhanden ist und an den scharfen Bewegungen des Kotirs sichtbar wird.

Sergej, ich werde dieses Thema nicht mehr mit Ihnen diskutieren, denn es ist trivial und völlig nutzlos. Lernen Sie die Mathematik, und wenn Sie das nächste Mal mit der nächsten super-duper-genialen Idee kommen, für deren Umsetzung Sie meinen, dass Sie ein oder zwei Forschungsinstitute und einen PC-Cluster brauchen, denken Sie eine Minute lang nach - vielleicht wissen Sie es einfach nicht oder verstehen es nicht. Immerhin ist es wahrscheinlicher als die "epochale Entdeckung", in dem Bereich, wo man schon lange alles zertrampelt hat.


OK, bedenken Sie, dass die Phasenverzögerung (das ist der Begriff) für zwei Fälle existiert



Ehrlich gesagt, und Sie langweilen mich :o)

 
HideYourRichess >> :

Ich bin überrascht, einen Algorithmus zu sehen, der dies zu 80 % demonstriert. Ich bin auf der Suche nach einem Fehler. Es sieht sehr einfach aus. So funktioniert das nicht.

kein Wunder, wenn ich, der ich kein Mathematiker bin, richtig liege, also was soll man über einen Profi sagen! :о)))

 

zu Neutron


Gibt es eine Phasenverzögerung zwischen High/Low und Close? :о))) Nach Ihrer visuellen Methode gibt es also eine:




Woher kann sie kommen?


Korrekturen und Ergänzungen: Solange niemand zuschaut, werde ich kleine Korrekturen vornehmen. Ich habe in der Eile einen kleinen Fehler gemacht, im - Bild oben Öffnen und Schließen. Ein Signal ist gegenüber dem anderen verzögert, aber in diesem speziellen Fall handelt es sich nicht um eine Phasenverschiebung.


Es gibt keine Phasenverzögerung. Es wurde kein mathematischer Operator ausgeführt, der eine Verschiebung verursachen würde. Es gibt keine Phasenverschiebung, die aus heiterem Himmel auftritt. Stattdessen gibt es eine Prozessauswahl, eine Regel, die besagt, dass dies der Prozess ist".


Wenn "Verschiebung" im Sinne von "Open" (offen) und "Close" (geschlossen) verstanden wird, dann ja - es gibt eine "Verschiebung" (ich werde das nicht bestreiten). Aber ich weiß nicht einmal, welche mathematischen Methoden die Verschiebung in diesem speziellen Fall "finden" werden. Diese Signale sind alternativ zueinander.




Und um Close für die Vorhersage auszuwählen, muss man ein unglaublich genaues System haben. Und bei meiner einfachen Idee, die übrigens sehr "roboterhaft" ist, hat die Verzögerung (H+L)/2 überhaupt keine Auswirkungen.


PS: Jesus, Seryoga Seryoga, - diese Prozesse sind absolut monopenisch. Das war's jetzt, auf Wiedersehen. Viel Glück!

 

zu Neutron

Während ich auf den neuen Matkad warte, wiederhole ich, was ich gelernt habe, d.h. ich spiele mit der einzelnen Ebene herum. Sie haben mich gebeten, die Länge des Fehlervektors anzugeben, und das habe ich bekommen:


X Statistik, L Länge (wenn ich das richtig verstanden habe).

Auf diese Weise berechnet:


Hier ist i die Schleife über die Statistik , X ist der Eingangsvektor (summiert über die gesamte Länge des aktuellen Trainingsvektors). Das Fehlerquadrat wird während der gesamten Epoche zusammen mit dem Quadrat des Trainingsvektors akkumuliert:


Und am Ende einer Epoche wird sie wie folgt gezählt:


Dabei ist n der Zyklus über Epochen.

Wird alles richtig gemacht?

 

Nach der Abbildung zu urteilen, liegt irgendwo ein Fehler vor - wir sollten ein allmähliches Lernen des Netzes (abnehmende Länge des Fehlervektors) sehen, während wir uns von Epoche zu Epoche bewegen. Dies ist nicht sichtbar. Die Gründe können wie immer ein Wagen und ein kleiner Karren sein. Zum Beispiel zeigt das Diagramm statt der Größe des Fehlervektors einer Epoche diese Größe für das bereits trainierte Netz (letzte Epoche) als Funktion der Anzahl der unabhängigen Experimente... Aus Ihrem - "Nach X Statistiken..." - ergibt sich, welche Statistiken? Es ist ja nicht so, dass wir es hier eintippen sollen. Und das hier - "...by L length", - L ist auf die Länge des Datenvektors normiert und muss in der Nähe von 1 liegen und zum Ende des Umfangs hin allmählich abnehmen... Wir sehen etwas anderes.

Schauen Sie sich hier an, wie es aussehen sollte:

Hier zeigt das blaue Feld die Länge des Fehlervektors in der Trainingsstichprobe (wir sehen uns an, wie das Gitter trainiert wird, nicht wie es Vorhersagen macht). Alles in allem haben wir der Übersichtlichkeit halber 200 Trainingsepochen und k=1 verwendet, um zu zeigen, dass das Netz in diesem speziellen Fall vollständig trainiert ist (der Fehler ist gleich Null) und einfach das Trainingsmuster auswendig lernt. Es ist sogar noch schneller. Das Problem ist, dass unser Addierer bei der Testprobe mit solchen Gewichten das Wetter in Afrika anzeigt, d.h. er ist völlig der Generalisierungsfähigkeit beraubt. Die roten Linien in der Abbildung zeigen die Varianz (Streuung) einer Reihe von Experimenten (n=50), während die blaue Linie den Durchschnitt angibt (ich erstelle Statistiken, aber auf eine andere Weise als Sie und ich werde später darüber sprechen).

Deine letzten beiden Ausdrücke sind fast korrekt, außer dass es keinen Index für die Statistik geben sollte (du machst nur EIN Experiment und brauchst einen neuen Code, ohne einen Satz von Statistiken), und ich verstehe die erste Gleichung nicht. Woher kommt das Geld? Ich habe einen ähnlichen Block, der so aussieht:

Dabei ist j, die Schleife über den Trainingsvektor. Beachten Sie, dass meine Indizes merklich kleiner sind, wenn der Index quadriert ist!

P.S. Übrigens habe ich es aufgegeben, die Squeeze-Funktion für die Gewichte zu verwenden, zuerst für die einschichtige und dann für die zweischichtige. Ohne sie sind die Ergebnisse genauso gut und der Aufwand ist geringer.

 
grasn >> :

es ist keine Überraschung, wenn ich, der kein Mathematiker ist, es verstanden habe, also sprechen Sie von einem Profi! :о)))


Ich habe es herausgefunden. Was ich tat, könnte man als eine primitive Version von AR betrachten, oder umgekehrt, AR könnte man als eine verbesserte Version dessen betrachten, was ich tat.

 
Neutron >> :

Deine letzten beiden Ausdrücke sind fast korrekt, außer dass es keinen Index für die Statistiken geben sollte (du machst nur EIN Experiment und brauchst neuen Code, ohne einen Satz von Statistiken), aber ich verstehe die erste Gleichung nicht. Woher kommt das Geld? Ich habe einen ähnlichen Block, der so aussieht:

Dabei ist j, die Schleife über den Trainingsvektor. Beachten Sie, dass meine Indizes merklich kleiner sind, wenn der Index quadriert ist!

P.S. Übrigens habe ich es aufgegeben, die Squeeze-Funktion für die Gewichte zu verwenden, zuerst für die einschichtige und dann für die zweischichtige. Ohne sie sind die Ergebnisse genauso gut und der Aufwand ist geringer.

Die erste Gleichung berechnet die Länge des Fehlervektors und normalisiert sie auf die Länge des Datenvektors (d.h. so wie ich es bisher verstanden habe). Ich werde es jetzt tun.

Was die Komprimierungsfunktion betrifft, so hat sie bei mir nicht sofort funktioniert (d. h. das Ergebnis war nicht offensichtlich), so dass ich sie nicht verwendet habe.

 
paralocus писал(а) >>

Die erste Gleichung besteht darin, die Länge des Fehlervektors zu berechnen und sie auf die Länge des Datenvektors zu normieren (d. h. so wie ich es bisher verstanden habe)

Was bedeuten dann die letzten beiden Ausdrücke?

Ich dachte, die zweite Aufgabe sei die Ermittlung der Quadrate der Vektorlängen und die dritte die Ermittlung der normierten Länge. Wenn ja, warum der erste Ausdruck?

 
HideYourRichess >> :

Ich habe es herausgefunden. Was ich gemacht habe, kann als eine primitive Version von AR betrachtet werden, oder umgekehrt, AR kann als eine verbesserte Version dessen betrachtet werden, was ich gemacht habe.

Ich habe die Modellidentifikation, d. h. die optimale Definition der Stichprobenlänge und der Modellreihenfolge, nicht berücksichtigt. Damit ist es möglich, 90 % zu erreichen. Ich zweifle nicht im Geringsten daran, dass Ihre Ergebnisse genauso gut oder sogar noch besser sein werden. ;)