Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 1963

 
Maxim Dmitrievsky:

mehrere D-Neuronen (Gittertyp)

Fehler, % = 45,10948905109489

Auf Wiedersehen)

Ich habe dem Autor des Netzes meine Kürzungen und meine Empörung per Post geschickt.
Was haben Sie festgestellt? Die Echtheit der Geldscheine?
 
Valeriy Yastremskiy:
Was haben Sie festgestellt? Die Echtheit der Geldscheine?

Ja

 
Maxim Dmitrievsky:

ja

Fehlerhafte Logik.
 
Valeriy Yastremskiy:
Fehlerhafte Logik.

Es kann einige Fallstricke geben. Sie können zum Beispiel keine negativen Werte in Attributen verwenden, da in den Mikrotests binarisierte Werte verwendet werden. In der spärlichen Beschreibung steht dazu nichts, es werden keine Fehler angezeigt.

 
Maxim Dmitrievsky:

kann es Fallstricke geben. Zum Beispiel können Sie keine negativen Werte in den Attributen haben, weil es binarisierte Werte in seinen Mikrotests verwendet. In der dürftigen Beschreibung steht nichts darüber, es werden keine Fehler angezeigt.

Die Korruption erfolgt oft aufgrund von unerklärlichen Symptomen. Und es ist ein Problem, sie in einer scheinbar korrekten Logik zu erkennen.
 
Gewichte auf der einen und Binarität auf der anderen Seite. Das ist unser Ausgangspunkt.
 

Interessanter NS-Ansatz für kollaboratives Filtern

Anstelle von Personen und Film-IDs können Sie auch Handelsinstrumente und -strategien und anstelle von Noten (Erwartungen usw.) eine Metrik verwenden. Berechnen Sie dann versteckte Variablen für das Instrument und die Strategie. Und dann alles, was Sie wollen. Passen Sie das System an das Instrument an oder generieren Sie es im Handumdrehen mit den erforderlichen Eigenschaften, bauen Sie Kunststoffe für das System....

 
Maxim Dmitrievsky:
Ich habe dem Autor des Netzes die Kürzungen und meine Empörung gemailt

Ich frage mich, was er zurückgeschrieben hat.

 
mytarmailS:

Ich frage mich, was er abgeschrieben hat.

Bis jetzt nichts. Es muss eine gewisse Regelmäßigkeit in den Stichproben geben, darum geht es ja. Das ist ein anderer Ansatz. Ich denke, dass regelmäßig Sets und On gelehrt werden sollten. D.h. je niedriger die Entropie in der Zeile, desto besser die Ergebnisse, und in diesem Datensatz werden die Stichproben zufällig gemischt. Im oabochanischen Sinne ist nicht so sehr das Muster wichtig, sondern die Reihenfolge
 
elibrarius:
Wir mischen den saubersten Split mit dem weniger sauberen. D.h. wir werden das Ergebnis auf dem Tablett verschlechtern, im Prinzip ist es für uns nicht wichtig. Es ist jedoch nicht sicher, dass dadurch das Testergebnis, d. h. die Verallgemeinerbarkeit, verbessert wird. Jemand sollte es versuchen... Ich persönlich glaube nicht, dass die Verallgemeinerung besser ist als der Fall des Gerüsts.

Es ist viel einfacher, die Tiefe des Baumes zu begrenzen und den letzten Spalt nicht zu machen, sondern beim vorherigen Spalt stehen zu bleiben. Wir werden am Ende das gleiche, weniger klare Blatt haben, als wenn wir eine zusätzliche Aufteilung vornehmen. Ihre Option würde etwas dazwischen geben, ob wir eine Aufteilung vornehmen oder nicht. D.h. Sie werden mit Ihrer Methode z.B. den Durchschnitt des Blattes auf der 7. Es wird etwas sauberer sein als das Blatt der 6. Ich denke, die Verallgemeinerung wird nicht viel ändern, und es ist eine Menge Arbeit, die Idee zu testen. Sie können auch ein paar Bäume mit den Tiefenstufen 6 und 7 mitteln - dann erhalten Sie ungefähr dasselbe wie bei Ihrer Methode.

Wahrscheinlich habe ich vorhin nicht klargestellt, dass bei kleinen Stichproben mindestens 1 % und bei großen Stichproben mindestens 100 Indikatoren im Blatt verbleiben sollten, so dass die Aufteilung natürlich nicht so weit gehen kann, dass bei keiner Klasse ein Fehler im Blatt auftritt.

Sie scheinen den letzten Schritt misszuverstehen - ich sehe ihn als eine statistische Auswertung der verbleibenden 1%-Stichprobe - in dieser Stichprobe beobachten wir, dass sich das Ergebnis mit Splits durch verschiedene Prädiktoren verbessert, wir erhalten z.B. Unterrauminformationen:

Wenn A>x1, dann wird Ziel 1 zu 40% richtig sein, was 60% der Teilstichprobe entspricht.

Wenn B>x2, dann wird Ziel 1 mit 55% richtig identifiziert, was 45% der Teilstichprobe entspricht.

Wenn A<=x1, dann wird Ziel 1 zu 70% richtig definiert, was 50% der Teilstichprobe entspricht.

Jeder dieser Splits hat einen Signifikanzfaktor (ich habe noch nicht entschieden, wie er berechnet werden soll), und der letzte Split hat ebenfalls einen.

und so weiter, sagen wir bis zu 5-10 Prädiktoren, dann bei der Anwendung, wenn wir den letzten Split erreichen, addieren wir die Koeffizienten (oder verwenden eine kompliziertere Methode der Summierung), und wenn die Summe der Koeffizienten den Schwellenwert übersteigt, dann wird das Blatt als 1 eingestuft, sonst als Null.


Eine einfache Möglichkeit, dies umzusetzen, besteht darin, einen Wald bis zum vorletzten Split zu erstellen und dann die bereits ausgewählten Prädiktoren aus der Stichprobe auszuschließen, so dass neue Prädiktoren ausgewählt werden. Oder Sie filtern nach der Erstellung des Baums die Stichprobe nach Blättern und gehen jeden Prädiktor für sich durch, um die beste Aufteilung zu finden, die das Kriterium der Vollständigkeit und Genauigkeit erfüllt.

Und das Ergebnis der Trainingsstichprobe wird sich verbessern, wenn die andere Klasse "0" keine Aktion und nicht die gegenteilige Eingabe bedeutet, andernfalls kann es sowohl eine Verbesserung als auch eine Verschlechterung geben.