Forschung in Matrix-Paketen - Seite 8

 
Alexey Volchanskiy:
Eine damit zusammenhängende Frage an alle Teilnehmer der Diskussion. Arbeiten Sie mit Zeckendaten? Ich habe mich längst von der Balkenanalyse entfernt und arbeite ausschließlich mit DSP-Methoden.
Ich verwende M1-Bargebote mit Ascs sowie Level2.
 
zaskok3:
Ich verwende M1-Bargebote mit Bitten sowie Level2.
L2 ist auf MT5?
 
Vladimir Perervenko:

In dem Artikel, auf den Sie sich beziehen, geht es um Regression. Wir haben es mit einer Klassifizierung zu tun. Das sind zwei große Unterschiede...

Ich verstehe Ihre Frage immer noch nicht.

Viel Glück!

Dabei spielt es keine Rolle, ob es sich um Regression oder Klassifikation handelt. Das ist egal. Es ist nur ein Artikel, der sich speziell mit der Regression befasst.

Nur zur Klarstellung: Sie haben Beispiele für das Training mit welchem Schritt werden genommen, ein Balken (d.h. Eingaben von jeder Zeile des Datenfeldes) oder n Balken, so dass es eine Zeitverzögerung zwischen den Zeilen gibt?

Ich bin nicht einfach nur ein Streber, und ich möchte Ihre Arbeit keineswegs in Misskredit bringen (Ihre Artikel helfen mir).

Lassen Sie mich meinen Standpunkt anhand eines praktischen Beispiels erläutern, ohne dabei Zitate aus statistischen Studien anzuführen:

In einem Entscheidungsbaum gibt es, sagen wir, m Endknoten. Jeder Knoten enthält ähnliche Fälle in den Eingabevektoren - ein Unterraum von Eingabewerten. Wenn Sie also aufeinanderfolgende bar-shifted Beispiele haben, die Inputs verwenden, die ein paar Bars zurückblicken (im schlimmsten Fall auch Hunderte von Bars), wird es eine starke Autokorrelation zwischen den nahegelegenen Punkten geben, aber gleichzeitig, da wir die Zukunft ein paar Bars voraussagen (im schlimmsten Fall auch Hunderte von Bars), werden die nahegelegenen Outputs auch gleich sein. Die Spalte der Ausgänge wird beispielsweise durch die Folgen 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 gebildet. So werden Dutzende von identischen Ausgängen in unsere Endknoten fallen, die sich auf benachbarte - ähnliche - Eingänge beziehen. Man könnte sagen, dass es eine Redundanz von identischen Beispielen geben wird, die nach Zeitpunkten gebündelt sind, was die Verteilung der Antworten auf die deutlichste Art und Weise verzerren wird. Aus diesem Grund wird häufig empfohlen, nicht mehr als eine Position im Markt zu halten, da der Abhängigkeitseffekt von nebeneinander liegenden Ein- und Ausstiegen auch beim Training eines EA im Terminal auftritt.

In diesem Fall ist eine harte Umschulung oder vielmehr die Bildung von Statistiken über nicht abhängige Beobachtungen erforderlich. Das heißt, das Unangenehmste, was man bei der Analyse von Zeitreihen erhalten kann, ist die Abhängigkeit von benachbarten Datenvektoren. Wenn die Datenvektoren zeitlich weit auseinander liegen, ist das in Ordnung. In diesem Fall läuft das maschinelle Lernen darauf hinaus, Muster zu finden, die zeitlich unveränderlich sind.

Und dann, unter Bezugnahme auf die Fehlermatrix, die Sie in dem Artikel als Beispiel anführen:

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958
Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

Ich kann nur sagen, dass es fantastisch ist. ) Das Experiment wurde irrtümlich durchgeführt. Eine derart steile Fehlermatrix lässt sich bei einer Stichprobe mit unabhängigen Beispielen und gleichzeitiger strikter zeitlicher Trennung des Testdatensatzes vom Trainingsdatensatz (look-ahead bias) niemals erreichen.

Und die Tatsache, dass die Fehlermatrix auf der Testmenge ebenfalls fantastisch ist, deutet darauf hin, dass eine Probe genommen wurde, die mit der Trainingsstichprobe zeitlich vermischt ist und in der ähnliche Beispiele ebenfalls "zusammengepfercht" sind. Mit anderen Worten, dieses spezielle Ergebnis sagt nichts über die Fähigkeit des konstruierten Modells aus, den Markt vorherzusagen.

Sie können versuchen, etwas mehr Daten zu nehmen und sie mit der tail(all_data, 1/3)-Logik zu testen, um zu sehen, wie sich die Anzahl der Beobachtungen in den Matrixzellen anpasst. Sie könnten sogar das Chi-Quadrat-Kriterium anwenden, um festzustellen, ob das Raten fast zufällig geworden ist.

Alles, was ich Ihnen vermitteln wollte, habe ich versucht zu tun. Anmerkung, mit guten Absichten)

Viel Glück! Alexej

 
Alexey Volchanskiy:
L2 ist auf MT5?
MT4. Der Quellcode kursiert bereits im Forum...
 
zaskok3:
MT4. Der Quellcode wurde im Forum geleakt...

Freunde und Kollegen, ich habe eine Frage.

Wie können Sie einen Algorithmus auf der Grundlage veröffentlichter Handelsdaten formulieren?

 
Alexey Volchanskiy:

Freunde und Kollegen, ich habe eine Frage.

Wie können Sie einen Algorithmus auf der Grundlage veröffentlichter Handelsdaten formulieren?

Ich weiß, ich habe es falsch geschrieben - formulieren, vom Wort Formel)
 
Alexey Volchanskiy:

Wie können Sie einen Algorithmus auf der Grundlage veröffentlichter Handelsdaten formulieren?

Wenn Sie die TS auf der Grundlage des Zustands umgestalten wollen, dann verwenden Sie maschinelles Lernen:

Man nehme eine Reihe von Indikatorwerten am Eingang, den Ausgang des Zustands. Anpassung durch mathematische Modelle.

Ich habe mich nicht mit solchem Unsinn beschäftigt.

 
Alexey Volchanskiy:
Ganz nebenbei habe ich eine Frage an alle Diskussionsteilnehmer. Arbeiten Sie mit Zeckendaten? Ich habe mich schon vor langer Zeit von der Balkenanalyse entfernt und arbeite ausschließlich mit DSP-Methoden.

Der Einsatz von DSP ist höchst fragwürdig.

Für Tickdaten sind Kointegrationskonzepte besser geeignet.

 
Alexey Burnakov:
Dabei spielt es keine Rolle, ob es sich um Regression oder Klassifikation handelt. Das ist egal. Dies ist nur ein Artikel speziell über Regression.

Nur zur Klarstellung: Haben Sie Beispiele für das Training, bei denen ein Schritt gemacht wird, ein Balken (d.h. die Eingaben jeder Zeile des Datenfeldes) oder n Balken, so dass ein Zeitintervall zwischen den Zeilen besteht?

Ich bin nicht einfach nur ein Streber, und ich möchte Ihre Arbeit keineswegs in Misskredit bringen (Ihre Artikel helfen mir).

Lassen Sie mich meinen Standpunkt anhand eines praktischen Beispiels erläutern, ohne dabei Zitate aus statistischen Studien anzuführen:

In einem Entscheidungsbaum gibt es, sagen wir, m Endknoten. Jeder Knoten enthält ähnliche Fälle in den Eingabevektoren - ein Unterraum von Eingabewerten. Wenn Sie also aufeinanderfolgende bar-shifted Beispiele haben, die Inputs verwenden, die ein paar Bars zurückblicken (im schlimmsten Fall auch Hunderte von Bars), wird es eine starke Autokorrelation zwischen den nahegelegenen Punkten geben, aber da wir die Zukunft mehrere Bars voraussagen (im schlimmsten Fall auch Hunderte von Bars), werden die nahegelegenen Outputs die gleichen sein. Die Spalte der Ausgänge wird beispielsweise durch die Folgen 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 gebildet. So werden Dutzende von identischen Ausgängen in unsere Endknoten fallen, die sich auf benachbarte - ähnliche - Eingänge beziehen. Man könnte sagen, dass es eine Redundanz von identischen Beispielen geben wird, die nach Zeitpunkten gebündelt sind, was die Verteilung der Antworten auf die deutlichste Art und Weise verzerren wird. Aus diesem Grund wird häufig empfohlen, nicht mehr als eine Position im Markt zu halten, da der Abhängigkeitseffekt von nebeneinander liegenden Ein- und Ausstiegen auch beim Training eines EA im Terminal auftritt.

In diesem Fall ist eine harte Umschulung oder vielmehr die Bildung von Statistiken über nicht abhängige Beobachtungen erforderlich. Das heißt, das Unangenehmste, was man bei der Analyse von Zeitreihen erhalten kann, ist die Abhängigkeit von benachbarten Datenvektoren. Wenn die Datenvektoren zeitlich weit auseinander liegen, ist das in Ordnung. In diesem Fall läuft das maschinelle Lernen darauf hinaus, Muster zu finden, die zeitlich unveränderlich sind.

Und dann, unter Bezugnahme auf die Fehlermatrix, die Sie in dem Artikel als Beispiel anführen:

Ich kann nur sagen, dass es fantastisch ist. ) Das Experiment wurde irrtümlich durchgeführt. Eine derart steile Fehlermatrix lässt sich bei einer Stichprobe mit unabhängigen Beispielen und gleichzeitiger strikter zeitlicher Trennung des Testdatensatzes vom Trainingsdatensatz (look-ahead bias) niemals erreichen.

Und die Tatsache, dass die Fehlermatrix auf der Testmenge ebenfalls fantastisch ist, deutet darauf hin, dass mit der Zeit eine mit der Trainingsstichprobe vermischte Stichprobe genommen wurde, in der auch ähnliche Beispiele "zusammengepfercht" sind. Mit anderen Worten, dieses spezielle Ergebnis sagt nichts über die Fähigkeit des konstruierten Modells aus, den Markt vorherzusagen.

Sie können versuchen, etwas mehr Daten zu nehmen und sie mit der tail(all_data, 1/3)-Logik zu testen, um zu sehen, wie die Anzahl der Beobachtungen in den Zellen der Matrix ausgerichtet ist. Sie könnten sogar das Chi-Quadrat-Kriterium anwenden, um festzustellen, ob das Raten fast zufällig geworden ist.

Alles, was ich Ihnen vermitteln wollte, habe ich versucht zu tun. Anmerkung, mit guten Absichten)

Viel Glück! Alexej

Entschuldigen Sie, dass ich mich einmische, aber dies scheint eine öffentliche Diskussion zu sein.

Ihr Beitrag scheint mir eine Mischung aus mehreren miteinander verbundenen, aber unterschiedlichen Problemen zu sein.

1. Was bringen Sie dem Modell bei? Trends? Pegelaufschlüsselung? Eine Abweichung von etwas? Es scheint sehr einfach zu sein, den Lehrer des Modells auszuwählen, aber in der Praxis verursacht es gewisse Schwierigkeiten. Auf jeden Fall sollten wir den Lehrer (den Vektor, nach dem das Modell trainiert wird) sehr spezifisch auf unsere Handelsidee vorbereiten, zum Beispiel "Ich handle mit Trends".

2. Worüber unterrichten Sie? In Ihrem Beitrag erwähnen Sie das Vorhandensein von Abhängigkeiten zwischen benachbarten Balken. Ja, es gibt Holzmodelle (CORELearn), die Abhängigkeiten zwischen benachbarten Balken berücksichtigen, aber das Problem, das Sie ansprechen, ist viel umfassender und unangenehmer und hat wenig mit dem verwendeten Modell zu tun. Es ist eine Modellumschulung. So wie ich das sehe, gibt es Datensätze, die IMMER übertrainierte Modelle hervorbringen. Und da helfen auch keine Techniken zur Beseitigung von Übertraining.

Es gibt Eingabedatensätze (Sätze von Prädiktoren), unter denen sich Prädiktoren befinden, die zur Erstellung von Modellen verwendet werden können, die NICHT übertrainiert sind. Die verbleibenden Prädiktoren erzeugen jedoch so viel Rauschen, dass diese Rauschprädiktoren von den vorhandenen Prädiktorenauswahlpaketen nicht ausgesondert werden können.

Daher ist eine manuelle Auswahl der Prädiktoren auf der Grundlage des Kriteriums "scheint für unseren Lehrer, die Zielvariable, relevant zu sein" zwingend erforderlich.

PS.

Es ist komisch, das zu sagen, aber beim Handel mit Trends sind alle durch Glättung erhaltenen Prädiktoren, insbesondere MA, extrem verrauscht und die Modelle sind immer übertrainiert. Und wenn man auf OOV-Stichproben trainiert, kann man auch einen Fehler von 5% erhalten!

 
Alexey Burnakov:
Dabei spielt es keine Rolle, ob es sich um Regression oder Klassifikation handelt. Das ist egal. Es ist nur ein Artikel, der sich speziell mit der Regression befasst.

Nur um zu klären: Sie haben Beispiele für die Ausbildung, mit welchem Schritt genommen werden, einen Balken (dh, die Eingänge der einzelnen Zeilen des Arrays Daten) oder n Bars, so dass es eine zeitliche Verzögerung zwischen den Zeilen?

Der Ausgangsdatensatz ist eine Matrix oder ein Datenrahmen, der Eingaben und Ziel enthält. Bei der Aufteilung (Stratifizierung) in Trainings- und Testgruppen werden die Beispiele zufällig gemischt, die Verteilung der Klassen in den Gruppen bleibt jedoch dieselbe wie in der ursprünglichen Gruppe. Daher ist es nicht möglich zu sagen, in welcher Tonlage die Beispiele aufgenommen wurden. Offensichtlich verwechseln Sie die Vektor-Matrix-Transformation, bei der man von einer zeitlichen Verzögerung sprechen kann.

Ich bin nicht einfach nur ein Streber, und ich möchte Ihre Arbeit keineswegs in Misskredit bringen (Ihre Artikel helfen mir).

Ja, ich bin weit davon entfernt, so zu denken. Aber ich kann die Frage wirklich nicht verstehen.

Lassen Sie mich meinen Gedanken anhand eines praktischen Beispiels erläutern, ohne Zitate aus statistischen Studien anzuführen:

In einem Entscheidungsbaum gibt es, sagen wir, m Endknoten. Jeder Knoten enthält ähnliche Fälle in den Eingabevektoren - ein Unterraum von Eingabewerten. Wenn Sie also aufeinanderfolgende bar-shifted Beispiele haben, die Eingaben verwenden, die ein paar Takte zurückblicken (im schlimmsten Fall auch Hunderte von Takten), wird es eine starke Autokorrelation zwischen den benachbarten Punkten geben, aber gleichzeitig, da wir die Zukunft ein paar Takte voraussagen (im schlimmsten Fall auch Hunderte von Takten), werden die benachbarten Ausgaben auch die gleichen sein. Die Spalte der Ausgänge wird beispielsweise durch die Folgen 0 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 gebildet. So werden Dutzende von identischen Ausgängen in unsere Endknoten fallen, die sich auf benachbarte - ähnliche - Eingänge beziehen. Man könnte sagen, dass es eine Redundanz von identischen Beispielen geben wird, die nach Zeitpunkten gebündelt sind, was die Verteilung der Antworten auf die deutlichste Art und Weise verzerren wird. Aus diesem Grund wird häufig empfohlen, nicht mehr als eine Position im Markt zu halten, da der Abhängigkeitseffekt von benachbarten Ein- und Ausstiegen auch beim Training eines EA im Terminal auftritt.

In diesem Fall ist eine harte Umschulung oder vielmehr die Bildung von Statistiken über nicht abhängige Beobachtungen erforderlich. Das heißt, das Unangenehmste, was man bei der Analyse von Zeitreihen erhalten kann, ist die Abhängigkeit von benachbarten Datenvektoren. Wenn die Datenvektoren zeitlich weit auseinander liegen, ist das in Ordnung. In diesem Fall läuft das maschinelle Lernen darauf hinaus, Muster zu finden, die zeitlich unveränderlich sind.

Und dann, unter Bezugnahme auf die Fehlermatrix, die Sie in dem Artikel als Beispiel anführen:

Ich kann nur sagen, dass es fantastisch ist. ) Das Experiment wurde irrtümlich durchgeführt. Eine derart steile Fehlermatrix lässt sich bei einer Stichprobe mit unabhängigen Beispielen und gleichzeitiger strikter zeitlicher Trennung des Testdatensatzes vom Trainingsdatensatz (look-ahead bias) niemals erreichen.

Und die Tatsache, dass die Fehlermatrix auf der Testmenge ebenfalls fantastisch ist, deutet darauf hin, dass eine Probe genommen wurde, die mit der Trainingsstichprobe zeitlich gemischt ist und in der ähnliche Beispiele ebenfalls "zusammengepfercht" sind. Das heißt, dieses spezielle Ergebnis sagt nichts über die Fähigkeit des konstruierten Modells aus, den Markt vorherzusagen.

Sie können versuchen, etwas mehr Daten zu nehmen und sie mit der tail(all_data, 1/3)-Logik zu testen und zu sehen, wie die Anzahl der Beobachtungen in den Zellen der Matrix ausgerichtet ist. Sie könnten sogar das Chi-Quadrat-Kriterium anwenden, um festzustellen, ob das Raten fast zufällig geworden ist.

Legen Sie also ein Beispiel aus, um es an Ihren Fingern zu erklären. Oder glauben Sie, dass ich solche Tests nicht durchgeführt habe?

Alles, was ich Ihnen vermitteln wollte, habe ich versucht zu tun. Hinweis, mit guten Absichten )

Ich möchte wirklich verstehen, was Sie zu vermitteln versuchen. Anhand eines Beispiels wäre es meiner Meinung nach klarer.

Wenn sie sagen, dass du ein Experimentmit einem Fehler gemacht hast, musst du ihnen sagen, was der Fehler ist und ihnen die richtige Lösung geben. Sie haben das Paket, Beispiele, beschreiben Sie, wie die Berechnung Ihrer Meinung nach durchgeführt werden sollte.

Nichts für ungut.

Viel Glück!