Maschinelles Lernen im Handel: Theorie, Modelle, Praxis und Algo-Trading - Seite 385

 
Maxim Dmitrievsky:


Ich habe gehört, dass es sich um einen Hedge-Fonds handelt, wenn man sich anmeldet, was wird er tun?

Ich arbeite mit verschiedenen Modellen, bisher habe ich genau wie Sie 0,5

Nun, 0,5 und 0,513 sind unterschiedlich, natürlich nicht so sehr für den Handel, aber dennoch. Sie nennen sich selbst Hedge-Fonds, ich weiß nicht, wie sie rechtlich strukturiert sind, in Amerika gibt es formal keine derartige Organisation, aber vielleicht irre ich mich. Wenn Sie sich registrieren, können Sie an der Vorhersage des Marktes eine Woche im Voraus teilnehmen, auf solche Datensätze, jemand schafft es, > $ 10k auf sie zu erhöhen, aber ich persönlich kenne diejenigen, die nur ein paar hundert Pfund verdient haben)))
 
Aljoscha:
Nun, 0,5 und 0,513 sind unterschiedlich, natürlich ist das nicht viel für den Handel, aber immerhin. Sie nennen sich selbst Hedge-Fonds, ich weiß nicht, wie sie rechtlich strukturiert sind, in Amerika gibt es diese Art von Organisation formal nicht, aber ich könnte mich irren. Wenn Sie sich registrieren, können Sie an der Vorhersage des Marktes eine Woche im Voraus teilnehmen, auf solche Datensätze, jemand schafft es, > $ 10k auf sie zu erhöhen, aber persönlich kenne ich diejenigen, die nur ein paar hundert Pfund verdient haben)))


Wie funktioniert es? Sie geben den Datensatz vor, ich muss das Netzwerk darauf trainieren und was dann? Ich glaube, es gibt einen Trick, man muss eine Merkmalsauswahl treffen)

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
Maxim Dmitrievsky:


d.h. wie funktioniert es? Sie geben einen Datensatz vor, ich muss das Netzwerk darauf trainieren und was dann? ich glaube, es hat einen Trick, ich muss eine Merkmalsauswahl treffen )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Loggen Sie sich ein und lesen Sie die Lenker, sie sind eine halbe Seite lang. Laden Sie einfach das Set herunter, bringen Sie es bei, lassen Sie es auf einem Testsystem laufen und senden Sie es an sie. Es gibt ein Beispiel dafür, wie das Ergebnis aussehen sollte, also sollten die IDs und Spaltennamen wie die ihren sein.
 
Aljoscha:
Melden Sie sich an und lesen Sie die Rollen, es gibt dort eine halbe Seite. Laden Sie einfach das Set herunter, lernen Sie es, führen Sie es auf einem Test aus und senden Sie es an sie. Es gibt ein Beispiel dafür, wie das Ergebnis aussehen sollte, so dass die IDs und Spaltennamen wie ihre aussehen sollten.

Ja, ich werde es später versuchen... kurz gesagt, dieser Datensatz ist hoffnungslos, kein Muster )
 

numerai hat die Regeln in diesem Jahr ein paar Mal geändert.

Früher war es einfach und gut - man trainierte ein Modell auf einer Trainingstabelle, überprüfte den Fehler auf der Testtabelle, schickte ihnen Vorhersagen, sie extrapolierten sie auf ihre versteckte Testtabelle und zählten den Fehler auf dieser Tabelle. Wer in der verdeckten Tabelle weniger Fehler hat, gewinnt. Es war sehr gut und richtig, dass der Fehler im Testdatensatz wirklich mit dem Fehler im versteckten Datensatz übereinstimmte, so dass man sein Modell überprüfen konnte.

Dann änderten sie etwas, und der Fehler im Testdatensatz korrelierte nicht mehr mit dem Fehler in ihrem versteckten Prüfdatensatz. Alle Anführer von der Spitze verschwanden, nur zufällige Leute, die das Glück hatten, ihr Modell in ihren verdeckten Kontrolltisch zu bekommen, gewannen. Imho ist das Versagen von numerai, irgendein willkürlicher Blödsinn und kein Wettbewerb.

Dann sahen sie, dass alle adäquaten Leute von ihrem Zufallswettbewerb wegkamen, erkannten ihren Fehler und änderten etwas. Nun werden die Vorhersagen nach verschiedenen Kriterien bewertet. Das Kriterium, das mich am meisten ärgert, ist die "Einzigartigkeit": Wenn jemand bereits ähnliche Ergebnisse übermittelt hat, wird Ihre Arbeit als Plagiat abgelehnt. D.h. wenn mehrere Personen den gleichen Rahmen nutzen, um ein Modell zu erstellen, dann bekommt derjenige das Geld, der früher aufgewacht ist und eine Vorhersage geschickt hat.
Die Modellgenauigkeit ist für die Gewinnberechnung völlig unbrauchbar geworden. Man kann den Fehler 0 bekommen, auf Platz 1 stehen und nichts verdienen, weil die Spitze das Ergebnis der Testdaten zeigt, die sie sich selbst zum Herunterladen geben, die Spitze zeigt nicht mehr das Ergebnis ihrer versteckten Prüftabelle.
Die aktuelle Version ihres Wettbewerbs ist imho Unsinn, keine Transparenz, alles ist durcheinander. Ich warte darauf, dass sie wieder etwas am Wettbewerb ändern, hoffentlich wird es wieder angemessen sein.

 
Maxim Dmitrievsky:

Ja, ich werde es später versuchen... kurz gesagt, dieser Datensatz ist hoffnungslos, es gibt kein Muster)
Probieren Sie diese Tabelle aus. Trainieren Sie das Modell nur auf den Zeilen, bei denen data_type=="validation". Dies sind die Daten, die zur Bewertung des Modells und zur Ermittlung der besten Ergebnisse verwendet werden. Wenn Sie eine Genauigkeit von 100 % erreichen, werden Sie an erster Stelle stehen. Für einen solchen Betrug erhalten Sie jedoch keinen Geldpreis.
Dateien:
 
Dr. Trader:
Probieren Sie diese Tabelle aus. Trainieren Sie das Modell nur auf den Zeilen, bei denen data_type=="validation". Dies sind die Daten, die zur Bewertung des Modells und zur Ermittlung der besten Ergebnisse verwendet werden. Wenn Sie eine Genauigkeit von 100 % erreichen, werden Sie an erster Stelle stehen. Aber für diesen Betrug gibt es keinen Geldpreis.

Oh, cool, ich werde es morgen ausprobieren... toll zum Üben)
 
Dr. Trader:
Probieren Sie diese Tabelle aus. Trainieren Sie das Modell nur auf den Zeilen, bei denen data_type=="validation". Diese Daten werden verwendet, um das Modell zu bewerten und in die Spitzengruppe zu gelangen. Wenn Sie eine Genauigkeit von 100 % erreichen, werden Sie an erster Stelle stehen. Aber für einen solchen Betrug bekommen Sie keinen Geldpreis.


wieder 0,5



 

Es ist wichtig zu verstehen, wie die Ergebnisse in den Trainings- und Evaluierungsdatensätzen übereinstimmen. Ich sehe dort einen geteilten Datensatz, nach der Logik (vielleicht liege ich falsch) werden die Daten zufällig in zwei Gruppen aufgeteilt, die erste Gruppe wird durch das Modell trainiert, die zweite Gruppe wird durch das Modell nur vorhergesagt und bewertet.

Wie sieht das Ergebnis aus, wenn Sie dieselben Daten vorhersagen, auf denen das Programm trainiert wurde?
Und dann die Daten vorhersagen, auf denen es nicht trainiert wurde, und die Genauigkeit des Modells in beiden Fällen vergleichen.

Wenn es bei trainierten Daten eine Vorhersagegenauigkeit von 100 % hat, bei geschätzten Daten aber nur 50 %, dann ist das Modell zu übertrainiert, es ist schlecht.

 
Dr. Trader:

Es ist wichtig zu verstehen, wie die Ergebnisse in den Trainings- und Evaluierungsdatensätzen übereinstimmen. Ich sehe dort einen geteilten Datensatz, nach der Logik (vielleicht liege ich falsch) werden die Daten zufällig in zwei Gruppen aufgeteilt, die erste Gruppe wird durch das Modell trainiert, die zweite Gruppe wird durch das Modell nur vorhergesagt und bewertet.

Wie sieht das Ergebnis aus, wenn ich die gleichen Daten vorhersage, die für das Training verwendet wurden?
Anschließend werden die Daten, die nicht für das Training verwendet wurden, vorhergesagt und die Modellgenauigkeit in beiden Fällen verglichen.

Wenn es bei trainierten Daten eine Vorhersagegenauigkeit von 100 % hat, bei geschätzten Daten aber nur 50 %, dann ist das Modell zu übertrainiert, es ist schlecht.


Ich habe auch 50% der Vorhersagen gelernt. Ich habe das geteilte Datum entfernt und den gleichen Satz als Test vorgelegt.

Nun, erstens ist die Menge sehr groß, zweitens kennen wir die Art der Merkmale nicht und lineare Modelle wie Vektoren und Wald passen hier offensichtlich nicht, wir müssen ein komplexes Nicht-Gitter erstellen, vielleicht ist das der Grund. Ich bin mir immer noch nicht sicher, wie ich das neuronale Netz in diesem Studio modifizieren kann, um es komplexer zu machen, z.B. durch Faltung, um zu versuchen, Folgendes zu tun

Von diesem: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

Ich bin noch neu bei den Gittern ... )