Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 385

 
Maxim Dmitrievsky:


Tengo entendido que es un fondo de cobertura, si se inscribe, ¿qué hará?

Estoy corriendo con diferentes modelos, hasta ahora lo mismo que tu obtuvo 0.5

Bueno, 0,5 y 0,513 es diferente, por supuesto no tanto para el comercio, pero aún así. Se autodenominan hedge-funds, no sé cuál es su estructura legal, en Estados Unidos no existe ese tipo de organización formalmente, pero puedo estar equivocado. Si te registras puedes participar en la predicción del mercado con una semana de antelación, sobre dichos conjuntos de datos, alguien consigue recaudar >10k dólares con ello, pero personalmente conozco a los que sólo han ganado un par de cientos de libras)))
 
Aliosha:
Bueno, 0,5 y 0,513 es diferente, por supuesto no es mucho para el comercio, pero aún así. Se autodenominan hedge-fund, no sé cuál es su estructura legal, en Estados Unidos no existe ese tipo de organización formalmente, pero podría estar equivocado. Si te registras puedes participar en la predicción del mercado con una semana de antelación, sobre tales conjuntos de datos, alguien consigue recaudar >10k dólares con ello, pero personalmente conozco a los que sólo han ganado un par de cientos de libras)))


¿como funciona? lanzan el conjunto de datos, tengo que entrenar la red en él y luego que? creo que tiene un truco, hay que hacer una selección de características )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Выбор признаков в процессе обработки и анализа данных группы
Выбор признаков в процессе обработки и анализа данных группы
  • 2017.03.24
  • bradsev
  • docs.microsoft.com
В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
 
Maxim Dmitrievsky:


es decir, ¿cómo funciona? lanzan un conjunto de datos, tengo que entrenar la red en él y luego qué? creo que tiene un truco, tengo que hacer una selección de características )

https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features

Entra y lee los manillares, son de media página. Sólo tienes que descargar el conjunto, enseñarlo, ejecutarlo en uno de prueba y enviárselo, hay un ejemplo de cómo debería ser el resultado, así que los id's y los nombres de las columnas deberían ser como los suyos.
 
Aliosha:
Apúntate y lee los rollos, ahí hay media página. Sólo tienes que descargar el conjunto, aprenderlo, ejecutarlo en uno de prueba y enviárselo, hay un ejemplo de cómo debe ser el resultado, por lo que los id's y los nombres de las columnas deben ser como los suyos.

Sí, lo intentaré más tarde... en fin, este conjunto de datos no tiene remedio, no hay patrón )
 

Numerai ha cambiado las reglas un par de veces este año.

Solía ser sencillo y bueno: entrenar un modelo en una tabla de entrenamiento, comprobar el error en la tabla de prueba, enviarles predicciones, que extrapolen a su tabla de prueba oculta, contar el error en ella. Quien tenga menos errores en la tabla oculta, gana. Fue muy bueno y correcto que el error en el conjunto de datos de prueba coincidiera realmente con el de su conjunto de datos ocultos, para poder comprobar su modelo.

Entonces cambiaron algo, y el error en el conjunto de datos de prueba dejó de correlacionarse con el error en su conjunto de datos de comprobación oculto. Todos los líderes de la parte superior desapareció, sólo la gente al azar que tuvo la suerte de conseguir su modelo en su mesa de control oculto ganar. Imho el fracaso por parte de numerai, una basura al azar y no un concurso.

Entonces vieron que toda la gente adecuada se escapaba de su concurso al azar, se dieron cuenta de su error y cambiaron algo. Ahora las predicciones se evalúan según varios criterios. Lo que más me jode es el criterio de "singularidad", si alguien ha enviado resultados similares antes, el tuyo será rechazado como plagio. Es decir, si varias personas utilizan el mismo marco para crear un modelo, el que se haya levantado antes y haya enviado una predicción se llevará el dinero.
La precisión del modelo es ahora completamente inútil a la hora de calcular los beneficios. Puedes obtener el error 0, estar en el 1er lugar del top y no ganar nada, porque el top muestra el resultado sobre los datos de la prueba que se dan para descargar, el top ya no muestra el resultado de su tabla de comprobación oculta.
La actual iteración de su concurso es, en mi opinión, un disparate, no hay transparencia, todo está desordenado. A la espera de que vuelvan a cambiar algo en el concurso, espero que vuelva a ser adecuado.

 
Maxim Dmitrievsky:

Sí, lo intentaré más tarde... en fin este conjunto de datos no tiene remedio, no hay patrón)
Prueba esta tabla. Entrenar el modelo sólo en aquellas filas en las que data_type== "validación". Estos son los datos que se utilizan para evaluar el modelo y llegar a la cima. Si consigues un 100% de precisión, estarás en el primer puesto del top. Pero no recibirás un premio en metálico por semejante trampa.
Archivos adjuntos:
 
Dr. Trader:
Prueba esta tabla. Entrenar el modelo sólo en aquellas filas en las que data_type== "validación". Estos son los datos que se utilizan para evaluar el modelo y llegar a la cima. Si consigues un 100% de precisión, estarás en el primer puesto del top. Pero no te darán un premio en metálico por esta trampa.

Oh, genial, lo probaré mañana... genial para practicar )
 
Dr. Trader:
Prueba esta tabla. Entrenar el modelo sólo en aquellas filas en las que data_type== "validación". Estos son los datos que se utilizan para evaluar el modelo y llegar a la cima. Si consigues un 100% de precisión, estarás en el primer puesto del top. Pero no recibirás un premio en dinero por semejante trampa.


de nuevo 0,5



 

Es importante entender cómo coinciden los resultados de los conjuntos de datos de entrenamiento y de evaluación. Veo allí un conjunto de datos dividido, por lógica (tal vez me equivoque) los datos se dividen aleatoriamente en dos grupos, el primer grupo es entrenado por el modelo, el segundo grupo sólo es predicho y evaluado por el modelo.

¿Cuál será el resultado si predice los mismos datos con los que se ha entrenado?
Y luego predecir los datos en los que no se ha entrenado, y comparar la precisión del modelo en ambos casos.

Si en los datos entrenados predice con un 100% de precisión, y en los datos estimados - un 50% - entonces el modelo está demasiado sobreentrenado, eso es malo.

 
Dr. Trader:

Es importante entender cómo coinciden los resultados de los conjuntos de datos de entrenamiento y de evaluación. Veo allí un conjunto de datos dividido, por lógica (tal vez me equivoque) los datos se dividen aleatoriamente en dos grupos, el primer grupo es entrenado por el modelo, el segundo grupo sólo es predicho y evaluado por el modelo.

¿Cuál será el resultado si predigo los mismos datos que se utilizaron para el entrenamiento?
Y luego predecir los datos que no se utilizaron para el entrenamiento y comparar la precisión del modelo en ambos casos.

Si en los datos entrenados predice con una precisión del 100%, y en los datos estimados, del 50%, entonces el modelo está demasiado sobreentrenado, es malo.


Yo también he aprendido el 50% de las predicciones. He eliminado la fecha de división y he presentado el mismo conjunto como prueba.

Bueno, en primer lugar, el conjunto es muy grande, en segundo lugar, no sabemos la naturaleza de las características y los modelos lineales como los vectores y el bosque no encajan aquí, obviamente, tenemos que hacer un complejo no cuadriculado, tal vez esa es la razón. Todavía no estoy seguro de cómo modificar la red neuronal en este estudio para hacerla más compleja, por ejemplo la convolución para tratar de hacer

De este: https://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2

Todavía soy nuevo en las rejillas ... )