Investigación en paquetes matriciales - página 8

 
Alexey Volchanskiy:
Una pregunta relacionada con esto para todos los participantes en el debate. ¿Trabaja con datos de garrapatas? Hace tiempo que me alejé del análisis de barras, trabajando exclusivamente con métodos DSP
Utilizo las ofertas de la barra M1 con los ascensos, así como el nivel 2.
 
zaskok3:
Utilizo las ofertas de la barra M1 con las peticiones, así como el nivel 2.
¿Está L2 en MT5?
 
Vladimir Perervenko:

El artículo al que se refiere es sobre la regresión. Se trata de una clasificación. Esas son dos grandes diferencias...

Sigo sin entender su pregunta.

Buena suerte

Aquí, no importa la regresión o la clasificación. De todos modos. Es un artículo específicamente sobre la regresión.

Sólo para aclarar: ¿tienes ejemplos para el entrenamiento con qué paso se toman, una barra (es decir, las entradas de cada fila de la matriz de datos) o n barras, de modo que hay un desfase entre las filas?

No estoy siendo un pardillo, y desde luego no quiero desacreditar tu trabajo (tus artículos me ayudan).

Permítanme explicar mi punto de vista con un ejemplo práctico, sin arrancar citas de estudios estadísticos:

en un árbol de decisión tendrá, digamos, m nodos terminales. Cada nodo contendrá casos similares en los vectores de entrada - un subespacio de valores de entrada. Por lo tanto, si tenemos ejemplos consecutivos desplazados de barra utilizando entradas que miran hacia atrás unas cuantas barras (en el peor de los casos, también cientos de barras), habrá una autocorrelación brillante entre los puntos adyacentes, pero al mismo tiempo, dado que predecimos el futuro unas cuantas barras por delante (en el peor de los casos, también cientos de barras), las salidas adyacentes también serán iguales. Por ejemplo, la columna de salidas estará formada por las secuencias 0 0 0 0 0 00 0 1 1 1 1. Así, decenas de salidas idénticas caerán en nuestros nodos terminales, referidas a entradas adyacentes -similares-. Se podría decir que habrá una redundancia de ejemplos idénticos agrupados por puntos de tiempo, lo que sesgará la distribución de las respuestas de la manera más rotunda. Por eso hay una recomendación popular de no mantener más de una posición en el mercado, porque el efecto de dependencia de las entradas y salidas vecinas también está presente cuando se entrena un EA en el terminal.

En este caso, habrá un duro reciclaje, o más bien la formación de estadísticas de observaciones no dependientes. Es decir, lo más desagradable que se puede obtener al analizar series temporales es la dependencia de vectores de datos vecinos. Si los vectores de datos están alejados en el tiempo, no pasa nada. En este caso, el aprendizaje automático se reduce a encontrar patrones que sean invariables con respecto al tiempo.

Y luego, refiriéndose a la matriz de error que pones como ejemplo en el artículo:

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958
Test set
Error rate: 19.97%

Confusion matrix:
          Reference
Prediction  -1   1 class.error
        -1 541 145      0.2114
        1  119 517      0.1871

Sólo puedo decir que es fantástico. ) El experimento se ha realizado por error. Nunca se puede conseguir una matriz de error tan pronunciada en una muestra con ejemplos independientes, y al mismo tiempo separar estrictamente el conjunto de datos de prueba del conjunto de datos de entrenamiento por el tiempo (sesgo de anticipación).

Y el hecho de que la matriz de error en el conjunto de pruebas sea también fantástica sugiere que se tomó una muestra mezclada con la muestra de entrenamiento por el tiempo, en la que también se produce un sesgo de anticipación. En otras palabras, este resultado concreto no dice nada sobre la capacidad del modelo construido para predecir el mercado.

Puede intentar tomar un poco más de datos y probarlos utilizando la lógica tail(all_data, 1/3) y ver cómo se alinea el número de observaciones en las celdas de la matriz. Incluso se podría aplicar el criterio de chi-cuadrado para ver si la adivinación se ha vuelto casi aleatoria.

Todo lo que quería transmitirte, he tratado de hacerlo. Nota, con buenas intenciones)

Buena suerte. Alexey

 
Alexey Volchanskiy:
¿L2 está en MT5?
MT4. El código fuente ha estado flotando en el foro...
 
zaskok3:
MT4. El código fuente se filtró en el foro...

Amigos y colegas, tengo una pregunta.

¿Cómo se puede formular un algoritmo basado en datos comerciales publicados?

 
Alexey Volchanskiy:

Amigos y colegas, tengo una pregunta.

¿Cómo se puede formular un algoritmo basado en datos comerciales publicados?

Sé que lo escribí mal - formular, de la palabra fórmula)
 
Alexey Volchanskiy:

¿Cómo se puede formular un algoritmo basado en datos comerciales publicados?

Si quieres rediseñar la ST en función del estado, entonces utiliza el aprendizaje automático:

Toma un montón de valores de indicadores en la entrada, la salida del estado. Ajuste mediante modelos matemáticos.

No me ocupé de esas tonterías.

 
Alexey Volchanskiy:
Por cierto, tengo una pregunta para todos los participantes en el debate. ¿Trabaja con datos de garrapatas? Hace tiempo que me alejé del análisis de barras y trabajo exclusivamente con métodos DSP

El uso del DSP es muy cuestionable.

Para los datos de ticks, las ideas de cointegración son más adecuadas.

 
Alexey Burnakov:
Aquí, no importa la regresión o la clasificación. De todos modos. Este es un artículo específico sobre la regresión.

Sólo para aclarar: ¿tiene ejemplos para el entrenamiento con los que se dan pasos, una barra (es decir, las entradas de cada fila de la matriz de datos) o n barras, para que haya un intervalo de tiempo entre las filas?

No estoy siendo un pardillo, y desde luego no quiero desacreditar tu trabajo (tus artículos me ayudan).

Permítanme explicar mi punto de vista con un ejemplo práctico, sin arrancar citas de estudios estadísticos:

en un árbol de decisión tendrás, digamos, m nodos terminales. Cada nodo contendrá casos similares en los vectores de entrada - un subespacio de valores de entrada. Por lo tanto, si tenemos ejemplos consecutivos desplazados de barra utilizando entradas que miran hacia atrás unas cuantas barras (en el peor de los casos, también cientos de barras), habrá una autocorrelación brillante entre los puntos cercanos, pero como estamos prediciendo el futuro varias barras por delante (en el peor de los casos, también cientos de barras), las salidas cercanas serán las mismas. Por ejemplo, la columna de salidas estará formada por las secuencias 0 0 0 0 0 00 0 1 1 1 1. Así, decenas de salidas idénticas caerán en nuestros nodos terminales, referidas a entradas adyacentes -similares-. Se podría decir que habrá una redundancia de ejemplos idénticos agrupados por puntos de tiempo, lo que sesgará la distribución de las respuestas de la manera más rotunda. Por eso hay una recomendación popular de no mantener más de una posición en el mercado, porque el efecto de la dependencia de las entradas y salidas vecinas en el terminal también está presente cuando se entrena un EA en el terminal.

En este caso, habrá un duro reciclaje, o más bien la formación de estadísticas de observaciones no dependientes. Es decir, lo más desagradable que se puede obtener al analizar series temporales es la dependencia de vectores de datos vecinos. Si los vectores de datos están alejados en el tiempo, no pasa nada. En este caso, el aprendizaje automático se reduce a encontrar patrones que sean invariables con respecto al tiempo.

Y luego, refiriéndose a la matriz de error que pones como ejemplo en el artículo:

Sólo puedo decir que es fantástico. ) El experimento se ha realizado por error. Nunca se puede conseguir una matriz de error tan pronunciada en una muestra con ejemplos independientes, y al mismo tiempo separar estrictamente el conjunto de datos de prueba del conjunto de datos de entrenamiento por el tiempo (sesgo de anticipación).

Y el hecho de que la matriz de error en el conjunto de pruebas sea también fantástica sugiere que se tomó una muestra mezclada con la muestra de entrenamiento por el tiempo, en la que también se "amontonan" ejemplos similares. En otras palabras, este resultado concreto no dice nada sobre la capacidad del modelo construido para predecir el mercado.

Puede intentar tomar un poco más de datos y probarlos utilizando la lógica tail(all_data, 1/3) y ver cómo se alinea el número de observaciones en las celdas de la matriz. Incluso se podría aplicar el criterio de chi-cuadrado para ver si la adivinación se ha vuelto casi aleatoria.

Todo lo que quería transmitirte, he tratado de hacerlo. Nota, con buenas intenciones)

Buena suerte. Alexey

Perdón por entrometerme pero parece que es una discusión pública.

Tu post me parece una mezcla de varios problemas relacionados pero diferentes.

1. ¿Qué se le enseña al modelo? ¿Tendencias? ¿Desglose de niveles? ¿Una desviación de algo? Parece muy sencillo seleccionar al profesor del modelo, pero en la práctica plantea ciertas dificultades. De todos modos, debemos preparar el maestro (el vector según el cual se entrena el modelo) de forma muy específica para nuestra idea de trading, por ejemplo, "comercio tendencias".

2. ¿Sobre qué enseña? En tu post mencionas la presencia de dependencia entre barras adyacentes. Sí, hay modelos de madera (CORELearn) que tienen en cuenta las dependencias entre barras adyacentes, pero el problema que planteas es mucho más amplio y desagradable y tiene poco que ver con el modelo utilizado. Es el reentrenamiento del modelo. A mi modo de ver, hay conjuntos de datos que SIEMPRE producen modelos sobreentrenados. Y ninguna cantidad de técnicas para eliminar el sobreentrenamiento ayuda aquí.

Existen conjuntos de datos de entrada (conjuntos de predictores) entre los que hay predictores que pueden utilizarse para construir modelos que NO están sobreentrenados. Pero el resto de los predictores generan tanto ruido que estos predictores de ruido no pueden ser filtrados por los paquetes de selección de predictores existentes.

Por lo tanto, es obligatoria una selección manual de predictores basada en el criterio "parece ser relevante para nuestro profesor, la variable objetivo".

PS.

Es curioso decirlo, pero cuando se negocia con tendencias cualquier predictor obtenido por suavización, en particular MA, es extremadamente ruidoso y los modelos están siempre sobreentrenados. Y cuando se entrena con muestras OOV, ¡también se puede obtener un error del 5%!

 
Alexey Burnakov:
Aquí, no importa la regresión o la clasificación. De todos modos. Es un artículo específicamente sobre la regresión.

Sólo para aclarar: Usted tiene ejemplos para la formación, con lo que el paso se toman, una barra (es decir, las entradas de cada fila de la matriz de datos) o n bares, por lo que hubo un lapso de tiempo entre las filas?

El conjunto de datos inicial es una matriz o marco de datos que contiene las entradas y el objetivo. Cuando se divide (estratifica) en conjuntos de entrenamiento y de prueba, los ejemplos se barajan aleatoriamente, pero la distribución de las clases en los conjuntos se mantiene igual que en el conjunto original. Por lo tanto, no es posible decir en qué tono se toman los ejemplos. Obviamente estás confundiendo la transformación de vector a matriz, donde se puede hablar de desfase.

No estoy siendo un pardillo y desde luego no quiero desacreditar tu trabajo (tus artículos me ayudan).

Sí, estoy lejos de pensar así. Pero realmente no puedo entender la pregunta.

Permítanme explicar mi pensamiento con un ejemplo práctico, sin sacar citas de estudios estadísticos:

en un árbol de decisión tendrás, digamos, m nodos terminales. Cada nodo contendrá casos similares en los vectores de entrada - un subespacio de valores de entrada. Por lo tanto, si tenemos ejemplos consecutivos desplazados de barra utilizando entradas que miran hacia atrás unas cuantas barras (en el peor de los casos, también cientos de barras), habrá una autocorrelación brillante entre los puntos adyacentes, pero al mismo tiempo, dado que predecimos el futuro unas cuantas barras por delante (en el peor de los casos, también cientos de barras), las salidas adyacentes también serán iguales. Por ejemplo, la columna de salidas estará formada por las secuencias 0 0 0 0 0 00 0 1 1 1 1. Así, decenas de salidas idénticas caerán en nuestros nodos terminales, referidas a entradas adyacentes -similares-. Se podría decir que habrá una redundancia de ejemplos idénticos agrupados por puntos temporales, lo que sesgará la distribución de las respuestas de la manera más rotunda. Por eso hay una recomendación popular de no mantener más de una posición en el mercado, porque el efecto de dependencia de las entradas y salidas vecinas también está presente cuando se entrena un EA en el terminal.

En este caso, habrá un duro reajuste, o más bien la formación de estadísticas de observaciones no dependientes. Es decir, lo más desagradable que se puede obtener al analizar series temporales es la dependencia de vectores de datos vecinos. Si los vectores de datos están alejados en el tiempo, no pasa nada. En este caso, el aprendizaje automático se reduce a encontrar patrones que sean invariables con respecto al tiempo.

Y luego, refiriéndose a la matriz de error que pones como ejemplo en el artículo:

Sólo puedo decir que es fantástico. ) El experimento se ha realizado por error. Nunca se puede conseguir una matriz de error tan pronunciada en una muestra con ejemplos independientes, y al mismo tiempo separar estrictamente el conjunto de datos de prueba del conjunto de datos de entrenamiento por el tiempo (sesgo de anticipación).

Y el hecho de que la matriz de error en el conjunto de pruebas sea también fantástica sugiere que se tomó una muestra mezclada con la muestra de entrenamiento por el tiempo, en la que también se "amontonan" ejemplos similares. En otras palabras, este resultado concreto no dice nada sobre la capacidad del modelo construido para predecir el mercado.

Puede intentar tomar un poco más de datos y probarlos utilizando la lógica tail(all_data, 1/3) y ver cómo se alinea el número de observaciones en las celdas de la matriz. Incluso se podría aplicar el criterio de chi-cuadrado para ver si la adivinación se ha vuelto casi aleatoria.

Así que pondrás un ejemplo para explicarlo en tus dedos. . ¿O crees que no he hecho esas pruebas?

Todo lo que quería transmitirte, he tratado de hacerlo. Aviso, con buenas intenciones )

Realmente quiero entender lo que está tratando de transmitir. Con un ejemplo, creo que quedaría más claro.

Cuando te digan que has cometido unerror al hacer el experimento, tienes que decirles cuál es el error y decirles la solución correcta. Tienes el paquete, los ejemplos, describe cómo crees que se debe realizar el cálculo.

No te ofendas.

Buena suerte