Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2382

 
Evgeni Gavrilovi:

¿al azar? es decir, como se indica aquí? prueba en una muestra aleatoria del 50%

sí, puede leerlo en la documentación de sklearn

probado lo mismo (como en el video) en la versión de temporada... no parece mejorar mucho nada

 
elibrarius:

Está hablando de algún tipo de validación cruzada estándar/antigua.
En primer lugar, no hay que barajar las líneas, sino tomarlas en bloques, ya que hay 0-90 de formación 90-100 de prueba, luego 10-100 de formación, 0-10 de prueba, luego 20-100-10 de formación 10-20 de prueba y así sucesivamente.
En segundo lugar, siguiendo el consejo de Prado, hay que dejar algo de espacio (poda) entre el tren y la prueba, para evitar que las muestras adyacentes del tren y de la prueba entren en funcionamiento. El ejemplo del tren adyacente a los 10-100 ejemplos de la prueba será su pista/búsqueda. Lea más aquí https://dou.ua/lenta/articles/ml-vs-financial-math/
O aquí hay una foto:

Puedes hacer el 20% o la cantidad que quieras.

Y, por último, en lugar de la validación cruzada, se puede aplicar un avance de rodillo. Que no toma la parcela de prueba alrededor del círculo, sino sólo el frente.

Todo lo que dices aquí ya lo he utilizado en mis experimentos.

El objetivo de estos trucos, al dividir la muestra en trozos, es encontrar el trozo en el que el patrón inherente a toda la muestra es menos ruidoso. Cuanto menos ruido/más pronunciadas sean las reglas que contribuyen a la clasificación, mejor será el modelo. Sí, este método tiene derecho a la vida, pero es bueno utilizarlo cuando se sabe que hay más predictores asociados al objetivo, los más aleatorios, y cuando el tamaño de la muestra es lo suficientemente grande como para dar cabida a tantas combinaciones de predictores como sea posible, y cuantos más predictores más grande tiene que ser la muestra. El tamaño de mi muestra rara vez supera las 20k líneas (100%) y los predictores son más de 2k y obviamente todas las combinaciones no caben en la propia muestra y no serán tenidas en cuenta por el modelo, por lo que siempre habrá un Recall de no más de +-50%.

Así que mi método de binarización se basa en un enfoque diferente - cada cuanto de la rejilla de predicción se evalúa para la estabilidad en el tiempo y la predisposición al objetivo, a continuación, los cuantos de predicción seleccionados se combinan en un predictor binario, despejando así de los cuantos de predicción ruidosos / desdoblamientos, la mayoría de los predictores simplemente no pasan la selección. Basándonos en los resultados de la selección, este muestreo de binarización ya está construido, como resultado tenemos un comportamiento similar de los predictores en todos los sitios de entrenamiento, lo que debería ayudar a la estabilidad del modelo en caso de ocurrencia de eventos similares, que también estaban en la historia.

 
Aleksey Vyazmikin:

Todo lo que dices aquí ya lo uso en mis experimentos.

El objetivo de estos trucos, al dividir la muestra en trozos, es encontrar el trozo en el que el patrón inherente a toda la muestra es menos ruidoso.

No - encontrar los promedios del modelo (error, etc.) en todos los trozos de prueba. O la suma de los saldos.

La validación cruzada está bien para usted si es aceptable utilizar las primeras filas como prueba.
Caminar hacia adelante probablemente ya no sea. 20000 filas es difícil de dividir en muchos trozos para hacer pruebas con antelación.

Su esquema es atípico, así que no hay muchos consejos)
 
elibrarius:

No - encontrar los promedios del modelo (error, etc.) sobre todas las piezas de prueba. O la suma de los saldos.

Por lo tanto, lo que haría que esto suceda y hay que identificar la parcela donde las relaciones prevalecen, que será robusto en el futuro, predictores significativos y el objetivo.

elibrarius:

La validación cruzada le convendrá si es aceptable utilizar las primeras líneas como prueba.

Caminando hacia adelante, tal vez ya no. 20000 líneas son difíciles de dividir en muchos trozos para hacer pruebas con antelación.

Tienes un esquema atípico, así que no hay muchos consejos)

El uso de cuerdas tempranas es inaceptable por la razón de que se utilizó para evaluar los cuantos- al 60% de la muestra. Aquí todo el procedimiento de evaluación para hacer por trozos individuales - pero ¿cuál es el punto de que - a nivel mundial no hay.

Método Lasso mostró mejores resultados, CatBoost - Ciertamente voy a comparar en otras muestras más tarde, pero al parecer permite generalizar en gran medida los predictores binarios descargados, donde las unidades 10-20%. Pero la cuestión es cómo hacer que funcione para la extracción de ingresos.

 
Aleksey Vyazmikin:

No se produjo ninguna mejora al reducir la regularización L2. Así que Lasso resulta mejor.

Es mejor... los dos son malos, y hay un par de porcentajes de diferencia.

 
Maxim Dmitrievsky:

cómo es mejor... lo que hay es malo, y hay una diferencia de un par de

Un 4% de precisión es mucho en términos monetarios: ¡aumentará su rentabilidad y sus expectativas!

 
Quién tiene el eur 5 min para 10 años por favor envíe un txt o csv.
 
Dibujé previsiones de redes neuronales en el navegador. Tengo indicadores + trató de indicar los puntos de entrada.
El enlace está en mi perfil.
 
mytarmailS:
¿Quién tiene el eur 5min en 10 años por favor envíeme un txt o csv.

¿No puedes descargar el terminal?

Archivos adjuntos:
 
Maxim Dmitrievsky:

¿No puedes descargar el terminal?

Las pruebas en la M5 cotizan por 10 años ... Hay que ocultarles el terminal antes de que causen problemas al presupuesto familiar.