Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1325

 
Farkhat Guzairov:

Todo lo anterior es genial y muy informativo, pero "control de la formación", ¿qué significa eso?

Es decir, por ejemplo, entrenas el sistema con una muestra de datos de 2014 y luego das una muestra de 2015 y quieres ver la probabilidad de los patrones? Si es así, entonces no necesitas cambiar nada, todo está correcto. Sólo que no veo un problema aquí si el control da unos resultados diferentes a los esperados, siempre será así.

Utilizo CatBoost para el entrenamiento, existe la posibilidad de detener el entrenamiento en una muestra de control (validación), es decir, al mismo tiempo que se produce la reducción del error en una muestra de entrenamiento y comprobar inmediatamente en la muestra de control cómo ha cambiado el resultado en ella, si el resultado no mejora en la muestra de control un número determinado de árboles, entonces el entrenamiento se detiene y se cortan todos los árboles hasta la última mejora. Sí la cronología es así, entreno 2014 y control de entrenamiento de 2015 a 2018, comprobar resultado en 2018. Tal vez tenga sentido cambiar de lugar, porque los patrones detectados durante el entrenamiento pueden dejar de funcionar con el tiempo y puede ser mejor entrenar con datos más cercanos a la aplicación en la realidad; es una cuestión abierta.

 
Farkhat Guzairov:

Si la aplicación práctica de MO en su caso es la siguiente en mi opinión.

Dado que el 100% de probabilidad de resultados verdaderos simplemente no es realista, a continuación, ir a un método simple, por ejemplo, la relación de los resultados verdaderos y falsos, si se trata de 50/50, a continuación, de nuevo hay que entender lo que los beneficios que se obtiene con estos resultados, si el 50% de los beneficios es un promedio de 100 puntos y las pérdidas restantes 50% son en promedio 50 puntos, entonces creo que su sistema es adecuado para el uso práctico.

La exactitud de la clasificación en la tabla es la precisión métrica - alrededor del 60% (para los mejores modelos) obtener entradas correctas, en el Probador de Estrategias será mayor, porque algunas posiciones tienen que romper el equilibrio, pero no tomar ganancias.

Es demasiado pronto para solicitarlo, deberíamos prepararnos para la siguiente etapa: destripar los modelos en los herbarios :)

 
Aleksey Vyazmikin:

Utilizo CatBoost para el entrenamiento, hay una opción para detener el entrenamiento en la muestra de control (validación), es decir, en la reducción paralela del error en la muestra de entrenamiento e inmediatamente comprobar en la muestra de control cómo ha cambiado el resultado en ella, si el resultado no mejora en la muestra de control un número determinado de árboles, entonces el entrenamiento se detiene y todos los árboles hasta la última mejora se cortan. Sí la cronología es así - entreno 2014 y control de entrenamiento de 2015 a 2018, comprobar resultado en 2018. Tal vez tenga sentido intercambiar lugares, porque los patrones detectados durante el entrenamiento, todavía pueden dejar de funcionar en el tiempo, y puede ser mejor entrenar en los datos que están más cerca de la aplicación en la realidad - una pregunta abierta.

Lo que por ejemplo noté conmigo mismo. Cuantos más datos intervengan en el entrenamiento, más se "aprieta" el sistema, es decir. Por qué es así, la respuesta que diste es que durante algunos períodos un modelo da un resultado positivo, y el mismo modelo durante otro período da un resultado negativo, como resultado llevas al sistema a un estupor, se vuelve "apretado" como dije, tal vez más inteligente, pero no significa que el sistema inteligente dará resultados más verdaderos, me temo que los ratios seguirán siendo los mismos, sólo que el sistema te dirá su punto de vista sobre la situación actual con menos frecuencia.

 
Aleksey Vyazmikin:

Sobre el boosting - había una conferencia más reciente (en python con catbust como opción) con el mismo conferenciante - no puedo encontrar


Es interesante que GBM resuelva el problema de clasificación con árboles de regresión.

¿Alguien lo sabe? ¿Otros métodos de refuerzo (paquetes) hacen lo mismo?

 
Aleksey Vyazmikin:

¿Y qué conclusión se puede sacar? Parece que el volumen óptimo es el 60%-70% de la muestra de validación, es decir, el entrenamiento debe realizarse sobre una muestra más pequeña que la validación del modelo. Pero es imposible no destacar el desglose por el 30%, allí también el resultado por todos los indicadores no es malo, y los fallos bastante próximos al 40% y 50%. Ni siquiera sé qué afecta más al tamaño de la muestra o al contenido, y cómo configurarlo...

Si el 60-70% es bueno y el 30% es bueno, hay una probabilidad de alcanzar estos números accidentalmente.
Puedes intentar repetir los cálculos completamente, y si es igual la segunda vez, puedes considerarlo una regularidad. (Debe repetirse 10 veces para obtener una mayor significación estadística).
 
Farkhat Guzairov:

Lo que he notado conmigo mismo, por ejemplo. Cuantos más datos intervengan en el entrenamiento, más se "aprieta" el sistema, es decir. Por eso genera menos probabilidad de resultados, por qué es así, la respuesta es que durante ciertos periodos algunos modelos muestran resultados positivos y los mismos modelos muestran resultados negativos en otro periodo, como resultado el sistema entra en sopor y como dije se pone "apretado", pero no significa que el sistema inteligente producirá más resultados verdaderos, me temo que la proporción sigue siendo la misma, pero el sistema te dirá su opinión sobre la situación actual con menos frecuencia.

Creo que es mejor tener menos señales en el comercio, más precisas, y los modelos se pueden combinar en conjuntos independientes, entonces la precisión de la clasificación será alta y la integridad aumentará (el número de eventos que se califican como 1). Lo principal es acostumbrarse de alguna manera a generar modelos excelentes, de nuevo, alternativamente, mediante un desglose de muestreo diferente.

 
elibrarius:

Curiosamente, GBM resuelve el problema de clasificación con árboles de regresión.

¿Alguien lo sabe? ¿Otros métodos de refuerzo (paquetes) hacen lo mismo?

Haciendo lo mismo por lo que sé (mencionado en varios sitios). No hay otra manera debido a la peculiaridad de la propia formación. Por eso he dicho antes que la secuencia de los árboles creo que puede afectar a su peso en la respuesta, y eso es lo que hace razonable considerar conjuntos de hojas y convertirlos en una única regla.

 
elibrarius:
Si el 60-70% es bueno y el 30% es bueno, entonces existe la posibilidad de alcanzar accidentalmente estas cifras.
Puedes intentar repetir los cálculos completamente, y si es igual la segunda vez, puedes considerarlo un patrón. (Debe repetirse 10 veces para obtener una mayor significación estadística).

¿Cómo lo haces de nuevo? Es decir, será lo mismo, ya que la semilla es fija, se puede tomar una nueva semilla - Voy a probar más tarde y ver lo que sucede.

Por otra parte, se utilizaron 200 modelos por muestra, lo que tampoco es poco.
 
no se pueden extraer conclusiones de un estudio de este tipo en un mercado no estacionario
 
Maxim Dmitrievsky:
no se pueden extraer conclusiones de un estudio de este tipo en un mercado no estacionario

La muestra es estacionaria, el desglose para la formación ha cambiado, pero para la evaluación independiente sigue siendo el mismo.

Por favor, amplíe su punto de vista.