Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2586

 
mytarmailS #:

))))

Estoy fuera)

Te daré una pista: en términos de generalización, nada cambia
 
Maxim Dmitrievsky #:
Logloss muestra la cantidad de información mutua entre los rasgos y el objetivo, por lo que entiendo. Esta es la f-i más objetiva, sin describir la forma de dependencia. El modelo se entrena para minimizar la pérdida de dicha información, especialmente el boosting funciona así. Lo que se añade encima de la costumbre uno se detendrá en la formación.

Parece que el logloss se deriva basándose en el principio de máxima verosimilitud para una distribución binomial. En matstat, el principio de máxima verosimilitud se extiende y se generaliza como estimaciones M, lo que puede suponer cierta justificación teórica para los experimentos (pero no una garantía de su éxito, por supuesto).

 
Aleksey Nikolayev #:

Al igual que el logloss se deriva del principio de máxima verosimilitud para una distribución binomial. En el matstat se extiende el principio de máxima probabilidad y se generaliza como estimaciones M, lo que puede ser una cierta justificación teórica para los experimentos (pero no una garantía de su éxito, por supuesto).

Probablemente se confunde con la entropía cruzada, pero se utiliza más a menudo para la multiclase. En cualquier caso, no veo el problema de hacer una estimación adicional a través de cualquier función f, sino puramente desde el gráfico de equilibrio
 
Maxim Dmitrievsky #:
Se confunde con la entropía cruzada probablemente, pero se utiliza más a menudo para la multiclase.

Parece ser que el valor teórico de la mínima pérdida logarítmica coincide con la entropía.

Maxim Dmitrievsky #:
De todos modos, no veo un problema para hacer una estimación adicional a través de cualquier función f, pero puramente de la gráfica de equilibrio

Supongo que sí. Sólo se confunde por la falta de un gran número de artículos sobre el tema) Probablemente teme revelar lugares sospechosos)

 
Aleksey Nikolayev #:

Parece que hay algo ahí que el valor teórico del mínimo de logloss coincide con la entropía.

Supongo que sí. Sólo la falta de un gran número de artículos sobre el tema perturba) Probablemente, tienen miedo de revelar lugares sospechosos)

Prado tiene muchos artículos interesantes sobre el tema. Lo he guardado en un cajón largo, pero me encantaría leerlo más tarde. Uno de los autores más sensatos )
 
Maxim Dmitrievsky #:
Prado tiene un montón de cosas interesantes sobre este tema, sus artículos están en el sitio web. Lo puse en un cajón largo, pero me gustaría leerlo más tarde. Uno de los autores más sensatos).

Sí, debería echar un vistazo a sus artículos. Sin embargo, tiene bastantes)

En cuanto a tu idea de combinar métricas estándar y personalizadas me acordé de una idea con un árbol, donde se construye por entropía cruzada y se poda por frecuencia de errores. Supongo que podrías intentar utilizar tu propia métrica en lugar de la frecuencia.

 
Renat Fatkhullin #:
¿Puede compartir la información?
1) ¿Utiliza la biblioteca python de MT5?
2) ¿Lo utilizas fuera o dentro de MT5?
3) ¿Qué características le faltan a la biblioteca? ¿Acceso a los indicadores?

Estamos preparando una actualización de MQL5 que añade operaciones matriciales rápidas. Esto permitirá realizar cálculos masivos.

Además, desarrollaremos conectores con paquetes analíticos e implementaremos la integración estándar de WinML.

1. A veces.

2. Por dentro, por fuera.

3.

3.1 Suscripción de eventos. Los mismos eventos que en MQL5 activados por ciertos métodos manejadores.

La posibilidad de escribir estrategias en Python (como un tipo de aplicación) que pueden ser probadas en el backtester.

Algún mecanismo de interacción MQL5-Python ya hecho. Python puede interactuar con mt5 en ambas direcciones, MQL5 puede interactuar con él en ambas direcciones, MQL5 es una unidad con el terminal y es muy bueno en

con funciones de comercio y similares, pero no sabe cómo trabajar cómodamente con las mejores soluciones de datos de la industria. Python es el estándar de la industria en el sentido de los datos: pandas, numpy, TensorFlow, Keras, PyTorch, etc., pero la integración del "comerciante" en la plataforma es mucho menor. Sería genial tener medios estándar de integración de estas dos potencias - algo así como que cuelgas un script de Python en mt5, y el script tiene un modelo en espera, bajo vapor, o un grupo de modelos, funciones que se ocupan de los datos de preprocesamiento, etc. El script tiene la aplicación y estrategia MQL5, que hace su trabajo, y llama a la funcionalidad ML desde este script cuando es necesario - rápidamente y sin muletas.

 

¿Alguien utiliza el paquete P para el backtest de la estrategia Quantstrat?

¿Cómo es en términos de velocidad?

 
Aleksey Nikolayev #:

Sinceramente, no entiendo mucho. La cuestión es si la probabilidad cambia con el tiempo. Para estudiarlo, basta con construir una regresión logística sobre el tiempo (y comprobar la significación de la diferencia entre el coeficiente y el cero).

Si además del tiempo se estudian otros factores que afectan a la probabilidad, también se puede intentar añadirlos a la regresión logística.

elibrarius #:

O quizá sea más fácil hacer otro predictor: la distancia de la línea de datos con respecto a la actual. El propio Forest puede calcular que los datos de más de 8 meses son malos para la previsión actual. Y habría una división simple: antes de los 8 meses (con mejores hojas) y después de los 8 meses con peores hojas.
Bueno en la bandeja todos aprenden bien por supuesto. En la prueba/validación cruzada deberíamos comprobarlo. ¿Pero cómo? No está claro. Ni siquiera se trata de la importancia del predictor, sino de la importancia de la división.

Hoy he añadido un predictor de distancia de la barra actual. Puede ser un número o simplemente una hora. Me tomé el tiempo.

Experimentalmente se escogió que la longitud de la historia para el conjunto de datos de entrenamiento de 1 mes, da el mejor avance.

La suposición de que añadir un predictor de distancia desde la primera línea de datos ayudaría era errónea. En la práctica, el delantero sólo ha empeorado con 1 mes de datos, y con 2, y con 10.

Supongamos que tienes 2 meses de datos, el árbol ha encontrado la división de 1 mes y una de sus ramas se ha entrenado con los mismos datos que la longitud elegida experimentalmente de 1 mes. El otro mes también se entrenó con sus propios datos. Y aprendió bien, no está mal (como sugerí al principio). Será malo para el delantero, y sólo aprenderá en la bandeja. Como resultado, el modelo promedia los resultados de ambos meses y el avance es peor que si se entrenó sólo para un mes.

Conclusión: No se puede aplicar la hora global o el número de línea. Las variantes horarias cíclicas: día de la semana, hora, minuto son útiles, pero debemos comprobarlas.
Para cada objetivo (y/o conjunto de predictores) habrá que ajustar/optimizar la duración del historial para el entrenamiento.

 

Comprobado "Las opciones de tiempo cíclico: el día de la semana, la hora y el número de minutos pueden ser útiles - hay que comprobarlo".

Los minutos no tienen casi ningún efecto, los cambios de no más del 0,5%
Las horas y los días de la semana tienen un efecto. Cambios de alrededor del 3-5%.

Construyo 2 modelos al mismo tiempo: 1 para comprar, 2 para vender.
Los modelos de compra funcionan mejor sin tiempo en un 4-5% y los de venta funcionan mejor con tiempo en el mismo 4-5%. Al igual que el 5% vende en el horario y compra en otros principios.