Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 170

 
Alexey Burnakov:

Una vez más, también tengo docenas de modelos, también falseo los predictores y los parámetros. ¡Y estos modelos van a un sólido beneficio durante un período de 8 años cada uno! Y ese es el período de prueba. Pero cuando los "mejores" modelos seleccionados por la prueba se prueban mediante un muestreo diferido, hay sorpresas. Y esto se llama - Validación cruzada del ajuste del modelo.

Por ejemplo, usted hizo una validación en una muestra diferida. Supongamos que el modelo de los datos diferidos se ha fusionado. ¿Qué hacer en este caso? Si empieza a ajustar los parámetros de nuevo para pasar la validación en la muestra pendiente, esencialmente está incluyendo los datos de la muestra pendiente en su validación cruzada, y la validación cruzada se ajusta también. Esto puede corregirse añadiendo una nueva muestra diferida. ¿Y si el modelo falla también en eso? ¿Debemos ajustar los parámetros para pasar también el nuevo muestreo retrasado? Es una carrera sin fin.

Incluir una muestra diferida en la validación cruzada y crear una nueva muestra diferida no es la respuesta, sino un bucle interminable hasta que tengas suerte y el modelo pase la validación diferida. Entonces puedes dejar de hacerlo, pero esto no es una solución de forex, es sólo la suerte que te sonríe, que sin embargo estadísticamente sería una sangría.

Así que la pregunta es: digamos que el modelo de los datos pendientes ha caído en picado. ¿Qué se hace en este caso?

 
Dr.Trader:

Entonces la pregunta es: digamos que el modelo de los datos pendientes se ha fusionado. ¿Qué se hace en ese caso?

Pensé que esa pregunta era demasiado personal :)

Mejor aún: si su modelo no supera la prueba en la muestra pendiente, ¿incluye la muestra pendiente en la validación cruzada y crea una nueva muestra pendiente? ¿O lo haces de forma diferente?


Yo, por ejemplo, me baso en lo que San Sanych ha repetido ya 1000 veces: hay que evaluar la calidad de los predictores. "Calidad" es un término elástico. Yo, por ejemplo, lo hago a través de esa validación cruzada y es más bien una selección de predictores que de parámetros del modelo. Si el modelo durante el entrenamiento encuentra las mismas dependencias en los datos en cualquier área - esto es un fuerte argumento de que los predictores están bien.
No me gusta en mi enfoque que tenga que negociar el conjunto. Si las dependencias son constantes, basta con entrenar un modelo sobre los predictores seleccionados al final y volverá a encontrar las mismas dependencias y podrá intercambiarse. Pero me falta algo en la selección de predictores, un modelo falla.

 
Dr.Trader: calidad de los predictores....
Del ejemplo primitivo se deduce que las propiedades del objetivo son tan importantes...
 
Incluso voy a ir más allá. La función objetivo es un punto MUY importante cuando se construye un modelo, porque es la función objetivo la que ayudará al algoritmo a dividir. Me enfrenté a este problema muchas veces pero no lo he resuelto todavía, así que dejé el valor objetivo de 50 pips. Justo por encima de la extensión...
 
Alexey Burnakov:

Una vez más, tengo docenas de modelos también, también estoy jugando con los predictores y los parámetros. ¡Y estos modelos van en sólido plus durante un periodo de 8 años cada uno! Y ese es el período de prueba. Pero cuando los "mejores" modelos seleccionados por la prueba se prueban mediante un muestreo diferido, hay sorpresas. Y esto se llama - Validación cruzada del ajuste del modelo.

Cuando esto está claro, la experimentación pura continúa. Si no está claro, verás que la calidad disminuye en varias ocasiones en el mundo real. Que es lo que se ve el 99% de las veces.

Todo esto ocurre porque el mercado va en contra de sus propias estadísticas con mucha frecuencia...

1) Primero te mostraré por qué lo pienso y lo pruebo.

2) Luego explicaré por qué sucede, la mecánica del proceso

Dame un par de horas...

No voy a dar ninguna solución preparada, porque yo mismo no la tengo, pero la propia comprensión del proceso es algo...

1)

==================================================================

Lo primero que hice fue entrenar dos redes profundas con salidas probabilísticas, de hecho, cualquier red servirá, lo principal es que la salida de la red no sea una respuesta de clase clara - "1", "0" Es decir, la salida será, por ejemplo, "0,13" y significará que los datos actuales pertenecen a la clase "1" con una probabilidad del "0,13%".

Una red que he formado exclusivamente para la compra, la otra exclusivamente para la venta.

La señal (libra objetivo) para la venta es el punto a partir del cual se produjo una caída de al menos el 0 ,2% del precio,


й

El objetivo se parece a "000000000010000000000" donde "1" es una inversión bajista y "0" no.

Para una inversión al alza todo es igual, respectivamente ...

Seutilizaron como predictores todos los precios de las tres últimas velas OHLC y se construyeron todas las combinaciones posibles de las diferencias entre ellas

Entonces, las redes están entrenadas, tomamos las predicciones de la red (sus salidas) y dibujamos gráficos debajo del precio. Los gráficos de abajo muestran las salidas de dos redes tanto para la compra como para la venta. La salida de la red, por ejemplo, indica la probabilidad de la reversión a la baja en la siguiente vela. Ver FIG. 1, lo mismo para el Buy.

El verde indica una salida para comprar, y el rojo una salida para vender.

ф

Si se observa con atención la FIG. 2 puedes notar que el gráfico de precios va en contra de estas probabilidades, cuando la probabilidad de reversión hacia arriba es mayor que la probabilidad de reversión hacia abajo (el gráfico verde es mayor que el rojo) el precio siempre cae, aunque en realidad le enseñamos a la red lo contrario, tratemos de presentar los datos de una manera más demostrativa. Para empezar, construyamos sumas acumuladas de salidas de compra y venta

Suma de suma (compra.neural); Suma de suma (venta.neural)

я

fig. 3

Y ahora vamos a construir la diferencia entre la suma acumulada de la red de compra y la suma acumulada de la red de venta

Suma de suma (compra.neural)- Suma de suma (venta.neural)


ц

Como puede verse en la FIG. 4 del gráfico azul y del gráfico de precios, el precio está totalmente correlacionado de forma inversa con las previsiones de la red (gráfico azul). Para hacerlo aún más claro, voy a invertir el signo del gráfico azul.

Suma de la compra (neural)- Suma de la venta (neural)/ -1

к

Mirando la FIG. 5 no tenemos dudas, el precio va en contra de los pronósticos de las redes y también podemos hacer una conclusión interesante que usando las redes neuronales y sus probabilidades estadísticas somos capaces de reconstruir completamente el precio solo basado en el conocimiento de la probabilidad si la reversión se hace en la siguiente vela o no.

Es muy chulo, pero en realidad no sirve para nada porque nuestro gráfico azul no tiene capacidad de predicción, no supera al precio sino que le sigue el ritmo, es decir, en realidad no hay diferencia en mirar el precio o el gráfico azul, pero la mecánica del mercado es clara: "si la probabilidad de giro a la baja es mayor que la probabilidad de giro al alza, el precio sub irá"...

=========================================================================

Seguir adelante....

Estaba entrenando un modelo de markov oculto SMM o HMM - hidden markov model

Es un modelo probabilístico aplicado especialmente para datos no estacionarios, se rumorea que también se puede aplicar a los mercados...

De la misma manera se construyeron dos modelos, pero el objetivo no muestra las reversiones sino que simplemente capta la tendencia, por lo que un modelo identifica la tendencia alcista y da una estimación probabilística, mientras que el otro modelo muestra una probabilidad de tendencia bajista.

н

No prestes atención a los oficios, estaba experimentando...

así que abajo tenemos dos vectores con las probabilidades de una tendencia alcista verde y una tendencia bajista roja , la línea negra es sólo las probabilidades máximas que da el modelo, es sólo la desviación estándar, más simple aún es el Bollinger

Así que mira - cuando el modelo empieza a producir probabilidades máximas de algún evento (superando la línea negra hacia abajo), hace lo contrario...
Así que aquí, también, tenemos esencialmente un movimiento de precios contra nuestras propias estadísticas...

Ahora pensemos si el mercado es una bestia) con ese comportamiento, ¿pueden los algoritmos de la MO predecir el mercado? Si de hecho la RF, la red, el SMM, etc. hacen sus predicciones de una manera u otra estadísticamente....

Básicamenteesta es la respuesta de por qué el modelo se rompe prácticamente al segundo día después de su optimización, aunque sea (la optimización) tres veces genética y cuatro veces procrosvalida...

¿Qué hacer? no lo sé todavía

 
mytarmailS:

1)

==================================================================

Lo primero que hice fue entrenar dos redes profundas con salidas probabilísticas; de hecho, cualquier red servirá, lo principal es que la salida de la red no sea una respuesta clara de la clase - "1", "0" Es decir, la salida será, por ejemplo, "0,13" y significará que los datos actuales pertenecen a la clase "1" con probabilidad "0,13%".

Una red que he formado exclusivamente para la compra, la otra exclusivamente para la venta.

La señal (libra objetivo) para la venta es el punto a partir del cual se produjo una caída de al menos el 0 ,2% del precio,


El objetivo se parece a "000000000010000000000" donde "1" es una inversión bajista y "0" no.

Para una inversión al alza todo es igual, respectivamente ...

Seutilizaron como predictores todos los precios de las tres últimas velas OHLC y se construyeron todas las combinaciones posibles de las diferencias entre ellas

Así, se entrenan las redes y se toman las predicciones de la red (sus salidas) y se dibujan gráficos debajo del precio.

Si se observa con atención la FIG. 2, se puede ver que el gráfico de precios va en contra de estas probabilidades.

Mirando la FIG. 5 no tienes dudas, el precio va en contra de los pronósticos de las redes y también es interesante, usando las redes neuronales y sus probabilidades estadísticas somos capaces de reconstruir completamente el precio solo basado en el conocimiento de la probabilidad si se espera la reversión en la siguiente vela o no.

Soy una persona inteligente que desarrolla y entrena redes neuronales de todo tipo, pero sigue sin ver las cosas simples. He leído tu post y me ha sorprendido bastante. Si lo he entendido bien, usted, a grandes rasgos, ha encontrado todas las bajadas de precio del 0,2% después de algún máximo, luego ha tomado tres velas cercanas a ese máximo y ha realizado algunas manipulaciones con sus precios y finalmente las ha reducido a alguna probabilidad utilizando una red neuronal. Pero, disculpe, ¿no cree que ese enfoque es demasiado primitivo? :) Estás cavando en todos los lugares equivocados. Por eso el resultado es el opuesto a la realidad. Yo caracterizaría tu enfoque de esta manera: estás tratando de tomar 3 píxeles de una imagen FullHD y hacerte una idea de la imagen completa basada en esos tres píxeles. De acuerdo, no toda la imagen, pero ¿cuál es la probabilidad de predecir correctamente al menos el 10% del área de la imagen? Espero que mi ejemplo sea claro. No hace falta mirar los píxeles para ver la imagen. En otras palabras, no es necesario mirar las barras individuales para entender el gráfico, sino que hay que mirar todo el gráfico. Y la solución del problema se encuentra más en el ámbito de la geometría que en el del álgebra, la física o la biología, por ejemplo. Aunque, cuando leo algunas de las investigaciones que la gente hace aquí, tengo la fuerte sensación de que están tratando de comprender la estructura humana utilizando la geografía. :)
 

BlackTomcat:
1) He leído tu post y me ha sorprendido bastante. Si lo he entendido bien,

2) Llevarlos finalmente a una determinada probabilidad con la ayuda de una red neuronal. Pero, disculpe, ¿no cree usted que ese enfoque es demasiado primitivo? :) Estás cavando en el lugar equivocado. Por ello, el resultado es exactamente el opuesto a la realidad.

3) Yo caracterizaría tu enfoque de esta manera: estás tratando de tomar 3 píxeles de una imagen FullHD y hacerte una idea de la imagen completa basada en esos tres píxeles. De acuerdo, no toda la imagen, pero ¿cuál es la probabilidad de predecir correctamente al menos el 10% del área de la imagen? Espero que mi ejemplo sea claro. No hace falta mirar los píxeles para ver la imagen.

4) En otras palabras, no es necesario mirar las barras individuales para entender el gráfico, sino que hay que mirar el gráfico completo. Y la solución del problema se encuentra más en el ámbito de la geometría que en el del álgebra, la física o la biología, por ejemplo. Aunque, cuando leo algunas de las investigaciones que la gente hace aquí, tengo la fuerte sensación de que están tratando de comprender la estructura humana utilizando la geografía. :)

1) Bien...

2) vale, pero entonces por qué las probabilidades son opuestas, se supone que es un simple azar y no una correlación inversa

3) Estoy de acuerdo, necesito tomar el máximo de información en la forma máxima comprimida, por eso he estado hablando últimamente del perfil de volumen, o algunas alternativas...

¿Tienes alguna sugerencia sobre cómo presentar los datos de la red? Por favor, compártela, para eso estamos todos aquí

4) Estoy absolutamente de acuerdo contigo, he estado dándole vueltas a cómo hacerlo, por ejemplo, necesito memorizar todos los niveles que caen dentro del rango del precio actual, ¿cómo lo hago? ¿Cómo introduzco los niveles en la red? Además su número en cada vela será diferente, no es una tarea trivial, especialmente para mí.

p.d. por favor, no cite todo mi post, sólo unas pocas palabras son suficientes para entender que está hablando conmigo, por favor, borre las cosas innecesarias

 
BlackTomcat:
Personas inteligentes, desarrollan y entrenan redes neuronales de todo tipo, pero no ven las cosas simples. He leído tu post y me ha sorprendido bastante. Si lo he entendido bien, usted, a grandes rasgos, ha encontrado todos los descensos de precios del 0,2% después de algún máximo, luego ha tomado tres velas cercanas a ese máximo y ha realizado algunas manipulaciones con sus precios y finalmente los ha reducido a una determinada probabilidad con la ayuda de una red neuronal. Pero, disculpe, ¿no cree que ese enfoque es demasiado primitivo? :) Estás cavando en todos los lugares equivocados. Por eso el resultado es el opuesto a la realidad. Yo caracterizaría tu enfoque de esta manera: estás tratando de tomar 3 píxeles de una imagen FullHD y hacerte una idea de la imagen completa basada en esos tres píxeles. De acuerdo, no toda la imagen, pero ¿cuál es la probabilidad de predecir correctamente al menos el 10% del área de la imagen? Espero que mi ejemplo sea claro. No hace falta mirar los píxeles para ver la imagen. En otras palabras, no es necesario mirar las barras individuales para entender el gráfico, sino que hay que mirar todo el gráfico. Y la solución del problema se encuentra más en el ámbito de la geometría que en el del álgebra, la física o la biología, por ejemplo. Aunque, cuando leo algunas de las investigaciones que la gente hace aquí, tengo la fuerte sensación de que están tratando de comprender la estructura humana utilizando la geografía. :)

Estoy de acuerdo. Hay que ver el panorama completo.

Pero eso sólo sirve para una imagen estática. Es decir, podemos dividir condicionalmente toda la imagen en 100 partes, aprender de 70 partes y obtener excelentes capacidades de predicción de 30. Eso es aproximadamente lo que hacemos con la predicción en el mercado. ¿Cuál es el problema? ¿Por qué hay problemas ya en tiempo real?

Y el problema es que la imagen no es estática. Es una película. Por supuesto, habiendo estudiado y aprendido a hacer predicciones en uno de los fotogramas de una película, es inútil predecir las zonas vecinas de la imagen en la vida real: ¡el siguiente fotograma ya es diferente! Y ninguno de los fotogramas de la película tiene copias absolutas e incluso si se encuentran fotogramas similares en el futuro como lo fue en el pasado, esos fotogramas son seguidos por otros, no los mismos que siguieron a un fotograma similar en el pasado. Ese es el problema.

Así, si se observan los fotogramas individuales de una película, se puede llegar a la conclusión de que los fotogramas son aleatorios, al igual que muchos están convencidos de que el mercado es muy aleatorio, si no lo es al 100%. Sabemos que ver una película tiene sentido, ¡incluso podemos predecir lo que pasará al final de la película! Entonces, ¿qué sentido tiene? - Tal vez sea porque tenemos que mirar más ampliamente, para investigar patrones más globales, que nunca cambian - por ejemplo, una vez comprobé cuántos % de media retrocede el precio, y bueno, resulta que alrededor del 30% (si la memoria no me falla), ¡pero la cuestión es que esta cifra es casi la misma para todos los TFs y para todos los instrumentos (pares de divisas y metales, para CFD y otros no lo he comprobado, pero parece que es lo mismo)! Esto es increíble. Este es exactamente el tipo de patrones constantes que hay que utilizar, pero a menudo es más fácil hacerlo sin redes neuronales, andamiaje, etc., porque para utilizar el MO hay que ser capaz de identificar el significado en la película, y eso no es fácil, si es que no es posible.

 
Andrey Dik:

Y el problema es que la imagen no es estática. Es una película.

He aquí otra analogía.

Casi todo el mundo tiene un teclado inteligente en su smartphone. Si escribe una palabra, el teclado le sugiere la siguiente. Depende de la palabra y de las palabras anteriores escritas. Lo he probado, incluso puedes escribir un texto bastante significativo a partir de las palabras sugeridas por el teclado. Las palabras son patrones, un grupo de palabras es un grupo de patrones.

Pero esta tecnología será impotente en el mercado, al igual que los modismos considerados aquí, porque en el mercado las "palabras" cambian con el tiempo (el orden y la combinación de las letras individuales), y el significado de las "palabras" individuales cambia. Sólo queda un significado más elevado de todo el texto, que por supuesto no está disponible para nosotros.

Ahora la gente me preguntará: ¿Qué hacemos ahora? - No sé qué hacer con MO, el resultado seguirá siendo una mierda.

O incluso alguien dirá: "¡No sabes cocinar MO!" - Supongo que no. ¿Pero quién sabe cómo? ¿Quién ha podido utilizar la MO en el mercado? ¿Alguien conoce algún ejemplo de éxito de este tipo? Sí, ahora van a citar el ejemplo de Batter, pero él también ha fracasado en el tiempo posterior...

 
mytarmailS:

2) vale, pero entonces por qué la probabilidad es opuesta, de hecho debería ser un simple azar y no una correlación inversa

¿Tienes alguna sugerencia sobre cómo representar los datos de la red? por favor, compártela, para eso estamos todos aquí

Disculpas por una cita tan grande, pero estoy escribiendo desde mi teléfono en este momento y las opciones de edición son limitadas aquí. Puedes empezar a machacar una cita y luego no ser capaz de volver a un campo limpio para tu texto. Esto es fácil de arreglar en un PC, pero será un problema en un teléfono.
En cuanto al punto 2, estoy de acuerdo contigo en que debería ser un completo azar, pero de hecho no estoy seguro de que el período de la prueba de avance en el que obtuviste el resultado inverso siga inmediatamente después del período en el que se realizó el entrenamiento. ¿Hay un intervalo de tiempo entre estos periodos? Por lo general, el patrón (si estaba en el mercado) deja de funcionar gradualmente: el gráfico de equilibrio en el probador disminuye su pendiente primero, y luego cae. El patrón se agota, se reconoce y mucha gente empieza a explotarlo. Por ello, se convierte en un patrón inverso. Sin embargo, si había una razón lógica (de mercado) detrás del patrón, entonces después de un tiempo puede empezar a funcionar de nuevo. Pero aquí me parece justo lo siguiente: cuanto más tiempo haya funcionado antes la regularidad, más largo será el periodo de "olvido". Pero aún no lo he probado a fondo.
No trabajo con redes neuronales, así que no tengo ni idea de cómo preparar los datos para entrenarlas. Los métodos gráficos(geométricos) se reconocen bien a simple vista, pero son difíciles de formalizar. Ahora mismo estoy trabajando en un TS que utiliza métodos gráficos. En mi opinión, si hay algún patrón de trabajo, es éste.
Me gustaría hacer algunos comentarios más a mi post anterior. Parece que he endurecido mi análisis de las barras individuales allí. Pero, de hecho, no es así. El análisis de barras individuales tiene derecho a existir, pero estas barras clave no suelen estar en la zona de máximos.