Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 185

 
Yury Reshetov:
No digas tonterías. En jPrediction utilizamos un algoritmo de reducción de la dimensionalidad de la entrada para evitar obtener un modelo en la salida que haya sido entrenado con predictores ruidosos o sin importancia. Es decir, se elige entre una variedad de modelos con diferentes combinaciones de predictores, de los cuales sólo queda el que tiene la mejor generalizabilidad.

situación hipotética....

Tenemos 100 predictores potenciales, dejemos que sean indicadores para simplificar.

Supongamos que inicialmente sabemos que todos estos predictores sólo tienen una situación rentable, es cuando el ICR ha cruzado el 90 y el estocástico acaba de bajar de cero (situación natural del techo), dicha situación da la caída del precio con un 90% de probabilidad, todos los demás predictores son ruido total, todas las demás situaciones en los predictores RSI y estocástico son también ruido total, y hay cientos y cientos de situaciones diversas....

es decir, tenemos aproximadamente un 0,01% de señal útil por un 99,9% de ruido

Supongamos que, por algún milagro, su modus operandi rechaza los 98 predictores y deja sólo dos: el RSI y el estocástico

hay cientos de situaciones de RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............ Como entrenas a MO para que reconozca todos los movimientos del precio, MO construirá modelos teniendo en cuenta todas las situaciones posibles que hay en el RSI y en el estocástico, y la probabilidad en esas situaciones de que funcionen es casi nula, pero MO debe tenerlas en cuenta y construir algunos modelos con ellas, a pesar de que ese es el ruido real, y que una situación que funcione se perderá entre cientos de otras soluciones, eso es reentrenar ....

¿Cómo lo conseguiste finalmente?

 

Lo tienes todo mezclado.

Hay cuestiones diferentes e independientes. PERO SON COMO LOS LADRILLOS DE UNA CASA: SÓLO TODOS JUNTOS DARÁN UN SISTEMA DE COMERCIO.

1. Preparación de los predictores. Esta etapa tiene un número bastante elevado de objetivos y de herramientas correspondientes. He orientado deliberadamente todo el problema de esta etapa hacia la eliminación del ruido, es decir, hacia la búsqueda de esos predictores que tienen capacidad de predicción para esta variable objetivo concreta. Voy a describir el ideal. Tomado de un artículo sobre genética. Pero usando mi propio ejemplo.

Tomemos la variable objetivo "musulmanes" (para mayor claridad). El predictor "ropa", que tiene dos valores "pantalones" y "falda". Una parte de los valores del predictor "ropa" con el valor "pantalones" predice inequívocamente la clase "masculino" y la otra parte predice femenino. También tenemos predictores como el RSI para la variable objetivo "comprar/vender". Todos sabemos que el indicador suele mentir, pero parte de él predice una clase y parte otra. Por lo tanto, debemos buscar predictores, algunos de los cuales predicen una clase, y otros predicen otra. Y cuanto menos sea el solapamiento (falsos positivos), mayor será la calidad del predictor. El ideal es "pantalones/faldas" cuando un predictor puede dividirse en dos partes sin intersecciones. Pero esto sólo funciona para los musulmanes, y para los europeos....

Hay métodos algorítmicos (PCA, por ejemplo, pero no clásico, sino con refinamiento), pero hay que empezar con el contenido de los predictores. Basándose en consideraciones de contenido, uno debería descartar inicialmente los anillos de Saturno, los posos de café y otros.... Lo que importa NO es la correlación de estos predictores. Por ejemplo, tomamos algunos derivados de kotir - todos son de kotir, pero tomamos el interés abierto, los volúmenes... Entonces, por alguna razón, otros pares de divisas, la macroeconomía no están condicionados...

2. Ajuste del modelo. Este es un problema distinto, y el primero no puede resolverse con el modelo utilizado. La confusión se debe a que muchos algoritmos de modelos llevan incorporado un algoritmo de selección de predictores. Personalmente, no conozco ningún algoritmo integrado que resuelva el primer problema.

Reshetov afirma tener ese algoritmo incorporado. Pero nunca ha citado ninguna prueba de la falta de reciclaje utilizando su algoritmo.

El primer paso es obligatorio. Pero no excluye, e incluso sugiere, el uso de algoritmos de selección de predictores incorporados. Pero a estos algoritmos hay que evitarles los "posos del café" en el primer paso.

3. clasificador binario-alternativo. Reshetov, como de costumbre, confundió la cuestión con su comprensión del clasificador ternario. Ternario es cuando la variable objetivo tiene tres valores, y en general cualquier número de valores cualitativos (nominales, de categoría). Reshetov tiene dos binarios de los que obtiene una señal de trabajo, que en forex es MUY deseable - tener una señal ternaria de compra/venta. Utilizo una variable objetivo binaria para la clasificación, y para operar a partir de los resultados de las dos clasificaciones binarias obtengo tres señales - exactamente como Reshetov.

4. Combinar los resultados de varios modelos en una señal para operar es un problema aparte. Existe una solución propuesta por Reshetov. Pero otras soluciones fueron sugeridas anteriormente en este hilo. Dik sugirió anteriormente tener en cuenta los valores de los que se deriva la clase. Este problema también se puede dar, sobre todo si se recuerda que los algoritmos de clasificación dan el valor de TODA clase de la que se deriva. Cuando agrupamos los resultados de varios modelos en uno solo, es inevitable tener en cuenta estas probabilidades. Hay algoritmos que dividen estas probabilidades no por la mitad, sino de otra manera, lo que reduce el error de clasificación.

5. Evaluación final del modelo. Esto es algo sobre lo que no pude llegar a un entendimiento con Burnakov. Tomamos el modelo y lo ejecutamos "fuera de la muestra", entendiendo "fuera" como fuera del intervalo de tiempo, donde se realizó el entrenamiento, la prueba, la validación cruzada... Este paso no es constructivo ya que no nos dice qué hacer. Este paso es un veredicto: mantener o descartar. El motivo del "descarte" no es un error demasiado grande, sino su VARIABILIDAD en comparación con los pasos anteriores. Descartar porque el modelo está sobreentrenado, es desesperante y peligroso. Si se supera este paso, se pasa al probador, obteniendo el mismo resultado de "mantener - descartar".

 
mytarmailS:

situación hipotética....

...

entonces MO construirá modelos teniendo en cuenta todas las situaciones posibles...

A medida que entrenas a la MO para que reconozca todos los movimientos de precios, la MO ...

...

pero MO tiene que tenerlos en cuenta y construir algunos modelos basados en ellos, a pesar de que este es el verdadero ruido, y que una situación de trabajo simplemente se perderá entre cientos de otras soluciones, para eso es el sobreentrenamiento....

jLa predicción no tiene que tener en cuenta todas las situaciones posibles. Funciona de forma mucho más sencilla de lo que tú te has inventado.

El principio de la selección secuencial de predictores (no una enumeración completa de combinaciones, como usted intenta inventar) está disponible en mi post de la pg. 109

Si tiene amnesia, permítame recordarle que ya ha aclarado el orden de selección de los predictores en p. 110

 

SanSanych Fomenko:

Reshetov, como siempre, ha confundido la cuestión con su comprensión del clasificador ternario.

...

Utilizo una variable objetivo binaria para clasificar, y para operar a partir de los resultados de dos clasificaciones binarias obtengo tres señales - exactamente como Reshetov.


¿No es Reshetov un canalla?

Confundió tanto la cuestión, que ahora incluso Fomenko tiene que hacer exactamente lo mismo que Reshetov.

Shurik Shurikovich, toma un pastel del estante. Después de todo, usted ha ganado honestamente en el campo de la crítica rábano y el hombre malo - Reshetov.

 
Yury Reshetov:

jLa predicción no tiene que considerar todas las situaciones posibles. Funciona de forma mucho más sencilla de lo que tú te has inventado.

El principio de la selección secuencial de predictores (no una enumeración completa de combinaciones como intentas inventar) está en mi post de la pg. 109

Si tiene amnesia, permítame recordarle que ya ha aclarado el orden de selección de los predictores en p. 110

Yo hablo de por qué IO (cualquiera) no puede seleccionar las características correctamente, y tú hablas de verde...

 
mytarmailS:

Yo hablo de por qué MO (cualquiera) no puede muestrear correctamente las características, y tú hablas de verde...

jPrediction está bien en la selección de predictores. Probablemente no sea el método más ideal, pero está bien para tareas aplicadas. Lo más probable es que aún no se haya alcanzado el límite de la perfección y que haya posibilidades de seguir investigando... Lo más importante es que haya un resultado positivo y que puedas empezar a bailar a partir de él.

La cuestión es que no proyectes tus propios prejuicios en ningún método de aprendizaje automático (y no sólo en el campo del MO).

Si algo no te funciona y lo mismo le funciona a otros, no significa que no haya métodos normales. Esto sólo significa que usted no utiliza estos métodos normales, o los utiliza incorrectamente, debido a algunos prejuicios personales.

 
Yury Reshetov:

¿No es este Reshetov un canalla?

Ha confundido tanto la cuestión que ahora incluso Fomenko se ve obligado a hacer exactamente lo mismo que Reshetov.

Shurik Shurikovitch, toma un pastel del estante. Honestamente, se lo ha merecido en su campo de crítica a un hombre rabón y malo - Reshetov.

Cálmate.

NUNCA he pensado en insultarte personalmente, porque somos de la misma sangre.

Pero su "en la valla" es de innegable interés para mí.

El asunto es el siguiente. En el ejemplo de un binario.

Supongamos que la probabilidad de una clase es de 0,49 y la de la segunda es de 0,51. ¿Se trata de dos clases o de una "valla"?

 
Yury Reshetov:

La bicicleta ternaria más tonta y poco prometedora, aunque la más primitiva en su implementación: se trata de una RNA con tres salidas. Si cada una de estas salidas tiene su propio umbral de clasificación, entonces no tienen tres, sino ocho estados potencialmente posibles, de los cuales sólo tres son inequívocos (un valor por encima del umbral en sólo una de las tres salidas), y cinco no están claros de cómo interpretarlos (valores por encima del umbral en más de una de las salidas, o por debajo del umbral en las tres salidas).

Clasificar todo es mucho más sencillo, es común tomar la salida con el valor más alto. Si los resultados en tres salidas son (0,1;0,3;0,2), entonces el valor mayor = 0,4 y la salida número 2 está activa.
El modelo de comercio puede tener esta lógica:
El valor más alto en la primera salida -> posición larga,
El valor más alto en la segunda salida -> salir de todas las operaciones y no operar,
Valor más alto en la tercera salida -> posición corta.
Eso es todo, sin umbrales, sin estados, etc.

No se trata en absoluto de una bicicleta, sino de un método que se utiliza a menudo en la neurona para la clasificación cuando se necesitan más de dos clases, por lo que puede haber al menos decenas de clases al clasificar imágenes, por ejemplo.
Una salida con un umbral en el medio es suficiente para dos clases.
 

Dr.Trader:

El modelo de comercio podría tener esta lógica:


  • Valor más alto en la primera salida -> posición larga,
  • Valor más alto en la segunda salida -> salir de todas las operaciones y no operar,
  • El valor más alto en la tercera salida -> posición corta.


Eso es todo, sin umbrales, sin estados, etc.

También es una opción. Aunque no es seguro que un enfoque tan trivial dé una generalización normal. A veces la sencillez es peor que el robo. Es decir, es necesario comprobar empíricamente - la autopsia lo demostrará.
 
SanSanych Fomenko:

Supongamos que la probabilidad de una clase es de 0,49 y la de la segunda clase es de 0,51. ¿Se trata de dos clases o de un "obstáculo"?

Porque el helado.

Lo siento, pero tal como es la pregunta, también lo es la respuesta.

Es decir, no entiendo el humor porque para tomar una decisión hay que comparar el valor de salida del clasificador con algo, por ejemplo, con un valor umbral. Y como en tu formulación del problema los valores comparables por alguna razón son desconocidos, y sólo se conocen los que no son necesarios para la clasificación, sería conveniente hacer aclaraciones.