Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2792

 
СанСаныч Фоменко #:

¿Qué quiere decir con "información mutua"? ¿Es interesante el efecto de la ficha sobre la etiqueta? ¿Es interesante la influencia recíproca? ¿Cómo se calcula la "información mutua"?

Me está dejando perplejo con sus preguntas

 
Maxim Dmitrievsky #:

Comprobé la informatividad de los atributos desplazándolos hacia atrás. Es decir, no tomamos los últimos valores del historial de atributos, sino con una sangría hacia el pasado. Tomé 50 sangrías (de cero a -50 barras)

En la columna de la derecha la indentación en barras, en la columna de la izquierda la información mutua. La sangría es en orden ascendente de información mutua entre fichas y etiquetas.

Resulta que los últimos precios no siempre son mejores que los anteriores, hay cierto aumento en la barra -11 en relación con la barra cero:

indicativo

¿H1 fija?

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24
Parecen ciclos diurnos. De 22 a 24 horas son los más informativos. Así que hoy será lo mismo que ayer.
 
Maxim Dmitrievsky #:

me dejas perplejo con tus preguntas

¿Por qué perplejo?

Para mí, la influencia, la conexión, el poder predictivo de una característica, ficha, predictor con una etiqueta se puede explicar con el siguiente ejemplo.

Que haya una etiqueta "persona", que toma dos valores: hombre y mujer.

Supongamos que existe una etiqueta "ropa", que toma dos valores: pantalones y faldas, y que el número de valores de pantalones y faldas diferentes es de cientos o miles.

Supongamos que los hombres sólo llevan pantalones y las mujeres sólo faldas. Entonces una ficha de este tipo determina la etiqueta sin errores, es decir, error de predicción = 0%. Podemos considerar que la ficha afecta, está ligada, predice la etiqueta al 100%. Si tales condiciones se mantienen en el futuro, el error no cambiará y será =- 0%.

En la sociedad moderna esto no es así y habrá un error de predicción, cuya magnitud se desconoce y puede variar en función del llenado de la ficha.

Hay un gran número de enfoques, implementados en forma de paquetes de software, que para nuestro ejemplo para el amor de alguna parte de las mujeres a los pantalones, y los hombres a las faldas mostrará alguna diferencia del 100% de conexión de la ficha con la marca.


Los gráficos lo muestran muy bien.

Un ejemplo de una característica inútil:


Un ejemplo de una ficha bastante prometedora. La intersección es un error de predicción. En el gráfico anterior, una ficha se solapaba completamente con la otra: el error de predicción es del 50%.


¿Es ésta la medida de la diferencia entre las fichas en el primer gráfico o en el segundo gráfico? La diferencia en las estimaciones es de 2,5 veces. Pero las cifras son relativas. ¿Son todas las características basura, algunas o todas geniales?

 
Pues búscalo en google, no quiero citar a wikipedia. La medida de conexión puede ser geométrica, como en el caso de la correlación, e informacional en el caso de Mi.

No entiendo por qué tengo que luchar contra la pereza ajena, que tú mismo has admitido anteriormente ).

Dar un buen enfoque, no es necesario un gran número de paquetes. El nombre será suficiente.
 
Maxim Dmitrievsky geométrica, como en el caso de la correlación, e informacional en el caso de Mi.

No veo por qué debo luchar contra la pereza ajena, que yo mismo solía admitir )

Sí, bueno, vale. Que así sea

 
СанСаныч Фоменко #:

Sí, bueno, vale. Que así sea.

No sólo no das ningún resultado y haces referencias a un montón de buenos paquetes, sino que además me haces adivinar por ti lo que querías decir exactamente. Si se habla de algo específico, escribe específicamente, con resultados específicos.

Es un ejemplo banal sobre distribuciones extendidas, muéstrame cómo obtenerlas eficientemente.
La relación de información la nombraste tú. Es la entropía y la información mutua en su base. ¿Necesitas escribirlo 500 veces? La entropía se define para una serie, la información mutua para 2.
 

Es mejor evaluar las características no por algunos métodos y paquetes que no están relacionados con el modelo, sino por el propio modelo.
Hace 2 años comparé métodos para evaluar la importancia de https://www.mql5.com/ru/blogs/post/737458.

Se tomó como muestra el propio modelo. Lo entrené N veces (según el número de características) eliminando una de ellas.
Cuanto más empeoraba el resultado tras eliminar una característica, más importante era. También había fichas cuya eliminación mejoraba el resultado, es decir, se trataba claramente de ruido.

Ninguna de las variantes para determinar la importancia de una característica fue similar a la importancia ejemplar. Me temo que la información mutua y otros paquetes también pueden ser incoherentes.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:

Es mejor evaluar las características no por algunos métodos y paquetes no relacionados con el modelo, sino por el propio modelo.
2 years ago I compared methods of importance evaluation https://www.mql5.com/ru/blogs/post/737458

Se tomó como muestra el propio modelo. Lo entrené N veces (según el número de características) eliminando una de ellas.
Cuanto más empeoraba el resultado tras eliminar una característica, más importante era. También había fichas cuya eliminación mejoraba el resultado, es decir, se trataba claramente de ruido.

Ninguna de las variantes para determinar la importancia de una característica fue similar a la importancia ejemplar. Me temo que la información mutua y otros paquetes también pueden ser incoherentes.

En una primera aproximación, sin duda tienes razón: se debería tener una puntuación final, si te refieres a evaluar un modelo por sus medidas de rendimiento.

Pero hay un matiz que lo supera todo.

Evaluar un modelo por su rendimiento es una evaluación sobre datos históricos. Pero, ¿cómo se comportará el modelo en el futuro?

Si estamos evaluando las características en sí, podemos ejecutar una ventana y obtener estadísticas sobre el cambio en el valor de la puntuación de una característica, cada una individualmente. Y, según me parece, es preferible utilizar aquellas características que tengan una fluctuación pequeña en su puntuación de importancia, preferiblemente inferior al 10%. Mi conjunto fic tiene fluctuaciones sd del 10% al 120% en 500 barras (de memoria). Esto significa que la puntuación fluctúa dentro del canal del 10%, es decir, la cifra que vemos es esa. Pero para el 120%, el valor de la puntuación de importancia que vemos es el fic.

 
СанСаныч Фоменко #:

En una primera aproximación, no cabe duda de que tiene razón: hay que tener una estimación final, si se entiende por estimar un modelo sus medidas de rendimiento.

Pero hay un matiz que lo supera todo.

Evaluar un modelo a través de su rendimiento es una evaluación sobre datos históricos. Pero, ¿cómo se comportará el modelo en el futuro?

Evalúe la prueba valving-forward.

 
elibrarius #:

Evalúe Walking Forward con una prueba.

Es una evaluación de todo el rebaño. Y las ovejas pésimas son sacrificadas pieza por pieza.