Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 645

 
SanSanych Fomenko:

No tiene sentido hacer pruebas yf la cita original, porque es obvio para el ojo que la serie no es estacionaria.

Y son interesantes (no para mí - siempre lo uso) los gráficos para series temporales log(p/p-1).

¿Qué hay ahí? Y, por supuesto, necesitas una escala en el eje de ordenadas.

No utilicé una escala para encajar dos gráficos en un marco, para ahorrar espacio, pero las coordenadas Y eran originalmente diferentes.

El resultado es totalmente diferente al de la última vez, aquí están los gráficos más interesantes, el resto están en el archivo, así que no tengo que pegar aquí 10 fotos. Pero el gráfico de entropía no es nada interesante.

Atacha script, en R-Studio puede desplazarse hacia adelante y hacia atrás a través de la historia de todas las parcelas de la trama

Oops, error en el código de nuevo, volver a adjuntar el archivo .txt

Archivos adjuntos:
 
SanSanych Fomenko:


Se han discutido los componentes principales y se ha visto la desventaja de tener un algoritmo sin un profesor.

Aquí está con el profesor:

Paquete spls.

Gracias, por la descripción de cran no lo habría adivinado (Sparse Partial Least Squares (SPLS) Regression and Classification)

 
Dr. Trader:

No utilicé la escala para encajar dos gráficos en un marco, para ahorrar espacio, pero sus coordenadas Y eran originalmente diferentes.

El resultado es bastante diferente al de la última vez, aquí están los gráficos más interesantes, el resto están en el archivo para no pegar 10 fotos aquí. Pero el gráfico de entropía no es nada interesante.

Atacha script, en R-Studio puede desplazarse hacia adelante y hacia atrás a través de la historia de todas las parcelas de la trama

Oops, error en el código de nuevo, volver a adjuntar el archivo .txt.

¡Grandes fotos!

En la prueba del arco se puede ver que hay parcelas en las que los modelos arima funcionan. Pero siempre hay un problema: ¡todos somos muy listos con la historia y nos enteramos de que podemos usar arima sólo después de haberla aprobado! Y así con todas nuestras teorías: fuerte retrospectiva.

 
Dr. Trader:

Para seguir con esto -https://www.mql5.com/ru/forum/86386/page643#comment_6472393


La función para tamizar los predictores random.forest.importance() mostró resultados bastante decentes en algunas pruebas. Es un inconveniente que en su opinión todos los predictores sean al menos algo importantes... pero si, por ejemplo, calculamos la importancia media y tomamos sólo los predictores que están por encima de la importancia media, obtenemos muy buenos resultados.

¿Cuál es la importancia? Gini o Permutación (MDA)

P.d. Hay otros métodos que se pueden utilizar para comparar http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

Selecting good features – Part IV: stability selection, RFE and everything side by side
  • 2014.12.20
  • blog.datadive.net
In this post, I’ll look at two other methods: stability selection and recursive feature elimination (RFE), which can both considered wrapper methods. They both build on top of other (model based) selection methods such as regression or SVM, building models on different subsets of data and extracting the ranking from the aggregates. As a wrap-up...
 
Dr. Trader:

He encontrado otro paquete interesante para cribar predictores. Se llama FSelector. Ofrece una docena de métodos para filtrar los predictores, incluida la entropía.

Obtuve el archivo con los predictores y el objetivo dehttps://www.mql5.com/ru/forum/86386/page6#comment_2534058.


La evaluación del predictor por cada método la mostré en el gráfico del final.

El azul es bueno, el rojo es malo (para el corrplot los resultados se han escalado a [-1:1], para una estimación precisa ver los resultados de las llamadas a cfs(targetFormula, trainTable), chi.squared(targetFormula, trainTable), etc.)
Puedes ver que X3, X4, X5, X19, X20 son evaluados usando casi todos los métodos, puedes empezar con ellos, y luego intentar añadir/eliminar más.

Sin embargo, los modelos en rattle no pasaron la prueba con estos 5 predictores en Rat_DF2, de nuevo el milagro no se produjo. Es decir, incluso con los predictores restantes, tiene que ajustar los parámetros del modelo, hacer una validación cruzada, añadir/eliminar predictores usted mismo.

FSelector proviene de WEKA, lo que significa que utiliza Java. Consume mucha memoria. Es mejor utilizar FSelectorRcpp.

Buena suerte

 

Aquí hay más entropía(precio) y archTest(log(p/p-1)) al mismo tiempo. A simple vista no parecen tener correlación, no veo ninguna señal. Quien tenga ojo para los indicadores puede notar algo.


 
Maxim Dmitrievsky:

¿Qué importancia tiene? Gini o Permutación (MDA)

Hay 2 tipos para elegir -
1=disminución media de la precisión (probablemente sea mda, coincide con las primeras letras)
2=disminución media de la impureza del nodo

 
El Dr. Trader:

Hay 2 tipos para elegir -
1=disminución media de la precisión (eso es probablemente lo que es mda, coincide con las primeras letras)
2=disminución media de la impureza del nodo

Sí, es él, gracias, el segundo mdi.

 
Dr. Trader:

Aquí hay más entropía(precio) y archTest(log(p/p-1)) al mismo tiempo. A simple vista no parecen tener correlación, no veo ninguna señal. Quien tiene un ojo para los indicadores - puede notar algo.


un indicador de volatilidad regular resulta )

Pero la prueba del arco no muestra nada

 

Veo que hay un interés innegable en evaluar la importancia de los predictores.

El sistema más variado está en el paquete CORElearn (en su momento fue muy recomendadopor Vladimir Perervenko)

Dispone de varias funciones de evaluación.

En la primera etapa es una función:

ordEval(formula, data, file=NULL, rndFile=NULL,
variant=c("allNear","attrDist1","classDist1"), ...)

ordEval вычисляет результирующие вероятностные факторы, соответствующие эффекту увеличение/уменьшение значимости атрибута для класса.
Алгоритм оценивает строго зависимые упорядоченные атрибуты, в которых значения отдельных атрибутов зависят от других атрибутов в разной манере.

En la segunda fase, la función

attrEval(formula, data, estimator, costMatrix = NULL, ...)

estimator       Имя метода оценки. Ниже 37 имен.

[1]     "ReliefFequalK"      "  ReliefFexpRank" "ReliefFbestK"  "Relief"
[5]     "InfGain"            "GainRatio"        "MDL"            "Gini"
[9]     "MyopicReliefF"      "Accuracy"         "ReliefFmerit"  "ReliefFdistance"
[13]    "ReliefFsqrDistance"    "DKM"           "ReliefFexpC"   "ReliefFavgC"
[17]    "ReliefFpe"          "ReliefFpa"        "ReliefFsmp"    "GainRatioCost"
[21]    "DKMcost"            "ReliefKukar"      "MDLsmp"        "ImpurityEuclid"
[25]    "ImpurityHellinger"     "UniformDKM"    "UniformGini"   "UniformInf"
[29]    "UniformAccuracy"       "EqualDKM"      "EqualGini"     "EqualInf"
[33]    "EqualHellinger"        "DistHellinger" "DistAUC"       "DistAngle"
[37]    "DistEuclid"                     


Дополнительный параметр costMatrix может включить неоднородную матрицу стоимости для классификаций, чувствительных к стоимости мер 
(ReliefFexpC, ReliefFavgC, ReliefFpe, ReliefFpa, ReliefFsmp, GainRatioCost, DKMcost, ReliefKukar и MDLsmp). 



Como puede ver, hay mucho margen para hacer ejercicios para determinar la importancia de los predictores.