Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 448

 
mytarmailS:
¿cuál es la función objetivo en su clasificador?
No hay función objetivo, funciona según el principio de que cuanto más se alejan de la media todos los predictores de la población, más rápido deberían converger a esta media, es decir, funciona según el principio del clasificador bayesiano, encuentra los pesos que en la población de predictores darían la mayor desviación de la media en cada caso, y al final deberían converger de nuevo. Como tomamos los predictores como estacionarios, está claro que la media es 0. Si la salida es >0, vendemos si <, compramos.
 
Maxim Dmitrievsky:

He llegado a la conclusión de que MLP es un monstruo feo, feo retrasado y poco prometedor para el comercio, sobre todo porque copia el mecanismo de funcionamiento de las neuronas reales de forma muy primitiva y no de la forma en que realmente ocurre en el cerebro :) La única NS normal y perspectiva es la convolución ns para el reconocimiento de patrones, mientras que no son capaces de predecir, y si es así un conjunto de clasificadores simples y rápidos es suficiente.

El clasificador bayesiano es mejor, pero peor que el RF.

Curiosamente, llegué a la conclusión exactamente opuesta sobre los "behemoths feos").

La RF requiere la selección de los predictores, que es una tarea no trivial dado el requisito de que sean al menos linealmente independientes. El MLP I simplemente retoca las series temporales, y el requisito de independencia lineal se resuelve mediante un comité de varios NS cuyas entradas son series temporales descargadas (análogo a varios TF). Los retrasos de NS, para el comercio real, supongo que son insignificantes.

Lo que ocurrirá con la TS real aún no lo sé, pero la NS parece ser bastante entrenable. Ver un trozo de salida gráfica de NS entrenado. Todavía no puedo asegurar que esté bien entrenado). Pero es entrenable)).


 
Yuriy Asaulenko:

Es interesante que yo haya llegado a la conclusión exactamente opuesta sobre los "behemoths feos").

La RF requiere la selección de los predictores, que es una tarea no trivial dado el requisito de su independencia al menos lineal. El MLP I simplemente retoca las series temporales, y el requisito de independencia lineal se resuelve mediante un comité de varios NS cuyas entradas son series temporales descargadas (análogo a varios TF). Los retrasos de NS, para el comercio real, supongo que son insignificantes.

Lo que ocurrirá con la TS real aún no lo sé, pero la NS parece ser bastante entrenable. Ver un trozo de salida gráfica de NS entrenado.


Basta con lanzar predictores en forma de osciladores en el gráfico y verá si son linealmente dependientes o no). No se necesitan números. El SN puede reentrenarse, pero no puede llegar a correlaciones súper no lineales si no están ahí desde el principio o son inconsistentes

O hay que usar una máquina nuclear antes de NS, como en Jpredictor que eleva la dimensión de las entradas por polinomios y luego deja las más informativas por SVM y alguna otra mierda, pero por otro lado debido a estos polinomios puede sobreentrenar como el demonio

 
Maxim Dmitrievsky:

Para ello, basta con colocar los predictores como osciladores en un gráfico y se puede ver si son linealmente o no linealmente dependientes). No se necesitan números. La NS también puede reciclarse a sí misma, no será capaz de sacar ninguna correlación superno lineal de la nada, si no están ahí desde el principio o son inconsistentes.

No todo es tan sencillo como parece. Me parece que SanSanych lleva ya un año jugueteando con los predictores, rebotando de un bosque a otro (de un paquete a otro).

Maxim Dmitrievsky:

O tal vez sea necesario usar un kernel antes de NS, como en Jpredictor que eleva la dimensionalidad de las entradas usando polinomios y luego deja las más informativas a través de SVM y alguna otra mierda.

La independencia lineal y la no linealidad no tienen nada que ver. Son conceptos diferentes.Independencia lineal
Линейная независимость — Википедия
Линейная независимость — Википедия
  • ru.wikipedia.org
имеет только одно — тривиальное — решение. − 5 ⋅ ( 1 , 0 , 0 ) + 1 ⋅ ( 5 , 0 , 0 ) = ( 0 , 0 , 0 ) . {\displaystyle -5\cdot (1,0,0)+1\cdot (5,0,0)=(0,0,0).} Пусть будет линейное пространство над полем и . называется линейно независимым множеством, если любое его конечное подмножество является линейно независимым. Конечное множество M ′...
 
Maxim Dmitrievsky:

Para ello, basta con lanzar predictores en forma de osciladores en el gráfico y ahí se puede ver si son linealmente dependientes o no)

PS Por cierto, los MLP, a diferencia de los P. de una sola capa, son intrínsecamente no lineales, y muy capaces de generalizar signos no lineales.
 
Yuriy Asaulenko:
PS Por cierto, los MLP, a diferencia de los P. de una sola capa, son intrínsecamente no lineales y muy capaces de generalizar características no lineales.

Ellos pueden, la RF también puede, pero no están menos sobreaprendidos
 
Maxim Dmitrievsky:
No hay un objetivo, funciona según el principio de que cuanto más se alejen de la media todos los predictores en el agregado, más rápido deberían converger a esta media, es decir, funciona según el principio del clasificador bayesiano, encuentra las ponderaciones que en el agregado de los predictores darían la mayor desviación de la media en cada caso particular, y al final deberían converger de nuevo. Como tomamos los predictores en la forma estacionaria, está claro que la media es 0. Si la salida es >0, vendemos si <, compramos.
No entiendo muy bien si el entrenamiento es con o sin entrenador? Si es así, ¿cuál es la señal de compra para el clasificador?
 
mytarmailS:
no está del todo claro, ¿entrenamiento con profesor o sin él? si es con profesor ¿cuál es la señal de compra para el clasificador?
Sin un maestro en el optimizador de pesos se recogen, ya se discutió el artículo y el ejemplo, mira en el tema RNN Reshetov
 
Maxim Dmitrievsky:
En general, NS no tiene ninguna ventaja sobre RF, tarda mucho tiempo en calcular, el error es mayor... si quieres un entrenamiento rápido, entonces definitivamente RF+optimizador

Sobre la velocidad de la NS.

Hice un experimento de velocidad especialmente para este propósito. Para ello tomé un MLP con estructura de capas [15,15,15,8,2]. El tamaño de la muestra de entrenamiento es: entrada - 15 x 10378, salida - 2 x 10378.

El entrenamiento de MLP en estos datos de 10 épocas es de unos 10 minutos.

Trabajando directamente con los datos - la entrada 15 x 10378 se calcula en menos de 3 segundos. Es decir, ~0,0003 c/muestra.

Más que suficiente para la construcción de CT).

 
Yuriy Asaulenko:

Sobre la velocidad de la NS.

Especialmente para esto hice un experimento sobre la velocidad. Para ello tomé un MLP con estructura de capas [15,15.15,8,2]. El tamaño de la muestra de entrenamiento es: entrada - 15 x 10378, salida - 2 x 10378.

El entrenamiento de MLP en estos datos de 10 épocas es de unos 10 minutos.

Trabajando directamente con los datos - la entrada 15 x 10378 se calcula en menos de 3 segundos. Es decir, ~0,0003 c/muestra.

Tiempo más que suficiente para construir una ST).

Algo demasiado rápido, tal debe ser entrenado mb una hora o varias horas, por lo que el algoritmo L-BFGS? También hice 15 entradas pero sólo una capa oculta de 15-20 neuronas, entrené una TS alglibiana... así que no esperé y reduje el tamaño de los vectores de entrada) Las 3 entradas con 10k vectores tardaron entre 5 y 10 minutos en entrenarse, y eso con una capa oculta. Y no es una retropropagación lenta sino rápida con 1-3 épocas. CPU i5

Imagina que incluso con 10 minutos no tienes una estrategia preparada y tienes que buscar entre N número de predictores, longitudes de vectores, número de capas ocultas, etc... en tu optimizador para encontrar una estrategia...