Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2809

 
mytarmailS #:
¿Y el aprendizaje por refuerzo?

El topkstarter escribió un artículo sobre DQN en hubr en R.

tienes que entender que el aprendizaje por refuerzo es sólo una optimización engañosa.

Puede funcionar en algunos casos, puede que no.

 
Maxim Dmitrievsky #:

No puedo encontrar un análogo numpy para R..

..
¿Qué necesitas exactamente? Si se requiere velocidad, entonces tabla de datos, si análogo rápido de dataframes entonces tibble, si gran cantidad de datos entonces matriz grande.

 
mytarmailS #:
..
Si se trata de velocidad, entonces una tabla de datos; si se trata de un análogo rápido de los dataframes, entonces un tibble; si se trata de una gran cantidad de datos, entonces una matriz grande.

Quería aliviar el sufrimiento de Alexey ) Es ciertamente más fácil desde el principio ... pero aún así.

 
Maxim Dmitrievsky #:

El topikstarter escribió un artículo sobre DQN en el hub en R

hay que entender que el aprendizaje por refuerzo no es más que una optimización inteligentemente diseñada

Puede que funcione en algunos casos, puede que no.

Bueno, en el contexto de la cuestión de la memoria...
En RL puedes actualizar la matriz de acciones y la matriz de evaluación de estados o acciones para siempre, es como la memoria con actualización constante. Pero no sé si estoy en lo cierto.
 
mytarmailS #:
Bueno, en el contexto de la cuestión de la memoria.
En RL puedes actualizar eternamente la matriz de matriz de acciones y la matriz de evaluación de estados o evaluación de acciones, eso es como una memoria con actualización constante.... Pero no se si estoy en lo cierto.

puede ajustar los estados a los nuevos datos, pero es todo en el nivel o como Mashka, es decir, con un retraso.

Es más importante elegir una recompensa, un objetivo, básicamente. Y lanzará las operaciones en diferentes direcciones y en cada iteración será cada vez mejor.

 
Maxim Dmitrievsky #:

Quería aliviar el sufrimiento de Alexey ) Es ciertamente más fácil desde el principio ... pero aún así

Si Alexey quería pensar y escuchar, tomaría 2 minutos con mi script....
 
Maxim Dmitrievsky #:

puede ajustar los estados a los nuevos datos, pero es todo nivelado o tipo Mashka, es decir, retardado.

Es más importante seleccionar la recompensa, es decir, el objetivo, en esencia. Y las ofertas se lanzará en diferentes direcciones por sí mismo y en cada iteración será cada vez mejor

la memoria es una NS con pesos entrenados, la entrenas en cada paso, mueves los pesos un poco... no mucho, por eso hay un desfase.

y realmente no puedes transferir eso a la terminal.

 
Maxim Dmitrievsky #:

la memoria es una NS con pesos entrenados, la reentrenas a cada paso, mueves un poco los pesos... no mucho, así que el lag .

.
Una red entrenada o cualquier AMO entrenado o incluso Mashka es la memoria. Sí, se puede aceptar que la analogía....

Pero cuando "reentrenas" una red neuronal entrenada, cambias los pesos, olvidas el pasado en favor del presente....

No es reentrenamiento, es reentrenamiento a cada paso, como Mashka en la ventana deslizante, no recuerda lo que hay fuera de la ventana deslizante, aunque estaba allí....
 
mytarmailS #:
.
Una red entrenada o cualquier AMO entrenado o incluso Mashka, es la memoria ... Sí, usted puede tomar esa analogía....

Pero cuando "reentrenas" una neurona entrenada, cambias los pesos, olvidas el pasado en favor del presente....

No es reentrenamiento, es reentrenamiento a cada paso, la misma Mashka en la ventana deslizante, no recuerda lo que hay fuera de la ventana deslizante, aunque estaba allí....

hay todo un zoo de enfoques, puedes encontrar implementaciones en github, vi una para python.

 
Maxim Dmitrievsky #:

Hay todo un zoológico de enfoques, usted puede encontrar implementaciones en github, vi uno para python

Puede haber muchas soluciones, pero ¿cuál es la calidad de estas soluciones y lo bien que funcionan en tareas reales?