Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1188

 
Dmitriy Skub:
Yuri, te has salido del tema: la palabra clave aquí es tenedor. No tiene nada que ver con MO)

Fuera de onda, eso es seguro. Pero es un tema interesante. Resumen.

 
Yuriy Asaulenko:

La automatización no es tan fácil allí, en mi opinión. Por lo que tengo entendido, es difícil con las soluciones típicas - hay demasiadas soluciones posibles.

Lo único que se me ocurre es un BD sobre equipos y jugadores, de los que hay cientos, ambos)).

Diferentes casas de apuestas un equipo puede ser llamado de manera diferente: Olympique, Marsella + en latín, al menos 4 variantes. Diferentes prefijos FK - club de fútbol, PFC - club de fútbol profesional.

La automatización de las horquillas es un dolor de cabeza.

 

es demasiado simple.

De hecho, el punto de RL no es ni siquiera los paquetes, sino el enfoque, es decir, el exceso. Se utiliza en lugar de la genética, pero a través de un aproximador de tipo NS

la principal dificultad es tomar muestras de las distribuciones correctas

 
Maxim Dmitrievsky:

es demasiado simple.

De hecho, el punto de RL no es ni siquiera los paquetes, sino el enfoque, es decir, el exceso. Se utiliza en lugar de la genética, pero a través de un aproximador de tipo NS

la principal dificultad es tomar muestras de las distribuciones correctas

Bueno, el ejemplo sencillo es algo normal, porque el ejemplo no tiene por qué ser complicado, y el hecho de que ya haya paquetes preparados es bueno.... No entiendo ni siquiera ese sencillo ejemplo (( No entiendo por qué las matrices deben llenarse de probabilidades y por qué se necesitan estas probabilidades y cómo se calculan

 
mytarmailS:

Bueno, el ejemplo sencillo es algo normal, porque el ejemplo no debe ser complicado, y el hecho de que ya haya paquetes preparados es bueno.... Ni siquiera entiendo ese sencillo ejemplo (( No entiendo por qué las matrices deben llenarse de probabilidades y por qué estas probabilidades son necesarias en absoluto y cómo se calculan

probabilidades de las transiciones de estado, cadenas de Markov

como la probabilidad de comprar bajo alguna condición, o de vender

la matriz se rellena con todos los estados posibles, luego se selecciona de ella el estado actual y se mira la señal... es una primitiva de la tabla :)

 
Maxim Dmitrievsky:

probabilidades de las transiciones de estado, cadenas de Markov

Bueno, tengo que ....

No entiendo su papel en el código

 
mytarmailS:

Lo tengo....

No entiendo su papel en el código.

¿Qué quieres decir con roles? Es una tabla de transiciones de estado y probabilidades

 
Maxim Dmitrievsky:

Es una tabla de transiciones de estado y probabilidades.

No sé de dónde salen las probabilidades de transición, tenemos 4 direcciones: izquierda, derecha, arriba, abajo. El algoritmo tiene que encontrar el camino "a alguna parte" mediante la combinación correcta de direcciones. Incluso antes de que el algoritmo empezara a buscar la combinación correcta de probabilidades creó una matriz con probabilidades de transición, ¿de dónde sacaron estas probabilidades?

Probablemente soy muy tonto, pero aun así, si no te importa que te lo pregunte, ¿por qué no me lo explicas?

 
mytarmailS:

No entiendo de dónde salen las probabilidades de transición, tenemos 4 direcciones: izquierda, derecha, arriba, abajo. El algoritmo tiene que encontrar el camino "a alguna parte" mediante una combinación correcta de direcciones. Incluso antes de que el algoritmo empezara a buscar la combinación correcta de probabilidades creó una matriz con probabilidades de transición, ¿de dónde sacaron estas probabilidades?

Seguramente soy un tonto, pero aun así, si no te importa explicarlo.

Lee lo básico, no en R, sólo en internet.

Inicialmente las probabilidades se eligen aleatoriamente, luego a lo largo de las iteraciones se actualizan por diferentes métodos, principalmente el método TD, al final convergen a un óptimo, es decir resuelven el problema original, por ejemplo salir del piso donde hay varias habitaciones de la manera más rápida, sin entrar en otras habitaciones. Para ello, se especifica una matriz de estados (matriz de valores) y una matriz de transiciones (matriz de políticas), es decir, para cada estado (estar en una determinada habitación) puede haber varias transiciones a otras habitaciones y sus probabilidades. Después de cada acción, se devuelve una recompensa numérica (buena-mala). La esencia del método es maximizar la recompensa, es decir, un agente es penalizado por las transiciones incorrectas y recompensado por las correctas

 
Maxim Dmitrievsky:

No he visto nada en el hilo sobre los criterios de información(bayesianos o de Akaike). ¿Quizás se utilicen por defecto (en los paquetes MoD aplicados)?