Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1272

 
Maxim Dmitrievsky:

Estoy cansado de discutir sobre cosas obvias, lo tienen todo escrito en el artículo. Que cada uno lo entienda como quiera.

Si se hace un poco más de abstracción, quedará claro por qué jugar contra el mercado es lo mismo.

Y sugiero que se discuta al menos en los términos que ellos mismos utilizan, no en los que se inventan ingeniosamente. De lo contrario, el argumento no es nada.

Aquí se intentan encontrar analogías para el comercio y el juego, incluso teniendo en cuenta la misma dinámica de su balance de probabilidades, en la que influyen ambas partes del proceso. Examinemos el problema en detalle en lugar de utilizar la terminología.

 
Aleksey Vyazmikin:

Trate de encontrar analogías para el comercio y el juego, incluso con la misma dinámica de su balance de probabilidades, que están influenciados por ambos lados del proceso. Analicemos el problema con objetividad en lugar de escondernos detrás de la terminología.

Por última vez, no escribiré más.

Al agente de RL le da igual lo que se juegue: el mercado u otro oponente en el SC, no lo entiende porque es un programa. El resto es puramente su "saber hacer"

no importa si el oponente es estático o dinámico, de cualquier manera el agente aprenderá la política óptima

Ya te pondrás las pilas y lo solucionarás. Un día.

 
Maxim Dmitrievsky:

Por última vez, no diré nada más.

Al agente de RL le da igual lo que se juegue: el mercado u otro oponente en el SC, no lo entiende porque es un programa. El resto es puramente su "saber hacer"

no importa si el oponente es estático o dinámico, de cualquier manera el agente aprenderá la política óptima

Ya te pondrás las pilas y lo solucionarás. Algún día.

El nombre del método de formación es secundario. Llevo mucho tiempo intentando hablarte de los predictores.

Y cómo no entender que NS puede aprender a influir en la situación, y dependiendo de la eficacia de la influencia, influir en la probabilidad del resultado del evento. Y esa es precisamente la ventaja de una red de este tipo: la capacidad de influir en la situación. En cada cuadro se toma una decisión sobre qué hacer para mejorar el rendimiento del objetivo (ese mismo gráfico), el proceso de actividad es de varios pasos, la probabilidad final de victoria o derrota no se determina en el momento en que el juego comienza, sino que cambia constantemente, incluso debido a las acciones de los jugadores, y aquí está exactamente la mayor diferencia con el comercio.

No digo que no se pueda utilizar el método PL para enseñar a operar, hablo de la eficacia de una red que influye en la situación para alcanzar su objetivo y no se limita a adivinar pasivamente lo que hará el adversario (hacia dónde irá el precio).

 
Maxim Dmitrievsky:

Para qué mostrar emoción, mejor escribe una refutación razonada a mis argumentos.

 
Aleksey Vyazmikin:

Esto se llama una POLÍTICA o ESTRATEGIA OPTIMA, que tiene en cuenta todos los posibles comportamientos del enemigo

Lee un libro, no te pongas en evidencia. Ya te he escrito 100 veces, lo que intentas expresar cabe en un par de palabras.

No seas tan bromista.

 
Maxim Dmitrievsky:

Esto se llama una POLÍTICA o ESTRATEGIA OPTIMA, que tiene en cuenta todos los posibles comportamientos del enemigo.

Lee un libro, no te avergüences. Ya te he escrito 100 veces, lo que intentas expresar cabe en un par de palabras.

No te burles así de mí.

No estoy familiarizado con el término, Internet es igual de reacio a decir algo - dame un enlace, a ver si realmente se llama así.

Y si mi descripción se ajusta a un determinado término, no entiendo sus objeciones de fondo. No se trata de los términos, sino de la influencia en la situación para lograr el objetivo a largo plazo: ganar la partida mediante una cadena de acciones, que pueden variar en función de las acciones del enemigo.

Se trata del diferente entorno en el que se toman las decisiones: en uno puedes interactuar con el entorno y en el otro no, sólo observar a través del cristal.
 
 

No sabes que no leo libros extranjeros... Los he ojeado, sí, son más avanzados que los de Internet en lengua rusa.

 
Maxim Dmitrievsky:

si se quita más de la mitad de las palabras extra y se deja la cadena de acciones (cadenas de Markov) con transiciones probabilísticas, entonces es mejor

el resto de las tonterías se pueden dejar de lado

La división agente/entorno siempre está ahí, no hay observaciones a través del cristal. De nuevo, un nivel abstracto que no está al alcance de todos. Y aquí de nuevo te estás dando de bruces contra la pared porque te lo estás inventando en lugar de estudiarlo.

Por última vez escribo y dejo esta bacanal: no hay influencia, hay probabilidades de transiciones y aproximaciones de políticas.

No sé cómo piensas, pero los términos sólo distorsionan la esencia del pensamiento, si no es un axioma establecido desde hace tiempo y que no se puede verificar.

No puede aportar una analogía, remitirse a la terminología es improductivo.

 
Aleksey Vyazmikin:

Porque no sabes que no leo libros extranjeros... Los he ojeado, sí, hay cosas más avanzadas allí que en el internet en lengua rusa.

Bueno, no hay otro lugar para leer. Sutton, Barto"entrenamiento con refuerzo" en Internet hay una traducción, un libro antiguo, pero también útil.