Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2015

 
Maxim Dmitrievsky:

Todas las fichas entran y salen, hay menos neuronas en la capa oculta. Simplemente comprime la información minimizando el error en la salida. La entrada debe ser igual a la salida (idealmente). Entonces la segunda parte de NS se descarta después del entrenamiento y se obtienen características comprimidas en la salida iguales al número de neuronas en la capa oculta

se pueden añadir capas recurrentes, etc.

google Autoencoder. y sus variantes.

Sí, lo entiendo todo, gracias, sólo que no entiendo cómo es entrenar una red para que dé múltiples respuestas a una sola línea de muestra a la vez. No está claro cómo hacerlo con los árboles...

 
Aleksey Vyazmikin:

Sí, entiendo todo eso, gracias, sólo que no entiendo cómo entrenar la red para que dé múltiples respuestas a una cadena de muestra a la vez. Cuál es la métrica ahí, con los árboles no está claro cómo se podría hacer...

No soy un experto en absoluto, pero primero - la descomposición, cuando un evento genera muchas causas posibles. Después, la recomposición, cuando se analizan todas estas posibles causas en busca de posibles influencias sobre las mismas. El resultado es un número reducido de parámetros sobre los que se puede influir a la hora de controlar un evento.

 
Aleksey Vyazmikin:

Sí, entiendo todo eso, gracias, sólo que no entiendo cómo entrenar la red para que dé múltiples respuestas a una cadena de muestra a la vez. Cuál es la métrica allí, con los árboles no está claro cómo se podría hacer tal cosa...

No tiene mucho sentido utilizar primero un autocodificador o sólo un NS profundo. Los necesitas cuando tienes muchas tareas iguales. Por ejemplo, para comprimir imágenes, etc. y luego utilizarlas en otras ns

 
Alexei Tarabanov:

No soy para nada un experto, pero primero está la descomposición, donde un evento da lugar a una multitud de posibles causas. A continuación, se produce la recomposición, en la que se analizan todas estas posibles causas en busca de posibles influencias en las mismas. El resultado es un pequeño número de parámetros que pueden ser controlados por el evento.

No exactamente: allí, al refractar los datos en una neurona a través de los pesos en las funciones, los valores se reducen a una sola función (algo así como enfocar la imagen). Y luego, conociendo esos pesos, se vuelve a descomponer en componentes, como un prisma descompone un arco iris o algo así. Entiendo el proceso, pero no entiendo cómo hacerlo a través de los árboles.

 
Maxim Dmitrievsky:

No tiene mucho sentido utilizar primero un autocodificador o sólo un NS profundo. Los necesitas cuando tienes muchas tareas iguales. Por ejemplo, para comprimir imágenes, etc. y luego utilizarlas como incrustaciones en otros ns

Quizás tenga sentido entrenar exactamente estas neuronas "cuello de botella" en los árboles. Es decir, un número reducido de predictores.

 
Aleksey Vyazmikin:

No exactamente - allí, al refractar los datos en la neurona a través de los pesos en las funciones, los valores se reducen a una sola función. Y luego, conociendo estos pesos, volver a descomponer en componentes, como un prisma descompone un arco iris. Entiendo el proceso, pero no entiendo cómo hacerlo a través de los árboles.

No. Intenta primero la descomposición y lo conseguirás.

Simplemente, la descomposición sigue un principio y la conexión otro. Análisis y síntesis. Las neuronas trabajan de la misma manera aquí y allá, pero en el primer caso, el evento se archiva, y en el segundo, se reúne en torno a los factores que afectan al evento.

 
Aleksey Vyazmikin:

Puede tener sentido entrenar estas neuronas particulares de "cuello de botella" en los árboles. Es decir, un número reducido de predictores.

no tiene sentido

la compresión es la compresión. Si el modelo ya está mal, no hará nada. Y la regularización tiene aproximadamente la misma función f.

 
Hay una pérdida al comprimir los datos de entrada. Si la compresión se juzga por la capacidad de recuperar los mismos datos de entrada, entonces perdemos información de manera uniforme, incluida la que podría predecir bien el objetivo.
Si comprimimos sólo para obtener la función objetivo, ésta es la mejor opción.
Creo que el aprendizaje normal hace precisamente eso.
Llego a la conclusión de que la compresión sólo de entrada degradará la calidad del aprendizaje posterior del objetivo en los datos comprimidos.
Pero es mejor realizar un experimento en lugar de sacar conclusiones de la teoría.

Aunque se puede entender por qué Alexey está buscando una manera de reducir la dimensionalidad - utiliza el andamiaje y la potenciación. En un árbol, es posible que la mayoría de las 3000 entradas no se utilicen nunca. Los bosques y la potenciación son mejores en este sentido, pero me temo que es de poca utilidad.
 
Maxim Dmitrievsky:

no tiene sentido

la compresión es la compresión. Si el modelo ya está mal, no hará nada. Y la regularización hace más o menos lo mismo.

elibrarius:
Hay pérdidas al comprimir los datos de entrada. Si la compresión se evalúa por la capacidad de recuperar los mismos datos de entrada, entonces perdemos uniformemente información, incluida la que podría predecir bien el objetivo.
Si comprimimos sólo para obtener la función objetivo, ésta es la mejor opción.
Creo que el aprendizaje normal hace precisamente eso.
Llego a la conclusión de que la compresión sólo de entrada degradará la calidad del aprendizaje posterior del objetivo en los datos comprimidos.
Pero es mejor realizar un experimento en lugar de sacar conclusiones de la teoría.

Aunque se puede entender por qué Alexey está buscando una manera de reducir la dimensionalidad - utiliza el andamiaje y la potenciación. En un árbol, es posible que la mayoría de las 3000 entradas no se utilicen nunca. El bosque y el refuerzo son mejores en eso, pero me temo que es de poca utilidad.

Hay una serie de ideas sobre por qué esto podría ser útil:

1. Se pueden identificar predictores interdependientes:

1.1. Construir un modelo independiente con ellos y evaluar su poder predictivo

1.2. excluirlos de la muestra y evaluar su impacto en el resultado. si mejoran el resultado, considerar la creación de predictores similares

2. utilizar un predictor en lugar de un grupo de predictores:

1. esto igualará las posibilidades de tomarlo al azar al construir el modelo

2. Reducir el tiempo de entrenamiento reduciendo la dimensionalidad

Sí, me gustaría probar esto, pero no conozco la herramienta para crear un modelo de este tipo fuera de la caja.


Por cierto se me ocurrió una idea, por qué no usar funciones rotas (como con la cuantificación - en lugar de la línea de paso) en el entrenamiento, permitiría tener una brecha en la precisión de los datos y reducir el re-entrenamiento.

 
Aleksey Vyazmikin:

Hay un pensamiento aquí, por qué no utilizan funciones rotas (por así decirlo con cuantificación - en lugar de una línea de paso) en el entrenamiento, permitiría tener un retroceso de precisión de datos y reducir el sobreentrenamiento.

Como no se puede entrenar, el solucionador se atascaría en los mínimos locales. En cuanto a las ideas, no se puede sacar nada, ya que es una caja negra.