Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1194

 
Y luego el algoritmo de aprendizaje está diseñado para desglosar las pérdidas logarítmicas en 0,5, por lo que es lógico que haya un grupo importante allí.
 
Aleksey Vyazmikin:
Y luego el algoritmo de aprendizaje se agudiza para desglosar las pérdidas logarítmicas en 0,5, por lo que es bastante lógico que el clúster sea el principal allí.

El logloss es casi inútil de mirar, es una métrica poco notable en términos de desglose de clases

 
Maxim Dmitrievsky:

cuanto más alta sea la probabilidad del evento, más precisa será la señal, como que viene incluso de la definición :) 2 la joroba no estará en los datos ruidosos, pero el modelo debe al menos capturar los valores extremos en una medida adecuada, de lo contrario nunca está seguro de las entradas en absoluto

Creo que no es tan sencillo, hay que tener en cuenta la función de aprendizaje... ya que la probabilidad se calcula generalmente después de sus valores (en el algoritmo del modelo así).

Hasta el momento los hechos me dicen que el modelo manchado no es seguro, y aún no he encontrado un fallo en el centro...

Maxim Dmitrievsky:

Mirar el logloss es casi inútil, es una métrica sin importancia en términos de división en clases

Hay un descenso gradual...
 
Aleksey Vyazmikin:

No creo que esté tan claro, hay que tener en cuenta la función de aprendizaje... porque la probabilidad se calcula generalmente después de sus valores.

Hasta el momento los hechos me dicen que el modelo manchado no es seguro, y todavía no he encontrado un fallo en el centro...

no entiendo la terminología, ¿qué es la función de aprendizaje? ¿hay un softmax al final o qué?

No sé si el fallo, pero el modelo inseguro no funcionará con los nuevos datos, mientras que el modelo manchado sí, si se establece el umbral de probabilidad

 
Maxim Dmitrievsky:

No entiendo la terminología, ¿qué es la función de aprendizaje? ¿hay un softmax al final o qué?

En este caso, el modelo se evalúa mediante logloss y todo el gradient boosting tiene como objetivo mejorar el rendimiento de esta función. El propio modelo produce valores que deben transformarse mediante una función logística. Por eso supongo que no todo es tan sencillo en este método con probabilidad...

 
Aleksey Vyazmikin:

En este caso, el modelo se evalúa mediante logloss y todas las acciones de gradient boosting tienen como objetivo mejorar el rendimiento de esta función. El propio modelo produce valores que deben transformarse mediante una función logística. Por eso asumo que no todo es tan sencillo en este método con probabilidad...

Hay f-iones mínimas y máximas, estarán en los márgenes de logit seguramente... Si no están ahí, entonces es underrun o algo más (me pasa cada vez que estoy underrun, como tener pocas neuronas o árboles) y gran error de clasificación y logloss

 
Maxim Dmitrievsky:

Hay f-iones mínimas y máximas, siempre estarán en los bordes del logit... si no están ahí, es un underfitting o lo que sea (a mí siempre me pasa cuando hago un underfitting, por ejemplo con pocas neuronas o árboles) y un gran error de clasificación y logloss

Se trata de los coeficientes que arroja el modelo https://en.wikipedia.org/wiki/Logit - no es una distribución lineal.

Me parece que el subentrenamiento es mejor que el sobreentrenamiento, sobre todo si te centras en la clase 1 y tomas un gran porcentaje de objetivos correctamente clasificados que aciertan en la clasificación, y luego puedes combinar los modelos limitando su rango de aplicación.

Logit - Wikipedia
Logit - Wikipedia
  • en.wikipedia.org
In deep learning, the term logits layer is popularly used for the last neuron layer of neural network for classification task which produces raw prediction values as real numbers ranging from [3]. If p is a probability, then is the corresponding odds; the logit of the probability is the logarithm of the odds, i.e. logit ⁡ ( p ) = log ⁡...
 
Aleksey Vyazmikin:

Se trata de esos coeficientes que el modelo arroja https://en.wikipedia.org/wiki/Logit - no es una distribución lineal.

Me parece que el subentrenamiento es mejor que el sobreentrenamiento, sobre todo si nos centramos en la clase 1 y tomamos un gran porcentaje de objetivos correctamente clasificados que entran en la clasificación, y entonces podemos combinar los modelos, limitando el rango de su aplicación.

en resumen... lo vuelvo a decir: debemos enseñar correctamente para evitar el apiñamiento (overfitting) y el corte de cola (underfitting)

La curva roja me parece más o menos normal

y la falta de ajuste no es nada... en el entorno de 0,5

El sesgo puede ser sacado por Bayes, por las probabilidades condicionales, mientras el modelo está funcionando. No he averiguado exactamente cómo, pero hay un poder incognoscible en ello, intuitivamente.

Los modelos bayesianos son capaces de aprender... ¿qué pasa si le pongo una punta bayesiana al modelo para que no se reentrene demasiado a menudo?

 
Maxim Dmitrievsky:

Lo diré de nuevo: hay que enseñarlo normalmente para que no haya golpes (overfit) y colas cortadas (underfit).

la curva roja me parece más o menos normal

y la falta de ajuste no es nada... en el entorno de 0,5

El sesgo puede ser sacado por Bayes, por las probabilidades condicionales, mientras el modelo está funcionando. No he averiguado exactamente cómo, pero hay un poder incognoscible en ello, intuitivamente.

Los modelos bayesianos son capaces de reentrenarse... ¿y si se pone una punta bayesiana en el modelo para no tener que reentrenarse a menudo?

Sí, a mí también me gusta más la roja, como la distribución normal y todo eso, pero hasta ahora en 512 modelos esta distribución pierde a la vista... Pronto habrá muchos modelos del orden de 100000 - Veré lo que muestran... la teoría y la práctica a veces no cuadran - hay que adaptarse, o se pueden poner los dientes largos así...

Catbust es sólo bayesiano y soporta el aprendizaje previo, pero no sé - añadir árboles sin fin - parece que se ajusta...

 
Maxim Dmitrievsky:

Añadir árboles es un poco raro, sin reorganizar toda la estructura... o tal vez está bien, es difícil de decir... para alguna pequeña perspectiva, parece bien, sólo para desplazar el centro de la mb

Y de qué otra manera se puede conseguir el efecto: en el impulso, ya que entiendo que es la única opción. Por supuesto, se puede desechar el último tercio del modelo -un tercio de los árboles- y ver qué sale cuando se introducen nuevos datos. Pero, estoy pensando en anular las hojas con "probabilidades" insignificantes - limpiando del ruido por así decirlo. En general, pienso en la automatización de la recopilación de conjuntos de modelos, encontrar un buen intervalo de la capacidad de predicción del modelo - la clasificación recortada en él (por ejemplo, de 0,7 a 0,8) y poner en los espacios en blanco para las combinaciones entre otros modelos.