Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2255

 
elibrarius:
Una activación rara en Exam significa más bien que el mercado ha cambiado y que lo que solía ocurrir en el traine ha dejado de ocurrir. Y tampoco significa necesariamente que no haya habido muchas activaciones de la hoja allí.

Sí, estoy de acuerdo en que también hay un efecto de cambio de mercado.

Veamos el tren.

La situación es ligeramente mejor, pero también hay hojas con un número raro de activaciones.

Fíjese en cómo se produce el aprendizaje: se construye un árbol con un peso grande -condicionalmente exitoso- y luego un conjunto con pesos pequeños, y luego grande de nuevo -un pastel de este tipo-, y si se eliminan las vetas con pesos pequeños, entonces se obtiene un cambio en la probabilidad.

 
Aleksey Vyazmikin:

Sí, estoy de acuerdo en que también hay un efecto de cambio de mercado.

Veamos el tren.

La situación es ligeramente mejor, pero también lo son las hojas con un número raro de activaciones.

Fíjate en cómo se produce el aprendizaje - se construye un árbol con pesos grandes - condicionalmente exitoso, y luego un conjunto con pesos pequeños, y luego grande de nuevo - tal pastel, y si eliminas las venas con pesos pequeños, y obtienes un cambio en la probabilidad.

Me pregunto qué ocurrirá si se entrena un nuevo modelo con este diagrama.

En general, la idea es entrenar el segundo modelo en las "entrañas" del primero.

 
Maxim Dmitrievsky:

¿Por qué estás jugando con el carburador? No estás mejorando nada con ello.

Si entiendes cuál es el problema, puedes buscar una solución. Obviamente, estos árboles tienen inconvenientes.

Pero estoy de acuerdo en que no puedo descifrar el código de CatBoost para hacer ediciones en él, por desgracia.

Sin embargo, hay una oportunidad de influir en el modelo, tal vez la reducción a cero de los ejemplos raros en las hojas dará un efecto positivo, pero es deseable entonces para volver a calcular los coeficientes de las hojas - con ella es más complicado, pero globalmente solucionable.

Maxim Dmitrievsky:

Tomemos una simple red neuronal sin hojas. Funcionará tanto con los nuevos datos como con el refuerzo. ¿Qué te dice esto?

Estoy de acuerdo en que también habrá efectos de sobreentrenamiento, pero de distinta naturaleza; la cuestión es cuál de estos efectos puede detectarse y evaluarse con mayor precisión y cuál es más fácil de tratar.

Maxim Dmitrievsky:

Existe una excelente herramienta SHAP para la selección e interpretación de características, pero está en python. Todo está hecho para ti desde hace mucho tiempo).

De hecho, la gran mayoría de estos métodos sólo hablan de utilizar predictores en los modelos, pero no hacen ninguna evaluación de los mismos. Se necesitan estimaciones de los predictores independientes del modelo - estoy trabajando en ello, hay modestos resultados positivos.

Por supuesto que quiero jugar con soluciones ya hechas en python o R, pero dudo que pueda manejar una nueva sintaxis.

 
mytarmailS:

Me pregunto qué pasa si se entrena un nuevo modelo con este diagrama.

En realidad, la idea es entrenar un segundo modelo en las "entrañas" del primer modelo.

Este modelo en el ejemplo es de depósitos antiguos, ahora tengo 60k hojas en los modelos, que por supuesto es mucho para formar una muestra. Tal vez se intente reducir significativamente el número de árboles. Sin embargo, observo que he evaluado las hojas de CatBoost y son muy débiles en sus características individuales en comparación con las hojas de un árbol genético.

En las hojas (miles de hojas) del árbol genético que entrené - el rendimiento métrico puede mejorarse.

 
Aleksey Vyazmikin:

Si entiendes cuál es el problema, puedes buscar una solución. Obviamente, estos árboles tienen desventajas.

Pero estoy de acuerdo en que no puedo descifrar el código de CatBoost para hacer ediciones en él, por desgracia.

Sin embargo, existe la posibilidad de influir en el modelo, tal vez la eliminación de los ejemplos raros en las hojas tenga un efecto positivo, pero es deseable volver a ponderar los coeficientes de las hojas - esto es más difícil, pero globalmente solucionable.

Estoy de acuerdo en que también habrá efectos de sobreentrenamiento, pero de distinta naturaleza; la cuestión es cuál de estos efectos puede identificarse y evaluarse con mayor precisión y cuál es más fácil de tratar.

De hecho, la gran mayoría de estos métodos sólo hablan de utilizar predictores en los modelos, pero no hacen ninguna evaluación de los mismos. Necesitamos estimaciones de predictores independientes del modelo - estoy trabajando en ello, hay modestos resultados positivos.

Por supuesto que quiero girar soluciones ya hechas en python o R, pero hay dudas de que pueda manejar la nueva sintaxis.

Lo que se evalúa allí es el efecto de las características en el comportamiento de un modelo concreto

 
Aleksey Vyazmikin:

Si entiendes cuál es el problema, puedes buscar una solución. Obviamente, estos árboles tienen desventajas.

Pero estoy de acuerdo en que no puedo descifrar el código de CatBoost para hacer ediciones en él, por desgracia.

Sin embargo, existe la posibilidad de influir en el modelo, tal vez la eliminación de los ejemplos raros en las hojas tenga un efecto positivo, pero es deseable volver a ponderar los coeficientes de las hojas - esto es más difícil, pero globalmente solucionable.

Estoy de acuerdo en que también habrá efectos de sobreentrenamiento, pero de distinta naturaleza; la cuestión es cuál de estos efectos puede identificarse y evaluarse con mayor precisión y cuál es más fácil de tratar.

De hecho, la gran mayoría de estos métodos sólo hablan de utilizar predictores en los modelos, pero no hacen ninguna evaluación de los mismos. Necesitamos estimaciones de predictores independientes del modelo - estoy trabajando en ello, hay modestos resultados positivos.

Por supuesto que quiero girar soluciones ya hechas en Python o R, pero hay dudas de que pueda manejar la nueva sintaxis.

Llegó a la conclusión de que añadir 1 a la vez (o quitar 1 a la vez) es lo mejor. Aquí está mi investigación. Supongo que ya lo has visto.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
Maxim Dmitrievsky:

lo que se evalúa es el impacto de las características en el comportamiento de un modelo concreto

Eso es lo que digo, la evaluación pasa por el modelo resultante.

 
elibrarius:

Concluyó que lo mejor es añadir 1 a la vez (o quitar 1 a la vez). Aquí está mi investigación. Probablemente ya lo has visto.

No lo había visto antes - lo busqué - en general estoy de acuerdo en que el efecto real se puede lograr a través de la eliminación. CatBoost tiene un método para eliminar el predictor y volver a ponderar el modelo sin él, pero no lo he utilizado. Hasta ahora me he limitado a añadir y quitar predictores, pero no sólo uno, sino en grupos.

 
Aleksey Vyazmikin:

Eso es lo que digo, la evaluación pasa por el modelo resultante.

y eso es bueno

puede ver qué características son defectuosas en los nuevos datos

 

No sé... quizá sea mi experiencia o quizá sea mi forma de beber...)

...pero creo que estás sufriendo de...)