Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 1298

 

Anteriormente se habló de la posibilidad teórica de eliminar los valores ruidosos de una matriz, aquí está el modelo original

y aquí he eliminado el ruido de 0,01 a -0,01 de una matriz con pesos de respuesta de árbol binario

La ganancia es ligeramente menor, pero el rendimiento relativo ha mejorado.

 

Hm, eliminado (valores a cero) ya árboles binarios de -0,02 a 0,02

parece que no hay un progreso débil, lo que significa que hay un núcleo de racionalidad en esto - se requiere más investigación.

 
Aleksey Vyazmikin:

En términos muy primitivos, el primer árbol no tiene respuesta a la muestra, devuelve cero, y el cuarto árbol tiene esta respuesta y cuenta con una "probabilidad" de 0,6 - técnicamente corrigió el error del primer árbol, pero de hecho reveló una conexión que antes no existía en absoluto.

El error del primer árbol puede ser no sólo 0, sino también 1.

Es decir, si el primer árbol predijo 1, pero en realidad fue 0, entonces los siguientes árboles deberían disminuir el total de 1 a 0. Así que 2,3 etc. árboles harán una predicción negativa para disminuir el 1 del primer árbol a 0 después de N pasos por varias sustracciones.

 
elibrarius:

El error del primer árbol puede ser no sólo 0, sino también 1.

Es decir, si el primer árbol predijo 1, pero en realidad hay 0, entonces los árboles subsiguientes deberían disminuir el total de 1 a 0. Es decir, 2,3 etc. árboles darán una predicción negativa para reducir el 1 del primer árbol a 0 después de N pasos por varias sustracciones.

Por supuesto, estoy de acuerdo. Pero esto no cambia la esencia - lo importante es el patrón que el árbol encontrará, y la interpretación de este patrón es el trabajo de un algoritmo separado.

 
Aleksey Vyazmikin:

Y no sé de la comunidad, es decir, no sé cómo lo hacen otros individuos en otras áreas...

Tirar de datos me parece lógico, porque estoy buscando un modelo de comportamiento humano (o algoritmo) con la ayuda de MO, puede haber muchos patrones de comportamiento de este tipo y pueden ser independientes, así que tiene sentido tirar de todos los posibles, porque es imposible generalizarlos todos juntos. Y para alguien el mercado es algo completo, el resultado de un trabajo mental colectivo, una especie de órgano de votación sin reglas, ellos, probablemente, están buscando el modelo correcto para describir el comportamiento del mercado como un organismo separado.

¿Cómo no vas a saberlo si formas parte de él?)

tal vez estoy compartiendo, ya que el objetivo original era hacer algo como una IA que recoge todo por sí mismo, sin una rutina manual. Rutina sólo cuando se diseña tal cosa

No puedo imaginarme recorriendo cientos / miles de modelos manualmente, seleccionando algo allí. Por el contrario, quiero olvidarme de "inventar" TCs como un mal sueño.

 
Maxim Dmitrievsky:

¿Cómo no lo sabes si formas parte de él?)

tal vez estoy compartiendo, ya que el objetivo original era hacer algo así como una IA que se sacrifica todo por sí mismo, sin una tarea manual. Rutina sólo cuando se diseña tal cosa

No puedo imaginarme recorriendo cientos / miles de modelos manualmente, seleccionando algo allí. Por el contrario, quiero olvidarme de "inventar" el TC como un mal sueño.

Y no tengo ni idea de cómo analizar cada modelo por separado, por eso he hecho hincapié en el procesamiento por lotes. Los modelos individuales deben ser analizados en detalle para mejorar el algoritmo general del ciclo de creación de modelos, para encontrar nuevas ideas.

El problema es que cuando se tienen cientos de miles de variantes de modelos que dan resultados totalmente diferentes, es difícil entender qué hacer para mejorar los resultados; aquí es donde me encuentro con el mayor obstáculo. Al principio obtengo un modelo interesante con 4 predictores y me parece que no tiene sentido añadir más predictores y sólo hay que generar más modelos, luego por el contrario uso muchos predictores y la influencia de la muestra de entrenamiento tiene más, además de muchos parámetros para el entrenamiento con el propio CatBoost. Por eso me inclino por generar muchos modelos y guardar 2-3 de cada 100k y estudiarlos más a fondo.

 
Aleksey Vyazmikin:

No tengo ni idea de cómo analizar cada modelo por separado, de ahí el énfasis en el procesamiento por lotes. El problema es que cuando se tienen cientos de miles de variantes de modelos que dan resultados completamente diferentes, es difícil saber qué hacer con ellos.

El problema es que cuando se tienen cientos de miles de variantes de modelos que dan resultados totalmente diferentes, es difícil entender qué hacer para mejorar los resultados; aquí es donde me encuentro con el mayor obstáculo. Al principio obtengo un modelo interesante con 4 predictores y me parece que no tiene sentido añadir más predictores y sólo hay que generar más modelos, luego por el contrario uso muchos predictores y la influencia de la muestra de entrenamiento tiene más, además de muchos parámetros para el entrenamiento con el propio CatBoost. Por lo tanto me inclino a que hay que generar muchos modelos y guardar 2-3 de cada 100k, y ya los hay más detallados para estudiar.

Sí, así, es deseable tanto como sea posible para automatizar, que luego se mantuvo una elección banal que es más preferible, tener una taza de café

Es difícil de hacer, estoy de acuerdo, pero será la IA y no un clasificador normal.

En cuanto a la última - hay una libs AutoML - una red neuronal selecciona la mejor red neuronal o conjunto de modelos para una tarea en particular, es genial también. No se ha utilizado todavía.
 
Maxim Dmitrievsky:

Sí, algo así, preferiblemente automatizado en la medida de lo posible, para que después haya una elección trivial de cuál te gusta más, tomando una taza de café.

difícil de hacer, estoy de acuerdo, pero entonces sería una IA, no un clasificador normal.

Ahora después del entrenamiento, los resultados son procesados por el script (sin intérprete del modelo - por el cálculo de CatBoost), y de 100k modelos obtengo los que cumplen con los criterios definidos (criterios de modelo y comercio) para las tres muestras, obtenemos alrededor de 50-100 modelos, los convierto para mostrarlos en el terminal y hago re-pass para una selección más detallada. En realidad, puede que ni siquiera los lance en el terminal, si sé exactamente lo que quiero, pero por ahora estoy buscando criterios de selección y creo que es útil mirar diferentes modelos visualmente. Puedo guardar las curvas de balance con el script, pero no sé cómo trabajar con los gráficos - todavía no puedo entenderlos.

No sé si en Python se pueden crear muchos modelos a la vez, pero si es interesante, te puedo enviar las porras, que yo uso para hacerlo.

 
Aleksey Vyazmikin:

Ahora después del entrenamiento los resultados son procesados por el script (sin el intérprete de modelos - basado en los resultados de CatBoost), y de 100k modelos obtengo los que cumplen con los criterios (criterios de modelo y comercio) para las tres muestras, obtengo alrededor de 50-100 modelos, los convierto para su reproducción en la terminal y hago una segunda pasada allí para una selección más detallada. En realidad, puede que ni siquiera los lance en el terminal, si sé exactamente lo que quiero, pero por ahora estoy buscando criterios de selección y creo que es útil mirar diferentes modelos visualmente. Puedo guardar las curvas de equilibrio con el script, pero no sé cómo trabajar con los gráficos - todavía no puedo averiguarlo.

No sé si en python se pueden crear muchos modelos a la vez, pero si es interesante, te puedo enviar las porras, que yo uso para hacerlo.

puedes hacer cualquier cosa en python y más.

Todavía no, gracias... Estoy leyendo algunos libros interesantes. Yo también he usado catbust en python, lo he comparado con forest, no he visto grandes mejoras, pero es configurable y funciona bien por sí solo. En realidad en un par de líneas.

 
Maxim Dmitrievsky:

AutoML - una red neuronal selecciona la mejor red neuronal o conjunto de modelos para una tarea concreta, también genial. Todavía no lo he utilizado.

He hecho algo parecido - la pregunta es de nuevo sobre los predictores y los criterios de selección (objetivo). Ahora (muchos meses después) finaliza todas las ideas con los predictores y vuelve a este tema. Y el resultado está ahí en general, he publicado antes cómo funcionan tales modelos, pero necesito diferentes muestras con diferente dispersión, preferiblemente de diferentes modelos.

¿Y qué utiliza AutoML como predictores y el objetivo?