Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2111

 
Aleksey Vyazmikin:

No, sería un ajuste justo, ¡no un modelo con sentido!

No estoy de acuerdo. Al cuantificar se reduce la cantidad de información. El número máximo de cuantificación dejará la máxima cantidad de información.

Pero se tarda más en cuantificar a 65535 que a 255.

 
elibrarius:

¿Sabes cómo?

Sí, estoy trabajando en ello - se hizo originalmente para los árboles genéticos.

Hay que evaluar la distribución de la información en la muestra y su relación con el objetivo. Miro cómo se reduce el error en una sección de cuantificación concreta y qué porcentaje de muestras contiene: equilibrar esas métricas permite seleccionar las mejores particiones.

 
elibrarius:

No estoy de acuerdo. Al cuantificar se reduce la cantidad de información. El número máximo de cuantificación dejará la máxima cantidad de información.

Pero se tarda más en cuantificar a 65535 que a 255.

No debería estar en desacuerdo: no hay mucha información ahí fuera y hay que separarla del ruido. Nosotros (yo) necesitamos dependencias estables, no las que se repiten cada 5 años y por lo tanto no hay suficientes estadísticas para estimar su propensión a un objetivo particular, el uso de ejemplos insuficientes conduce simplemente a la adaptación.

 
Aleksey Vyazmikin:

Sí, estoy trabajando en esto - se hizo originalmente para los árboles genéticos.

Hay que evaluar la distribución de la información en la muestra y su relación con el objetivo. Me fijo en cómo se reduce el error en una sección concreta de la cuantificación y qué porcentaje de muestras contiene: equilibrar estas métricas permite seleccionar las mejores particiones.

¿Cómo se estima el error de cuantificación? Sólo se puede conseguir ejecutando el entrenamiento y por todas las columnas a la vez y no por cada columna cuantificada en el momento.

 
elibrarius:
Aleksey Vyazmikin:

¿Cómo se estima el error de cuantificación? Sólo puede obtenerse ejecutando el entrenamiento en todas las columnas a la vez, no en cada columna actualmente cuantificada.

Estimo el cambio en el saldo objetivo en relación con toda la muestra. Esto es especialmente relevante si hay más de dos objetivos.

 
Aleksey Vyazmikin:

Estimo el cambio en el equilibrio de los objetivos en relación con la muestra completa. Esto es especialmente cierto si hay más de dos objetivos.

En cualquier caso, la siguiente división se dividirá a través del punto de cuantificación en 2 partes.

Se puede mover el límite de un quantum de forma bastante aproximada -5-10-20% de su tamaño- cuantificando grandes trozos de 255. Aplicando 65535 cuantos tendrás un paso de 0,5% de tu cuanto. Y el árbol elegirá al mejor.

Aunque es poco probable. Por lo general, sólo golpea el medio o los cuartos. Con 65535 cuantos encontrarás el medio con más precisión, y con 255 es 256 veces más difícil.

 
elibrarius:

En cualquier caso, la siguiente división se dividirá a través del punto de cuantificación en 2 piezas.

Se puede desplazar el límite de un quantum de forma bastante gruesa -5-10-20% de su tamaño- cuantificando grandes trozos de 255. Aplicando 65535 cuantos tendrás un paso de 0,5% de tu cuanto. Y el árbol elegirá al mejor.

Aunque es poco probable. Por lo general, sólo golpea el medio o los cuartos. Con 65535 cuantos se encontrará el medio con más precisión, y con 255 es 256 veces más difícil.

Exactamente, habrá una división, pero la división no será del 50% sino desigual - dependiendo de la correspondencia con la(s) división(es) superior(es), pero la lógica sugiere que las posibilidades serán diferentes si se mira donde el segmento está saturado de unidades o donde hay un número igual de ellas (en relación con el equilibrio de toda la muestra). El objetivo es obtener al menos el 1% de las muestras en las hojas, y al mismo tiempo alrededor del 65% de las etiquetas de la misma clase.

 
Aleksey Vyazmikin:

Exactamente, habrá una división, pero la división no será del 50%, sino desigual, dependiendo de la correspondencia con la(s) división(es) superior(es), pero la lógica sugiere que las posibilidades serán diferentes si se busca donde el segmento está saturado de unidades o donde hay un número par de ellas (en relación con el equilibrio de toda la muestra). El objetivo es obtener al menos el 1% de la muestra en las hojas, y al mismo tiempo alrededor del 65% de las etiquetas de la misma clase.

Creo que es una tarea bastante difícil.

Y si se puede encontrar tal característica, es la única manera de trabajar, incluso sin MO.

Desgraciadamente, no disponemos de estas características.

 
Maxim Dmitrievsky:

No lo necesito para el examen, pero puede ser útil.

Los resultados son extraños - en la muestra de prueba y de entrenamiento Recall 0,6-0,8 y en el examen sin conversión 0,009 y con conversión 0,65 - algo está mal aquí :(

Tengo la sensación de que CatBoost ha aprendido el algoritmo de conversión :)

¿Y existe la posibilidad de marcar líneas antiguas y nuevas? A continuación, es posible eliminar las cadenas transformadas de la muestra transformada y ver si se trata de un problema de interpretación o de formación no cualitativa, todo lo mismo.

 
elibrarius:

Creo que esto es todo un reto.

Y si se encuentra tal característica, es la única manera de trabajar, incluso sin el Ministerio de Defensa.

Desgraciadamente, no tenemos esas características.

Por y es la división de la cuadrícula, y por X es la desviación porcentual de la suma del objetivo de cada clase en toda la muestra. El filtro es del 5%. Podemos ver que diferentes clases dominan en diferentes áreas y a veces hay un cambio de espejo en el que la mejora se debe a una determinada clase (el histograma va a la posición menos) y a veces no. Todo esto debería utilizarse en la formación, pero los métodos de formación estándar que conozco no lo tienen muy en cuenta. Es posible que el sobreentrenamiento con la genética (más precisamente en la eliminación) sea más eficaz - se debe hacer.