Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3334

 
Forester #:

Tienes muchos predictores binarios con 0 y 1. No dividirán por 32. Pero si los normaliza, puede obtener algo con cuantificación Uniforme. Si cuantificación no uniforme, entonces solo por números todas las distancias serán distorsionadas, necesitas abs valores después de la normalización.


Sí, con los binarios es más complicado. Pero no entiendo la idea de cómo la normalización puede ayudar aquí.

En general, supongo, es necesario reducir la dimensionalidad. Pero, entonces no es exactamente lo que los autores pretendían. Hasta ahora estoy lejos de la realización.

Forester #:

Habrá un error en la predicción si no puedes deshacerte del ruido como en el entrenamiento.

Es un concepto diferente - los datos se dividen en dos partes - como "puede predecir" y "no puede predecir" - un modelo es responsable de eso. Y cuando llegan nuevos datos, se evalúa si hacer una predicción o no. Así, las predicciones sólo se hacen sobre datos que eran "fácilmente" separables y estaban bien agrupados durante el entrenamiento, es decir, que tenían una señal de validez.

Forester #:
No importa si es árbol, bosque o arbusto. Si la predicción del modelo es del 50% significa que habrá un 50% de 0 y un 50% de 1 en la predicción.

Esa no es la cuestión, en absoluto. Forest y bousting tienen construcción de árbol forzada, es decir, no hay algoritmo para descartar si el árbol es pésimo. En ambos casos, el árbol recibe ponderaciones. Puede ser malo por un exceso de aleatoriedad en el algoritmo, tanto en la selección de características como en la selección de ejemplos (submuestras).

 
Maxim Dmitrievsky #:
No, no lo he hecho. Voy a ver lo que es esta noche.
Estos métodos dependen del modelo. Los datos en sí no están divididos o separados. No sé cómo explicarlo. Lo intenté una vez y volví a tener problemas con los optimizadores. Está en los libros.
Si vas a la izquierda aquí, pierdes un caballo. Si vas a la derecha, pierdes el dragón de dos cabezas.

Así es. Es una forma de aislar los ejemplos que degradan el aprendizaje: ésa es la teoría.

La idea es entrenar 100 modelos y ver qué ejemplos de media "dificultan" una clasificación fiable, y luego intentar detectarlos con otro modelo.

 

Así que tomé el modelo y miré el recuento de hojas. El modelo está desequilibrado con sólo 12,2% unidades. 17k hojas.

Hice un marcado de hojas en clases - si la muestra de respuestas con objetivo "1" era más que el valor inicial - 12,2%, entonces la clase es "1", de lo contrario es "0". La idea de clase aquí es tener información útil para mejorar la clasificación.

En el histograma vemos los valores en las hojas del modelo (X) y su % en el modelo (Y) - sin clasificarlos.

0

Y aquí es lo mismo, pero la clase es sólo "0".


La clase es sólo "1".

Estos coeficientes en las hojas se suman y se transforman mediante logit, lo que significa que un signo "+" aumenta la probabilidad de la clase "1" y un "-" la disminuye. En general, el desglose por clases parece válido, pero hay un sesgo en el modelo.

Ahora podemos ver la distribución porcentual (en términos de precisión de la clasificación) por separado para las hojas con "1" y con "0".


En el histograma para "0" hay un gran número de hojas con una precisión cercana al "100%".


Y aquí hay un conglomerado más grande cerca del valor de separación inicial, es decir, hay muchas hojas poco informativas, pero al mismo tiempo también las hay cerca del 100%.

Si observamos el Recall, queda claro que todas estas hojas tienen un número reducido de activaciones, menos del 5% de su clase.


Recall para la clase "0


Recall para la clase "1".

A continuación, podemos observar la dependencia del peso en la hoja de su precisión de clasificación, también por separado para cada clase.

00

Para el objetivo "0


Para el objetivo "1".

Cabe destacar la presencia de linealidad, aunque con un rango tan grande. Pero la "columna" con una probabilidad de 100 está fuera de toda lógica, extendiéndose muy ampliamente sobre el rango del valor de la hoja.

¿Quizás habría que eliminar esta fealdad?

Además, si nos fijamos en el valor en las hojas en función del indicador Recall, vemos un pequeño peso en las hojas (cerca de 0), que a veces tiene un valor muy grande de respuestas. Esta situación indica que la hoja no es buena, pero el peso está unido a ella. Entonces, ¿también se pueden considerar estas hojas como ruido y ponerlas a cero?

000

Para el objetivo" 0".


Para el objetivo "1".

Me pregunto qué porcentaje de hojas de la nueva muestra (no del tren) "cambiarán" de clase.

 

Y además, un clásico: la interdependencia entre exhaustividad y precisión.

0

Clase 0.


Clase 1.

De todos modos, estoy pensando en cómo sopesar que....

 

Y este es el aspecto del modelo en términos de probabilidades.

tren

En la muestra del tren, empezamos a obtener hasta un 35% de beneficios, ¡como en un cuento de hadas!


En la muestra de prueba, en el intervalo de 0,2 a 0,25, perdemos una buena parte de los beneficios.


En la muestra de examen - se sigue ganando, pero ya está corroyendo el modelo.

 
Aleksey Vyazmikin #:

Me pregunto qué porcentaje de hojas de una nueva muestra (no tren) "cambiarán" de clase.

Sí, me pregunto....

________________________

De hecho, he encontrado una manera de encontrar tales características que no cambian con respecto a la meta ni en el traine ni en la prueba ... Pero el problema es que tales características son catastróficamente pocos y el método de selección en sí es salvajemente caro en términos de poder y, en general, el método en sí se implementa mediante la formación sin un maestro, sólo de esta manera nos las arreglamos para evitar ajuste


 
¿Y qué papel ha desempeñado en ello la cuantificación? En una escala de 10.
Atravesé el campo estelar y fue como si empezara la singularidad. Entré en un multiverso y conocí a una copia de mí mismo. Ahora estoy dando vueltas en diferentes versiones de universos. Y no hay forma de salir de ello. Ahora tengo que encontrar nuevos significados.

Cuando el cerebro o la red neuronal alcanzan los límites de lo razonable, comienza la singularidad.
 
Aleksey Vyazmikin #:

Así es, es una forma de resaltar los ejemplos que degradan el aprendizaje, eso en teoría.

La idea es entrenar 100 modelos y ver qué ejemplos de media "interfieren" con una clasificación fiable, y luego intentar detectarlos con un modelo diferente.

Divide la pista principal en 5-10 subtrenes, cada uno de los cuales se divide en una pista y un eje. En cada uno, entrena sobre el tipo de cv, luego predice sobre todo el tren principal. Compara las etiquetas originales de todos los modelos con las etiquetas predichas. Los que no acertaron se ponen en la lista negra. Luego eliminas todos los ejemplos malos al entrenar el modelo final calculando la aspiración media de cada muestra. Opcionalmente, puedes enseñar al segundo modelo a separar las muestras blancas de las negras, ya sea a través de la 3ª clase.

3 lineas de codigo, resultados al nivel de... bueno, no tengo mucho con que comparar... bueno, a cierto nivel.

El kozol aquí está en cv, lo que significa que estadísticamente determinas qué ejemplos son malos y cuáles son buenos, usando múltiples modelos, cada uno entrenado en diferentes trozos de historia. Esto se llama propensity score, es decir, la propensión de cada muestra a desempeñar un papel en el entrenamiento.

Por supuesto, las etiquetas pueden ser muy basura, y este enfoque puede eliminar casi todo. Así que al principio utilicé el muestreo aleatorio de transacciones para añadir diferentes variantes de etiquetas. Dado que no queremos o no sabemos cómo pensar en cómo marcar un gráfico.

Esto es más o menos lo que un AMO con elementos kozol que busca TCs por su cuenta debería parecer.
 
Maxim Dmitrievsky #:
Divide el tren principal en 5-10 subtrenes, cada uno de los cuales se divide en una pista y un eje. Entrena en cada uno de ellos por tipo de cv y, a continuación, predice en todo el tren principal. Compara las etiquetas originales de todos los modelos con las etiquetas predichas. Las que no acertaron las pones en la lista negra. Luego eliminas todos los ejemplos malos al entrenar el modelo final calculando la aspiración media de cada muestra. Opcionalmente, puedes enseñar al segundo modelo a separar las muestras blancas de las negras, ya sea a través de la 3ª clase.
.

3 líneas de código, resultados al nivel de... bueno, no tengo con qué comparar... bueno, a cierto nivel.

La cabra aquí es cv, lo que significa que determinas estadísticamente qué muestras son malas y cuáles son buenas, usando múltiples modelos, cada uno entrenado en diferentes trozos de historia. Esto se llama propensity score, es decir, la propensión de cada muestra a jugar un papel en el entrenamiento.

Por supuesto, las etiquetas pueden ser muy basura, y este enfoque puede eliminar casi todo. Así que al principio utilicé el muestreo aleatorio de transacciones para añadir diferentes variantes de etiquetas. Dado que no queremos o no sabemos cómo pensar en cómo marcar un gráfico.

Esto es más o menos lo que un AMO con elementos kozol que busca TCs por su cuenta debería parecer.

Las etiquetas (profesor, variable objetivo) NO pueden ser basura por definición. La cita se marca a partir de algunas consideraciones externas a los predictores. Una vez decididas las etiquetas, está el problema de los predictores que son relevantes para el conjunto de etiquetas encontradas. Es fácil tener el problema de que un conjunto de etiquetas es bonito, pero no podemos encontrar predictores para ellas y tenemos que buscar otro conjunto de etiquetas. Por ejemplo, las marcas son inversiones de ZZ. Marcas hermosas. ¿Y cómo encontrar predictores para tales etiquetas?

Tan pronto como empezamos a filtrar etiquetas por predictores - esto es superajuste, que es lo que todo lo que muestran aquí, incluyendo el mercado - no funciona en un archivo externo, nuevo en un modo natural paso a paso.

 
mytarmailS #:
Sí, interesante.

Le informo de que en una prueba de muestra separada - 7467, y en el examen - 7177, pero no hay un pequeño número de hojas sin activaciones en absoluto - no los conté a la vez.

0

Esta es la distribución de las hojas que cambiaron de clase por su valor para la muestra de prueba.

1

y este es el examen.

Y este es el desglose en clases - hay tres de ellas, la tercera es "-1" - ninguna activación.


Para la muestra tren.


Para la muestra de prueba


Para la muestra de examen.

En general, se puede ver que los pesos de las hojas ya no corresponden a la lógica de clase - abajo está el gráfico de la muestra de prueba - no hay un vector claro.


En general, este método de entrenamiento aproxima cualquier cosa, pero no garantiza la calidad de los predictores.

En general, admito que las distintas "barras" en el gráfico de arriba son muy similares hojas por lugar y frecuencia de activación.


mytarmailS #:

De hecho, he encontrado una manera de encontrar tales signos que no se desplazan en relación con el objetivo ni en la traine ni en la prueba ... Pero el problema es que tales signos son catastróficamente pocos y el método de selección es salvajemente caro en términos de poder y, en general, el método se aplica mediante la formación sin un maestro, sólo de esta manera me las arreglé para evitar el ajuste.

Es difícil discutir lo que no se conoce. Por lo tanto, sólo puedo alegrarme de su éxito. Si yo tuviera un método así, lo utilizaría :)

Mi método, hasta ahora, no da resultados tan cualitativos, pero es bastante paralelo.