Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3334
Está perdiendo oportunidades comerciales:
- Aplicaciones de trading gratuitas
- 8 000+ señales para copiar
- Noticias económicas para analizar los mercados financieros
Registro
Entrada
Usted acepta la política del sitio web y las condiciones de uso
Si no tiene cuenta de usuario, regístrese
Tienes muchos predictores binarios con 0 y 1. No dividirán por 32. Pero si los normaliza, puede obtener algo con cuantificación Uniforme. Si cuantificación no uniforme, entonces solo por números todas las distancias serán distorsionadas, necesitas abs valores después de la normalización.
Sí, con los binarios es más complicado. Pero no entiendo la idea de cómo la normalización puede ayudar aquí.
En general, supongo, es necesario reducir la dimensionalidad. Pero, entonces no es exactamente lo que los autores pretendían. Hasta ahora estoy lejos de la realización.
Habrá un error en la predicción si no puedes deshacerte del ruido como en el entrenamiento.
Es un concepto diferente - los datos se dividen en dos partes - como "puede predecir" y "no puede predecir" - un modelo es responsable de eso. Y cuando llegan nuevos datos, se evalúa si hacer una predicción o no. Así, las predicciones sólo se hacen sobre datos que eran "fácilmente" separables y estaban bien agrupados durante el entrenamiento, es decir, que tenían una señal de validez.
No importa si es árbol, bosque o arbusto. Si la predicción del modelo es del 50% significa que habrá un 50% de 0 y un 50% de 1 en la predicción.
Esa no es la cuestión, en absoluto. Forest y bousting tienen construcción de árbol forzada, es decir, no hay algoritmo para descartar si el árbol es pésimo. En ambos casos, el árbol recibe ponderaciones. Puede ser malo por un exceso de aleatoriedad en el algoritmo, tanto en la selección de características como en la selección de ejemplos (submuestras).
No, no lo he hecho. Voy a ver lo que es esta noche.
Así es. Es una forma de aislar los ejemplos que degradan el aprendizaje: ésa es la teoría.
La idea es entrenar 100 modelos y ver qué ejemplos de media "dificultan" una clasificación fiable, y luego intentar detectarlos con otro modelo.
Así que tomé el modelo y miré el recuento de hojas. El modelo está desequilibrado con sólo 12,2% unidades. 17k hojas.
Hice un marcado de hojas en clases - si la muestra de respuestas con objetivo "1" era más que el valor inicial - 12,2%, entonces la clase es "1", de lo contrario es "0". La idea de clase aquí es tener información útil para mejorar la clasificación.
En el histograma vemos los valores en las hojas del modelo (X) y su % en el modelo (Y) - sin clasificarlos.
Y aquí es lo mismo, pero la clase es sólo "0".
La clase es sólo "1".
Estos coeficientes en las hojas se suman y se transforman mediante logit, lo que significa que un signo "+" aumenta la probabilidad de la clase "1" y un "-" la disminuye. En general, el desglose por clases parece válido, pero hay un sesgo en el modelo.
Ahora podemos ver la distribución porcentual (en términos de precisión de la clasificación) por separado para las hojas con "1" y con "0".
En el histograma para "0" hay un gran número de hojas con una precisión cercana al "100%".
Y aquí hay un conglomerado más grande cerca del valor de separación inicial, es decir, hay muchas hojas poco informativas, pero al mismo tiempo también las hay cerca del 100%.
Si observamos el Recall, queda claro que todas estas hojas tienen un número reducido de activaciones, menos del 5% de su clase.
Recall para la clase "0
Recall para la clase "1".
A continuación, podemos observar la dependencia del peso en la hoja de su precisión de clasificación, también por separado para cada clase.
Para el objetivo "0
Para el objetivo "1".
Cabe destacar la presencia de linealidad, aunque con un rango tan grande. Pero la "columna" con una probabilidad de 100 está fuera de toda lógica, extendiéndose muy ampliamente sobre el rango del valor de la hoja.
¿Quizás habría que eliminar esta fealdad?
Además, si nos fijamos en el valor en las hojas en función del indicador Recall, vemos un pequeño peso en las hojas (cerca de 0), que a veces tiene un valor muy grande de respuestas. Esta situación indica que la hoja no es buena, pero el peso está unido a ella. Entonces, ¿también se pueden considerar estas hojas como ruido y ponerlas a cero?
Para el objetivo" 0".
Para el objetivo "1".
Me pregunto qué porcentaje de hojas de la nueva muestra (no del tren) "cambiarán" de clase.
Y además, un clásico: la interdependencia entre exhaustividad y precisión.
Clase 0.
Clase 1.
De todos modos, estoy pensando en cómo sopesar que....
Y este es el aspecto del modelo en términos de probabilidades.
En la muestra del tren, empezamos a obtener hasta un 35% de beneficios, ¡como en un cuento de hadas!
En la muestra de prueba, en el intervalo de 0,2 a 0,25, perdemos una buena parte de los beneficios.
En la muestra de examen - se sigue ganando, pero ya está corroyendo el modelo.
Me pregunto qué porcentaje de hojas de una nueva muestra (no tren) "cambiarán" de clase.
Así es, es una forma de resaltar los ejemplos que degradan el aprendizaje, eso en teoría.
La idea es entrenar 100 modelos y ver qué ejemplos de media "interfieren" con una clasificación fiable, y luego intentar detectarlos con un modelo diferente.
Divide el tren principal en 5-10 subtrenes, cada uno de los cuales se divide en una pista y un eje. Entrena en cada uno de ellos por tipo de cv y, a continuación, predice en todo el tren principal. Compara las etiquetas originales de todos los modelos con las etiquetas predichas. Las que no acertaron las pones en la lista negra. Luego eliminas todos los ejemplos malos al entrenar el modelo final calculando la aspiración media de cada muestra. Opcionalmente, puedes enseñar al segundo modelo a separar las muestras blancas de las negras, ya sea a través de la 3ª clase.
.
Las etiquetas (profesor, variable objetivo) NO pueden ser basura por definición. La cita se marca a partir de algunas consideraciones externas a los predictores. Una vez decididas las etiquetas, está el problema de los predictores que son relevantes para el conjunto de etiquetas encontradas. Es fácil tener el problema de que un conjunto de etiquetas es bonito, pero no podemos encontrar predictores para ellas y tenemos que buscar otro conjunto de etiquetas. Por ejemplo, las marcas son inversiones de ZZ. Marcas hermosas. ¿Y cómo encontrar predictores para tales etiquetas?
Tan pronto como empezamos a filtrar etiquetas por predictores - esto es superajuste, que es lo que todo lo que muestran aquí, incluyendo el mercado - no funciona en un archivo externo, nuevo en un modo natural paso a paso.
Sí, interesante.
Le informo de que en una prueba de muestra separada - 7467, y en el examen - 7177, pero no hay un pequeño número de hojas sin activaciones en absoluto - no los conté a la vez.
Esta es la distribución de las hojas que cambiaron de clase por su valor para la muestra de prueba.
y este es el examen.
Y este es el desglose en clases - hay tres de ellas, la tercera es "-1" - ninguna activación.
Para la muestra tren.
Para la muestra de prueba
Para la muestra de examen.
En general, se puede ver que los pesos de las hojas ya no corresponden a la lógica de clase - abajo está el gráfico de la muestra de prueba - no hay un vector claro.
En general, este método de entrenamiento aproxima cualquier cosa, pero no garantiza la calidad de los predictores.
En general, admito que las distintas "barras" en el gráfico de arriba son muy similares hojas por lugar y frecuencia de activación.
Es difícil discutir lo que no se conoce. Por lo tanto, sólo puedo alegrarme de su éxito. Si yo tuviera un método así, lo utilizaría :)
Mi método, hasta ahora, no da resultados tan cualitativos, pero es bastante paralelo.