Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 3335

 
Maxim Dmitrievsky #:
¿Y qué papel desempeñó la cuantificación en ello? En una escala de 10 puntos

Es difícil aislar completamente los procesos de pensamiento.

Hay problemas en varios frentes, así que hay que ver qué se puede mejorar con menos esfuerzo y más resultados. Saltar periódicamente de los "datos" al "proceso de aprendizaje" y experimentar.

La idea original es estimar la correlación, pero no he encontrado ningún método prefabricado, estoy modernizando el mío. Creo que si las hojas son similares, distorsionan la estimación.

Maxim Dmitrievsky #:
He pasado Starfield y allí poco singularidad comenzó. Entré en el multiverso y me encontré con una copia de mí mismo. Ahora estoy dando vueltas en diferentes versiones de universos. Y no hay salida. Ahora tengo que encontrar nuevos significados.

Cuando el cerebro o la red neuronal alcanzan los límites de lo razonable, comienza la singularidad.

Es una idea interesante. Este juego, tal vez lo juegue algún día más tarde Trato a los juegos como creatividad, los juegos son mucho más lentos para quedar obsoletos gráficamente ahora.

Corrí God of War (2018) en una vieja tarjeta gráfica HD7950 (la tiré en un ordenador aparte, que es puramente para cálculos) por debajo de diez, puse los gráficos al mínimo y simplemente me impactó la imagen. Pero el interés principal es la elaboración de la relación entre padre e hijo - es difícil encontrar análogos en la industria informática, donde se plantea este tema.

Maxim Dmitrievsky #:
Divida la pista principal en 5-10 subtrenes, cada uno de los cuales se divide en una pista y un eje. En cada uno te entrenas en el tipo cv, y luego predices en toda la pista principal. Comparas las etiquetas originales de todos los modelos con las etiquetas predichas. Los que no han acertado se ponen en la lista negra. Luego eliminas todos los ejemplos malos al entrenar el modelo final calculando la aspiración media de cada muestra. Opcionalmente, puedes enseñar al segundo modelo a separar las muestras blancas de las negras, ya sea a través de la 3ª clase.
.

3 líneas de código, resultados al nivel de... bueno, no tengo con qué comparar... bueno, a cierto nivel.

La cabra aquí es cv, lo que significa que determinas estadísticamente qué muestras son malas y cuáles son buenas, usando múltiples modelos, cada uno entrenado en diferentes trozos de historia. Esto se llama propensity score, es decir, la propensión de cada muestra a jugar un papel en el entrenamiento.

Por supuesto, las etiquetas pueden ser muy basura, y este enfoque puede eliminar casi todo. Por eso al principio utilicé el muestreo aleatorio de transacciones para añadir diferentes variantes de etiquetas. Dado que no queremos o no sabemos cómo pensar en cómo marcar un gráfico.

Esto es más o menos lo que un AMO con elementos kozol que busca TCs por su cuenta debería parecer.

Pero aquí también trabajamos con datos a través de modelos. ¿O ve alguna diferencia?

 
Aleksey Vyazmikin #:

Pero también es trabajar con datos a través de modelos. ¿O ves alguna diferencia?

Es algo automático, no tienes que pensar ni (importante) hacer nada :)
 
Maxim Dmitrievsky #:
Bueno, como en automático, no es necesario pensar y (eso es importante) hacer nada :)

Teniendo en cuenta la aleatoriedad excesiva en CatBoost en el método de formación - es difícil evaluar el enfoque en sí. Allí interfieren con cadenas al construir un árbol, y se alimentan de datos con bachami, bueno, si no está prohibido todo ...

Es interesante evaluar cuántas hojas cambiar de clase en los nuevos datos, por analogía, como escribí anteriormente en la rama. Esto podría ser una métrica de la calidad del enfoque / modelo.

 
Aleksey Vyazmikin #:

Teniendo en cuenta la excesiva aleatoriedad de CatBoost en el propio método de entrenamiento, es difícil evaluar el enfoque en sí. Allí interfieren con cadenas al construir un árbol, y alimentar datos con bacham, bueno, si no está prohibido....

Es interesante evaluar cuántas hojas cambiar de clase en los nuevos datos, por analogía, como escribí anteriormente en la rama. Esto podría ser una métrica para la calidad del enfoque/modelo.

Idealmente, esta aleatoriedad no es tan mala como la aleatoriedad del conjunto de datos
 
Maxim Dmitrievsky #:
Idealmente, esta aleatoriedad no es tan mala como la aleatoriedad en el conjunto de datos

Es posible obtener un modelo bonito por azar a partir de la aleatoriedad - ese es el problema, pero si fuera imposible, no importaría.

No es un problema entrenar un modelo - el problema es elegir el que tiene más potencial para funcionar correctamente con nuevos datos.

Este es el enfoque interesante que permite aumentar este potencial. Y para evaluar la eficacia del modelo, necesitamos algún tipo de métrica, no sólo una estadística de la precisión de la clasificación, sino algo más, por ejemplo, la evaluación de las hojas individualmente. Está claro que los indicadores de los predictores cambian, por eso las hojas son tan ruidosas, "cambiando" las clases reales. Por eso es una tarea compleja - se necesitan buenas etiquetas y predictores estables, y las combinaciones de ellos no deben crear hojas con valores raros en el modelo.

En producción, ya es necesario controlar los cambios en la distribución de los valores de los predictores utilizados en el modelo y frenar el modelo si los cambios son significativos y extensos. Sin embargo, este enfoque requiere acumular estadísticas, lo que para nosotros equivale a acumular pérdidas, y esto no es bueno. Necesitamos un método más rápido para excluir el modelo, pero uno razonable, que no se base puramente en la reducción de pérdidas.

Hay muchos problemas, y sin resolverlos, no queremos dar dinero al modelo para la gestión.

 
Aleksey Vyazmikin #:

Sí, el binario es más complicado. Pero no entiendo cómo el racionamiento puede ayudar aquí.

El signo binario con 0 y 1 ya está normalizado, y el resto debería normalizarse también.

 
Forester #:

La característica binaria con 0y1 ya está normalizada, y las demás también deben normalizarse.

Espero entender su pensamiento.

Pero, en la cuantificación uniforme por los mismos 32 segmentos, podemos considerar que el segmento "1" es 0 y el segmento "32" es 1. Y lo mismo ocurre con cualquier otro dígito. Por eso no entiendo cuál es la diferencia fundamental aquí.

 
Aleksey Vyazmikin #:

Entendido tu hilo de pensamiento, espero.

Pero, en la cuantificación uniforme sobre los mismos 32 segmentos, es posible considerar que el segmento "1" es 0, y el segmento "32" es 1. Y lo mismo ocurre con cualquier otro dígito. Por eso no entiendo cuál es la diferencia fundamental aquí.


Si reduces a 32, entonces estiras el binario 0 y 1 a 0 y 32 (y otros, por ejemplo, con 5 cuantos de 0...5 a 0...32). Para que todo sea proporcional. O clásicamente comprimir todo a un solo hipercubo (como para las redes neuronales, que requieren normalización.) La esencia es la misma - en ambas variantes obtenemos la misma escala.

 
СанСаныч Фоменко #:

Las etiquetas (profesor, variable objetivo) NO pueden ser basura por definición.

Sanych, no te avergüences

Ni siquiera has empezado a estudiar para expresar tu opinión.

 

Otro hecho curioso, yo estaba pensando, al parecer esto es sólo el reciclaje, y decidió ver en qué índices se produjo el cambio de clase - Pensé que cerca del final y esto es sólo una buena ilustración de reciclaje.

De hecho, resultó así


En la muestra de prueba

¡Resulta que este primer millar de hojas (en la siguiente secuencia de añadir al modelo) son en su mayoría inestables!

Sorprendido.

En la muestra de examen