Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2381

 
Maxim Dmitrievsky:

catbust tiene una regularización bastante fuerte, especialmente si los signos son categóricos, deben ser declarados así en el boost

No se produjo ninguna mejora al reducir la regularización L2 . Así que Lasso funciona mejor.

 
elibrarius:

Tal vez sea una buena pieza de muestreo para el examen. Y se hace un ajuste a la misma, seleccionando el modelo con los mejores parámetros para ella.

Ahora siempre compruebo con validación cruzada (o valencia hacia adelante), no hay ajuste a una pequeña sección, sino a todos los datos a la vez, creo que es la mejor manera de aprender.
Doc también lo aconsejó antes de desaparecer del foro.

En primer lugar, no puedo ajustar Lasso, por lo que no hay ningún ajuste, es sólo la forma en que los parámetros son.

En segundo lugar, es la misma parcela con CatBoostom - y hay 800 modelos para elegir y he tomado prácticamente las mejores opciones.

He adjuntado el archivo - probar por sí mismo diferentes modelos, Lasso recomienda sólo para las muestras binarias - que es un truco.

 
Aleksey Vyazmikin:

En primer lugar, no sé cómo afinar Lasso, por lo que no hay ningún tipo de ajuste - es sólo la forma en que los parámetros son.

En segundo lugar, es el mismo sitio que CatBoostom - y hay 800 modelos para elegir y he tomado prácticamente las mejores opciones.

He adjuntado el archivo - probar a sí mismo diferentes modelos, Lasso recomienda sólo para el muestreo binario - que es el truco.

Prueba tal cual para la validación cruzada. Realice un ciclo de 10 veces con diferentes parcelas desconocidas de 1/10 de los datos totales. Será la mejor estimación para seleccionar catbust con algunos parámetros o lasso con parámetros por defecto.

 
Maxim Dmitrievsky:


Inténtalo de la misma manera. Funcionó bien en el probador personalizado, hay un problema al exportar el modelo, buscaré un error más tarde.

Si la AM interviene en la formación, ¿no debería estar presente al aplicar el modelo?

La esencia de MAShka es el tipo de partición - ¿por encima de una clase, y por debajo de la otra?

 
elibrarius:

Pruébalo tal cual para la validación cruzada. Realice un ciclo de 10 veces con diferentes parcelas desconocidas de 1/10 de los datos totales. Esta será la mejor estimación para seleccionar catbust con algunos parámetros o lasso con parámetros por defecto.

La binarización se realiza mediante algún método de estimación de muestreo, por lo que la validación cruzada mostrará mejores resultados en las parcelas de la muestra principal.

La validación cruzada no es muy relevante para las muestras que están ligadas al tiempo, pero en el caso del trading sí lo es - el mercado cambia gradualmente y el modelo debe encontrar patrones estables en el tiempo, y en el caso de la validación cruzada el intervalo de tiempo de entrenamiento y comprobación puede estar cerca o fracturado de la muestra entrenada.

Ahora mismo tengo CatBoost entrenado en el 60% de todos los datos - el 20% va al control de paradas y el último 20% para evaluar el modelo.

Si hablamos de un 10% para la formación, es una muestra demasiado pequeña.
 
Aleksey Vyazmikin:

La validación cruzada no es del todo apropiada para las muestras que están ligadas al tiempo, pero en el caso del comercio sí lo es: el mercado cambia gradualmente y el modelo debe encontrar patrones estables a lo largo del tiempo, y en el caso de la validación cruzada el intervalo de tiempo de entrenamiento y validación puede acercarse o restarse a la muestra que se está entrenando.

Estás hablando de algún tipo de validación cruzada estándar/antigua.
En primer lugar, no es necesario mezclar las líneas, y tomar bloques ya que hay 0-90 de formación 90-100 de prueba, a continuación, 10-100 de formación, 0-10 de prueba, a continuación, 20-100-10 de formación 10-20 de prueba, etc.
En segundo lugar, siguiendo el consejo de Prado, hay que dejar un espacio de poda entre el tren y la prueba, para mantener separadas las muestras de la bandeja y de la prueba. El ejemplo del tren adyacente a los 10-100 ejemplos de la prueba será su pista/búsqueda. Lea más aquí https://dou.ua/lenta/articles/ml-vs-financial-math/
O aquí hay una foto:

Aleksey Vyazmikin:

Ahora mismo mi CatBoost está entrenado en el 60% de los datos - el 20% es control de paradas y el último 20% es evaluación del modelo.

Si hablamos de un 10% para la formación es muy poco para el muestreo.
Puedes hacer el 20% o lo que quieras.

Y, por último, en lugar de la validación cruzada, se puede utilizar un rolling forward. Que no toma la sección de la prueba en un círculo, pero sólo en el frente.
Машинное обучение против финансовой математики: проблемы и решения
Машинное обучение против финансовой математики: проблемы и решения
  • dou.ua
Всем привет! Так получилось, что я уже около семи лет занимаюсь машинным обучением. В последние несколько из них я как исследователь и CTO Neurons Lab часто работаю с финансовыми данными в рамках проектов, связанных с инвестиционным менеджментом и алгоритмическим трейдингом. Чаще всего клиенты приходят с текущими стратегиями, которые нужно...
 
Maxim Dmitrievsky

¿Qué hace shuffle?Normalmente, si es False, los resultados son mucho peores que cuando es True.

train_test_split(X, y, train_size = 0.5, test_size = 0.5, shuffle=True)
 

Una imagen que explica el avance del valedero.

 
Evgeni Gavrilovi:

¿De qué es responsable el parámetro shuffle?Normalmente, si es False, los resultados son mucho peores que si es True.

Baraja los ejemplos para la prueba y el tren, para que no sean secuenciales.

 
Maxim Dmitrievsky:

¿confunde los ejemplos para el triplete y la prueba para que no vayan en secuencia?

¿al azar? ¿como se dice aquí? la prueba en una muestra aleatoria del 50%