Aprendizaje automático en el trading: teoría, práctica, operaciones y más - página 2126

 
elibrarius:
¿Y qué sentido tiene si el diferencial no lo cubre?

con duplicados siempre sobrecubiertos, los residuos del modelo están autocorrelacionados

es decir, el autoengaño. véase la imagen del post anterior.
 
Maxim Dmitrievsky:

con duplicados que siempre se sobreescriben, los residuos del modelo están autocorrelacionados

Es decir, el autoengaño. Véase la imagen del post anterior.
Imagen sin explicaciones - sólo una imagen)
 
elibrarius:
Imagen sin explicación - sólo una imagen)

Las bisagras de la primera imagen son la serie de marcas, el modelo se reentrena en ellas. Porque los nuevos datos tienen una serie completamente diferente

tomados del conjunto de datos, sus relaciones(espacio de características). Ya escribí y lancé tales capturas de pantalla.

 
 
Maxim Dmitrievsky:

Las bisagras de la primera imagen son las marcas de la serie y el modelo se ha reajustado en ellas. Porque los nuevos datos tienen una serie completamente diferente

tomado del conjunto de datos, 5 componentes principales y sus relaciones (espacio de características). Ya escribí y pegué estas capturas de pantalla.

Si no puedes deshacerte de la propagación, significa que no necesitas mucho reciclaje.
En mi opinión, es mejor utilizar otros medios para evitar el sobreentrenamiento.
 
elibrarius:
Si no puedes batir el spread, entonces no estás realmente sobreentrenado.
En mi opinión, es mejor no adelgazar, sino utilizar otras formas de combatir el sobreentrenamiento.
La dispersión no puede ser superada después de la simple descorrelación, pero el modelo es más estable en los nuevos datos sin dispersión. Cualquier modelo que se llene de más en la serie, se vierte sin propagación en n.d., pero en una bandeja es mucho mejor que el primero (funciona con la propagación también). Esto muestra claramente una reconversión a la serialización y nada más. Sé que es difícil de entender, pero es así 🤣 Si vuelves a mirar las fotos, verás picos de distribución más altos y quizás colas, en la primera. Eso es serialidad, volatilidad, lo que sea. Cambia casi inmediatamente con los nuevos datos, de ahí el sobreajuste. La segunda foto de abajo no tiene eso, es lo único que queda, y en esa basura hay que buscar un Alfa que supere el spread. Sólo hay que mirar los datos y al menos eliminar la serialidad, o transformarlos de alguna manera para eliminar las colas. Y luego mira las distribuciones de clase de lo que queda, ¿hay grupos normales de conglomerados o una completa aleatoriedad como la mía? De este modo, incluso puedes ver si el conjunto de datos funciona o es una basura. Y luego puedes mezclar la validación con el trayn, no afectará a nada. Y tú dices "sólo una foto".
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

Por código, si buf==0, tiene un seno, si no ( buf==1 ) coseno.


Los modelos de madera lo digieren todo.
El seno y el coseno son buenos para NS porque ya están normalizados a -1...+1

Si comparas esta variante con el tiempo numerado, dime cuál es mejor. Algo me parece que debería coincidir al 100% si se alimenta el día de la semana, la hora y el minuto.

¿No está seguro de si el seno o el coseno es a discreción del usuario?

pi - lo has sacado de una biblioteca o simplemente has hecho la precisión a un determinado dígito, cuál - mejor escribe aquí qué constante has puesto.

 
Aleksey Vyazmikin:

No entiendo muy bien: ¿se obtiene el seno o el coseno a discreción del usuario?

pi - lo has sacado de la biblioteca, o sólo es exacto hasta cierto signo, cuál - mejor escribe la constante que has puesto aquí.

Necesitas 2 columnas en el modelo - tanto el seno como el coseno para el reloj. Y seno + coseno para el día de la semana. Vea el enlace para una descripción de por qué debe hacerse esto.

pi = 3,141529 ... de la escuela

 

El libro comentado me hace ser consciente de la escasez de mis conocimientos en matemáticas, si alguien lo lee libremente lo envidio.

La pregunta es: ¿cuál es la mejor manera de describir con un número o dos un proceso que se repite periódicamente en diferentes intervalos de tiempo? El proceso tiene una alta tasa de repetición, una cierta banda densa y luego la frecuencia se desvanece y puede no haber señal durante un 15% del intervalo observado. El objetivo es determinar si no hay una aglomeración crítica (70%) en alguna parte del período de observación y no hay suficiente señal en otros intervalos, es decir, cuanto más se acerque a una distribución uniforme, mejor, pero la naturaleza de la señal en sí misma dista mucho de una distribución uniforme (eso creo).

 
Aleksey Vyazmikin:

No entiendo muy bien: ¿se obtiene el seno o el coseno a discreción del usuario?

pi - lo has sacado de la biblioteca o sólo es exacto hasta cierto signo, cuál - mejor escribe aquí la constante que has puesto.

Tienes CATboost 😑 sólo tienes que marcar las características como categóricas