Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2126

 
elibrarius:
E para que serve se o spread não o cobrir?

com duplicados sempre sobrecobertos, os resíduos do modelo estão relacionados com autocor

ou seja, auto-engano. Veja a foto do post anterior.
 
Maxim Dmitrievsky:

com duplicatas sempre sobrescritas, os resíduos do modelo são relacionados à autocorreção

Isto é, auto-engano. Veja a foto do post anterior.
Foto sem explicações - apenas uma foto)
 
elibrarius:
Foto sem explicação - apenas uma foto)

Os laços na primeira foto são a série de marcas, o modelo é retrabalhado nelas. Porque os novos dados têm uma série completamente diferente

retirados do conjunto de dados, as suas relações(espaço de características). Eu já escrevi e atirei essas imagens.

 
Maxim Dmitrievsky:

As dobradiças da primeira foto são as marcações da série e o modelo é retrabalhado nelas. Porque os novos dados têm uma série completamente diferente

retirados do conjunto de dados, 5 componentes principais e suas relações (espaço de características). Eu já escrevi e colei estes screenshots.

Se não te consegues livrar da propagação, significa que não precisas de muita reconversão.
Na minha opinião, é melhor usar outras formas de combater o sobretreinamento.
 
elibrarius:
Se você não consegue vencer a propagação, então você não está realmente treinando demais.
Na minha opinião, é melhor não emagrecer, mas usar outras formas de combater o sobretreinamento.
A propagação não pode ser batida após uma simples decorrelação, mas o modelo é mais estável em novos dados sem propagação. Qualquer modelo que esteja sobrelotado em série, derrama sem espalhar sobre n.d., mas sobre uma bandeja é muito melhor do que o primeiro (funciona com espalhar também). Isto mostra claramente uma requalificação para a serialização e nada mais. Sei que é difícil de entender, mas é 🤣. Se você olhar as fotos novamente, verá picos de distribuição mais altos e talvez caudas, no primeiro. Isso é seriedade, volatilidade, o que quer que seja. Ele muda quase imediatamente com os novos dados, daí o excesso de equipamento. A segunda foto de baixo não tem isso, é tudo o que resta, e nesse lixo você tem que procurar por um Alfa que supere a propagação. Basta olhar para os seus dados e pelo menos remover a seriação, ou de alguma forma transformá-los para remover as caudas. E depois veja as distribuições de classe do que resta, se há grupos de agregados normais ou completa aleatoriedade como o meu. Desta forma você pode até mesmo ver visualmente se o conjunto de dados está funcionando ou lixo. E depois podes misturar a validação com a Trayn, não vai afectar nada. E você diz "apenas uma fotografia".
 
elibrarius:

//день недели, час = ввести через 2 предиктора sin и cos угла от полного цикла 360/7,  360/24
                     
if(nameInd[nInd]=="Hour")        {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.hour*60+dts.min)*360.0/1440.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены минуты  360/24 = 360/24/60 = 360/1440

if(nameInd[nInd]=="WeekDay")     {CopyTime        (sim,per,startDt,n_bar+1,dtm);TimeToStruct(dtm[0],dts);ArrayResize(tmp,1);tmp[0]=(double)(dts.day_of_week*1440+dts.hour*60+dts.min)*360.0/10080.0;tmp[0]=(buf==0?MathSin(tmp[0]*pi/180.0):MathCos(tmp[0]*pi/180.0));}// для увеличения точности добавлены часы и минуты 360/7 = 360/7/24/60 = 360/10080

Por código, se buf==0, tem um seno, caso contrário ( buf===1 ) cosseno.


Os modelos em madeira digerem tudo.
Seno e coseno são bons para NS porque já estão normalizados para -1...+1

Se comparar esta variante com o tempo numerado, diga-me qual é melhor. Algo me parece que deve corresponder a 100% se você alimentar o dia da semana, hora e minuto.

Não tem bem a certeza se o seno ou o co-seno está ao critério do utilizador?

pi - você conseguiu de uma biblioteca ou apenas precisão a um determinado dígito, qual - é melhor escrever aqui a constante que você definiu.

 
Aleksey Vyazmikin:

Não entendo bem - é seno ou coseno obtido à discrição do utilizador?

pi - você o obteve da biblioteca, ou é apenas preciso para um certo sinal, qual deles - é melhor você escrever a constante que você definiu aqui.

Você precisa de 2 colunas no modelo - tanto senoidal como cosseno para o relógio. E seno + cosseno para o dia da semana. Veja o link para uma descrição do motivo pelo qual isto deve ser feito.

pi = 3,141529 ... da escola

 

O livro discutido acima me faz perceber a escassez do meu conhecimento em matemática, se alguém lê livremente eu o invejo.

A questão é, qual é a melhor maneira de descrever com um ou dois números um processo que se repete periodicamente em diferentes intervalos de tempo? O processo tem uma alta taxa de repetição, uma certa banda densa e depois a frequência desvanece-se e pode não haver sinal durante cerca de 15% do intervalo observado. O objetivo é determinar se não há aglomeração crítica (70%) em qualquer parte do período de observação e se não há sinal suficiente em outros intervalos, ou seja, quanto mais próximo de uma distribuição uniforme, melhor, mas a natureza do próprio sinal está longe de ser uma distribuição uniforme (acho que sim).

 
Aleksey Vyazmikin:

Eu não entendo bem - o seno ou o cosseno é obtido a critério do usuário?

pi - você o obteve de uma biblioteca ou é apenas preciso para um certo sinal, qual - é melhor você escrever aqui a constante que você definir.

Você tem CATboost 😑 apenas marque as características como categóricas