Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1354

 
Yuriy Asaulenko:

Guarde os arquivos. Ver anexo.

Learn.csv - entradas. O primeiro dígito de cada linha é a encadernação da história, deve ser removido.

Cell.scv - alvo.

Este é o gráfico que devemos obter após o treino com estes dados.

O filtro é aproximadamente igual à EMA(16) e a previsão - 5 minutos.

Vou fazer o teste mais tarde, quando precisar.

Não tenho a certeza se este gráfico é um gráfico de treino ou um gráfico de teste.

Aqui está o CatBoost no teste - os últimos 100 valores.

Histograma de desvios.

Levei 4000 para treinamento, 2000 para validação e 100 filas para o teste. Treinei 1000 árvores de profundidade 6, fórmula RMSE (substituída porPoisson).

Amostra e configurações anexadas, para a reprodução você precisa baixar o CB e colocá-lo no diretório Setup.

Na amostra de treinamento, a mesma distribuição não se parece com a sua.

Adicionado: Aplicação incorrecta do modelo - os gráficos de probabilidade revelaram-se...

Arquivos anexados:
Setup.zip  587 kb
 
Aleksey Vyazmikin:

Não está muito claro, você tem este gráfico em que amostra - está no treinamento ou no teste?

Aqui está o CatBoost no teste - os últimos 100 valores.

Histograma de desvios.

Levei 4000 para treinamento, 2000 para validação e 100 filas para o teste. Treinei 1000 árvores com uma profundidade de 6, fórmula RMSE.

Amostra e configurações anexadas, para a reprodução você precisa baixar o CB e colocá-lo no diretório Setup.

Na amostra de treinamento também a distribuição não se parece com a sua

O meu gráfico é apenas um treino em toda a amostra. Não fiz um teste neste aqui. Será mais ou menos idêntico ao treino.
Para onde foram os valores negativos na trama do eixo x? E o intervalo de x valores não é o mesmo que y? Como assim?
Eu tenho um gráfico comparando previsão e valores reais (alvo). Sem distribuições.
 
Yuriy Asaulenko:
O meu gráfico é apenas um treino em toda a amostra. Eu não fiz teste neste aqui. Será aproximadamente idêntico ao treino.
Onde estão os valores negativos no eixo x do gráfico? E o intervalo de x valores não é o mesmo que y? Como assim?
Eu tenho um gráfico comparando previsão e valores reais.

Sim, eu nunca fiz regressão antes, há muitas funções de fitness obscuras, ao contrário da classificação, dão resultados diferentes, e eu tomei o valor errado.

Aqui está a amostra de teste.

E aqui está a amostra de treino - 4000 filas.

Histograma de desvios para a amostra de teste

Aqui está o gráfico geral para as 3 amostras.

A métrica que foi usada para treinar a amostra de teste

Ele diz que poderíamos ter parado de treinar com 250 iterações e que o modelo está a ser requalificado.

 
Aleksey Vyazmikin:

Sim, eu nunca fiz regressão antes, existem muitas funções de fitness obscuras, ao contrário da classificação, que dão resultados diferentes, e eu tomei o valor errado.

Aqui está a amostra de teste.

E aqui está a amostra de treino - 4000 filas.

Histograma de desvios para a amostra de teste

Aqui está um gráfico geral para 3 amostras

Parece que está tudo bem. No teste, também. embora retrabalhados).
 
Yuriy Asaulenko:
Parece bem.

Bem, sim, você pode melhorar se quiser - eu só não tenho experiência com modelos de regressão.

Assim, os principais preditores são ferramentas de trabalho :)

Anexei a versão final com ajustes - ele treina 10 modelos com diferentes Sementes

Arquivos anexados:
Setup.zip  588 kb
 
Aleksey Vyazmikin:

Bem, sim, você pode melhorar se quiser - eu só não tenho experiência com modelos de regressão.

Assim, os principais preditores são ferramentas de trabalho :)
Há uma série de preços em escala como insumo. - 20 valores próximos e ponto final. Não se trata de preditores, mas da formulação do problema - é solvível. E a sua floresta virá com os próprios preditores).
 
Yuriy Asaulenko:
Há uma série de preços em escala no insumo. - Há 20 valores próximos e é isso. Não se trata de preditores, mas da formulação do problema - ele pode ser resolvido. E a sua floresta vai pensar em preditores por si só).

Sim, é sobre a declaração do problema, eu concordo. É que eu não vejo o preço como uma massa a partir da qual as tortas são moldadas, e são necessários preditores para moldar essas tortas.

 
Maxim Dmitrievsky:

Uma das técnicas clássicas que pode melhorar um modelo. Ou melhor, encontrar o melhor. A aplicação original de Monte Carlo.

https://en.wikipedia.org/wiki/Importance_sampling

Você não aplicou este método no seu artigo?

 
Maxim Dmitrievsky:

Para fora da política (gradiente de política) RL

https://medium.com/@jonathan_hui/rl-importance-sampling-ebfb28b4a8c6

Você pode explicar em russo, com suas próprias palavras, qual é a idéia? Em inglês, por assim dizer).

 
Yuriy Asaulenko:

O filtro LPF que previmos com bastante sucesso. Mesmo agora nós os dois, não só a NS, mas a floresta. Agora vamos tentar prever o preço, o que é um exercício inútil). Nós preferimos prever a componente RF da mudança esperada na expectativa de preço, que (expectativa) é atualmente desconhecida. E aqui no contexto de todos os tipos de movimentos, oscilações de HF e tudo mais.

Então temos o seguinte: o tempo de previsão é de 5 m em 1m TF.

Como de costume: x é a previsão, y é o valor real. Bem, inclinado a 45 graus parece um rectângulo, obrigado por não ser um círculo. Se você se mover um pouco para a direita esquerda de zero em x, você pode até jogar com uma probabilidade de um pouco mais de 50% (ver áreas).

Claro que seria bom construir todo o tipo de linhas de regressão e distribuições, mas é necessário fazer fatias, pelo menos algumas - isso é para mais tarde.

PS Bem, e uma previsão usando um algoritmo ligeiramente modificado. Os mesmos 5 min no tempo de 1m.

Já está muito melhor). A partir da previsão >2 e < -2 por х, dificilmente se esperam negócios com perdas se simplesmente fecharmos em 5 minutos.

A segunda foto é muito boa! Que mudanças no algoritmo tornaram isso possível?