Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1782

 
Valeriy Yastremskiy:

O que é que estás a partilhar? E o que é que se passa com os incrementos que não te convém? São essencialmente velocidades ajustadas no tempo. Mas não há maneira de o conseguir fazer sem fazer uma média. Mas se você começa a levar em conta as médias, você rapidamente acaba em um labirinto. Tem de haver um meio de trabalho algures. No último tick, a barra não é suficiente, e um pouco mais é uma região selvagem.

2 ou mais antecedentes com diferentes desfasamentos, para diferentes números de clusters

Como não há dependência funcional entre o par de incrementos, a nuvem é estupidamente dividida ao meio, etc. Precisamos de algo mais estrito do que incrementos. Talvez eles devam ser transformados de alguma forma.

exemplos


 
Maxim Dmitrievsky:

2 ou mais incrementos com diferentes desfasamentos, em diferentes números de clusters

Como não há dependência funcional entre o par de incrementos, a nuvem é simplesmente dividida ao meio, etc. Precisamos de algo mais estrito do que incrementos. Talvez eles devam ser transformados de alguma forma.

exemplos


Não entendo o par de incrementos. Nas duas últimas barras ou algo mais?

Ainda tenho uma ideia na direcção das velocidades e das médias também. Bom, os sistemas devem ser treinados em diferentes TFs, na interação de diferentes TFs, e deve haver porcaria de tickwise, ou seja, deve haver também um comportamento tickwise quando o TS toma qualquer decisão.

Diferentes TFs estão apenas a ponderar os sinais para longe do estado actual. Semko tem o seu próprio sistema lá, mas eu gosto ainda mais da TF, há uniformidade e alguma consideração pelos extremos.

Ocorreu-me. Nós colocamos ordens para a nuvem de preços e, portanto, o drawdown será negativo em 99% do tempo. Mas como podemos estimar que não estávamos enganados? Usando o extremo mais próximo, se o extremo mais próximo for negativo, podemos fechar sem perdas.

 

Que podemos medir num par de bares recentes e uma história de 120 bares. Num mês, são 10 anos. Já chega.

Mach 2, 14, 30, 120, 480 velocidades e encontrar altas e inflexões

Espalha-se entre os traços adjacentes e encontra os máximos e as dobras

Diferenças máximas de preço em relação a Mashas, mas estes são normalmente os verdadeiros extremos no preço.

Tempos médios de tendência, destacando os máximos e mínimos

Diferenças médias nas tendências, ala Doncian.

E é possível dividir as tendências em fluxos e suas durações.

O tempo médio das tendências no apartamento. As tendências dos TFs inferiores nos superiores.

O tempo médio das tendências.

E parece que parâmetros diferentes se tornam significativos, dependendo dos outros. E a ligação não é óbvia. É a primeira coisa que vem à mente para conectar o TF inferior com o superior, mas é claro que não é suficiente. E eu ainda não consigo encontrar nenhuma lógica nos links.

 
Valeriy Yastremskiy:

Eu não entendo sobre os incrementos. Nas duas últimas barras ou algo mais?

2 séries temporais com diferentes desfasamentos. Você pode agrupar tudo o que quiser, mas depois fica novamente preso ao mal-entendido sobre a área temática e o que e por que ela está sendo agrupada. Não vi nenhum exemplo de sucesso na Internet. A propósito, eu queria alocar clusters em vez de componentes sazonais, e esqueci-me disso, comecei a empurrar em MO... Uy... então isso seria um estudo diferente.
 
mytarmailS:

O tempo de poço é um proxy para a volatilidade, que é sazonal no tempo, há horas de negociação ativas e há as passivas

Concordo, eu não levei isso em conta.

mytarmailS:

Sim, você pode salvá-lo, mas para ensinar o modelo é necessário carregar esta matriz no ambiente, e isso será o fim da mesma )) ou antes, na fase de formação da matriz com predicados

Tenta CatBoost. Em qualquer caso, eu posso treiná-lo e veremos o resultado.

mytarmailS:

Uau, um concerto não é pequeno, quantos sinais você tem?

566 nesta amostra.

mytarmailS:

O que é a árvore genética?


1) simples )

2) como é que é? E como se ajustam os preditores para a ZZ?

3) Bem, você tem um castiçal como abertura ou algo assim, já está distorcido, porque eles devem ser por palhaços, e aqui imediatamente muita confusão, sinais para construir como, como fazer o alvo, etc. (dor desnecessária), se você mudar algo para si mesmo, você deve sempre deixar o original para os outros)

O script em R, que constrói uma árvore usando um algoritmo genético, selecionando as partições. Não sou muito versado nisso - o trabalho do Doc.


2. Eu uso preditores baseados em ZZ, obviamente eles são mais eficientes se eles e o alvo forem calculados sobre a mesma ZZ.

3. Eu não conheço a sua OHLC no início do bar, por isso foi assim que eu a escrevi - como acontece na vida real.

Resumindo, devo refazê-lo ou não vale a pena?

 
Aleksey Vyazmikin:

Resumindo, devo refazê-lo ou não vale a pena?

O busto do gato não vai ajudar, o problema é o tamanho dos dados, eu nem vou ser capaz de criar traços, você nem vai chegar a treinar...

Faça a amostra 50k, deixe-a ser pequena, que não seja séria, que seja mais possível treinar demais, .... ..., ... A tarefa é fazer um robô para a produção, mas apenas um esforço conjunto para reduzir o erro, e então o conhecimento adquirido pode ser transferido para qualquer ferramenta e para o mercado, 50k é o suficiente para ver que sinais de que algo é importante.

Aleksey Vyazmikin:

3. No início do bar eu não conheço a sua OHLC, por isso escrevi-a - como acontece na vida real.

Se você não conhece OHLC, você não precisa escrevê-lo. Por que mudar toda a OHLC? Ninguém faz isso, você só precisa mudar ZZ por um passo, como se fosse olhar para o futuro por 1 passo para o treinamento e isso é tudo. Gostaria de lhe perguntar se você leu algum dos artigos de Vladimir Perervenko sobre forração de cervos, por favor leia-os, eles são muito desconfortáveis quando já estabelecemos a melhor maneira de lidar com dados e todos estão acostumados a eles, e alguém tenta fazer o mesmo, mas de uma maneira diferente, é meio sem sentido e irritante, e causa muitos erros em pessoas que tentam trabalhar com dados deste autor.


Se depois de tudo isso você ainda quiser fazer algo, eu tenho os seguintes requisitos

1) os dados 50-60k não mais, de preferência um arquivo, basta concordar que o n da última vela será o teste

2) Os dados, de preferência sem colas, para que não só os últimos preços possam ser considerados, mas também suporte e resistência, o que é impossível com colas

3) o alvo já deve estar incluído nos dados

4) dados no formato data,hora,o,h,l,c, alvo


Ou devo criar um conjunto de dados?

 
Maxim Dmitrievsky:
Duas séries temporais com desfasamentos diferentes. Você pode agrupar tudo o que quiser, mas então você novamente fica preso em um mal-entendido sobre a área temática e o que está sendo agrupado e por quê. Não vi nenhum exemplo de sucesso na Internet. A propósito, eu queria alocar clusters em vez de componentes sazonais, e esqueci-me disso, comecei a empurrar em MO... Uy... então isso seria um estudo diferente.

Acontece, a lógica não tem paciência para as besteiras )))) .... Há problemas de compreensão até agora. Tudo o que existe é média, desbaste e AG com aprendizagem sobre dados bastante curtos. Também não vi nenhum trabalho sobre a separação das características das séries. Por um lado, a análise em série para diferentes TFs deve ser idêntica. Deve haver critérios para ir a um TF inferior. Assim, se as tendências com spread e velocidade suficientes são determinadas no TF inferior, então é possível movimentar-se para elas contra a tendência do TF superior. Mas isto é lógico. Devemos, de alguma forma, agrupar as características e olhar para comportamentos diferentes da série. Se do contrário para resolver.

Na central nuclear estávamos olhando para 19 parâmetros. Eles tinham uma tabela de 3 a 7 parâmetros quando a zona é vermelha e as varas devem ser removidas. Também não havia um parâmetro lá e eles não estavam inter-relacionados. A nossa é diferente, claro, mas a escala de tempo é muito grande, e não há, ou nem sempre há, conexão entre o tick e o comportamento mensal. Em geral, devemos olhar para a relação entre os parâmetros, e quanto tempo essa relação existe.

Mas ainda é complicado.

 
Valeriy Yastremskiy:

Acontece, a lógica não tem paciência para as besteiras )))) .... Há problemas de compreensão até agora. Tudo o que existe é média, desbaste e AG com aprendizagem sobre dados bastante curtos. Também não vi nenhum trabalho sobre a separação das características das séries. Por um lado, a análise em série para diferentes TFs deve ser idêntica. Deve haver critérios para ir a um TF inferior. Assim, se as tendências com spread e velocidade suficientes são determinadas no TF inferior, então é possível movimentar-se para elas contra a tendência do TF superior. Mas isto é lógico. Devemos, de alguma forma, agrupar as características e olhar para comportamentos diferentes da série. Se do contrário para resolver.

Na central nuclear estávamos olhando para 19 parâmetros. Eles tinham uma tabela de 3 a 7 parâmetros quando a zona é vermelha e as varas devem ser removidas. Também não havia um parâmetro lá e eles não estavam inter-relacionados. O nosso é diferente, claro, mas a escala de tempo é muito grande, e não há ou nem sempre há uma ligação entre o tick e o comportamento mensal. Em geral, devemos olhar para a relação entre os parâmetros, e quanto tempo essa relação existe.

Mas é um pouco difícil.

Eu não passo por um bombardeiro com uma ogiva nuclear sem uma brincadeira :)
 
Maxim Dmitrievsky:
Eu não passo por um bombardeiro com uma ogiva nuclear sem uma brincadeira :)

O que se pode fazer sem eles, nesta selva)))) Merda nuclear é onde tudo começou, calculadora de probabilidade com médias, feedback e Bayesian, critério de confiança é algo)))) Aparentemente, os mesmos parâmetros terão de ser seleccionados manualmente primeiro. São demasiados.

Em geral, a ideia é olhar para uma série de 120 barras e arrancar alguma merda dela em diferentes variantes. Não é bom medir e treinar sobre os estados atuais.

 
Valeriy Yastremskiy:

O que se pode fazer sem eles, nesta selva)))) Merda nuclear é onde tudo começou, calculadora de probabilidade com médias, feedback e Bayesian, critério de confiança é algo)))) Aparentemente, os mesmos parâmetros terão de ser seleccionados manualmente primeiro. Muitos deles também.

Em geral, a ideia é olhar para uma série de 120 barras e arrancar alguma merda dela em diferentes variantes. Não é bom medir e treinar sobre os estados atuais.

Quais são os estados atuais? Se se trata de clusters, você só precisa varrer as estatísticas dos novos dados. Se forem iguais, você pode construir CA.