Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2739

 
mytarmailS #:
Alexei, é uma tarefa de pesquisa normal, como você gosta, qual é o problema?

Então o script faz isso ou não?

Só me pergunto quantas pessoas aqui perdem facilmente o fio da meada da conversa.

 

Posso postar uma amostra com vários preditores, quem conseguir selecionar os melhores - muito bem - vamos fazer um concurso.

Os melhores serão determinados em uma amostra independente, após o treinamento do modelo nos preditores selecionados.

Alguém quer participar ou todos são capazes de fazer isso de boca em boca?

 

Tópico muito geral. Muitas vezes se desintegra em seus componentes. Há muito tempo deveria ser dividido em vários tópicos. Por exemplo: 1. MO: pré-processamento de dados. 2. Seleção do modelo MO. 3. MO: treinamento e otimização de modelos. 4. MO. Implementação de modelos. 5. MO. Automação de IO.

A divisão é muito grande e aproximada, mas ficará claro do que se trata cada ramo. E assim por diante, sobre tudo e nada.

E , éclaro, é necessário fornecer exemplos de código reproduzíveis, caso contrário, não haverá uso prático das palestras .

Boa sorte a todos

 
Aleksey Vyazmikin #:

Então, o script faz isso ou não?

Estou surpreso com a facilidade com que muitas pessoas aqui perdem o fio da meada da conversa.

Alexey, você pediu um exemplo de como analisar a importância dos sinais com uma janela deslizante.

Escrevi um script para você.

Então você quer pesquisar em escalas diferentes ou o que quiser, por que diabos um script do passado deveria ser capaz de satisfazer seus desejos no futuro?

Portanto, estou surpreso com a quantidade de pessoas que perdem facilmente o fio da meada da conversa. Esse é você.

 
Vladimir Perervenko #:

Tópico muito geral. Muitas vezes se desintegra em seus componentes. Há muito tempo deveria ser dividido em vários tópicos. Por exemplo: 1. MO: pré-processamento de dados. 2. Seleção do modelo MO. 3. MO: treinamento e otimização de modelos. 4. MO. Implementação de modelos. 5. MO. Automação de MOEs.

A divisão é muito grande e aproximada, mas ficará claro do que se trata o ramo. E assim por tudo e por nada.

E , é claro, é necessário fornecer exemplos de código reproduzíveis, caso contrário, não haverá uso prático das palestras .

Boa sorte a todos

Em vez disso, deveríamos nos dividir pelas tarefas que resolvemos, mas isso é muito individual...

Por exemplo, em um thread de pré-processamento, duas pessoas não encontrarão um ponto em comum se uma prever ZZ em toda a amostra e a outra usar MO para selecionar 10-20 clusters de todos os dados para algumas necessidades.... Etc...

As mesmas coisas estarão lá, mas estarão mais espalhadas nos tópicos
 
Valeriy Yastremskiy #:

O SSF não disse muita coisa nova, é claro, o objetivo de encontrar correlação entre preditores e resultados é um objetivo óbvio. A única coisa nova que percebi foi que ele encontrou cerca de 200 recursos significativos para todo o treinamento, mas para dados específicos, ele usa apenas 5% deles.

Entendo que isso significa que há algumas maneiras de determinar rapidamente o estado/as propriedades de uma série para selecionar preditores mais significativos apenas para os dados mais recentes. É claro que surge a questão do volume ou do comprimento para a seleção adequada. Mas, aparentemente, isso funciona mesmo com apenas 200 preditores encontrados e selecionados em todo o grande treinamento.

Euvejo isso da seguinte forma. Uma série tem propriedades que são estáveis em alguns índices, mas esses índices e seu número são diferentes em seções diferentes. O MO encontra alguns estados diferentes de duração suficiente de estabilidade da série, que podem ser descritos por modelos diferentes e, consequentemente, configurações de modelo - preditores. O número total de preditores é o número total de configurações para diferentes modelos e, portanto, ao definir um modelo, é possível encontrar rapidamente as configurações encontradas anteriormente para ele.


Uma vez publiquei uma tabela neste tópico, mas agora ela não está disponível, então vou esclarecer minha ideia em palavras.

Estou me baseando na noção de correlação entre preditor e professor. A "vinculação" NÃO é a correlação ou a "importância" dos preditores de se ajustar a quase todos os modelos de MOE. O último reflete a frequência com que um preditor é usado em um algoritmo, portanto, um grande valor de "importância" pode ser dado aos anéis de Saturno ou à borra de café. Há pacotes que permitem calcular a "ligação" entre o preditor e o professor, por exemplo, com base na teoria da informação.

Então, uma palavra sobre a tabela que publiquei aqui.

A tabela continha uma estimativa numérica da "ligação" entre cada preditor e professor. Várias centenas de valores de "conectividade" foram obtidos à medida que a janela se movia. Esses valores para um determinado indicador variavam. Calculei a média e o desvio padrão para cada "conexão", o que me permitiu

- isolar os preditores que têm um valor de "acoplamento" muito pequeno - ruído;

- isolar os preditores que têm um valor de "ligação" muito variável. Foi possível encontrar preditores com um valor suficientemente grande de "acoplamento" e sd menor que 10%.


Mais uma vez, o problema de construir um CT com base no MO é encontrar preditores que tenham um grande valor de "acoplamento" e um pequeno valor de sd quando a janela se move. Em minha opinião, esses preditores garantirão a estabilidade do erro de previsão no futuro.


Esta NÃO é a primeira vez que digo o que foi dito acima. Infelizmente, a discussão está sempre se transformando em ruído e narcisismo.

 
mytarmailS #:

Alexei, você pediu um exemplo de como analisar a importância do recurso com uma janela deslizante.

Escrevi um script para você...

Então você quer pesquisar em escalas diferentes ou o que quiser, por que diabos um script do passado deveria ser capaz de atender aos seus desejos no futuro?

Portanto, estou surpreso com a quantidade de pessoas que perdem facilmente o fio da meada da conversa. Esse é você.

Como assim, eu pedi para fazer um script - sim, eu cito: " Você pode fazer um script em R para cálculos para minha amostra - eu o executarei para fins de experimento. O experimento deve revelar o tamanho ideal da amostra. ", mas isso é uma resposta a algo que já foi feito.

Anteriormente, escrevi "... E como você propõe observar a dinâmica, como realizá-la? " - aqui eu estava perguntando sobre a implementação da estimativa do preditor na dinâmica, ou seja, estimativa regular por alguma janela e não está claro se é uma janela a cada nova amostra ou após cada n amostras. Se foi isso que você fez, eu não entendi.

O código que você publicou é ótimo, mas é difícil para mim entender o que ele faz exatamente ou o que ele prova em essência, então comecei a fazer outras perguntas. O que significam as duas figuras com gráficos?

 
СанСаныч Фоменко #:

Certa vez, publiquei uma tabela neste tópico, mas não a tenho em mãos no momento, então vou esclarecer meu pensamento em palavras.

Estou me baseando no conceito de correlação entre preditor e professor. A "vinculação" NÃO é a correlação ou a "importância" dos preditores de se ajustar a quase todos os modelos de MOE. O último reflete a frequência com que um preditor é usado em um algoritmo, portanto, um grande valor de "importância" pode ser dado aos anéis de Saturno ou à borra de café. Há pacotes que permitem calcular o "vínculo" entre o preditor e o professor, por exemplo, com base na teoria da informação.

Portanto, uma palavra sobre a tabela que publiquei aqui.

A tabela continha uma estimativa numérica da "ligação" entre cada preditor e professor. Várias centenas de valores de "conectividade" foram obtidos à medida que a janela se movia. Esses valores para um determinado indicador variavam. Calculei a média e o desvio padrão para cada "conexão", o que permitiu:

- isolar os preditores que têm "acoplamento" muito pequeno - ruído;

- isolar os preditores que têm um valor de "ligação" que é muito variável. Foi possível encontrar preditores com um valor suficientemente grande de "link" e sd menor que 10%.


Mais uma vez, o problema de construir um CT com base no MO é encontrar preditores que tenham um valor grande de "link" e um valor pequeno de sd quando a janela se move. Na minha opinião, esses preditores garantirão a estabilidade do erro de previsão no futuro.


Esta NÃO é a primeira vez que digo o que foi dito acima. Infelizmente, a discussão está sempre se transformando em ruído e narcisismo.

Então, em essência, você tem a mesma abordagem que eu, curioso! Só que talvez busquemos a "conexão" de forma diferente. Como janelas, eu pego 10 amostras de gráficos e procuro por "conexão" neles, como você faz isso?

Qual é o seu algoritmo para encontrar uma conexão? Pode descrevê-lo?

 
СанСаныч Фоменко #:


Esta NÃO é a primeira vez que digo o que foi dito acima. Infelizmente, a discussão está constantemente se desviando para o ruído e o narcisismo.

sim, a discussão real vai para a apresentação do dartagnan mais ousado em segundo plano (palavra moderada) :-)

tudo por falta de resultados. Você pode melhorar e mudar o método, mas o resultado é como uma pedra de 50/50.

 
Aleksey Vyazmikin #:

Então, em essência, você tem a mesma abordagem que eu, curioso! Só que talvez busquemos a "conexão" de forma diferente. Como janelas, pego 10 parcelas de amostra e procuro "conexão" nelas, como você faz?

Qual é o seu algoritmo para encontrar uma conexão? Pode descrevê-lo?

Eu uso meu próprio algoritmo - ele funciona muito mais rápido do que várias bibliotecas do R. Por exemplo,

library("entropy")

Você pode usar apenas gráficos:



Tudo foi postado neste tópico. Tudo é sistematicamente descrito e analisado em nível de código nos artigos de Vladimir Perervenko