Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3145

 
Aleksey Nikolayev ponto de divisão com a detecção de ponto de mudança de uma série temporal. Em ambos os casos, geralmente se busca a divisão de uma única amostra em duas subamostras maximamente diferentes.

Adicionando. Em branco, o tempo é praticamente um recurso nulo

 
Maxim Dmitrievsky #:
Entendo isso, você também poderia pesquisar sobre a floresta causal. A propósito, eu não a estudei, mas se alguém a descobrir, seria interessante ler sobre experimentos com ela
Não entendo a abordagem de Sanych :) ele está analisando o erro RMS. Ou RMS em uma janela deslizante.

Não. Meu objetivo são os desvios da "capacidade de previsão". Nada tem a ver com a estimativa do modelo em si

 
СанСаныч Фоменко #:

Não. Meu comentário é sobre desvios na "capacidade de previsão". Não tem nada a ver com a avaliação do modelo em si

Não é apenas o seu, mas o de qualquer pessoa da MOSH :)
A validação cruzada é comum.
Por alguma razão, você acha que está fazendo algo diferente.

Se você estimar por meio do MO, obterá estimativas comparáveis. Como ele funciona bem, não é pior do que as estimativas caseiras.

Minha conclusão se baseia em sua descrição.
 

No decorrer de um experimento semelhante de seleção de recursos informativos, tentei todas as formas. Não é difícil. Começando com correlação, informações mútuas e knn, passando por OLS e SVM até floresta, bousting e redes neurais (não toquei nas profundas). O melhor resultado foi obtido por meio de bousting. O OLS está em segundo lugar.

O raciocínio é muito simples: se o bousting for reduzido a uma árvore com uma divisão, é possível avaliar a informação mútua, a entropia de amostragem ou permutação e, em parte, o OLS.
 
СанСаныч Фоменко #:

Não. Meu comentário é sobre desvios na "capacidade de previsão". Nada a ver com a avaliação do modelo em si

É possível que os parâmetros do modelo saltem muito de etapa para etapa? Ou seja, apesar da boa "capacidade de previsão" em cada etapa, a dependência desejada é organizada de forma muito diferente e está mudando constantemente. Nesse caso, isso pode muito bem ser uma forma de treinamento excessivo.

 
Maxim Dmitrievsky #:
Entendo que você também poderia pesquisar sobre a floresta causal. A propósito, eu não a estudei, mas se alguém a entende, seria interessante ler sobre experimentos com ela

Parece ser a mesma floresta aleatória, mas com uma interpretação causal. Portanto, você, como um popularizador entre nós de florestas e agora de florestas causais, tem as cartas em suas mãos).

Ainda assim, não entendo a aplicação do causal para negociação. Uma rápida pesquisa no Google não ajudou a encontrar aplicações diretas, apenas indiretas - como estudar a influência das ações no Forex.

 
Aleksey Nikolayev #:

Parece ser a mesma floresta aleatória, mas com uma interpretação causal. Portanto, você, como divulgador de florestas e interpretação causal entre nós, tem as cartas nas mãos).

Ainda assim, não entendo a aplicação do causal para negociação. Uma rápida pesquisa no Google não ajudou a encontrar aplicações diretas, apenas indiretas - como estudar a influência das ações no Forex.

É preciso muito esforço mental ao lidar com o desconhecido :) não existe tal coisa no Google, nem havia nenhum manual geral claro até recentemente.
 
Aleksey Nikolayev #:

É possível que, de uma etapa para outra, os parâmetros do modelo saltem muito? Ou seja, apesar da boa "previsibilidade" em cada etapa, a dependência desejada é organizada de forma muito diferente e está mudando constantemente. Nesse caso, isso pode muito bem ser um tipo de treinamento excessivo.

No meu caso, é impossível responder à sua pergunta: o modelo está sendo retreinado a cada etapa e, naturalmente, o conjunto de recursos pode ser diferente em etapas diferentes.

O erro de classificação varia de 20% a 10%. Nunca aconteceu um erro de 25%.

 
Maxim Dmitrievsky #:

No decorrer de um experimento semelhante de seleção de recursos informativos, tentei todas as formas. Não é difícil. Começando com correlação, informações mútuas e knn, passando por OLS e SVM até floresta, bousting e redes neurais (não toquei nas profundas). O melhor resultado foi obtido por meio de bousting. O OLS está em segundo lugar.

O raciocínio é muito simples: se o bousting for reduzido a uma árvore com uma divisão, é possível avaliar a informação mútua, a entropia de amostragem ou permutação e, em parte, o OLS.

Nenhum dos algoritmos acima NÃO oferece poder preditivo, nem centenas de algoritmos de MO que calculam estupidamente a importância, o que mostra a frequência com que o algoritmo usa um recurso: Se um algoritmo de MO for alimentado com lixo, qualquer algoritmo de MO calculará a importância desse lixo.

 
СанСаныч Фоменко #:

Nenhum dos algoritmos acima fornece poder preditivo, nem centenas de algoritmos de MO que calculam estupidamente a importância, o que mostra a frequência com que um recurso é usado pelo algoritmo: Se você colocar lixo em um algoritmo de MO, qualquer algoritmo de MO calculará a importância desse lixo.

O erro de classificação/regressão dá. Acho que já chega desses jogos estranhos, você fica andando em círculos :) E existe uma porta para sair.