Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 3024

 
Maxim Dmitrievsky #:

Proponho fazer esse chapéu em python com uma árvore com uma escolha de folhas, no kolab, para que você possa inserir seus conjuntos de dados nele

Se você tiver alguma ideia do que é melhor/pior, regras para pegar apenas o melhor ou por meio de alguns filtros, sugira

Quero comparar, tendo executado um conjunto de dados por meio de ambas as abordagens. Assim, entenderemos o que é o quê :)

Ideia interessante!

Em primeiro lugar, precisamos entender qual implementação de árvore permitirá extrair facilmente as regras da folha para trabalhar com elas posteriormente.

Em seguida, a maneira de construir a árvore - gananciosa ou genética. Verifiquei as folhas das árvores de todas as populações (se eu não tiver acertado :))

É claro que você pode usar a floresta em vez da genética, mas, nesse caso, precisará de mais árvores para procurar as folhas e precisará fazer a poda de acordo com a porcentagem de exemplos na folha em relação a toda a amostra. As árvores florestais podem ser mais rápidas do que as genéticas e, obviamente, terão menos configurações.

O processo de geração de novas folhas deve ser realizado até que o número necessário (especificado) de folhas selecionadas seja atingido.

Nesse caso, antes de construir a árvore, é necessário garantir a geração de uma subamostra aleatória de dois tipos de amostras: a primeira é a seleção de N partes de intervalos uniformes contínuos do tamanho especificado como porcentagem da amostra de treinamento; a segunda é uma subamostra obtida de forma totalmente aleatória.

Um conjunto aleatório de preditores usados para construir a árvore.

Sobre o pré-processamento de todos os dados - é preciso pensar mais.

Critérios para avaliação das folhas - também podem ser adicionados posteriormente, mas a essência é que as métricas têm um limite definido. Não sei quais métricas você tem e não me lembro quais usei - preciso analisar o código. Você pode usar o equilíbrio, a matriz de expectativa e o fator de recuperação.

A estimativa deve ocorrer em cada intervalo de toda a amostra de treinamento, o número de intervalos é definido. Se o critério necessário não for atingido em nenhum intervalo, a folha é arquivada ou descartada. Mantive um banco de dados de folhas, removendo as duplicatas para não precisar verificá-las novamente.

Depois de selecionar as folhas, elas devem ser agrupadas por similaridade, talvez a correlação de classificação faça isso corretamente. Em seguida, distribuir os pesos dentro do grupo e decidir as regras de votação para os grupos. No entanto, talvez isso já seja muito, e vale a pena pelo menos aprender como selecionar as folhas até agora, o que será eficaz em um novo dado.


Não tenho certeza de qual amostra você quer fazer o experimento - a que eu darei ou a que será criada aleatoriamente?

De qualquer forma, para comparar os métodos, a amostra deve ser a mesma e para um intervalo de tempo grande, o que permitirá levar em conta, se não a ciclicidade, as tendências de diferentes fases do mercado em TFs grandes.

Deixe-me dizer desde já que o método que usei é muito lento. Talvez seja melhor fazer o processo de avaliação de folhas em MQL5 - isso permitirá distribuir a carga nos núcleos.

 
Aleksey Vyazmikin #:

Ideia interessante!

Vou esboçar um exemplo simples em uma árvore por enquanto e testá-lo imediatamente, depois o expandiremos conforme desejado

em qualquer conjunto de dados, via disco do Google, você pode fazer o download e testar sem instalar nada.

Quero que ele funcione rapidamente.)
 
Maxim Dmitrievsky #:

Por enquanto, vou esboçar um exemplo simples em uma árvore para que possa ser testado de uma só vez e, em seguida, expandi-lo conforme desejado

em qualquer conjunto de dados, por meio do disco do Google, você pode fazer o download e testá-lo sem instalar nada.

Quero que ele funcione rapidamente.)

Bom - o principal é começar! :)

 
Maxim Dmitrievsky #:

Isso não é mais engraçado.

O que "engraçado" tem a ver com isso?

Existe ou não uma amostra fora do padrão?

 
СанСаныч Фоменко #:

O que "engraçado" tem a ver com isso?

Existe ou não uma amostra fora do padrão?

E se eu encontrar

 
Maxim Dmitrievsky #:

e se eu encontrar

Não há "se". É um padrão de julgamento. Qualquer estimativa sem uma estimativa fora da amostra não é interessante.

 
Maxim Dmitrievsky #:

e se eu encontrar

Faça um gráfico OOS de dez períodos para frente e para trás.

 
СанСаныч Фоменко #:

Não tem nada a ver com "se". É um padrão de julgamento. Qualquer avaliação sem uma avaliação fora da amostra não é interessante.

Muito bem, já chega de risadas
 
Valeriy Yastremskiy #:

Faça um gráfico OOS de dez períodos para frente e para trás.

Isso equivale a 100 anos
 
Maxim Dmitrievsky #:
Já chega de risadas.

Você está falando com o egípcio ou comigo?

Observo que estou bastante satisfeito com sua atividade neste tópico.