Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2386

 
Aleksey Vyazmikin:

Além disso, esta abordagem é algo que eu venho fazendo há muitos anos.

No entanto, eu adiei um pouco agora, porque é muito lento, o que torna impossível mudar o alvo rapidamente (procure por um bom), e as regras individuais também param de funcionar, não importa como você as verifique na história.

Maxim, você pode ajudar, faça um script em python que irá ciclar para criar modelo (ou 100 modelos) por dados do arquivo CSV, então analise-o(s) sobre a importância dos preditores por meio do CatBoost padrão, então proíba/ permita o uso de preditores (CatBoost pode fazê-lo) por condições definidas e crie novamente um novo modelo. Este método permitirá alocar importantes preditores que levarão à melhoria do modelo. Estou usando um método similar, mas é muito inconveniente para mim, porque a cada ciclo, depois de peneirar/previsões, eu tenho que reiniciar o ciclo de aprendizagem manualmente.

ainda não chegou a altura

e não acredito em tal abordagem (conheço múltiplos melhores e mais rápidos)

 
Maxim Dmitrievsky:

Ainda não.

e eu não acredito nesta abordagem (conheço múltiplos melhores e mais rápidos)

A abordagem funciona - não é uma questão de fé.

E qual abordagem é mais rápida e melhor, vamos comparar a eficácia!

 
Aleksey Vyazmikin:

A abordagem de trabalho não é uma questão de fé.

E que abordagem é mais rápida e melhor, vamos comparar a eficácia!?

Para que isto não seja uma questão de fé, você precisa de provas.

A remoção de recursos do modelo muda sua Interação, para que você possa reorganizá-los pelo tempo que desejar
 
Como sabemos - qualquer NS, Forest, Boost pode reproduzir qualquer função do tipo MA, etc. , dentro de si mesmo. E parece não fazer sentido alimentar os mesmos MAs se você apenas alimentar 50-100 barras.
Em redes neurais profundas, talvez.
Mas em andaimes e andaimes regulados, não.
Por exemplo, em katbust a profundidade de árvore recomendada = 6. Isso é 2^6=64 divisões. Se precisarmos de MA30, então em média cada barra será dividida 2 vezes (na metade e uma das metades ainda na metade). Para reproduzir aproximadamente MA (com 10% de erro), precisamos fazer a divisão de cada barra pelo menos 10 vezes. Esta é uma profundidade de 9-10 necessária.
Mas uma divisão profunda não vai permitir que a árvore se generalize.
Assim, acontece que árvores rasas podem generalizar-se, mas é impossível reproduzir quaisquer características necessárias dentro delas (como MA). Isso significa que os MAs, CCIs e todo o resto que queremos verificar como recursos devem ser passados junto com as barras.

Eu não sou o único que acredita que só as barras são suficientes para os sistemas de árvores. Se ainda houver apoiantes, sugiro que dêem os seus argumentos.
 
Maxim Dmitrievsky:

Então não é uma questão de fé, precisas de provas.

A remoção de recursos do modelo muda sua Interação, para que você possa reorganizá-los pelo tempo que desejar

Vamos definir o que é necessário para provar.

Porque, na minha opinião, pode haver um processo de remoção de um preditor, formalmente um preditor pode passar a seleção como bom para a raiz (muitas vezes) dividida pela razão de ter bons indicadores para ela - muitas vezes a correspondência com outros preditores melhora os resultados - princípio da ganância, mas este princípio funciona com o conjunto de dados como um todo, sem verificação das características espaciais (freqüência de ocorrência de eventos em toda a amostra devido ao seu resultado), é uma situação de agregação de resultados de eventos em 1/5 da amostra, por exemplo, apenas a partir de lá foi Ou uma situação semelhante, mas aí a razão é diferente - mesmo o modelo é estável, mas acontece que o preditor se correlaciona bem com o alvo no momento em que o desempenho financeiro do resultado da transação é principalmente muito pequeno no mais ou muito grande no menos, e este é um ponto muito sutil que o modelo não sabe como contabilizar no treinamento.

Portanto, o objetivo não é apenas melhorar o próprio modelo de classificação em diferentes intervalos de tempo, mas também melhorá-lo em termos de resultado financeiro.

 
Aleksey Vyazmikin:

Vamos definir o que é necessário para provar.

Na minha opinião, pode haver um benefício em remover um preditor, formalmente um preditor pode passar a seleção como bom para a raiz (muitas vezes) dividida pela razão de ter bons indicadores para ela - muitas vezes a correspondência com outros preditores melhora o resultado - princípio da ganância, mas este princípio funciona com a data definida como um todo, não há verificações de características espaciais (freqüência de ocorrência de eventos em toda a amostra em relação ao seu resultado), é a situação de acumular resultados de eventos em 1/5 da amostra, por exemplo, apenas a partir do que havia Ou uma situação semelhante, mas a razão é diferente - mesmo o modelo é estável, mas acontece que o preditor se correlaciona bem com o alvo no momento em que o desempenho financeiro do resultado da transação é, na maioria das vezes, muito pequeno no mais ou muito grande no menos, e este é um ponto muito sutil que o modelo não sabe como contabilizar no treinamento.

Assim, o objectivo não é apenas melhorar o próprio modelo de classificação em diferentes intervalos de tempo, mas também melhorá-lo em termos de resultados financeiros.

Não estou pronto para codificar e depois apoiar ideias incompreensíveis com resultados incompreensíveis.

 
Maxim Dmitrievsky:

não está pronto para codificar e depois apoiar ideias pouco claras com resultados pouco claros

Então diga-me que você considera apenas suas próprias idéias corretas e dignas de discussão.

 
Aleksey Vyazmikin:

Portanto, digamos que só as suas próprias ideias são correctas e dignas de discussão.

bastante razoável. Eu não consegui nada da descrição.

Eu já escrevi sobre rearranjo sem sentido de personagens, eu fiz isso há alguns anos atrás.

 
Maxim Dmitrievsky:

bastante razoável. Eu não entendo nada da descrição.

Eu já escrevi sobre a falta de significado de reorganizar as características, eu fiz isso alguns anos atrás.

Se você não entender pela descrição, faça perguntas, o que exatamente não está claro - vou tentar explicar melhor.

Eu fiz a mesma coisa há alguns anos atrás, e desisti por causa do esforço, não por falta de significado.

Abaixo está uma tabela com os resultados da antiga experiência, o trabalho é assim:

1. O número de palpiteiros é cortado em 9 pedaços.

2. Combinações entre pedaços são criadas - 512

3. Depois é feita uma estimativa de como as amostras se comportam em média com a presença/ausência de cada pedaço.

4. É feita uma suposição sobre o significado do pedaço (positivo/negativo).

5. Os pedaços significativos são divididos em pedaços menores, e os menos significativos são combinados em um pedaço (não necessariamente que eles têm que ir em ordem)

6. Novas 512 combinações são formadas

7. Se for encontrada uma pequena peça que afete negativamente a amostra, ela é excluída da enumeração posterior até que a melhoria do resultado pare, então as peças excluídas podem ser tentadas adicionando e analisando o resultado da mesma forma. As influências positivas, por outro lado, são agregadas em um grupo.

Aqui está um exemplo da mudança nos indicadores com 32 iterações deste tipo.



O método pode, naturalmente, ser melhorado, mas isto requer experimentação e os resultados dos seus resultados.

Sim, a melhoria não é por vezes, mas os resultados também permitem pensar em quais os preditores que são melhores ou piores para o resultado e porquê.

E, eu quero tentar trabalhar especificamente com estatísticas CatBoost e remover/adicionar preditores (e seus grupos) precisamente pela razão de que pode ser mais rápido do que a enumeração que eu usei anteriormente.

Outra vantagem é que demasiados preditores levam a rachaduras raras, e a activação de folhas pode ser muito rara na amostra fora do treino (mostrei-a na captura de ecrã anterior), o que diminui deliberadamente a qualidade do treino e a sua avaliação.

 
Aleksey Vyazmikin:

Se você não entende a descrição, faça perguntas sobre o que não está claro - eu tentarei explicar melhor.

Eu fiz a mesma coisa há alguns anos atrás, e desisti por causa do trabalho envolvido, não da inutilidade.

Desperdício de tempo sem sentido.