Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1325

 
Farkhat Guzairov:

Tudo acima é legal e muito informativo, mas "controle de treinamento", o que isso significa???

Ou seja, por exemplo, você treina o sistema com uma amostra de dados a partir de 2014 e depois dá uma amostra a partir de 2015 e quer ver a probabilidade de padrões? Se assim for, então não precisas de trocar nada, está tudo correcto. Só que eu não vejo um problema aqui se o controle der alguns resultados diferentes dos esperados, será sempre assim.

Eu uso CatBoost para treinamento, há uma oportunidade de parar o treinamento em uma amostra de controle (validação), ou seja, ao mesmo tempo ocorre a redução de erros em uma amostra de treinamento e verificar imediatamente na amostra de controle como o resultado mudou nela, se o resultado não melhorar na amostra de controle um determinado número de árvores, então o treinamento pára e todas as árvores até a última melhoria são cortadas. Sim a cronologia é assim - Eu treino 2014 e controlo a formação de 2015 a 2018, verifique o resultado em 2018. Talvez faça sentido trocar de lugar, porque os padrões detectados durante o treinamento podem parar de funcionar a tempo e talvez seja melhor treinar com dados que estejam mais próximos da aplicação na realidade - é uma questão em aberto.

 
Farkhat Guzairov:

Se a aplicação prática do MO no seu caso for a seguinte, na minha opinião.

Como é simplesmente impossível obter uma probabilidade de 100% do verdadeiro resultado, então vá para um método simples, por exemplo, a razão entre resultados verdadeiros e falsos, se está na região de 50/50, então novamente devemos entender que lucros você obtém com estes resultados, se 50% do lucro é uma média de 100 pontos, e os restantes 50% de perdas são em média 50 pontos, então eu acho que o seu sistema já é adequado para uso prático.

A precisão da classificação na tabela é a Precisão métrica - cerca de 60% (para os melhores modelos) obtêm entradas corretas, no Testador de Estratégia será maior, pois algumas posições têm que quebrar o break-even, mas não ter lucro.

Ainda é muito cedo para aplicar, devemos nos preparar para a próxima etapa - para estripar os modelos em herbários :)

 
Aleksey Vyazmikin:

Eu uso CatBoost para treinamento, há uma opção para parar o treinamento na amostra de controle (validação), ou seja, em paralelo redução de erros na amostra de treinamento e verificar imediatamente na amostra de controle como o resultado mudou nela, se o resultado não melhorar na amostra de controle um determinado número de árvores, então o treinamento pára e todas as árvores para a última melhoria são cortadas. Sim a cronologia é assim - Eu treino 2014 e controlo a formação de 2015 a 2018, verifique o resultado em 2018. Talvez faça sentido trocar de lugar, porque os padrões identificados no treinamento ainda podem parar de trabalhar a tempo e talvez seja melhor treinar sobre dados mais próximos da aplicação na realidade - uma questão em aberto.

O que por exemplo eu notei comigo mesmo. Quanto mais dados estão envolvidos no treinamento, mais o sistema se torna "apertado", ou seja Porque é assim, a resposta que você deu é que durante alguns períodos um modelo dá um resultado positivo, e o mesmo modelo durante outro período dá um resultado negativo, como resultado você traz o sistema para um estupor, ele se torna "apertado" como eu disse, talvez mais inteligente, mas isso não significa que o sistema inteligente vai dar mais resultados verdadeiros, tenho medo que as proporções permaneçam as mesmas, apenas o sistema vai lhe dizer seu ponto de vista sobre a situação atual com menos freqüência.

 
Aleksey Vyazmikin:

Sobre o boosting - houve uma palestra mais recente (em python com catbust como opção) com o mesmo conferencista - não se encontra


É interessante que o GBM resolve o problema de classificação com árvores de regressão.

Alguém sabe? Outros métodos de impulso (pacotes) fazem o mesmo?

 
Aleksey Vyazmikin:

E que conclusão se pode tirar? Parece que o volume ótimo é 60%-70% da amostra de validação, ou seja, o treinamento deve ocorrer em uma amostra menor do que a validação do modelo. Mas é impossível não destacar a repartição em 30%, aí também o resultado de todos os indicadores não é mau, e as falhas muito próximas dos 40% e 50%. Eu nem sei o que afecta mais o tamanho da amostra ou o conteúdo, e como configurá-lo...

Se 60-70% é bom e 30% é bom, há uma probabilidade de acertar acidentalmente estes números.
Você pode tentar repetir os cálculos completamente, e se for a mesma coisa na segunda vez, você pode considerá-la uma regularidade. (Deve ser repetido 10 vezes para uma maior significância estatística).
 
Farkhat Guzairov:

O que eu notei comigo mesmo, por exemplo. Quanto mais dados estão envolvidos no treinamento, mais o sistema se torna "apertado", ou seja Por isso gera menos probabilidade de resultados, a resposta é que durante certos períodos alguns modelos mostram resultados positivos e os mesmos modelos mostram resultados negativos em outro período, como resultado o sistema fica em um estupor e como eu disse fica "apertado", talvez mais inteligente, mas isso não significa que o sistema inteligente vai produzir mais resultados verdadeiros, temo que os rácios permaneçam os mesmos, mas o sistema vai dizer sua opinião sobre a situação atual com menos frequência.

Penso que é melhor ter menos sinais na negociação, mais precisos, e os modelos podem ser combinados em conjuntos independentes, então a precisão da classificação será alta e a completude aumentará (o número de eventos que se qualificam como 1). O principal é de alguma forma habituar-se a gerar modelos excelentes, mais uma vez, alternativamente através de diferentes avarias por amostragem.

 
elibrarius:

Curiosamente, o GBM resolve o problema de classificação com árvores de regressão.

Alguém sabe? Outros métodos de impulso (pacotes) fazem o mesmo?

Fazendo o mesmo do que eu sei (mencionado em vários lugares). Não há outra forma, devido à peculiaridade do próprio treinamento. É por isso que eu disse anteriormente que a seqüência de árvores que eu acho que pode afetar seu peso na resposta, e isso é o que torna razoável considerar conjuntos de folhas e convertê-los em uma única regra.

 
elibrarius:
Se 60-70% é bom e 30% é bom, há uma chance de acertar acidentalmente estes números.
Você pode tentar repetir os cálculos completamente, e se for a mesma coisa na segunda vez, você pode considerá-lo um padrão. (Deve ser repetido 10 vezes para uma maior significância estatística).

Como é que o fazes de novo? Ou seja, será a mesma coisa, como a semente é fixa, você pode levar uma nova semente - vou tentar mais tarde e ver o que acontece.

Por outro lado, foram utilizados 200 modelos por amostra, o que também não é pequeno.
 
não se podem tirar conclusões de tal estudo num mercado não estacionário
 
Maxim Dmitrievsky:
não se podem tirar conclusões de tal estudo num mercado não estacionário

A amostra é estacionária, a repartição para treinamento mudou, mas para avaliação independente permanece a mesma.

Por favor, explique o seu ponto de vista.