Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1012

 
Aleksey Panfilov:

Muito interessante, você pode elaborar sobre a medição da capacidade de previsão?

E acima de tudo o que medir?

Escrevi, dei gráficos, postei código - o faz-tudo enterrou tudo nestas 1000 páginas...

Demasiado preguiçoso para me repetir. O mais usado aqui é o vtreat, eu não o uso. O principal é pensar sobre este tema e descartar tudo o resto.

 
Aleksey Vyazmikin:

Então você não levantou a questão de quais devem ser as configurações ZZ?

O parâmetro ZZ é diferente para cada instrumento e período de tempo. Por exemplo, para EURUSD M15 um bom valor inicial de 15 pips (4 dígitos). Também depende de preditores que você usa. É uma boa idéia otimizar todos os parâmetros de preditores e ZZ. Portanto, é desejável ter preditores não paramétricos, isso torna a sua vida muito mais fácil. Como tal, os filtros digitais mostram bons resultados. Usando conjuntos e cascata combinando, obtive Precisão média = 0,83. Este é um resultado muito bom. Amanhã vou enviar um artigo para verificação, que descreve o processo.

Boa sorte.

 
Vladimir Perervenko:

O parâmetro ZZ é diferente para cada instrumento e período de tempo. Por exemplo, para EURUSD M15 um bom valor inicial de 15 pips (4 dígitos). Também depende de preditores que você usa. É uma boa idéia otimizar todos os parâmetros de preditores e ZZ. Portanto, é desejável ter preditores não paramétricos, isso torna a sua vida muito mais fácil. Como tal, os filtros digitais mostram bons resultados. Usando conjuntos e cascata combinando, obtive Precisão média = 0,83. Este é um resultado muito bom. Amanhã vou enviar um artigo para verificação, que descreve o processo.

Boa sorte.

Extremamente interessante. Estou ansioso por isso.

 
Graal:

Se você puder compartilhar seu lance de 2004 e perguntar linhas por data atual eu tentarei, eu geralmente aprendo de 1 a 3 anos e testo por 20 a 30%.

conjunto de dados, pólen e séries de teste, bem como séries em bruto de ducas

Boa curva :) Mas é pouco provável que intriga alguém, não está claro que tipo de software, como você calculou esta curva. Nos vossos conjuntos de dados não tenho muito mais do que 52% de precisão, pela forma como terminam os marcadores lá antes dos chips, eu corto-os no meu. Preciso de adicionar mais cortes nos preços a partir dos quais se obtêm as samambaias e os testes, para depois fazer o resultado do classificador no bulltester.

PS: na verdade, qualquer curva de rendimento de um testador e, como se tornou um relatório de qualidade de classificação, a regressão não pode provar nada para o público. Há algum tempo atrás, em um grupo fechado de algotrading, houve uma idéia interessante de acordar uma interface para a troca de modelos prontos em C++ dll (que de qualquer forma todos os algotraders e machineliners usam) que tomam como entrada um monte de linhas em json passado e depois complementado com novos dados (castiçais, ticks, tickans, etc.), e exibe previsões. Em suma, a ideia é trocar algum tipo de "caixas pretas" padronizadas que possam ser testadas quando o futuro chegar, no testador, quando os dados estiverem disponíveis. Esta é a única maneira de entender se o modelo funciona ou não, bem, você também pode usar web-api, mas é incômodo manter uma VPN para isso, especialmente se houver muitos modelos. E assim todos estes números precisão, razão Sharp etc. têm pouco significado, há 100500 maneiras de não se encaixar conscientemente e como muitos se encaixam conscientemente e ninguém vai entender, você precisa de mais evidência vestigial.

 
Maxim Dmitrievsky:

Se você tiver classificação, você pode estimar com erro de classificação relativo ou logloss (entropia cruzada), se a regressão, rmse será suficiente. Você também pode medir o diferencial de erro em um traço e um teste e alcançar a menor diferença.

Apenas as configurações são escolhidas para que o trem, a validação e o teste tenham aproximadamente a mesma separação nas classes previstas.

É exatamente disto que se trata, uma floresta pode facilmente ser sobretreinada mesmo por árvores rasas, e certamente se as árvores forem criadas em folhas puras, haverá sobretreinamento lá com maior probabilidade.

Então como é que isto pode ser evitado? Bem, aqui vamos nós outra vez com "lixo no lixo". Existem quaisquer preditores que não sejam "lixo" na natureza.

A idéia é tomar ROC_AUC e o valor ao longo do eixo horizontal deve parar de crescer se houver algo bom no preditor. Mas tendo procurado em todos eles, não consegui encontrar nenhum.

Eu desenhei uma linha estritamente plana para cima.

Mas nenhum dos indicadores vai impulsionar o mercado pela história, é claro que não).

Eu tentei muitas vezes, mas não fiquei tão impressionado.

 
forexman77:

Apenas as configurações são escolhidas para que o estagiário, validação e teste tenham aproximadamente a mesma divisão de classes previstas.

Para que serve tudo isso, uma floresta pode ser facilmente supertreinada mesmo por árvores rasas, e certamente se as árvores forem criadas com folhas puras, haverá lá um supertreinamento com uma probabilidade maior.

Então como é que isto pode ser evitado? Bem, aqui vamos nós outra vez com "lixo no lixo". Existem quaisquer preditores que não sejam "lixo" na natureza.

A idéia é tomar ROC_AUC e o valor ao longo do eixo horizontal deve parar de crescer se houver algo bom no preditor. Mas tendo procurado em todos eles, não consegui encontrar nenhum.

Eu desenhei uma linha estritamente plana para cima.

Mas nenhum indicador irá alguma vez impulsionar o mercado pela história).

Se o erro na trama validada for o mesmo que no traçado, tudo deve funcionar. Obviamente que não

 
Maxim Dmitrievsky:

Se o erro na seção válida. é o mesmo que no estagiário, então tudo deve funcionar. Obviamente que não.

Bem, não exactamente idêntico, perto. Se completamente idêntica, é uma árvore de profundidade três, a imagem foi dada.

Escolhe-se a profundidade 15, que mostrou o teste mais ou menos.

Daqui a cerca de 20 minutos, afixarei a repartição por turma.

 

Profundidade três:

[[8010 7122]
 [7312 8410]]
трайн наоборот

[[8026 7105]
 [7209 8512]]
трайн 

[[5538 5034]
 [5117 5395]]
предсказание по обученной модели на трайн, эти данные не участвовали в обучении.
Поясню данные для теста берутся не из не использованных выборок, это данные, которые вообще не доступны для
алгоритма в процессе обучения(находятся вне временного промежутка участка обучения).

Profundidade 15:

[[7667 7464]
 [7227 8494]]
трайн наоборот

[[14430   702]
 [  661 15061]]
трайн 

[[5405 5167]
 [4958 5554]]
тест

Ao mesmo tempo, embora a profundidade 15 leve claramente ao sobretreinamento, o avanço é melhor com ele. Também nos outros modelos que eu tenho. Quando não está muito bem equipado.

Para a frente:

15

3

Acontece que predizer as etiquetas da classe que se procura 4-6% mais do que as negativas...

 
Gianni:

Boa curva :) Mas é pouco provável que intriga alguém, não está claro que tipo de software, como você calculou esta curva. Nos vossos conjuntos de dados não tenho muito mais do que 52% de precisão, pela forma como os vossos marcadores terminam antes dos chips, cortei-os no meu. Preciso de adicionar mais cortes nos preços a partir dos quais se obtêm as samambaias e os testes, para depois fazer o resultado do classificador no bulltester.

PS: na verdade, qualquer curva de rendimento de um testador e, como se tornou um relatório de qualidade de classificação, a regressão não pode provar nada ao público. Há algum tempo atrás, em um grupo fechado de algotrading, houve uma idéia interessante de acordar uma interface para a troca de modelos prontos em C++ dll (que de qualquer forma todos os algotraders e machineliners usam) que tomam como entrada um monte de linhas em json passado e depois complementado com novos dados (castiçais, ticks, tickans, etc.), e exibe previsões. Em resumo, a ideia é trocar algum tipo de "caixas pretas" padronizadas que podem ser verificadas quando o futuro chegar, no testador, quando os dados estiverem disponíveis. Esta é a única maneira de entender se o modelo funciona ou não, bem, você também pode usar web-api, mas é incômodo manter uma VPN para isso, especialmente se houver muitos modelos. E todos estes números, precisão, razão Sharp, etc. não significam muito, há 100500 maneiras de não se ajustar conscientemente e como muitas conscientemente e ninguém vai entender, você precisa de provas melhores.

Existem tufos nulos de características no início do treinamento e amostras de dados de teste, provavelmente não havia histórico suficiente para calculá-los, e o algoritmo não controlou isso, então para o trabalho correto eles devem ser removidos também.

Onde está esse grupo, se não é segredo, e é possível procurar lá?

 
forexman77:

Profundidade três:

Profundidade 15:

Ao mesmo tempo, embora a profundidade 15 leve claramente ao sobretreinamento, o avanço é melhor com ele. Também nos outros modelos que eu tenho. Quando não está muito bem equipado.

Para a frente:

15

3


Acho que precisas de reduzir o número de negócios, parece que em todos os bares...