Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 31

 
Alexey Burnakov:

Yuri, o primeiro julgamento dos teus dados:

método loss_function cv_folds bag_frac modelos_parames AUC_cv accuracy_train accuracy_validate
GBM bernoulli 4 0.4 0.015_|_7_|_70_|_600 0.429659 0.590361 0.50501
GBM bernoulli 4 0.6 0.02_|_5_|_110_|_600 0.485727 0.586345 0.51503

Dois conjuntos diferentes de valores de parâmetros para treinamento. É digno de nota que a AUC está abaixo do rodapé da validação cruzada.

No geral, uma precisão de 51,5% no teste é a melhor que se revelou.

Nem sei como consegues chegar aos 60%.

Devíamos deitar fora esse conjunto de preditores.

Se nós estupidamente tomarmos todos os incrementos de passos e alguns osciladores mais de 100 preditores com mais de 5000 observações, ou seja, H1, então podemos escolher entre 10-15 preditores que não só darão menos de 40% de erro de previsão, mas o mais importante não dará um modelo REFERRED.

 
SanSanych Fomenko:

Devíamos deitar fora este conjunto de preditores.

Se tomarmos estupidamente incrementos de tudo com alguns osciladores acima de 100 preditores com mais de 5000 observações, ou seja, H1, de tal conjunto podemos escolher 10-15 preditores que não só darão erros de previsão inferiores a 40%, mas mais importante, NÃO darão um modelo REPROVADO.

Ainda não sabemos quais são as características do Yuri incluídas no kit. Ele diz que todos eles são necessários.
 

Em geral, nunca tive uma classificação melhor do que 51,5% de precisão. Assim, o resto das métricas também estará próximo de adivinhações aleatórias.

O balanço das respostas no teste é quase perfeitamente 50/50.

Yuri, estou ansioso pelas tuas revelações.

 
Eu tenho cerca de 50% de previsões correctas no test.csv, tudo sem compromisso. Concordo que o conjunto de preditores não é muito bom, Yuri, acrescente mais indicadores padrão, se o seu modelo é realmente tão bom assim, então eu acho que você pode atingir 80% ou mais previsões corretas com bons preditores.
 
Alexey Burnakov:

Em geral, nunca tive uma classificação melhor do que 51,5% de precisão. Assim, o resto das métricas também estará próximo de adivinhações aleatórias.

As respostas equilibradas no teste são quase perfeitas 50/50.

Obrigado pela informação. Se ninguém conseguiria um resultado melhor, e eu mesmo tenho rodado este conjunto de dados no Weka e é uma chatice lá também, então é hora de atualizar a versão da libVMR. 60% de respostas corretas em tais amostras não é um limite, se você aplicar a nova versão.
Alexey Burnakov:

Yuri, estou à espera das tuas revelações.

Eu não estou a esconder nada. Para a versão antiga, cujos resultados já dei acima, todas as informações estão em acesso aberto:

Descrição do método de construção do classificador binário: https://sites.google.com/site/libvmr/

Código fonte Java com comentários: https://sourceforge.net/p/libvmr/code/HEAD/tree/trunk/

Constrói: https://sourceforge.net/projects/libvmr/files/

Векторная машина Решетова
  • sites.google.com
Теория и практика алгоритмов машинного обучения обладающих обобщающей способностью
 
Yuri, obrigado.

Há uma coisa que eu não entendo. Se o conjunto é linearmente separável, porque não utilizar o método SVM habitual? Como é que o teu está melhor?
 
Alexey Burnakov:
Yuri, obrigado.

Há uma coisa que eu não entendo. Se o conjunto é linearmente separável, porque não utilizar o método SVM habitual? Como é que o teu está melhor?

Se o conjunto for linearmente separável, então o número de hiperplanos separadores potenciais é infinito. Nesse caso, é necessário encontrar algum critério para identificar um hiperplano adequado. Um desses critérios foi formulado para o método dos vetores de referência no livro: Vapnik V. N., Chervonenkis A. Y. A teoria do reconhecimento de padrões. Moscovo: Nauka, 1974. Mais precisamente, muitos critérios diferentes são considerados neste livro.

Tanto a SVM como a VMR são métodos vetoriais de referência.

  • SVM é um método para reconstruir dependências a partir de dados empíricos. O critério é a distância máxima entre hiperplanos de referência, se o espaço for linearmente separável. Ver Vapnik V. N. Reconstrução da dependência a partir de dados empíricos. Moscovo: Nauka, 1979.
  • VMR é um método para identificação de dependências fortes e remoção (redução) de dependências fracas. O critério é o mínimo da distância entre os hiperplanos de referência, independente da separabilidade linear. Ou seja, a VMR não recupera dependências (não acrescenta nada ao modelo que se sabe estar faltando na amostra de treinamento), sem mencionar o fato de que algumas dependências implícitas não entram no modelo (são peneiradas). Mais especificamente, a VMR reduz o hiperespaço ao reduzir algumas das funcionalidades.

Que método é melhor ou pior pode ser discutido por muito tempo. No entanto, pode-se tomar e verificar a generalizabilidade e então tudo se encaixa.

 
Yury Reshetov:

Se o conjunto for linearmente separável, então o número de hiperplanos separadores potenciais é infinito. Neste caso, é necessário encontrar algum critério para identificar um hiperplano adequado. Um desses critérios foi formulado para o método dos vetores de referência no livro: Vapnik V. N., Chervonenkis A. Y. A teoria do reconhecimento de padrões. Moscovo: Nauka, 1974. Mais precisamente, muitos critérios diferentes são considerados neste livro.

Tanto a SVM como a VMR são métodos vetoriais de referência.

  • SVM é um método para reconstruir dependências a partir de dados empíricos. O critério é a distância máxima entre os hiperplanos de referência se o espaço for linearmente separável. Ver Vapnik V. N. Reconstrução da dependência a partir de dados empíricos. Moscovo: Nauka, 1979.
  • VMR é um método para identificar as dependências fortes e remover (reduzir) as mais fracas. O critério é o mínimo da distância entre os hiperplanos de referência, independentemente da separabilidade linear. Ou seja, a VMR não recupera dependências (não acrescenta nada ao modelo que se sabe estar faltando na amostra de treinamento), sem mencionar o fato de que algumas dependências implícitas não entram no modelo (são peneiradas). Mais especificamente, a VMR reduz o hiperespaço ao reduzir algumas das funcionalidades.

Que método é melhor ou pior pode ser discutido por muito tempo. No entanto, é possível tomar e verificar a capacidade de generalização, e então tudo ficará nos lugares.

Os problemas devem ser resolvidos à medida que chegam, e colocar a carroça (modelo) antes do cavalo (preditores) é um exercício absolutamente fútil. Ainda mais para comparar carrinhos, quando não se sabe o que lhes é aproveitado e se é aproveitado de todo.

Antes de aplicar qualquer tipo de modelo é necessário limpar a lista de preditores do ruído, deixando apenas os preditores que são "relevantes" para a variável alvo. Se isso não for feito, pode-se facilmente entrar em modelos de construção baseados em anéis de Saturno, borras de café e outros preditores que têm sido amplamente utilizados na prática por várias centenas de anos.

O Dr.Trader acima tentou fazer o trabalho de remover o ruído de seu conjunto de preditores.

O resultado é negativo.

Penso que a razão do resultado negativo é o pequeno número de observações com um número muito grande de preditores. Mas esta é a direcção a seguir para cavar antes de aplicar QUALQUER modelo.

 
Yury Reshetov:

Se o conjunto for linearmente separável, então o número de hiperplanos separadores potenciais é infinito. Neste caso, é necessário encontrar algum critério para identificar um hiperplano adequado. Um desses critérios foi formulado para o método dos vetores de referência no livro: Vapnik V. N., Chervonenkis A. Y. A teoria do reconhecimento de padrões. Moscovo: Nauka, 1974. Mais precisamente, muitos critérios diferentes são considerados neste livro.

Tanto a SVM como a VMR são métodos vetoriais de referência.

  • SVM é um método para reconstruir dependências a partir de dados empíricos. O critério é a distância máxima entre os hiperplanos de referência se o espaço for linearmente separável. Ver Vapnik V. N. Reconstrução da dependência a partir de dados empíricos. Moscovo: Nauka, 1979.
  • VMR é um método para identificar as dependências fortes e remover (reduzir) as mais fracas. O critério é o mínimo da distância entre os hiperplanos de referência, independentemente da separabilidade linear. Ou seja, a VMR não recupera dependências (não acrescenta nada ao modelo que se sabe estar faltando na amostra de treinamento), sem mencionar o fato de que algumas dependências implícitas não entram no modelo (são peneiradas). Mais especificamente, a VMR reduz o hiperespaço ao reduzir algumas das funcionalidades.

Que método é melhor ou pior pode ser discutido por muito tempo. No entanto, é possível tomar e verificar a capacidade de generalização, e então tudo ficará nos lugares.

Yury, obrigado. Vou pensar sobre isso.

Nós temos uma pergunta. Como você selecionou os preditores?
 



Infelizmente, não consigo calcular Sharpe e similares em R, pois tenho 49 amostras aleatórias que, quando sobrepostas, não reconstituem a sequência de trocas.


R tem tudo o que você precisa. Ver fTrading::sharpeRatio.

Oh, e PerformanceAnalitics não faria mal em dar uma olhada também.

Boa sorte.