Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 87

 
SanSanych Fomenko:

Todos os pacotes (modelos) podem ser divididos em duas categorias:

  • basicamente bom
  • não se encaixam, em princípio.

O desempenho daqueles pacotes que são "basicamente bons" é mais ou menos o mesmo, as diferenças não são significativas.

O problema não é com o modelo, mas com o conjunto de preditores e o seu pré-condicionamento. Se tomarmos algum conjunto de preditores, a possibilidade de construir um modelo NÃO excessivamente treinado, bem como a magnitude do erro, depende pouco da mudança do modelo. Portanto, deve-se pegar o modelo mais simples e rápido daqueles que "em princípio se encaixam".

PS.

Pela minha própria experiência. Para mim, mais de 75% da mão-de-obra empregada na construção de TS - é a seleção de preditores, se é que consegue captar tal conjunto para uma determinada variável-alvo.

San Sanych, olá.

E se pelo seu método para 3 intervalos de dados não-intersectantes obtivermos valores de previsão diferentes, então eles são não-estacionários (ruído, etc.) devemos seguir?

 
SanSanych Fomenko:

Todos os pacotes (modelos) podem ser divididos em duas categorias:

  • basicamente bom
  • não se encaixam, em princípio.

O desempenho daqueles pacotes que são "basicamente bons" é mais ou menos o mesmo, as diferenças não são significativas.

O problema não é com o modelo, mas com o conjunto de preditores e o seu pré-condicionamento. Se tomarmos algum conjunto de preditores, a possibilidade de construir um modelo NÃO excessivamente treinado, bem como a magnitude do erro, depende pouco da mudança do modelo. Portanto, deve-se pegar o modelo mais simples e rápido daqueles que "em princípio se encaixam".

PS.

Pela minha própria experiência. Para mim, mais de 75% da mão-de-obra empregada na construção de TC é a seleção de preditores, se é que é possível escolher tal conjunto para uma determinada variável-alvo.

Que modelos, do que estás a falar... é como uma pessoa perguntar "que horas são? " e a resposta é "o que queres que dance?":)

Nunca, por favor, nunca mais faça isso, é mais fácil escrever 10 linhas de texto do que ler duas linhas de perguntas

 
mytarmailS:

Talvez alguém esteja interessado, eu encontrei um pacote que pode simular trading e construir sistemas de trading chamado quantstrat

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

descansar
 
Alexey Burnakov:

San Sanych, olá.

Mas se pela sua metodologia obtivermos diferentes valores de previsão em 3 segmentos de dados não-intersectantes em treinamento, então eles são não-estacionários (ruído, etc.) devemos seguir?

O significado dos preditores é obtido apenas uma vez - quando o modelo é treinado. Então este modelo é APLICÁVEL, não treinável.
 
SanSanych Fomenko:
A relevância do prognóstico é obtida apenas uma vez - quando o modelo é treinado. Então esse modelo é APLICÁVEL, não é ensinado.
Tens de o ensinar várias vezes lá, se bem me lembro?
 
Alexey Burnakov:
Você tem que ensinar várias vezes, como eu me lembro?

De jeito nenhum!

Mais uma vez.

1. tomamos um grande pedaço de preditores de séries temporais, por exemplo 10 000 observações (linhas).

2. Dividimo-la em duas partes, estritamente mecânicas: 7000 primeira parte e 3000 segunda parte.

3. Dividimos a primeira parte em três partes ao acaso: para treinamento, teste e validação

4. Ensinamos (ajuste - ajuste) o modelo na amostra de treinamento.

5. Aplique o modelo treinado nas amostras de teste e validação.

6. Se nas três amostras - treinamento, teste e validação - o erro for aproximadamente igual, então a cláusula 7.

7. Aplique o modelo na segunda parte, que é uma série cronológica ininterrupta na sua sequência temporal.

8. Se o erro nesta parte também for aproximadamente igual aos três anteriores, então:

  • este conjunto de preditores não leva à requalificação do modelo
  • o erro que foi obtido em todos os QUATRO conjuntos (três aleatórios e um sequencial) e é um erro que é muito difícil de reduzir por encaixe do modelo.
O meu modelo de desempenho de erro é o seguinte: ada, randomforest, SVM e as suas muitas variedades. nnet é muito pior.

 
SanSanych Fomenko:

De jeito nenhum!

Mais uma vez.

1. Pegue um grande pedaço de preditores de séries temporais, por exemplo, 10.000 observações (linhas)

2. Dividimo-la em duas partes, estritamente mecânicas: 7000 primeira parte e 3000 segunda parte.

3. Dividimos a primeira parte em três partes ao acaso: para treinamento, teste e validação

4. Ensinamos (ajuste - ajuste) o modelo na amostra de treinamento.

5. Aplique o modelo treinado nas amostras de teste e validação.

6. Se nas três amostras - treinamento, teste e validação - o erro for aproximadamente igual, então a cláusula 7.

7. Aplique o modelo na segunda parte, que é uma série cronológica ininterrupta na sua sequência temporal.

8. Se o erro nesta parte também for aproximadamente igual aos três anteriores, então:

  • este conjunto de preditores não leva à requalificação do modelo
  • o erro que foi obtido em todos os QUATRO conjuntos (três aleatórios e um sequencial) e é um erro que é muito difícil de reduzir por encaixe do modelo.
O meu modelo de desempenho de erro é o seguinte: ada, randomforest, SVM e as suas muitas variedades. nnet é muito pior.

Aqui tem. Obrigado.

Tenho muito melhores resultados no treino do que em outras amostras. E na validação cruzada, o resultado está muito mais próximo do final da amostra.

Acho que a sua tese de erros iguais em todas as amostras fala com o modelo de roupa inferior. Isto é, é o mesmo em todo o lado.
 
Alexey Burnakov:
.... Ou seja, em todo o lado é igualmente assim.

Assim, é só falta de cérebro e tempo.

Você tem que começar com a variável alvo e depois selecionar os preditores para ela, e depois verificar novamente com a matemática, ou assim. De qualquer forma, o processo é lento e não posso formalizá-lo.

 
SanSanych Fomenko:

Mais ou menos - apenas não há cérebro e tempo suficientes.

Você tem que começar com a variável alvo, e então você tem que compará-la com os preditores, e então verificá-los duas vezes com a matemática, por assim dizer. Em qualquer caso, o processo é doloroso e não formalizável para mim.

Particularmente em termos de significado, é tortuoso. Não é isso que eu quero dizer.

Se você é igualmente bom em todos os lugares, isso é um feito. Mas na maioria das vezes será igualmente mau, o que um modelo fraco lhe permite alcançar.
 
o fio parece estar morto....