Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 163

 
SanSanych Fomenko:

1) Se você olhar para as primeiras publicações do autor de algoritmos de florestas aleatórias, o autor foi muito sério em afirmar que o rf não é propenso a supertreinamento e deu muitos exemplos. O próprio pacote da floresta aleatória é construído de forma a excluir até mesmo a mais leve suspeita de sobretreinamento.

Ao mesmo tempo, o algoritmo mais sobre-treinado é o da floresta aleatória. Eu próprio me queimei pessoalmente.


2) A grande maioria das publicações de aprendizagem de máquinas não são testadas em nenhum segundo arquivo analógico. A razão é trivial. Os algoritmos NÃO são aplicados em séries temporais. E acontece que a divisão aleatória do ficheiro número um é bastante suficiente. E este é de facto o caso do reconhecimento de texto manuscrito, por exemplo.

1) Tanto Forrest e GBM e quaisquer outros métodos são requalificados. Inaparente em dados dobrados e muito perceptível em dados muito ruidosos.

2) Existem publicações discutindo a introdução da validação cruzada aninhada em amostras adicionais em um intervalo de tempo diferente.

 
Alexey Burnakov:

2) Existem publicações discutindo a introdução de validação cruzada aninhada em amostras adicionais em um intervalo de tempo diferente.

Se você não se importa com um link
 
SanSanych Fomenko:
Se você não se importa, ligue


Uma das discussões: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Há links para artigos nas discussões.

Um artigo interessante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Como se pode ver pelo título, trata-se de sobretreinamento, que acontece na fase de avaliação do modelo sobre faltas de validação de validação cruzada. Consequentemente, além da validação cruzada, você também precisa de uma amostra para avaliar um modelo já selecionado.

Nested cross validation for model selection
Nested cross validation for model selection
  • stats.stackexchange.com
How can one use nested cross validation for model selection? From what I read online, nested CV works as follows: There is the inner CV loop, where we may conduct a grid search (e.g. running K-fold for every available model, e.g. combination of hyperparameters/features) There is the outer CV loop, where we measure the performance of the model...
 

Se krakto (já escrito sobre isso):

Um modelo selecionado via validação cruzada deve ser revalidado por outra amostra retardada no tempo.

E a validação cruzada aninhada implica a construção de n validações cruzadas de n vezes (sobre dados diferentes) seguidas de validação sobre n amostras atrasadas (cada vez sobre dados diferentes).

E mesmo isso não é tudo. Se a camada superior das amostras diferidas for re-selecionada, por exemplo, um comitê de modelos baseado em dados dessas amostras diferidas, então a validação do comitê deve ser feita em mais uma amostra diferida.

Idealmente, este processo:

k-fold кроссвалидация 

-------------------------------- повторилась n раз

------------------------------------------------------------- на полученных данных сформирован комитет

------------------------------------------------------------------------------------------------------------------------ комитет валидирован на еще одной выборке из будущего 

precisa de ser repetido não uma vez mas m vezes, a fim de REVERSE os resultados ao mais alto nível. Isto reduz o preconceito a um mínimo praticável.

Mas ao fazê-lo, o valor esperado de, por exemplo, FS pode ser reduzido muitas vezes... Dor.

 
Alexey Burnakov:

introduzindo a validação cruzada aninhada em amostras adicionais em um intervalo de tempo diferente.

Eu também faço algo semelhante. Digamos que eu tenho um ano de dados para treinar. Vou treinar 12 modelos - um em dados de Janeiro, o segundo em dados de Fevereiro, o terceiro em dados de Março, etc. Eu seleciono os preditores e parâmetros do modelo para obter o bom desempenho de qualquer um desses modelos treinados em uma pequena parte dos dados durante todo o ano e isso me dá alguma esperança de que os preditores utilizados tenham correlação constante entre eles. Tomar uma decisão sobre os novos dados utilizando todo este conjunto de modelos.

De todos os métodos de validação cruzada que tentei, este deu os melhores resultados sobre os novos dados. Mas há muitos problemas por resolver - quantos modelos deveriam existir, ou seja, posso treinar uma centena em vez de 12, mas será que há algum ponto? A avaliação do comércio também é importante, eu posso escolher qualquer coisa, incluindo rf ou sharp, eu preciso experimentar para encontrar o melhor.

 
Gostaria de uma dica, que eu vou cobrir em detalhe no meu artigo????? Quere-lo ou não?
 
Dr. Trader:

Eu também estou a fazer algo semelhante. Digamos que eu tenho um ano de dados de treino. Irei treinar 12 modelos - um para Janeiro, o segundo para Fevereiro, o terceiro para Março, etc. Eu seleciono os preditores e os parâmetros do modelo para obter o bom desempenho de qualquer um desses modelos treinados em uma pequena parte dos dados durante todo o ano e isso me dá alguma esperança de que os preditores utilizados tenham relações estáveis entre eles. Tomar uma decisão sobre os novos dados utilizando todo este conjunto de modelos.

De todos os métodos de validação cruzada que tentei, este deu os melhores resultados sobre os novos dados. Mas há muitos problemas por resolver - quantos modelos deveriam existir, ou seja, posso treinar uma centena em vez de 12, mas será que há algum ponto? A avaliação comercial também é importante, você pode escolher qualquer coisa, incluindo rf ou sharp, você precisa experimentar para encontrar o melhor.

Resposta: 9
 
Dr. Trader:

Eu também estou a fazer algo semelhante. Digamos que eu tenho um ano de dados de treino. Irei treinar 12 modelos - um para Janeiro, o segundo para Fevereiro, o terceiro para Março, etc. Eu seleciono os preditores e os parâmetros do modelo para obter o bom desempenho de qualquer um desses modelos treinados em uma pequena parte dos dados durante todo o ano e isso me dá alguma esperança de que os preditores utilizados tenham relações estáveis entre eles. Tomar uma decisão sobre os novos dados utilizando todo este conjunto de modelos.

De todos os métodos de validação cruzada que tentei, este deu os melhores resultados sobre os novos dados. Mas há muitos problemas por resolver - quantos modelos deveriam existir, ou seja, posso treinar uma centena em vez de 12, mas será que há algum ponto? A avaliação comercial também é importante, qualquer coisa a escolher, incluindo rf ou sharp, você tem que escolher experimentalmente o melhor.

É um ataque. Ao selecionar parâmetros e entradas você pode facilmente obter modelos que funcionem por pelo menos 3 anos do teste.

Também tenho alguns moeydels (100) que mostram bons resultados em dados fora do treinamento. Estamos a falar de 10 anos... Mas isso é apenas porque os modelos são escolhidos especificamente a partir dos dados do teste (fora do treinamento). Por outras palavras, a resistir ao teste.

Seu próximo passo é avaliar esses modelos ou qualquer comitê selecionado em uma amostra adicional atrasada. E de preferência, cada modelo em dados únicos. Então você entenderá como a qualidade no teste se correlaciona com a qualidade da amostra na qual o modelo não foi selecionado.
 
Alexey Burnakov:


Uma das discussões: http://stats.stackexchange.com/questions/65128/nested-cross-validation-for-model-selection

Ibid: /go?link=https://stats.stackexchange.com/questions/103828/use-of-nested-cross-validation

Há links para artigos nas discussões.

Um artigo interessante: http://www.andrewng.org/portfolio/preventing-overfitting-of-cross-validation-data/

Como se pode ver pelo título, trata-se de sobretreinamento, que acontece na fase de avaliação do modelo sobre faltas de validação de validação cruzada. Consequentemente, além da validação cruzada, precisamos de outra amostra para estimar o modelo já selecionado.

Obrigado. É bom ver que não sou o único que se preocupa.
 
Vocês são chatos, especialmente no campo dos novos conhecimentos...