Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 2589

 
mytarmailS # :
https://stats.stackexchange.com/questions/31513/new-revolutionary-way-of-data-mining

Nesta pergunta, levantam-se pensamentos muito interessantes...

A propósito, os respondentes ainda não entenderam a essência da pergunta

Ao escolher um modelo eu sugiro otimizar não pelo lucro no OOS, mas pela relação desse lucro com o lucro na bandeja. Ou expulsar modelos com uma pequena relação desse tipo e tirar o máximo lucro para o OOS do resto. Isto se você levar as citações à letra, sem especulação.

 
Aleksey Nikolayev #:

Ao selecionar um modelo, sugere-se a otimização não pelo lucro no OOS, mas pela relação desse lucro com o lucro na bandeja. Ou expulsar os modelos com uma pequena relação desse tipo e tirar o máximo dos restantes em termos de lucro no OOS. Isto se você levar as citações à letra, sem especulação.

Aleksey, posso ter uma parte da citação onde fala de lucro, lucro máximo, expulsando modelos....

Até agora, parece que estás a fazer com que pareça...
literalmente, sem especulações.
 
Aleksey Nikolayev #:

Ao escolher um modelo, é sugerido otimizar não pelo lucro no OOS, mas pela relação entre esse lucro e o lucro na bandeja. Ou jogue fora os modelos com uma pequena relação desse tipo e tire o máximo lucro sobre o OOS dos restantes. Isto se você levar as citações à letra, sem especulação.

No meu exemplo acima com moedas e 10000 pessoas. Que as cabeças sejam 1, os rabos 0. Se agirmos de acordo com o algoritmo dado, também não vamos conseguir nada. Isto é bastante compreensível no contexto descrito. Em outras palavras, se nos depararmos com alguma vantagem, então não é tão importante se tomamos a relação de lucro sobre SI e OOS ou outra coisa, e se não houver vantagem, então nada de tais métodos funcionará.


Exactamente! Precisamos de avaliar primeiro a presença de borda. E depois devíamos pensar em como seleccionar. Por exemplo, da seguinte forma: vemos SI a percentagem de modelos por alguma métrica superior a um determinado limiar. Por exemplo, a taxa de ganho é superior a 55% - 45% dos modelos. Classifique-os por taxa de vitória e leve algum TOP. Verificamos os resultados neste topo no OOS? Dos modelos seleccionados, a taxa de ganho superior a 55% é dada pelos mesmos 45% (relação entre os modelos que dão tal compromisso no OOS e todos os seleccionados)? - Acho que este grupo de modelos pode ser expulso em segurança. Se pudermos ver que tal selecção de modelos de topo funciona, significa que existe uma vantagem e pela força deste efeito, podemos avaliar a qualidade do padrão. Está decidido que é suficientemente forte. Toda a seleção posterior é uma questão de técnica - mesmo que por meio de uma taxa de rotação, PF, você não precisa se preocupar com métricas e lógicas complicadas, e por taxa de rotação e PF diretamente no SI.

 
mytarmailS #:
Alexei, posso ter uma parte da citação onde diz lucro, lucro máximo, jogando fora modelos....

Porque até agora soa como uma calúnia feroz e você está declarando como -
literalmente, sem especulações

Eu tenho uma tradução livre) A questão é que inicialmente muitos modelos são treinados e no final você tem que escolher um modelo de trabalho (avaliação do modelo). O camarada afirma que todos normalmente escolhem o modelo que apenas dá o resultado máximo sobre o OOS e esta é a abordagem errada. A sua segunda citação diz como deve ser feito.

Você sabe que está indo bem se a média para os modelos fora da amostra for uma porcentagem significativa da pontuação da amostra interna. Isto traduz-se na maximização da relação de lucro no OOS para o lucro no caminho certo.

Em geral, você está realmente chegando a algum lugar se os resultados fora da amostra forem mais de 50% do in-sample. Isto pode ser traduzido como modelos de descarte onde a relação de lucro no OOS para lucro na bandeja é inferior a 0,5
 

Bem, é uma espécie de questão de selecção de modelos, sim, como na optimização. Você pode inventar seus próprios critérios subjetivos.

Não é ruim se houver um monte de modelos com parâmetros ligeiramente diferentes, ou seja, permitindo a variação, mas todos eles passam o OOS. Mas não é uma panaceia, claro.

 
Aleksey Nikolayev #:
Alexey, há alguma técnica para restaurar a superfície de optimização?
Você executa o algoritmo para procurar parâmetros, ele encontra algo, e você usa os dados do algoritmo para restaurar a superfície de otimização...
Estamos a falar de algoritmos heurísticos, não de uma busca completa naturalmente...
Eu pesquisei no Google, mas sem resultados.
 
mytarmailS #:
Alexey, há alguma técnica para restaurar a superfície de otimização?
Você executa um algoritmo de pesquisa de parâmetros, ele encontra algo, e você usa os dados do algoritmo de pesquisa para reconstruir a superfície de otimização...
Estamos a falar de algoritmos heurísticos, não de uma busca completa naturalmente...
Eu pesquisei no Google, mas sem resultados.

Suplemente a métrica de qualidade do modelo para os valores de entrada em falta, convencionalmente, conjuntos de valores de gyperameter? Bem impulsionado é simples de ensinar. Para que é que isso seria necessário?

 
Replikant_mih #:

Complementar os parâmetros de qualidade do modelo para os conjuntos de hiperparâmetros de entrada em falta, condicionais? Bem, um simples reforço de treino. Para que é que isso seria necessário?

Talvez uma simples interpolação o possa fazer, vamos ver, eu queria ver se havia uma já feita primeiro...
Porquê? Tenho quase a certeza que posso prever se o modelo irá funcionar nos novos dados se vir o modelo OP


 
mytarmailS #:
Alexey, há alguma técnica para reconstruir a superfície de optimização?
Você executa um algoritmo de pesquisa de parâmetros, ele encontra algo, e você usa os dados do algoritmo de pesquisa para reconstruir a superfície de otimização...
Estamos a falar de algoritmos heurísticos, não de uma busca completa naturalmente...
Eu pesquisei no Google, mas sem resultados.

No espaço de parâmetros do modelo? Isso é uma dimensão enorme. Só é possível para modelos muito simples com um pequeno número de preditores.

Não está muito claro como se pode construir uma superfície num espaço de enorme dimensionalidade. Nós simplesmente temos muito poucos pontos em comparação com esta dimensionalidade. A menos que por alguma visualização de redução dimensional como PCA etc, mas o ponto não é claro.

 
Maxim Dmitrievsky #:

Bem, é uma espécie de questão de selecção de modelos, sim, como na optimização. Você pode inventar seus próprios critérios subjetivos.

Não é ruim se houver um monte de modelos com parâmetros ligeiramente diferentes, ou seja, permitindo a variação, mas todos eles passam o OOS. Mas isto não é uma panaceia, claro.

Há pouco você teve uma idéia sobre combinar métricas padrão e personalizadas, que eu entendi da seguinte forma: modelos de treinamento por padrão e selecioná-los por personalizados.