Regressão Bayesiana - Alguém já fez um EA usando este algoritmo? - página 38

 
Vasiliy Sokolov:
Eu subscrevo cada palavra. Para que serve construir uma regressão se, na próxima seção, as características desta regressão serão absolutamente diferentes. Você pode ajustar o modelo para se ajustar aos dados o quanto quiser, mas é mais fácil admitir que Y (preço) não depende de X (tempo), pelo menos em termos de regressão linear.

Este é outro exemplo de senso comum.

Um colega meu estava estudando Data Science em Coursera e fez um projeto de graduação onde construiu uma aproximação de regressão linear sobre uma série gerada aleatoriamente (um martingale, ou você poderia dizer um processo Wiener com incrementos normalmente distribuídos) e demonstrou como, no segmento seguinte da série, todos os parâmetros de regressão derivaram de forma totalmente imprevisível. Problema do brinquedo.

Se eu usasse a regressão (eu me inclinaria para a regressão de pente, embora eu não conheça muito bem o princípio), eu o faria em incrementos de preço ou derivativos de preço. E então há uma chance de obter métricas robustas. Mas mesmo neste caso, é irrealista obter resíduos normalmente distribuídos.

 
Alexey Burnakov:

Este é outro exemplo de senso comum.

Um colega meu estava estudando Data Science em Coursera e fez um projeto de graduação onde construiu uma aproximação de regressão linear sobre uma série gerada aleatoriamente (um martingale, ou você poderia dizer um processo Wiener com incrementos normalmente distribuídos) e demonstrou como, no segmento seguinte da série, todos os parâmetros de regressão derivaram de forma totalmente imprevisível. Problema do brinquedo.

Se eu usasse a regressão (eu me inclinaria para a regressão de pente, embora eu não conheça muito bem o princípio), eu o faria em incrementos de preço ou derivativos de preço. E então há uma chance de obter métricas robustas. Mas mesmo neste caso, é irreal obter resíduos normalmente distribuídos.

;)

Para a regressão da crista, a normalidade da distribuição de resíduos não é necessária.

Aregressão Bayesiana é semelhante à regressão de pente, mas é baseada na suposição de que o ruído é normalmente distribuído nos dados - daí que se suponha que já exista um entendimento geral da estrutura de dados, o que torna possível obter um modelo mais preciso em comparação com a regressão linear.

 
A regressão da crista resolve o problema da multicolinearidade - se há tantas variáveis independentes correlacionadas entre si
 
Дмитрий:

;)

Para a regressão da crista, a normalidade da distribuição dos resíduos não é necessária.


Bem, confesso que não conheço muito bem a subespécie de regressão. Mas o fato de que a normalidade dos resíduos não é exigida é muito bom. E a regressão de cumeeira pode ser mais aplicável aos mercados. São impostas restrições sobre os valores dos coeficientes. Conheço exemplos quando este tipo de regressão sobre citações deu resultados robustos.

Também há regressão com a regulamentação L2 quando é possível degenerar os coeficientes de alguns regressores a zero. É útil quando há muitos regressores e precisamos diminuir a dimensionalidade do vetor de entrada.

Mas sem conhecer os detalhes, pode ser perigoso entrar no labirinto da matriz de regressão.

 
Дмитрий:
A regressão da crista resolve o problema da multicolinearidade - se há tantas variáveis independentes correlacionadas entre si

E este também é um aspecto extremamente útil da regressão de cumeeira.

Na prática, obter a independência entre os regressores é quase irrealisticamente difícil, e a presença da colinearidade distorce todas as estatísticas em uma regressão linear ordinal. Portanto, como a SanSanych corretamente aponta, a aplicabilidade do método vem em primeiro lugar.

 
Alexey Burnakov:


Há também regressão com a regulamentação L2, quando é possível degenerar os coeficientes em regressores individuais a zero. Isto é útil se houver muitos regressores e precisamos reduzir a dimensionalidade do vetor de entrada.


Lasso-regressão? Sim, existe tal coisa.

Na prática, é mais conveniente usar a regressão de cristas - ela é implementada como uma regressão com inclusões ou exclusões de fatores

 
Дмитрий:

Regressão Lasso? Sim, existe tal coisa.

Na prática, a regressão da crista é mais conveniente - implementada como uma regressão com inclusões ou exclusões de fatores

Sim, é.

Aqui está um exemplo de utilização de regressões robustas para prever citações, 3º lugar na competição, mas sem detalhes:http://blog.kaggle.com/2016/02/12/winton-stock-market-challenge-winners-interview-3rd-place-mendrika-ramarlina/

E outro lindo, na minha opinião, exemplo:https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5966/share-your-approach

Leia Sergey Yurgenson e veja seu código (2º lugar em outro concurso):

Meu algoritmo foi escrito em Matlab e o código será fornecido abaixo. A idéia principal do algoritmo é usar um modelo de regressão linear (regressão robusta) usando um pequeno número de preditores, que são escolhidos com base no valor p de inclinações de cada preditor potencial.

Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
  • 2016.12.02
  • blog.kaggle.com
The Stock Market Challenge, Winton's second recruiting competition on Kaggle, asked participants to predict intra and end of day stock returns. The competition was crafted by research scientist at Winton to mimic the type of problem that they work on everyday. Mendrika Ramarlina finished third in the competition with a combination of simple...
 

E sobre o assunto L1 / L2-regulamentação:https://msdn.microsoft.com/ru-ru/magazine/dn904675.aspx

Em qualquer caso, é útil conhecer-se.

 
Alexey Burnakov:

E este também é um aspecto extremamente útil da regressão de cumeeira.

Na prática, obter a independência entre os regressores é quase irrealisticamente difícil, e a presença da colinearidade distorce todas as estatísticas em uma regressão linear ordinal. Portanto, como a SanSanych corretamente aponta, a aplicabilidade do método vem em primeiro lugar.

Eu tentei o método dos componentes principais. Parece ser o ideal. A transformação resulta em um conjunto de regressores com correlação zero uns com os outros. Ainda é possível selecionar os "principais" que explicam a principal diversidade.

Matou muito tempo para tarefas de classificação. Pelo menos para reduzir o erro em %.

 
СанСаныч Фоменко:

Eu experimentei o método dos componentes principais. Parece ser o ideal. A transformação resulta em um conjunto de regressores com correlação zero uns com os outros. Também é possível selecionar os "principais" que explicam a principal diversidade.

Matou muito tempo para tarefas de classificação. Pelo menos para reduzir o erro em %.

Recentemente, discuti com colegas a história e o desenvolvimento da regressão linear. Para resumir uma longa história, inicialmente havia poucos dados e poucos preditores. Regressão linear ordinária gerenciada com algumas suposições. Então, com o desenvolvimento da tecnologia da informação, a quantidade de dados aumentou e o número de preditores poderia facilmente ultrapassar dezenas de milhares. Sob estas condições, a regressão linear comum não ajudará - sobre-educar. Portanto, apareceram versões regularizadas, versões robustas às exigências das distribuições, etc.