베이지안 회귀 - 이 알고리즘을 사용하여 Expert Advisor를 만든 사람이 있습니까? - 페이지 38

 
Vasiliy Sokolov :
나는 모든 단어를 구독합니다. 다음 섹션에서 이 회귀의 특성이 완전히 달라지면 회귀를 구축하는 요점이 무엇입니까? 데이터를 맞추기 위해 원하는 만큼 모델을 조정할 수 있지만 최소한 선형 회귀 측면에서 Y(가격)가 X(시간)와 무관하다는 것을 받아들이는 것이 더 쉽습니다.

이것은 상식의 또 다른 예입니다.

내 동료는 Coursera에서 데이터 과학을 공부하고 무작위로 생성된 시리즈(martingale, 또는 정규 분포 증분을 포함하는 Wiener 프로세스라고 할 수 있음)에 대한 선형 회귀 근사를 구축하고 다음 세그먼트에서 방법을 시연하는 최종 프로젝트를 만들었습니다. 시리즈의 모든 회귀 매개변수는 예측할 수 없이 절대적으로 드리프트됩니다. 장난감 문제.

우리가 이미 회귀를 사용하고 있다면(나는 회귀를 능가하는 경향이 있지만 그 장비는 잘 모르지만 원리만 알고 있음) 가격 증분 또는 파생 상품에 대해 수행합니다. 그리고 강력한 지표를 얻을 기회가 있습니다. 그러나 이 경우에도 정규 분포 잔차를 얻는 것은 비현실적입니다.

 
Alexey Burnakov :

이것은 상식의 또 다른 예입니다.

내 동료는 Coursera에서 데이터 과학을 공부하고 무작위로 생성된 시리즈(martingale, 또는 정규 분포 증분을 포함하는 Wiener 프로세스라고 할 수 있음)에 대한 선형 회귀 근사를 구축하고 다음 세그먼트에서 방법을 시연하는 최종 프로젝트를 만들었습니다. 시리즈의 모든 회귀 매개변수는 예측할 수 없이 절대적으로 드리프트됩니다. 장난감 문제.

우리가 이미 회귀를 사용하고 있다면(나는 회귀를 능가하는 경향이 있지만 그 장비는 잘 모르지만 원리만 알고 있음) 가격 증분 또는 파생 상품에 대해 수행합니다. 그리고 강력한 지표를 얻을 기회가 있습니다. 그러나 이 경우에도 정규 분포 잔차를 얻는 것은 비현실적입니다.

;)

능선 회귀의 경우 잔차 분포의 정규성만 필요하지 않습니다.

베이지안 회귀 는 능선 회귀와 유사하지만 데이터에 노이즈가 정규 분포되어 있다는 가정을 기반으로 하므로 데이터 구조에 대한 일반적인 이해가 이미 있다고 가정하고 이를 통해 다음을 얻을 수 있습니다. 선형 회귀 에 비해 더 정확한 모델.

 
릿지 회귀는 다중 공선성 문제를 해결합니다 - 서로 상관되는 독립 변수가 너무 많은 경우
 
Дмитрий :

;)

능선 회귀의 경우 잔차 분포의 정규성만 필요하지 않습니다.


글쎄, 나는 회귀의 아종을 잘 모른다는 것을 고백합니다. 그리고 잔차의 정규성이 필요하지 않다는 사실은 매우 좋습니다. 그리고 시장의 경우 능선 회귀가 더 적용될 수 있습니다. 계수 값에는 제한이 있습니다. 따옴표에 대한 이러한 유형의 회귀가 강력한 결과를 제공한 예를 알고 있습니다.

개별 회귀 변수에 대한 계수가 0으로 저하될 수 있는 경우 L2-정규화를 사용한 회귀도 있습니다. 이는 회귀자가 많고 입력 벡터의 차원을 줄여야 하는 경우에 유용합니다.

그러나 세부 사항을 알지 못한 채 회귀의 수학적 장치의 광야에 들어가는 것은 위험할 수 있습니다.

 
Дмитрий :
릿지 회귀는 다중 공선성 문제를 해결합니다 - 서로 상관되는 독립 변수가 너무 많은 경우

그리고 이것은 빗질의 매우 유용한 측면이기도 합니다.

실제로 회귀 변수 간의 독립성을 확보하는 것은 거의 비현실적으로 어려운 작업이며 공선성의 존재는 일반 선형 회귀 의 모든 통계를 왜곡합니다. 따라서 SanSanych가 올바르게 지적한 것처럼 방법의 적용 가능성이 우선입니다.

 
Alexey Burnakov :


개별 회귀 변수에 대한 계수가 0으로 저하될 수 있는 경우 L2-정규화를 사용한 회귀도 있습니다. 이는 회귀자가 많고 입력 벡터의 차원을 줄여야 하는 경우에 유용합니다.


올가미 회귀? 예, 그런 것이 있습니다.

실제로 ridge 방법이 더 편리합니다. 요인을 포함하거나 제외하는 회귀로 구현됩니다.

 
Дмитрий :

올가미 회귀? 예, 그런 것이 있습니다.

실제로 ridge 방법이 더 편리합니다. 요인을 포함하거나 제외하는 회귀로 구현됩니다.

예, 그녀는 그렇습니다.

다음은 로버스트 회귀를 사용하여 시세를 예측하는 예입니다. 경쟁에서 3위를 차지했지만 자세한 내용은 없습니다. http://blog.kaggle.com/2016/02/12/winton-stock-market-challenge-winners-interview- 3위-멘드리카-라말리나/

제 생각에는 또 다른 좋은 예가 있습니다. https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5966/share-your-approach

Sergey Yurgenson을 읽고 그의 코드를 보십시오(다른 대회에서 2위):

내 알고리즘은 Matlab에 작성되었으며 코드는 아래에 제공됩니다. 알고리즘의 주요 아이디어는 각 잠재적 예측자의 슬롭의 p-값을 기반으로 선택되는 소수의 예측자를 사용하여 선형 회귀 모델(강력한 회귀)을 사용하는 것입니다.

Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
  • 2016.12.02
  • blog.kaggle.com
The Stock Market Challenge, Winton's second recruiting competition on Kaggle, asked participants to predict intra and end of day stock returns. The competition was crafted by research scientist at Winton to mimic the type of problem that they work on everyday. Mendrika Ramarlina finished third in the competition with a combination of simple...
 

L1 / L2 정규화에 대한 주제: https://msdn.microsoft.com/ru-ru/magazine/dn904675.aspx

어쨌든 만나서 반가워요.

 
Alexey Burnakov :

그리고 이것은 빗질의 매우 유용한 측면이기도 합니다.

실제로 회귀 변수 간의 독립성을 확보하는 것은 거의 비현실적으로 어려운 작업이며 공선성의 존재는 일반 선형 회귀 의 모든 통계를 왜곡합니다. 따라서 SanSanych가 올바르게 지적한 것처럼 방법의 적용 가능성이 우선입니다.

주성분 방식을 시도했습니다. 이상적인 것 같습니다. 변환의 결과로 상관 관계가 0인 회귀 변수 세트가 얻어집니다. 주요 다양성을 설명하는 "주요"를 선택할 수도 있습니다.

분류 작업에 많은 시간을 할애했습니다. 적어도 오류를 %로 줄이십시오.

 
СанСаныч Фоменко :

주성분 방식을 시도했습니다. 이상적인 것 같습니다. 변환의 결과로 상관 관계가 0인 회귀 변수 세트가 얻어집니다. 주요 다양성을 설명하는 "주요"를 선택할 수도 있습니다.

분류 작업에 많은 시간을 할애했습니다. 적어도 오류를 %로 줄이십시오.

나는 최근에 동료들과 선형 회귀 의 역사와 발전에 대해 논의했습니다. 간단히 말해서, 처음에는 데이터와 예측 변수가 거의 없었습니다. 일반 선형 회귀는 일부 가정에 대처했습니다. 또한 정보 기술의 발달로 데이터의 양이 증가하고 예측 변수의 수는 쉽게 수만 개를 초과할 수 있습니다. 이러한 조건에서 일반적인 선형 회귀는 도움이 되지 않습니다. 따라서 정규화 된 버전, 배포 요구 사항에 대한 강력한 버전 등이 나타났습니다.