거시경제 지표에 기반한 시장 예측 - 페이지 9

 
transcendreamer :


나는 여전히 동의하지 않습니다. 회귀는 모든 데이터에서 훌륭하게 작동하며 다른 방법보다 반드시 더 나은 것은 아니지만 특히 컴퓨팅 리소스 에 대한 극단적인 요구가 없는 것을 고려할 때 여전히 상당히 좋습니다.


회귀는 어떤 데이터에서도 작동하지 않습니다. 이것은 이 스레드의 시작 부분에 언급된 선형 회귀에 특히 해당됩니다.

선형 회귀를 적용하는 문제는 두 가지 수준으로 나눌 수 있습니다.

1. 회귀 계수의 초기 추정. 평가입니다. y \u003d a + in이라고 쓰면 회귀가 방정식이 아니고 올바른 표기법이 y ~ a + in이기 때문에 더 이상 정확도가 아닙니다. 여기서 물결표 기호는 계수가 상수가 아니라 추정치임을 강조합니다 어느 정도 정확도가 있는 확률 변수이므로 게시물에서 제안한 대로 추가하는 것이 불가능합니다.

이에 따라 회귀 피팅 패키지를 사용할 때 각 계수는 계수의 지정된 값을 확률 변수로 특성화하는 특정 숫자 세트와 연결됩니다. 총 결과는 별표 형태로 맨 오른쪽 열에 표시됩니다. 세 개의 별표는 계수 값을 상수로 인식할 수 있음을 의미합니다. 별표가 없으면 주어진 값은 일반적으로 빈 공간이며 어떤 식으로든 사용할 수 없습니다.

하지만 그게 문제의 전부는 아닙니다. 그리고 주요 문제점은 다음과 같습니다.

2. 선형 회귀는 고정 데이터에만 적용 가능합니다. 거의 일정한 mo 및 일정한 분산을 가집니다. 당신이 언급한 변형은 추세의 제거로 이어지는 것은 그것을 고정된 형태로 가져오려는 시도입니다. 이 모든 것을 ARIMA 모델의 형태로 요약하면 이러한 금융 계열이 있으며 대부분 ARIMA 모델이 문제를 해결하지 못할 때 발생합니다.

이러한 모든 미묘함을 구별하지 않으면 선형 회귀를 사용하여 얻은 결과는 공허한 숫자 게임입니다.

 
faa1947 :

회귀는 어떤 데이터에서도 작동하지 않습니다. 이것은 이 스레드의 시작 부분에 언급된 선형 회귀에 특히 해당됩니다.

선형 회귀를 적용하는 문제는 두 가지 수준으로 나눌 수 있습니다.

1. 회귀 계수의 초기 추정. 평가입니다. y \u003d a + in을 쓰면 회귀가 방정식이 아니고 올바른 표기법이 y ~ a + in이기 때문에 더 이상 정확도가 아닙니다. 여기서 물결표 기호는 계수가 상수가 아니라 추정치임을 강조합니다 어느 정도 정확도가 있는 확률 변수이므로 게시물에서 제안한 대로 추가하는 것이 불가능합니다.

이에 따라 회귀 피팅 패키지를 사용할 때 각 계수는 계수의 지정된 값을 확률 변수로 특성화하는 특정 숫자 세트와 연결됩니다. 총 결과는 별표 형태로 맨 오른쪽 열에 표시됩니다. 세 개의 별표는 계수 값을 상수로 인식할 수 있음을 의미합니다. 별표가 없으면 주어진 값은 일반적으로 빈 공간이며 어떤 식으로든 사용할 수 없습니다.

하지만 그것이 문제의 전부는 아닙니다. 그리고 주요 문제점은 다음과 같습니다.

2. 선형 회귀는 고정 데이터에만 적용 가능합니다. 거의 일정한 mo 및 일정한 분산을 가집니다. 당신이 언급한 변형은 추세의 제거로 이어지는 것은 그것을 고정된 형태로 가져오려는 시도입니다. 이 모든 것을 ARIMA 모델의 형태로 요약하면 이러한 금융 계열이 있으며 대부분 ARIMA 모델이 문제를 해결하지 못할 때 발생합니다.

이러한 모든 미묘함을 구별하지 않으면 선형 회귀를 사용하여 얻은 결과는 공허한 숫자 게임입니다.

그것은 나를 위해 잘 작동합니다))) 그리고 선형 회귀

계수를 합산하는 것은 대략적인 방법입니다. 동의합니다.

계수의 중요성 분석과 편차 분석을 시도했지만 실제로는 거의 쓸모가 없습니다.

그래프에서 최종 곡선이 어떻게 작동하고 이론적 값이 초기 데이터에 얼마나 잘 인접하는지 보는 것이 훨씬 쉽고 편리합니다.

그래서 나는 결정 벡터를 있는 그대로 취하며 대부분의 경우 이것으로 충분합니다.

결과 그래프가 데이터와 잘 맞는다면 모든 것이 정상입니다.

다른 방법으로 다른 더 나은 솔루션을 찾으려고 노력했습니다. 결과는 회귀가 제공하는 것과 크게 다르지 않습니다.

동시에 일부 계수는 특정 한계 내에서 부동할 수 있으며 이는 최종 곡선에 큰 영향을 미치지 않습니다.

그러나 이것은 무섭지 않습니다. 모두 동일합니다. 이러한 계수는 불안정합니다. 시간이 지남에 따라 점차적으로 변할 것입니다. 평가의 요점은 무엇입니까?

고정성에 대해 - 물론 시장에 나와 있지 않습니다. 그렇다면 어떻게 해야 합니까?

내가 하는 방식으로 하는 것은 아마도 학문적이지 않을 것입니다

그러나 교체를 위해 무엇을 취해야합니까?

 
transcendreamer :

.....

그러나 교체를 위해 무엇을 취해야합니까?

선형 회귀 로 제한했지만 다음과 같이 질문할 수 있습니다. 수행 중인 작업에 따라 가장 적절한 회귀 유형을 선택합니다. 선형 회귀뿐만 아니라 전체 회귀 집합은 블랙박스로 간주될 수 있으며 결과를 평가할 때 의미 있는 문제에 초점을 맞출 수 있습니다.

숏팬츠와 같은 선형회귀에서 벗어나려면 시간적 의미에서 돈을 써야 한다.

다음으로, 예측할 유형을 결정합니다. 즉, 통화 쌍의 가격과 같은 가치를 예측할 것인지, 아니면 가격 움직임의 방향, "롱쇼트"의 일부 질적 특성을 예측할 것인지 또는 기타 터미널 주문.

이제 시간 비용을 결정해야 합니다.

첫 번째 단계에서는 100개 이상의 모델의 세계로 가는 문으로서 Rattle을 모두에게 추천합니다. 선형 회귀에 대한 추론 수준으로 판단하면 이것은 하루나 이틀입니다. 결과적으로 6가지 유형의 모델을 얻게 되며 그 중 하나는 "일반화된 선형"이라고만 불리는 거의 가장 좋아하는 모델이지만 나머지는 훨씬 더 흥미롭고 실제로 예측 모델을 만들 수 있습니다.

 
faa1947 :

선형 회귀 로 제한했지만 다음과 같이 질문할 수 있습니다. 수행 중인 작업에 따라 가장 적절한 회귀 유형을 선택합니다. 선형 회귀뿐만 아니라 전체 회귀 집합은 블랙박스로 간주될 수 있으며 결과를 평가할 때 의미 있는 문제에 초점을 맞출 수 있습니다.

숏팬츠와 같은 선형회귀에서 벗어나려면 시간적 의미에서 돈을 써야 한다.

다음으로, 예측할 유형을 결정합니다. 즉, 통화 쌍의 가격과 같은 가치를 예측할 것인지, 아니면 가격 움직임의 방향, "롱쇼트"의 일부 질적 특성을 예측할 것인지 또는 기타 터미널 주문.

이제 시간 비용을 결정해야 합니다.

첫 번째 단계에서는 100개 이상의 모델의 세계로 가는 문으로서 Rattle을 모두에게 추천합니다. 선형 회귀에 대한 추론 수준으로 판단하면 이것은 하루나 이틀입니다. 결과적으로 6가지 유형의 모델을 얻게 되며 그 중 하나는 "일반화된 선형"이라고만 불리는 거의 가장 좋아하는 모델이지만 나머지는 훨씬 더 흥미롭고 실제로 예측 모델을 만들 수 있습니다.

불행히도 내가 말했듯이 다른 최적화 프로그램은 선형 회귀에 비해 훨씬 더 나은 결과를 보여주지 못했습니다.

아마도 과학적으로 적용된 일부 작업에서는 이점을 제공하지만 거래의 경우 정확한 예측은 환상입니다.

동일한 GLM이 보험사를 위해 발명되었습니다. 제가 틀리지 않는다면 SVM과 ADA가 너무 좁게 날카로워지고 로지스틱 회귀는 명백한 이유로 적합하지 않습니다.

신경망과 랜덤 포레스트는 제로 루트 문제를 우회하고 모든 목적 함수를 설정할 수 있기 때문에 보편적이고 더 유익합니다.

하지만 거기에서 당신은 정말로 당신의 머리를 부러뜨릴 수 있습니다. 적어도 인문학을 위한 저에게는

나에게 그것은 발견이었습니다 - 주요 구성 요소의 방법, 그러나 그것을 내 작업 (포트폴리오)에 적용하는 것은 효과가 없었습니다.

Random Forests는 확실히 볼 가치가 있습니다. 나는 잠시 후에 더 자세히 시도 할 계획이지만 큰 효과가있을 것이라고 기대하지 않습니다.

딸랑이에 GA가 없거나 못찾아서 아쉽네요

 

"나쁜" 선형 회귀, 나는 전화하지 않을 것입니다. 그리고 내가 다른 모델을 많이 시도하지 않았다고 가정할 필요도 없습니다.

모든 비선형 모델 y = f(x1,x2,...)를 Taylor 급수로 확장할 수 있다는 것은 누구나 알고 있습니다.

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^ 2 + b11*d^2f/dx1/dx2*x1*x2 + ...

수학에 정통한 사람들은 이것이 함수 f(x1,x2,...)를 다항식(더 정확하게는 단항식) 기수 x, x^2, x^3 등으로 분해 하는 것임을 알고 있습니다. 선형 회귀는 이 확장의 선형 항만 보존하므로 1차 근사입니다. 비선형 기수는 Chebyshev, Hermite, Legendre 등과 같이 잘 알려진 다양한 다항식에서 선택할 수 있습니다. 그러나 다항식을 선택하는 올바른 방법은 QR 분해 또는 더 일반적으로 다음의 통계적 특성을 고려하여 직교 다항식을 선택하는 것입니다. 입력 x1, x2, ... 신경망은 Kolmogorov의 정리에 따라 입력 함수의 확장을 제외하고 동일한 확장을 시도합니다. 이것은 입력의 지수 함수가 서로 직교하지 않기 때문에 다소 불편한 확장이며, 이는 많은 수치 문제와 솔루션으로 이어집니다. 어쨌든, 우리의 비선형 함수의 이러한 모든 확장은 1차 근사치로서 선형 모델을 가질 것입니다. 따라서 선형 근사(회귀)가 예상한 결과를 제공하지 않으면 더 높은 수준의 비선형성으로 갈 의미가 없습니다. 선형 회귀조차도 다른 방법(RMS, MHM 및 기타 임의 오류 함수)으로 해결할 수 있으며, 모두 시도했습니다.

그건 그렇고, 모든 계량 경제학 ARMA, ARIMA 및 기타 모델은 위 모델 y[n] = f(x1[n-d1],x2[n-d2],...)의 개별 사례이며, 여기서 입력은 지연 출력, t .e. y[n-1], y[n-2], 따라서 이름이 "자동회귀" 모델입니다. COEX 방법이나 MIM을 사용하여 자기회귀 모델을 푸는 것은 건강에 좋지 않지만. 얻은 계수는 진동 모델로 이어집니다. 우리는 Burg의 방법, 수정된 공분산 등이 필요합니다. 하지만 저는 오래전에 이 "자기회귀" 장을 통과했고 다시 돌아가고 싶지 않습니다. 내 시장 모델은 진입 지연 중 하나로 퇴장 지연을 선택할 수 있습니다. 그러나 그녀는 지금까지 그러한 "자기회귀" 항목을 선택한 적이 없습니다. 이는 경제 지표가 과거 가격 자체보다 가격 예측에 더 적합하다는 것을 의미합니다(이러한 분석을 기반으로 하는 대다수의 거래 방법의 기초를 형성함)

 
faa1947 :

제안이 있습니다.

열 이름과 함께 tsv.file을 삭제합니다. 대상 변수로 사용할 열을 지정합니다. 당연히 테이블 행은 한 시점을 참조해야 합니다.

나는 Rattle로 차를 몰고 당신의 허락하에 6개의 매우 괜찮은 모델의 결과를 여기에 게시할 것입니다.


제안을 수락합니다. 유효한 데이터 파일 형식을 지정하십시오. 매트가 맞을까요? 데이터가 너무 많습니다. CSV는 전체 디스크를 구울 것입니다. MAT만 6MB입니다.

하지만 조건이 있습니다. 예측은 2000년에서 2015년 사이에 해당 지역에서 이루어지지만 예측 날짜 이전에 사용할 수 있는 데이터를 기반으로 합니다. 즉, 2000년 1분기에 대한 예측을 하면 2000년 1분기까지의 데이터에 대해 연산을 수행합니다. 2015년을 포함하여 사용 가능한 모든 데이터에 대한 예측 변수를 선택한 다음 모델의 계수가 계산되더라도 이를 사용하여 2000년 1분기를 예측합니다. 2000년 1분기 이전 데이터에서, 이것은 미래를 내다보는 것입니다. 나는 과거에 이 오류가 있었고 내가 가진 모델은 엄청나게 예측적이었습니다. 요컨대, 내 조건은 예측자가 선택되고 예측 모델 자체가 예측 날짜 이전의 데이터에 따라 계산된다는 것입니다.

 
gpwr :

제안을 수락합니다. 유효한 데이터 파일 형식을 지정하십시오. 매트가 맞을까요? 데이터가 너무 많습니다. CSV는 전체 디스크를 구울 것입니다. MAT만 6MB입니다.


첫 번째 문제는 파일입니다. 생각해야 합니다. MAT는 R - R을 사용하고 MATLAB은 매우 친숙하지만 어떻게 해야할지 모르겠습니다. 준비되면 포스팅하겠습니다.

 
gpwr :

"나쁜" 선형 회귀, 나는 전화하지 않을 것입니다.



고정되지 않은 데이터의 경우 "나쁨"입니다.

그리고 간단히 내 게시물: 도구는 문제에 해당해야 합니다.

회귀의 경우 재무 계열의 비정상성은 기본 문제입니다. 따라서 툴킷을 선택할 때 선택한 툴이 비정상성 문제를 어떻게 해결하는지 살펴볼 필요가 있다. 제가 언급한 ARIMA가 비정상성 문제를 어느 정도 해결해 주었지만 Taylor 급수가 비정상성 문제를 해결했다는 말은 들어보지 못했습니다. 회귀 프레임워크 내에서 ARIMA가 유일한 도구는 아니지만 여전히 미국 정부 구조에서 사용되며 가장 발전된 것은 아닙니다. 널리 알려진 것 중에서 ARCH를 여러 번 수정하여 언급하겠습니다.

비정상성의 결과는 모델의 과적합입니다. 매우 정확한 모델을 구축하는 것이 가능하지만 훈련 샘플 외부에서는 작동하지 않는다는 사실이 명백합니다. 때로는 작동하기도 하고 작동하지 않기도 합니다. 복잡한 모델보다 단순한 모델의 우수성에 대한 귀하의 말은 잘 알려진 사실이며 복잡한 모델이 단순한 모델보다 과대적합되기 훨씬 쉽다는 사실에 근거합니다.

 
gpwr :

"나쁜" 선형 회귀, 나는 전화하지 않을 것입니다. 그리고 내가 다른 모델을 많이 시도하지 않았다고 가정할 필요도 없습니다.

모든 비선형 모델 y = f(x1,x2,...)를 Taylor 급수로 확장할 수 있다는 것은 누구나 알고 있습니다.

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ... + a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^ 2 + b11*d^2f/dx1/dx2*x1*x2 + ...

수학에 정통한 사람들은 이것이 함수 f(x1,x2,...)를 다항식(더 정확하게는 단항식) 기수 x, x^2, x^3 등으로 분해 하는 것임을 알고 있습니다. 선형 회귀는 이 확장의 선형 항만 보존하므로 1차 근사입니다. 비선형 기수는 Chebyshev, Hermite, Legendre 등과 같이 잘 알려진 다양한 다항식에서 선택할 수 있습니다. 그러나 다항식을 선택하는 올바른 방법은 QR 분해 또는 더 일반적으로 다음의 통계적 특성을 고려하여 직교 다항식을 선택하는 것입니다. 입력 x1, x2, ... 신경망은 Kolmogorov의 정리에 따라 입력 함수의 확장을 제외하고 동일한 확장을 시도합니다. 이것은 입력의 지수 함수가 서로 직교하지 않기 때문에 다소 불편한 확장이며, 이는 많은 수치 문제와 솔루션으로 이어집니다. 어쨌든, 우리의 비선형 함수의 이러한 모든 확장은 1차 근사치로서 선형 모델을 가질 것입니다. 따라서 선형 근사(회귀)가 예상한 결과를 제공하지 않으면 더 높은 수준의 비선형성으로 갈 의미가 없습니다. 선형 회귀조차도 다른 방법(RMS, MHM 및 기타 임의 오류 함수)으로 해결할 수 있으며, 모두 시도했습니다.

그건 그렇고, 모든 계량 경제학 ARMA, ARIMA 및 기타 모델은 위 모델 y[n] = f(x1[n-d1],x2[n-d2],...)의 개별 사례이며, 여기서 입력은 지연 출력, t .e. y[n-1], y[n-2], 따라서 이름이 "자동회귀" 모델입니다. COEX 방법이나 MIM을 사용하여 자기회귀 모델을 푸는 것은 건강에 좋지 않지만. 얻은 계수는 진동 모델로 이어집니다. 우리는 Burg의 방법, 수정된 공분산 등이 필요합니다. 하지만 저는 오래전에 이 "자기회귀" 장을 통과했고 다시 돌아가고 싶지 않습니다. 내 시장 모델은 진입 지연 중 하나로 퇴장 지연을 선택할 수 있습니다. 그러나 그녀는 지금까지 그러한 "자기회귀" 항목을 선택한 적이 없습니다. 이는 경제 지표가 과거 가격 자체보다 가격 예측에 더 적합하다는 것을 의미합니다(이러한 분석을 기반으로 하는 대다수의 거래 방법의 기초를 형성함)

그런 의미였던 것 같아요 :)

예를 들어 데이터 세트에 대한 회귀 분석을 작성하고 "대략" 모델을 얻고 거의 항상 다른 방법도 "대단히" 모델을 제공합니다.

선형 회귀가 "더 많거나 적은" 모델을 제공하면 다른 방법으로 모델을 약간 향상시킬 수 있습니다.

 
명확한 정의를 제공하거나 "예측", "예측" 등의 의미에 대한 최소한의 설명을 제공하는 것은 나쁘지 않습니다. "예측" 지평선이란 무엇입니까? 이것이 없으면 "예측"은 의미를 잃습니다. 지평선에 따라 동일한 "예측"이 한 지평선에서는 사실로 판명되고 다른 지평선에서는 올바르지 않은 것으로 판명될 수 있기 때문입니다. 또한 이러한 섹션은 여러 번 번갈아 나타날 수 있습니다.