베이지안 회귀 - 이 알고리즘을 사용하여 Expert Advisor를 만든 사람이 있습니까? - 페이지 51

 
Дмитрий :
"최상의" 조합을 어떻게 정의합니까?
5번의 반복으로 교차 검증. 그러나 예를 무작위로 선택하지만 시간에 따라 예를 분리하여 시계열 에 맞게 조정하는 일반적인 것은 아닙니다. 모든 것은 블로그에 설명되어 있습니다.

5번의 테스트 폴드에 대한 대상 메트릭의 평균 값은 훈련 매개변수의 최상의 조합을 나타냅니다.

그런 다음 열거 후 모델은 전체 훈련 세트에서 훈련되고 하나 이상의 세트에서 검증됩니다.
 
  • 실험에서 무엇을 더 바꿔야 할지 고민 중입니다. 교차 검증을 위해 케이스 인덱싱의 논리를 변경하려고 시도했지만 개선되지 않았습니다.
  • 입력을 개별 형식으로 가져올 생각입니다.
  • 또 다른 옵션은 복잡한 모델에서 더 단순한 모델로 내려가는 것입니다. 복잡한 모델은 가속화된 의사 결정 숲입니다. 보다 단순함 - 정규화 매개변수도 조정할 수 있는 가속 선형 회귀 모델.
  • 그러나 문제는 디자인 측면에서 무언가를 변경하여 55%의 정확도를 60%로 향상시키는 것이 까다롭다는 것입니다.
  • 모델 위원회를 구성하는 것도 기껏해야 퍼센트 개선의 일부일 것입니다. 아키텍처를 개발하고 가르치는 데 더 오래 걸립니다.
  • 중요한 예측 변수를 살펴보는 아이디어가 있으며 자주 창 가장자리(724분)에 부딪히면 창을 하루 1440분으로 확장할 수 있습니다. 그러나 1440 + - 임의 용어의 단계로 이미 예제를 가져갈 것이기 때문에 예제의 수는 2배 감소합니다.
  • 예를 들어, 가격 수준의 돌파(이익/손절매) 또는 선형 회귀 계수와 같은 일반적인 "방향"과 같은 다른 목표를 예측할 수도 있습니다.
모든 것은 시간이 걸립니다. 그러나 나는 실험에 몇 달을 더 할애할 것입니다. 아마도 뭔가 나올 것입니다.
 
기본적인 문제는 예측자 목록 문제입니다. 예측 변수 목록을 입증했으면 다른 모든 항목으로 이동할 수 있습니다.
 
СанСаныч Фоменко :
기본적인 문제는 예측자 목록 문제입니다. 예측 변수 목록을 입증했으면 다른 모든 항목으로 이동할 수 있습니다.
고맙습니다. 나는 또한 새로운 예측자를 추가하는 쪽으로 기울고 있습니다.
 
Alexey Burnakov :
고맙습니다. 나는 또한 새로운 예측자를 추가하는 쪽으로 기울고 있습니다.
사용하는 예측 변수의 수가 충분하지 않다고 생각하십니까?
 
Алексей Тарабанов :
사용하는 예측 변수의 수가 충분하지 않다고 생각하십니까?
나는 확실히 모른다.

사용 가능한 예측 변수가 충분한 정보를 제공하지 않거나
시간이 지남에 따라 연결이 크게 변하고 일반화 능력이 떨어집니다.
또는 예측 변수 자체가 시간이 지남에 따라 분포 매개변수를 변경합니다.

첫 번째 요점에서 더 많은 것을 추가할 수 있으며 항상 최고를 선택할 수 있습니다.
다른 점에서는 데이터 처리가 도움이 될 수 있지만 100%는 아닙니다.

나는 이러한 모든 요소의 조합에 기대고 있습니다. 사실은 교차 검증에서도 정확도가 55-60%이고 예측 범위의 성장에 따라 떨어집니다. 이는 예측 변수가 훈련 샘플에 대한 정보도 거의 제공하지 않는다는 것을 의미합니다.

이제 테스트의 정확도가 높지만 검증 중에 급격히 떨어지는 것을 보았을 때 실험이 올바르게 빌드된 동안 종속성은 고정적이지 않습니다.
 
Alexey Burnakov :
나는 확실히 모른다.

사용 가능한 예측 변수가 충분한 정보를 제공하지 않거나
시간이 지남에 따라 연결이 크게 변하고 일반화 능력이 감소합니다.
또는 예측 변수 자체가 시간이 지남에 따라 분포 매개변수를 변경합니다.

첫 번째 요점에서 더 많은 것을 추가할 수 있으며 항상 최고를 선택할 수 있습니다.
다른 점에서는 데이터 처리가 도움이 될 수 있지만 100%는 아닙니다.

나는 이러한 모든 요소의 조합에 기대고 있습니다. 사실은 교차 검증에서도 정확도가 55-60%이고 예측 범위의 성장에 따라 떨어집니다. 이는 예측 변수가 훈련 샘플에 대한 정보도 거의 제공하지 않는다는 것을 의미합니다.

이제 테스트의 정확도가 높지만 검증 중에 급격히 떨어지는 것을 보았을 때 실험이 올바르게 빌드된 동안 종속성은 고정적이지 않습니다.
아마 그렇습니다.
 
Alexey Burnakov :
나는 확실히 모른다.

사용 가능한 예측 변수가 충분한 정보를 제공하지 않거나,
시간이 지남에 따라 연결이 크게 변하고 일반화 능력이 떨어집니다.
또는 예측 변수 자체가 시간이 지남에 따라 분포 매개변수를 변경합니다.

첫 번째 요점에서 더 많은 것을 추가할 수 있으며 항상 최고를 선택할 수 있습니다.
다른 점에서는 데이터 처리가 도움이 될 수 있지만 100%는 아닙니다.

나는 이러한 모든 요소의 조합에 기대고 있습니다. 사실은 교차 검증에서도 정확도가 55-60%이며 예측 범위의 성장에 따라 떨어집니다. 이는 예측 변수가 훈련 샘플에 대한 정보도 거의 제공하지 않는다는 것을 의미합니다.

이제 테스트의 정확도가 높지만 검증 중에 급격히 떨어지는 것을 보았을 때 실험이 올바르게 빌드된 동안 종속성은 고정적이지 않습니다.

이미 썼다, 나는 반복할 것이다.

예측 변수 선택 작업은 주문을 포함하여 여러 번 수행되었습니다. 결과는 아래에 제시되어 있습니다

그래서.

최소 50개, 바람직하게는 100개 이상의 특정 예측 변수 집합을 사용합니다.

내가 다룬 모든 예측 변수 세트(즉, 일반화하는 척하지 않음)는 두 부분으로 나눌 수 있습니다.

  • 대상 변수 와 관련된 예측 변수의 일부
  • 목표 변수 와 관련이 없는 예측 변수의 일부 - 노이즈

나는 "태도"를 매우 조심스럽게 쓰고 아주 의도적으로 어떤 용어도 사용하지 않습니다.

예측 변수의 예:

  • mashka - 대상 변수 ZZ와 관련이 없습니다.
  • 당나귀에서 가격의 편차는 목표 변수와 관련이 있습니다 33

대상 변수를 지정한다는 점에 유의하십시오. 다른 대상 변수의 경우 모든 것이 그 반대일 수 있습니다.

원래 예측자 세트에 이 두 예측자 세트를 포함하는 문제는 표준 IMPORTANCE 도구가 작동하지 않는다는 것입니다. 따라서 몇 가지 도구가 필요하며 노이즈 예측자를 대략적으로 제거할 수 있는 도구를 개발하여 사용하고 있습니다. 여기에는 확실성이 없다는 점에 유의해야 합니다. 알고리즘은 실제 예측 변수와 명목 예측 변수를 별도로 수량화합니다. 2 미만(일부 상대 값) - 노이즈가 확실합니다. 2에서 3까지 : 당신은 그것을 사용할 수 있지만, 그것은하지 않는 것이 좋습니다 ....

잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.

노이즈 예측자를 걸러내고 내 세트에는 약 80%(!)가 있었고 나머지 예측자 목록을 가져와서 R의 도구를 여기에 적용하여 변수의 중요성을 결정하기 시작했습니다. 모델을 훈련하는 데 사용되는 실제 예측자의 수는 NOT 노이즈 예측자의 약 절반입니다. 원래 세트의 약 10%.

나는 창에서 예측자의 중요성을 정의합니다. 기간이 이동함에 따라 기본 20%의 예측 변수 목록이 항상 변경됩니다. 저것들. 모델을 구축할 때 12-15개의 예측변수를 사용하지만 인용문 뒤에 창이 이동할 때는 다릅니다.

그리고 무엇 때문에 모든 소란?

그러나 사실은 노이즈에서 예측자 세트를 정리하면 과도하게 훈련 되지 않은 모델이 생성된다는 것입니다.

숫자로.

전체 예측 변수 세트에서 예측 오류가 3% -5%인 모델을 구축할 수 있습니다! 또한 샘플을 부분으로 나누는 알고리즘, 이른바 "샘플 외"-OOV가 이 결과를 확인합니다. 이것은 항상 원본 샘플을 여러 부분으로 나누고 결과에 매우 만족하는 raatle에서 매우 명확하게 볼 수 있습니다.

하지만.

원본 샘플에 노이즈 예측자가 있는 경우 실제 "샘플 제외", 즉 예를 들어 2015년 6월 1일부터 2016년 1월 1일까지의 훈련을 위한 샘플을 가져온 다음 샘플에서 계산하면 1월 1일 이후에는 3% -5% 대신 50%와 70% 모두에서 오류가 발생할 수 있습니다! 또한 "표본 외"의 시작이 1월 1일부터 멀수록 결과는 더 나빠집니다.

모델 초과

노이즈 예측기의 초기 세트를 지우면 결과는 다음과 같으며 randomforest, ada SVM 및 기타 여러 모델에 대해 동일합니다. 예측 오류는 모든 세트에서 약 30%입니다. 예측 변수의 중요성을 결정하기 위해 R 도구를 사용하면 오류를 약 25%로 더 줄일 수 있습니다. 목표 변수 33에 대해서는 이 결과를 개선할 수 없었습니다.

 
СанСаныч Фоменко :

이미 썼다, 나는 반복할 것이다.

예측 변수 선택 작업은 주문을 포함하여 여러 번 수행되었습니다. 결과는 아래에 제시되어 있습니다

그래서.

최소 50개, 바람직하게는 100개 이상의 특정 예측 변수 집합을 사용합니다.

내가 다룬 모든 예측 변수 세트(즉, 일반화하는 척하지 않음)는 두 부분으로 나눌 수 있습니다.

  • 대상 변수 와 관련된 예측 변수의 일부
  • 목표 변수 와 관련이 없는 예측 변수의 일부 - 노이즈

나는 "태도"를 매우 조심스럽게 쓰고 아주 의도적으로 어떤 용어도 사용하지 않습니다.

예측 변수의 예:

  • mashka - 대상 변수 ZZ와 관련이 없습니다.
  • 당나귀에서 가격의 편차는 목표 변수와 관련이 있습니다 33

대상 변수를 지정한다는 점에 유의하십시오. 다른 대상 변수의 경우 모든 것이 그 반대일 수 있습니다.

원래 예측자 세트에 이 두 예측자 세트를 포함하는 문제는 표준 IMPORTANCE 도구가 작동하지 않는다는 것입니다. 따라서 몇 가지 도구가 필요하며 노이즈 예측자를 대략적으로 제거할 수 있는 도구를 개발하여 사용하고 있습니다. 여기에는 확실성이 없다는 점에 유의해야 합니다. 알고리즘은 실제 예측 변수와 명목 예측 변수를 별도로 수량화합니다. 2 미만(일부 상대 값) - 노이즈가 확실합니다. 2에서 3까지 : 당신은 그것을 사용할 수 있지만, 그것은하지 않는 것이 좋습니다 ....

잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.

노이즈 예측자를 걸러내고 내 세트에는 약 80%(!)가 있었고 나머지 예측자 목록을 가져와서 R의 도구를 여기에 적용하여 변수의 중요성을 결정하기 시작했습니다. 모델을 훈련하는 데 사용되는 실제 예측자의 수는 NOT 노이즈 예측자의 약 절반입니다. 원래 세트의 약 10%.

나는 창에서 예측자의 중요성을 정의합니다. 기간이 이동함에 따라 기본 20%의 예측 변수 목록이 항상 변경됩니다. 저것들. 모델을 구축할 때 12-15개의 예측변수를 사용하지만 인용문 뒤에 창이 이동할 때는 다릅니다.

그리고 무엇 때문에 모든 소란?

그러나 사실은 노이즈에서 예측자 세트를 정리하면 과도하게 훈련 되지 않은 모델이 생성된다는 것입니다.

숫자로.

전체 예측 변수 세트에서 예측 오류가 3% -5%인 모델을 구축할 수 있습니다! 또한 샘플을 부분으로 나누는 알고리즘, 이른바 "샘플 외"-OOV가 이 결과를 확인합니다. 이것은 항상 원본 샘플을 여러 부분으로 나누고 결과에 매우 만족하는 raatle에서 매우 명확하게 볼 수 있습니다.

하지만.

원본 샘플에 노이즈 예측자가 있는 경우 실제 "샘플 제외", 즉 예를 들어 2015년 6월 1일부터 2016년 1월 1일까지의 훈련을 위한 샘플을 가져온 다음 샘플에서 계산하면 1월 1일 이후에는 3% -5% 대신 50%와 70% 모두에서 오류가 발생할 수 있습니다! 또한 "out of sample"의 시작이 1월 1일부터 멀수록 결과는 더 나빠집니다.

모델 초과

노이즈 예측기의 초기 세트를 지우면 결과는 다음과 같으며 randomforest, ada SVM 및 기타 여러 모델에 대해 동일합니다. 예측 오류는 모든 세트에서 약 30%입니다. 예측 변수의 중요성을 결정하기 위해 R 도구를 사용하면 오류를 약 25%로 더 줄일 수 있습니다. 목표 변수 33에 대해서는 이 결과를 개선할 수 없었습니다.

고맙습니다.

생각의 흐름은 분명합니다. 위에서 나는 훈련 샘플의 여러 부분에서 예측 변수의 중요성을 계산한 다음 목록을 비교하고 반복되는 것을 선택할 기회를 직접 보았습니다.

나는 수동 선택에 대해 아무 말도 할 수 없으며 즉시 기계의 도움을 사용하는 것을 선호합니다.

추신: 의사결정 숲의 변수의 중요성 외에도 상호 정보 기능을 기반으로 한 고유한 방법을 적용하려고 합니다. 그럼 결과를 보여드리겠습니다.

 
СанСаныч Фоменко :


잡음의 문제는 잡음 예측자가 비잡음 예측자를 압도한다는 것입니다. 예를 들어, 알고리즘 randomforest, ada, svm은 어떤 이유로 이러한 노이즈 예측자에 대한 모델을 더 많이 구축합니다.


Q: SVM은 변수 간의 상호 작용을 설명합니까, 아니면 가중치가 적용된 개별 구성 요소의 합계입니까?