매트 연구. 패키지 - 페이지 8

 
Alexey Volchanskiy :
토론에 참여하는 모든 사람에게 전달하는 질문입니다. 틱 데이터로 작업합니까? 나는 오래전에 바 분석에서 멀어져 DSP 방식에 대해서만 작업한다.
나는 레벨 2뿐만 아니라 요청과 함께 M1-바를 사용합니다.
 
zaskok3 :
나는 레벨 2뿐만 아니라 요청과 함께 M1-바를 사용합니다.
L2는 MT5에 있습니까?
 
Vladimir Perervenko :

링크한 기사는 회귀에 관한 것입니다. 분류하고 있습니다. 이 두가지가 큰차이..

그리고 여전히 나는 당신의 질문을 이해하지 못합니다.

행운을 빕니다

여기서 회귀 또는 분류의 종류는 중요하지 않습니다. 상관없습니다. 이것은 회귀에 대한 기사일 뿐입니다.

나는 명확히 하고 싶었다: 행 사이에 시간 간격이 있도록 1개의 막대(즉, 데이터 배열의 각 행의 입력) 또는 n개의 막대 중 어떤 단계가 수행되는지에 대한 훈련에 대한 예가 있습니까?

나는 지루할 뿐만 아니라 당신의 작업을 폄하하고 싶지 않습니다(당신의 기사가 저를 도와줍니다).

통계 연구에서 인용문을 빼지 않고 실용적인 예를 들어 내 아이디어를 설명하겠습니다.

의사 결정 트리에는 m개의 터미널 노드가 있습니다. 각 노드는 입력 벡터에서 유사한 경우(입력 값의 부분 공간)를 얻습니다. 따라서 여러 막대(최악의 경우 수백 개의 막대)에 대해 과거를 조사하는 항목을 사용하여 막대로 이동하는 연속적인 예가 있는 경우 인접 지점 간에 밝은 자기상관 이 있지만 동시에 , 우리는 앞으로 몇 막대(최악의 경우 수백 막대)의 미래를 예측하므로 인접한 출구는 동일할 것입니다. 예를 들어, 출력 열은 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 시퀀스로 구성됩니다. 따라서 인접하고 유사한 입력과 관련된 수십 개의 동일한 출력이 터미널 노드에 속하게 됩니다. . 가장 범주적인 방식으로 답변 분포를 왜곡하는 시점으로 붐비는 동일한 예가 중복될 것이라고 말할 수 있습니다. 터미널에서 Expert Advisor를 교육할 때 인접 입력 및 출력의 종속 효과도 발생하기 때문에 시장에서 둘 이상의 위치를 유지하지 않는 것이 좋습니다.

이 경우 하드 재교육 또는 오히려 독립적인 관찰에 대한 통계가 형성됩니다. 즉, 시계열을 분석하여 얻을 수 있는 가장 불편한 점은 인접 데이터 벡터의 의존성입니다. 데이터 벡터가 시간상 멀리 떨어져 있으면 모든 것이 정상입니다. 이 경우 기계 학습은 시불변 패턴을 찾는 것으로 축소됩니다.

그런 다음 기사에서 예제로 제공하는 오류 매트릭스를 참조하십시오.

OOB confusion matrix:
          Reference
Prediction   -1    1 class.error
        -1 1066  280      0.2080
        1   254 1043      0.1958
Test set
Error rate: 19.97 %

Confusion matrix:
          Reference
Prediction  - 1    1 class .error
        - 1 541 145        0.2114
         1    119 517        0.1871

나는 이것이 환상적이라고 말할 수 있습니다. ) 실험은 오류로 수행되었습니다. 테스트 데이터 세트와 훈련 데이터 세트를 시간적으로 엄격하게 분리하면서(예측 편향) 독립적인 예가 있는 샘플에서 이러한 가파른 오류 행렬을 달성하는 것은 결코 불가능합니다.

그리고 테스트 세트의 오류 행렬도 환상적이라는 사실은 샘플이 제 시간에 훈련 샘플과 혼합되어 추출되었음을 시사하며, 유사한 예도 "밀집"됩니다. 즉, 구성된 모델이 시장을 예측하는 능력에 대해 아무 말도 하지 않는 것은 이 결과입니다.

조금 더 많은 데이터를 직접 가져와서 tail(all_data, 1/3) 논리에 따라 테스트 세트를 만들고 행렬 셀의 관측값 수가 어떻게 균일해지는지 확인할 수 있습니다. 운세가 거의 무작위가 되었는지 확인하기 위해 카이제곱 검정을 적용할 수도 있습니다.

당신에게 전하고 싶은 모든 것을 하려고 노력했습니다. 좋은 의도로 명심하십시오)

행운을 빕니다! 알렉세이

 
Alexey Volchanskiy :
L2는 MT5에 있습니까?
MT4. 포럼에 출처가 ...
 
zaskok3 :
MT4. 포럼에 출처가 ...

친구 및 동료 여러분, 질문이 있습니다.

공개된 거래 데이터를 기반으로 알고리즘을 어떻게 공식화할 수 있습니까?

 
Alexey Volchanskiy :

친구 및 동료 여러분, 질문이 있습니다.

공개된 거래 데이터를 기반으로 알고리즘을 어떻게 공식화할 수 있습니까?

나는 내가 실수로 썼다는 것을 알고 있습니다 - 그것은 공식이라는 단어에서 공식화 하는 것입니다)
 
Alexey Volchanskiy :

공개된 거래 데이터를 기반으로 알고리즘을 어떻게 공식화할 수 있습니까?

상태에 따라 자동으로 TS를 재설계해야 하는 경우 기계 학습을 통해 다음을 수행합니다.

입력에서 많은 표시기 값을 가져오고 출력에서 상태를 나타냅니다. 매트를 조정합니다. 모델.

그런 헛소리는 하지 않았습니다.

 
Alexey Volchanskiy :
토론에 참여하는 모든 사람에게 전달하는 질문입니다. 틱 데이터로 작업합니까? 나는 오래전에 바 분석에서 멀어져 DSP 방식만을 연구하고 있다.

DSP의 사용은 매우 의심스럽습니다.

틱 데이터의 경우 공적분의 아이디어가 더 적합합니다.

 
Alexey Burnakov :
여기서 회귀 또는 분류의 종류는 중요하지 않습니다. 상관없습니다. 이것은 회귀에 대한 기사일 뿐입니다.

나는 명확히 하고 싶었다: 행 사이에 시간 간격이 있도록 1개의 막대(즉, 데이터 배열의 각 행의 입력) 또는 n개의 막대 중 어떤 단계를 수행하는지에 대한 훈련에 대한 예가 있습니까?

나는 지루할 뿐만 아니라 당신의 작업을 폄하하고 싶지 않습니다(당신의 기사가 저를 도와줍니다).

통계 연구에서 인용문을 빼지 않고 실용적인 예를 들어 내 아이디어를 설명하겠습니다.

의사 결정 트리에는 m개의 터미널 노드가 있습니다. 각 노드는 입력 벡터에서 유사한 경우(입력 값의 부분 공간)를 얻습니다. 따라서 여러 막대(최악의 경우 수백 막대)에 대해 과거를 조사하는 항목을 사용하여 막대로 이동하는 연속적인 예가 있는 경우 인접 지점 간에 밝은 자기상관이 있지만 동시에 , 우리는 앞으로 몇 막대(최악의 경우 수백 막대)의 미래를 예측하므로 인접한 출구는 동일할 것입니다. 예를 들어, 출력 열은 시퀀스 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1에 의해 형성됩니다. 따라서 인접하고 유사한 입력과 관련된 수십 개의 동일한 출력이 터미널 노드에 떨어질 것입니다. . 가장 범주적인 방식으로 답변 분포를 왜곡하는 시점으로 붐비는 동일한 예가 중복될 것이라고 말할 수 있습니다. 터미널에서 Expert Advisor를 교육할 때 인접 입력 및 출력의 종속 효과도 발생하기 때문에 시장에서 둘 이상의 위치를 유지하지 않는 것이 좋습니다.

이 경우 하드 재교육 또는 오히려 독립적인 관찰에 대한 통계가 형성됩니다. 즉, 시계열을 분석하여 얻을 수 있는 가장 불편한 점은 인접 데이터 벡터의 의존성입니다. 데이터 벡터가 시간상 멀리 떨어져 있으면 모든 것이 정상입니다. 이 경우 기계 학습은 시간 불변 패턴을 찾는 것으로 축소됩니다.

그런 다음 기사에서 예제로 제공하는 오류 매트릭스를 참조하십시오.

나는 이것이 환상적이라고 말할 수 있습니다. ) 실험은 오류로 수행되었습니다. 테스트 데이터 세트와 훈련 데이터 세트를 시간에 엄격하게 분리하면서(예측 편향) 독립적인 예가 있는 샘플에서 이러한 가파른 오류 행렬을 달성하는 것은 결코 불가능합니다.

그리고 테스트 세트의 오류 행렬도 환상적이라는 사실은 샘플이 훈련과 혼합되어 시간이 지남에 따라 유사한 예가 "밀집"되어 있음을 시사합니다. 즉, 이 결과는 구성된 모델이 시장을 예측하는 능력에 대해 아무 말도 하지 않습니다.

조금 더 많은 데이터를 직접 가져와서 tail(all_data, 1/3) 논리에 따라 테스트 세트를 만들고 행렬 셀의 관측값 수가 어떻게 균일해지는지 확인할 수 있습니다. 운세가 거의 무작위가 되었는지 알아보기 위해 카이제곱 검정을 적용할 수도 있습니다.

당신에게 전하고 싶은 모든 것을 하려고 노력했습니다. 좋은 의도로 명심하십시오)

행운을 빕니다! 알렉세이

방해해서 죄송하지만 공개토론인 것 같습니다.

저에게는 귀하의 게시물에서 서로 관련되어 있지만 서로 다른 문제가 한 묶음으로 혼합되어 있습니다.

1. 모델에게 무엇을 가르칩니까? 트렌드?, 레벨 분석? 무언가로부터의 일탈? 모범 교사를 선택하는 것은 매우 쉬워 보이지만 실제로는 몇 가지 어려움이 있습니다. 어쨌든 "거래 추세"와 같이 거래 아이디어에 대해 매우 구체적으로 교사(모델이 훈련되는 벡터)를 준비해야 합니다.

2. 무엇을 가르칩니까? 게시물에서 이웃 막대 사이의 관계의 존재에 대해 씁니다. 네, 이웃 철근 사이의 종속성을 고려하는 나무 모델(CORELearn)이 있습니다. 그러나 제기하는 문제는 훨씬 더 광범위하고 불쾌하며 사용된 모델에 거의 의존하지 않습니다. 모델 과적합입니다. 제 생각에는 항상 과적합된 모델을 생성하는 데이터 세트가 있습니다. 여기서 오버트레이닝을 제거하는 트릭은 도움이 되지 않습니다.

재훈련되지 않은 모델을 구축할 수 있는 예측 변수가 있는 입력 데이터 세트(예측 변수 세트)가 있습니다. 그러나 나머지 예측자는 너무 많은 잡음을 생성하므로 이러한 잡음이 많은 예측자는 기존 예측자 선택 패키지로 제거할 수 없습니다.

따라서 "우리 선생님과 관련이있는 것 같습니다 - 대상 변수"기준에 따라 예측 변수를 수동으로 선택 하는 단계는 필수입니다.

추신.

웃기지만 추세를 거래할 때 평활화로 얻은 예측 변수, 특히 MA는 매우 시끄럽고 모델은 항상 재학습됩니다. 게다가 GLE 샘플에 대해 훈련할 때 최대 5%의 오류가 발생할 수 있습니다!

 
Alexey Burnakov :
여기서 회귀 또는 분류의 종류는 중요하지 않습니다. 상관없습니다. 이것은 회귀에 대한 기사일 뿐입니다.

나는 명확히 하고 싶었다: 행 사이에 시간 간격이 있도록 1개의 막대(즉, 데이터 배열의 각 행의 입력) 또는 n개의 막대 중 어떤 단계가 수행되는지에 대한 훈련에 대한 예가 있습니까?

소스 데이터 세트는 입력 및 대상을 포함하는 행렬 또는 데이터 프레임입니다. 훈련 세트와 테스트 세트로 분할(계층화)할 때 예제는 무작위로 혼합되지만 세트의 클래스 분포는 원본과 동일하게 유지됩니다. 따라서 사례가 취해지는 단계에 대해 이야기하는 것은 불가능합니다. 분명히, 당신은 시간 지연에 대해 이야기할 수 있는 행렬로 벡터의 변환을 혼동하고 있습니다.

나는 지루할 뿐만 아니라 당신의 작업을 폄하하고 싶지 않습니다(당신의 기사가 저를 도와줍니다).

네, 저는 그런 생각과는 거리가 멉니다. 하지만 질문을 정말 이해할 수 없습니다.

통계 연구에서 인용문을 빼지 않고 실용적인 예를 들어 내 아이디어를 설명하겠습니다.

의사 결정 트리에는 m개의 터미널 노드가 있습니다. 각 노드는 입력 벡터에서 유사한 경우(입력 값의 부분 공간)를 얻습니다. 따라서 여러 막대(최악의 경우 수백 개의 막대)에 대해 과거를 조사하는 항목을 사용하여 막대로 이동하는 연속적인 예가 있는 경우 인접 지점 간에 밝은 자기상관이 있지만 동시에 , 우리는 앞으로 몇 막대(최악의 경우 수백 막대)의 미래를 예측하므로 인접한 출구는 동일할 것입니다. 예를 들어, 출력 열은 0 0 0 0 0 0 0 00 0 1 1 1 1 1 1 1 1 시퀀스로 구성됩니다. 따라서 인접하고 유사한 입력과 관련된 수십 개의 동일한 출력이 터미널 노드에 속하게 됩니다. . 가장 범주적인 방식으로 답변 분포를 왜곡하는 시점으로 붐비는 동일한 예가 중복될 것이라고 말할 수 있습니다. 터미널에서 Expert Advisor를 교육할 때 인접 입력 및 출력의 종속 효과도 발생하기 때문에 시장에서 둘 이상의 위치를 유지하지 않는 것이 좋습니다.

이 경우 하드 재교육 또는 오히려 독립적인 관찰에 대한 통계가 형성됩니다. 즉, 시계열을 분석하여 얻을 수 있는 가장 불편한 점은 인접 데이터 벡터의 의존성입니다. 데이터 벡터가 시간상 멀리 떨어져 있으면 모든 것이 정상입니다. 이 경우 기계 학습은 시불변 패턴을 찾는 것으로 축소됩니다.

그런 다음 기사에서 예제로 제공하는 오류 매트릭스를 참조하십시오.

나는 이것이 환상적이라고 말할 수 있습니다. ) 실험은 오류로 수행되었습니다. 테스트 데이터 세트와 훈련 데이터 세트를 시간적으로 엄격하게 분리하면서(예측 편향) 독립적인 예가 있는 샘플에서 이러한 가파른 오류 행렬을 달성하는 것은 결코 불가능합니다.

그리고 테스트 세트의 오류 행렬도 환상적이라는 사실은 샘플이 한 번에 하나의 훈련과 혼합되어 추출되었으며 유사한 예제도 "밀집"되어 있음을 시사합니다. 즉, 이 결과는 구성된 모델이 시장을 예측하는 능력에 대해 아무 말도 하지 않습니다.

조금 더 많은 데이터를 직접 가져와서 tail(all_data, 1/3) 논리에 따라 테스트 세트를 만들고 행렬 셀의 관측값 수가 어떻게 균일해지는지 확인할 수 있습니다. 운세가 거의 무작위가 되었는지 확인하기 위해 카이제곱 검정을 적용할 수도 있습니다.

따라서 설명할 내용의 예를 손가락에 표시합니다. . 아니면 내가 그런 검사를 하지 않았다고 생각합니까?

당신에게 전하고 싶은 모든 것을 하려고 노력했습니다. 좋은 의도로 명심하십시오)

나는 당신이 전달하려는 것을 정말로 이해하고 싶습니다. 예를 들면 더 명확해질 것 같아요.

실험이 오류로 수행 되었다고 말하면 이 오류가 무엇인지 표시하고 올바른 솔루션을 제공해야 합니다. 패키지가 있고 예가 있으며 귀하의 의견으로는 계산을 수행하는 방법을 적어 두십시오.

범죄가 없습니다.

행운을 빕니다