트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 58

 
유리에게 질문이 있습니다. 3진법 모델의 근태를 파악할 때 수동으로 데이터를 입력하면 결과에 대시 문자가 표시되는 경우가 있습니다. 즉, 0이 있고 1이 있고 대시가 있습니다. 그래서 대시는 무엇을 의미합니까?
 

지그재그로 분류하려 했지만 반전점은 아니었지만 지그재그가 보여주는 전체 추세를 보면 결과는 현재 zz 추세가 내려가면 0, 추세가 올라가면 1입니다. 33가지 트렌드가 다소 언밸런스해 보이지만 그렇다고 포기한 것은 아니다. 모델에 매우 높은 정확도가 필요하다는 사실이 마음에 들지 않았습니다. 모델이 추세 동안 몇 가지 실수를 하고 잘못된 시간에 거래를 되돌리면 한 바만 차이가 나더라도 일반적으로 추가 손실이 발생하고 매번 스프레드로 수수료를 지불해야 합니다. 패턴은 거래를 시작하고 추세가 끝날 때까지 기다렸다가 반전하는 경우에만 수익성이 있습니다. 각 추세 내에서 단일 오류가 없습니다.

추세가 아니라 다음 막대를 예측하면 각 실수로 인해 금전적 손실이 줄어듭니다.


나는 밸런싱을 하지 않고, 다음 바를 예측할 때 클래스의 분포가 이미 최소화되어 있고, 한 클래스의 +-10%가 결과에 큰 영향을 미칠 것이라고 생각하지 않습니다.

여기 기사에서 그들은 균형이 모델의 올바른 평가(F-측정 또는 R-정밀도)로 대체될 수 있다고 씁니다. 이것은 SanSanych가 이전에 링크를 제공한 기사의 러시아어 유사체입니다.

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

...

그러나 이 측정항목[정확도]에는 고려해야 할 한 가지 기능이 있습니다. 모든 문서에 동일한 가중치를 할당합니다. 이는 훈련 샘플의 문서 분포가 하나 이상의 클래스에 강하게 편향되어 있는 경우 정확하지 않을 수 있습니다. 이 경우 분류자는 이러한 클래스에 대한 더 많은 정보를 가지고 있으므로 이러한 클래스 내에서 보다 적절한 결정을 내립니다. 실제로 이것은 예를 들어 80%의 정확도를 가지고 있다는 사실로 이어지지만 동시에 특정 클래스의 프레임워크 내에서 분류기는 문서의 3분의 1도 정확하게 결정하지 못한 채 매우 잘못 작동합니다.

이 상황에서 벗어나는 한 가지 방법은 특별히 준비된 균형 잡힌 문서 모음에서 분류자를 훈련시키는 것입니다. 이 솔루션의 단점은 분류기에서 문서의 상대적 빈도에 대한 정보를 제거한다는 것입니다. 이 정보는 다른 조건이 동일하면 올바른 결정을 내리는 데 매우 유용할 수 있습니다.

또 다른 방법은 공식적인 품질 평가에 대한 접근 방식을 변경하는 것입니다.

정확성 및 완전성

정확도(정밀도)와 재현율(재현율)은 대부분의 정보 추출 알고리즘 평가에 사용되는 메트릭입니다. 때로는 자체적으로 사용되며 때로는 F-측정 또는 R-정밀도와 같은 파생 메트릭의 기반으로 사용됩니다. 정확성과 완전성의 본질은 매우 간단합니다.

클래스 내 시스템의 정확도는 시스템이 이 클래스에 할당한 모든 문서에 상대적으로 이 클래스에 실제로 속하는 문서의 비율입니다. 시스템의 완전성은 테스트 샘플에서 이 클래스의 모든 문서에 대한 분류자가 찾은 클래스에 속하는 문서의 비율입니다.

....

F 측정

정확도와 재현율이 높을수록 좋습니다. 그러나 실생활에서는 최대한의 정확성과 완전성을 동시에 달성할 수 없으며 균형을 찾아야 합니다. 따라서 우리는 알고리즘의 정확성과 완전성에 대한 정보를 결합하는 특정 메트릭을 갖고 싶습니다. 이 경우 프로덕션 환경에서 실행할 구현을 결정하는 것이 더 쉬울 것입니다. 바로 그러한 지표가 F-측정 1 입니다.

F 측정은   조화 평균   정확성과 완전성 사이. 정밀도 또는 재현율이 0인 경향이 있으면 0이 되는 경향이 있습니다.


등등, 기사에 다른 아름다운 그래픽이 있습니다

 
Dr.Trader :

지그재그로 분류하려 했지만 반전점은 아니었지만 지그재그가 보여주는 전체 추세를 보면 결과는 현재 zz 추세가 내려가면 0, 추세가 올라가면 1입니다. 33가지 트렌드는 다소 언밸런스해 보이지만 그렇다고 포기한 것은 아니다. 모델에 매우 높은 정확도가 필요하다는 사실이 마음에 들지 않았습니다. 모델이 추세 동안 몇 가지 실수를 하고 잘못된 시간에 거래를 되돌리면 한 바만 차이가 나더라도 일반적으로 추가 손실이 발생하고 매번 스프레드로 수수료를 지불해야 합니다. 패턴은 거래를 시작하고 추세가 끝날 때까지 기다렸다가 반전하는 경우에만 수익성이 있습니다. 각 추세 내에서 단일 오류가 없습니다.

추세가 아니라 다음 막대를 예측하면 각 실수로 인해 금전적 손실이 줄어듭니다.


나는 밸런싱을 하지 않고, 다음 바를 예측할 때 클래스의 분포가 이미 최소화되어 있고, 한 클래스의 +-10%가 결과에 큰 영향을 미칠 것이라고 생각하지 않습니다.

여기 기사에서 그들은 균형이 모델의 올바른 평가(F-측정 또는 R-정밀도)로 대체될 수 있다고 씁니다. 이것은 SanSanych가 이전에 링크를 제공한 기사의 러시아어 유사체입니다.

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

등등, 기사에 다른 아름다운 그래픽이 있습니다

작은 조언. 모든 시스템은 하나의 단일 현상으로 이어집니다. 이것은 신호다!!! 모든 조건의 총체는 결정 지점인 완료된 이벤트로 이어집니다. Tobish, 시스템이 아무리 복잡하더라도 매수 또는 매도 신호로 이어집니다. 여기에서 분류하는 것이 좋습니다. 자동차를 건너. 교차점, 매수 신호, 반대 방향 교차점, 매도 신호가 있습니다. 그리고 세 번째는 없습니다. 따라서 정확한 분류를 위해서는 매도와 매수를 따로 구분하여 수행해야 하므로 일반화 수준을 유지하면서 훈련간격을 두 배로 늘릴 수 있다. 처음에는 내 모델이 일반화의 40-50% 이상으로 올라가는 경우가 거의 없었지만 데이터로 무엇을 해야 할지 고민한 후였습니다. 분류 후 얻은 모델의 본질은 무엇입니까? 동일한 데이터에 대해 지금은 평균 80-90%에서 최소 70%의 모델을 얻습니다. 미래에는 알 수 없는 데이터에서 오류가 10-12 중 1-2 정도입니다. 이 정도면 충분히 벌 수 있습니다. 그러나 신뢰 구간은 훈련 구간의 30%입니다. 즉, 100개의 매수 신호와 100개의 매도 신호를 취하는데, 물론 30 또는 50개의 신호 내에서 모델을 과도하게 훈련시키지 않고 작업할 수 있습니다. 예측기 1차 버전에서는 6개 입력이 약 40분 동안 최적화되어 매우 불편했지만 지금은 10분 만에 9개 입력이 가능하다. 그리고 이것으로부터 모델의 품질이 향상되었습니다. 이제 문제는 너무 많은 입력 데이터를 찾는 위치가 다릅니다. 그러나 우리는 인피를 가지고 태어나지 않습니다. 아직 재고가 있는 예측기를 제공할 것이 있습니다 :-)
 
마이클 마르쿠카이테스 :
유리에게 질문이 있습니다. 3진법 모델의 근태를 파악할 때 수동으로 데이터를 입력하면 결과에 대시 문자가 표시되는 경우가 있습니다. 즉, 0이 있고 1이 있고 대시가 있습니다. 그래서 대시는 무엇을 의미합니까?

소크라테스의 유명한 말인 "나는 내가 모르는 것을 안다"는 의미와 같습니다. 마이너스로 응답하는 삼항 분류기는 훈련 샘플에 분류되는 패턴과 유사한 예가 없었으므로 어떤 클래스에도 명백하게 귀속할 수 없다고 보고합니다. 그는 제시된 패턴에 긍정적인 대답을 줄 수 없습니다. 그는 지식의 일부 영역에서 자신의 능력 부족을 정직하게 인정하고 답을 모르는 질문에 뻔뻔스러운 얼굴로 긍정적 인 대답을 시도하지 않습니다.

 
유리 레셰토프 :

소크라테스의 유명한 말인 "나는 내가 모르는 것을 안다"는 의미와 같습니다. 마이너스로 응답하는 삼항 분류기는 훈련 샘플에 분류되는 패턴과 유사한 예가 없었으므로 어떤 클래스에도 명백하게 귀속할 수 없다고 보고합니다. 그는 제시된 패턴에 긍정적인 대답을 줄 수 없습니다.

흠. 글쎄요, 그건 분명합니다... 말해보세요. 가까운 장래에 삼항 모델을 파일에 업로드하여 나중에 MKUL에서 사용할 수 있는 가능성이 있습니까? 바이너리는 물론이고, 그렇지 않으면 펜으로 입력하면 실수 할 가능성이 있고 .....
 
마이클 마르쿠카이테스 :
흠. 글쎄요, 그건 분명합니다... 말해보세요. 가까운 장래에 삼항 모델을 파일에 업로드하여 나중에 MKUL에서 사용할 수 있는 가능성이 있습니까? 바이너리는 물론이고, 그렇지 않으면 펜으로 입력하면 실수 할 가능성이 있고 .....
지금 작업 중입니다. 저것들. 코드 생성기는 아직 염두에 두지 않았으며 현재로서는 전체 삼항 분류기가 아닌 이진 분류기 중 하나만의 소스 코드를 생성합니다.
 
유리 레셰토프 :

소크라테스의 유명한 말인 "나는 내가 모르는 것을 안다"는 의미와 같습니다. 마이너스로 응답하는 삼항 분류기는 훈련 샘플에 분류되는 패턴과 유사한 예가 없었으므로 어떤 클래스에도 명백하게 귀속할 수 없다고 보고합니다. 그는 제시된 패턴에 긍정적인 대답을 줄 수 없습니다. 그는 지식의 일부 영역에서 자신의 능력 부족을 정직하게 인정하고 답을 모르는 질문에 뻔뻔스러운 얼굴로 긍정적 인 대답을 시도하지 않습니다.

첨부된 그림으로 판단하여, 제가 정확히 본질을 이해한 건가요? 왼쪽에는 이진 분류기가 있습니다. 오른쪽 - 삼항(흰색 영역은 "빼기"임)

그렇다면 그 아이디어는 내 생각에 좋은 것입니다. 어떤 이유로 나는 전에 그것을 본 적이 없습니다. 삼항 분류기에 대한 몇 가지 기사를 조언해 주시겠습니까?



나중에 추가됨:

직관적인 관점에서 이 작업은 매우 간단합니다. 2개의 예측 변수(X 및 Y)가 있다고 가정해 보겠습니다. 즉, 위 그림과 같이 2차원 공간에서 작업해야 합니다. 다음으로 모든 "구매" 클래스(파란색 채우기)를 포함하는 이러한 2차원 공간을 둘러싸야 합니다. 그런 다음 모든 "판매" 클래스(빨간색)를 포함하는 두 번째 공간을 묶습니다. 두 개의 닫힌 공간이 겹치지 않아야 합니다. 새 데이터를 분류하려면 원하는 점이 속하는 펜스 영역만 보면 됩니다. 아무데도 떨어지지 않으면(오른쪽 사진의 흰색) 모델이 이 점에 대해 아무 말도 할 수 없다는 것이 분명하므로 현재 거래를 해서는 안 됩니다.

3개의 예측 변수를 사용하면 클래스가 일부 3차원 체적 수치로 구분되는 3차원 공간이 이미 존재합니다. 그리고 이런 식으로 예측 변수가 많을수록 수치가 더 다차원적입니다.

그런 모델이 존재합니까? 일반적으로 분류기는 공간에서 클래스를 구분하는 일종의 초평면을 찾습니다. 그리고 여기에 두 개의 닫힌 하이퍼피겨가 필요합니다.

 

마이클 마르쿠카이테스 :

...

예측기 1차 버전에서는 6개 입력이 약 40분 동안 최적화되어 매우 불편했지만 지금은 10분 만에 9개 입력이 가능하다. 그리고 이것으로부터 모델의 품질이 향상되었습니다. 이제 문제는 너무 많은 입력 데이터를 찾는 위치가 다릅니다. 그러나 우리는 인피를 가지고 태어나지 않습니다. 아직 재고가 있는 예측기를 제공할 것이 있습니다 :-)
네 저도 깐깐하게 매수/매도 분류를 하려고 합니다. 그러나 원래 6개의 입력을 어떻게 얻었습니까? 알려진 전략에서 가져왔습니까? 적절한 입력은 가장 중요한 것 중 하나입니다. 반대로 저는 수천 개의 입력(100개 막대에 대한 가격 및 표시기)을 가지고 있으며 모델이 그렇게 많은 수의 입력에 대해 재학습되기 때문에 수십 개를 남기고 제거해야 합니다.
 
트레이더 박사 :

첨부된 그림으로 판단하여, 제가 정확히 본질을 이해한 건가요?


왼쪽에는 이진 분류기가 있습니다. 오른쪽 - 삼항(흰색 영역은 "빼기"임)

인형을 위한 원시적인 경우 시각 보조 장치로 사용할 수 있습니다.

트레이더 박사 :
그렇다면 그 아이디어는 내 생각에 좋은 것입니다. 어떤 이유로 나는 전에 그것을 본 적이 없습니다. 삼항 분류기에 대한 몇 가지 기사를 조언해 주시겠습니까?

Google이 금지되지 않은 경우 "삼항 분류기 기계 학습"이라는 구문을 검색할 수 있습니다.

 
유리 레셰토프 :

Google이 금지되지 않은 경우 "삼항 분류기 기계 학습"이라는 구문을 검색할 수 있습니다.

즉, "내 사이트로 연결되는 Google의 첫 번째 링크를 보세요" :)

나는 당신에게 두 가지 모델로 구성된 위원회가 있다는 것을 알았습니다. 이것은 내가 위에서 이해하고 쓴 것이 전혀 아닙니다.