트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 897

 
알렉세이 비아즈미킨 :

oob (가방에서) 견적

 
막심 드미트리예프스키 :

oob (가방에서) 견적

https://habr.com/company/ods/blog/324402/ 에서 이 방법에 대해 읽었지만 점수가 변경되는 데이터의 패턴 검색에 어떤 영향을 미칠 수 있는지 알 수 없습니다. 내가 올바르게 말하고 있지 않을 수도 있지만 여기에 샘플의 간단한 예가 있습니다. 이러한 패턴이 있다고 가정해 보겠습니다.

"

1+2=3

...

1+2=3.5

...

1+2=3.8

...

1+2=3.5

...

1+2=3

"

"..."는 규칙이 변경되는 특정 기간이 아닙니다. 이상적으로는 규칙을 변경하는 패턴이 있더라도. 숲은 이 패턴을 어떻게 찾을 수 있습니까? 샘플의 n 라인 후에 규칙이 변경되고 n*x 후에 규칙이 원래 상태로 돌아갑니다. 그러나 규칙 변경의 특성이 시간 간격이 아니라 다른 상황의 영향인 경우에는 샘플에서 사용할 수 있는 데이터가 있지만 영향의 패턴은 이벤트의 순서(즉, 데이터의 각 행이 표시되는 순서에 따라)? 반면에 숲은 다른 방법을 사용하여 조각을 꺼냅니다. 어떻게 수평(예측자 집합) 패턴뿐만 아니라 수직 패턴(과거 n에 대한 예측 변수의 변화)도 볼 수 있습니까?

 
알렉세이 비아즈미킨 :

나중에 답해줄게 저녁에..갑자기 피자랑 라이트가 먹고싶어졌어

 
막심 드미트리예프스키 :

나중에 답해줄게 저녁에..갑자기 피자랑 라이트가 먹고싶어졌어

봄 - 갑자기 설명할 수 있습니다 :)

답변을 기다리겠습니다. 어리석은 질문에 시간을 할애해 주셔서 감사합니다.

 
알렉세이 비아즈미킨 :

봄 - 갑자기 설명할 수 있습니다 :)

답변을 기다리겠습니다. 어리석은 질문에 시간을 할애해 주셔서 감사합니다.

반대로 올바른 논리적 질문, 나는 최근에 그들에게 질문했습니다.

 
알렉세이 비아즈미킨 :

"..."는 규칙이 변경되는 특정 기간이 아닙니다. 이상적으로는 규칙을 변경하는 패턴이 있더라도. 숲은 어떻게 이 패턴을 찾을 수 있을까요? 샘플의 n 라인 후에 규칙이 변경되고 n * x 후에 규칙이 원래 상태로 돌아갑니다. 그러나 규칙 변경의 특성이 시간 간격이 아니라 다른 상황의 영향인 경우에는 샘플에서 사용할 수 있는 데이터가 있지만 영향 패턴은 이벤트의 순서(즉, 데이터가 있는 각 행이 표시되는 순서대로)? 반면에, 숲은 다른 방법을 사용하여 조각을 꺼냅니다. 어떻게 수평(예측 변수 집합) 패턴뿐만 아니라 수직 패턴(과거 n에 대한 예측 변수의 변화)도 볼 수 있습니까?

글쎄요, 패턴의 큰 변화는 아닙니다. 오히려 대략적인 근사값입니다. 예를 들어 샘플이 충분히 크면 포리스트는 임의의 하위 집합에 대해 훈련되고 조각이 찢어지며 oob(나머지 조각)에서 모델의 유효성이 검사되고 오류가 비교됩니다. +- 오류가 동일하면 포리스트가 재학습되지 않으며, 이는 미래에 정확한 예측의 확률이 더 높다는 것을 의미합니다. oob의 오류가 만족스럽지 않으면 설정을 약간 사용하여 재생할 수 있습니다. 예를 들어 훈련 하위 집합을 줄이고(모델에 더 많은 노이즈를 추가) 검증 하위 집합을 늘릴 수 있습니다. 따라서 모델은 이미 훈련 예제를 더 나쁘게 근사하고 오류는 더 커지지만 새 데이터에서는 정확히 동일한 오류가 발생할 가능성이 있습니다. 모델은 두 하위 샘플 모두에서 안정적입니다. 그리고 하위 샘플 자체가 무작위로 선택되기 때문에 많은 수의 미지수가 훈련 하위 집합에서 다루어집니다. 사례. 이것이 만병 통치약은 아니지만 단순한 나무와 달리 작업에 더 많은 유연성을 제공합니다. NS 앙상블도 마찬가지입니다.

 
막심 드미트리예프스키 :

글쎄요, 패턴의 큰 변화는 아닙니다. 오히려 대략적인 근사값입니다. 예를 들어 샘플이 충분히 크면 포리스트는 임의의 하위 집합에 대해 훈련되고 조각이 찢어지며 oob(나머지 조각)에서 모델의 유효성이 검사되고 오류가 비교됩니다. +- 오류가 동일하면 포리스트가 재학습되지 않으며, 이는 미래에 정확한 예측의 확률이 더 높다는 것을 의미합니다. oob의 오류가 만족스럽지 않으면 설정을 약간 사용하여 재생할 수 있습니다. 예를 들어 훈련 하위 집합을 줄이고(모델에 더 많은 노이즈를 추가) 검증 하위 집합을 늘릴 수 있습니다. 따라서 모델은 이미 훈련 예제를 더 나쁘게 근사하고 오류는 더 커지지만 새 데이터에서는 정확히 동일한 오류가 발생할 가능성이 있습니다. 모델은 두 하위 샘플 모두에서 안정적입니다. 그리고 하위 샘플 자체가 무작위로 선택되기 때문에 많은 수의 미지수가 훈련 하위 집합에서 다루어집니다. 케이스. 이것이 만병 통치약은 아니지만 단순한 나무와 달리 작업에 더 많은 유연성을 제공합니다. NS 앙상블도 마찬가지입니다.

뭐, 원시적이라면 각 조건부 독립 트리의 샘플에 대해 규칙을 간단히 확인하고, 교차로 인해 오류, 재학습이 중지되지만 동일한 방식으로 모든 임시 패턴이 절단된다고 생각했던 것입니다. 인과관계를 확립할 수 없는 (그리고 이 인과관계는 트리가 그 결과를 패턴이 보존된 표본과 비교하는 경우에만 우연히 확립될 수 있음).

그리고 표본을 잘라서 더 작은 조각으로 훈련하고(1년을 12개월로 자르고 이렇게 2~3년이 걸린다고 가정해 봅시다) 그런 다음 나무의 경우 다음을 사용하여 각 나무에서 모든 규칙을 수집합니다. 큰 가중치를 부여하고 24개의 샘플과 비교하면(규칙이 샘플 옵션의 x% 미만에서 작동하는 경우 폐기), 다른 규칙이 다른 기간에 작동한다는 것을 알 수 없습니까? 그런 다음 시간 계산(재무 보고서)으로 인해 금융 시장에서 발생해야 하는 주기성에 대해 가정할 수 있습니다.

예를 들어 많은 사람들이 예측변수를 추정하기 위한 예비 방법으로 상관분석에 대해 글을 쓰는데, 표를 보고 이해가 안 가는데, 상관관계가 작으며, 트리는 구성 후 이 요소에 큰 의미를 부여한다. 왜 이런 일이 발생합니까?


"arr_TimeH"라는 예측 변수를 가져 와서 생각해 보면 다른 시간에 시장에서 다른 행동을 기대할 수 있음이 분명해집니다. 예를 들어 거래소가 열리는 오전 10시에 강한 움직임이 있을 것입니다. 정보(누적된 이벤트)는 거래가 없기 때문에 해결되고 나머지 시간에는 상황이 다를 수 있으며 동일한 계획된 뉴스가 나온 후 강력한 시장 움직임이 있을 가능성이 매우 높습니다. 이동이 전날에 비해 자주 바뀌는 저녁 세션이 있습니다. 진폭이 적을 수 있습니다. 즉, 시간이 시장 상태에 분명히 영향을 미치고 나무가 그것을 보았지만 상관 분석은 없습니다. 따라서 거래를 위한 ML 방식은 거래에 맞게 조정되어 사용되어야 하며, 데이터 전처리를 포함하여 이미 확립된 전통을 신뢰할 수 있어야 한다고 생각합니다.


추신: 저는 Photoshop에서 판을 디자인하고, 색상을 강조하기 위해 임의로 체크 표시를 했고, 체크 표시의 색상이 의미를 평가하는 척도의 색상과 일치한다는 것을 보고 미쳤습니다. 톤까지! 어때요? 나는 무의식적으로 이것에 주의를 기울였으며 그것이 내 선택에 영향을 미쳤습니다. 아마도 사람들은 직관적으로 거래할 수 있습니다. 그들은 이해하지 못하는 시스템에서.

 
알렉세이 비아즈미킨 :

예를 들어 많은 사람들이 예측변수를 추정하기 위한 예비 방법으로 상관분석에 대해 글을 쓰는데, 표를 보고 이해가 안 가는데, 상관관계가 작으며, 트리는 구성 후 이 요소에 큰 의미를 부여한다. 왜 이런 일이 발생합니까?

아마도 시간 예측 변수(월, 주, 일, 시간...)의 조합에 의해 트리가 특정 BUY/SELL 막대로 이동합니다.

이는 가격 변동과 이 속성의 상관 관계가 거의 0이 될지라도 큰 막대의 시간을 기억하고 역사적으로 수익성 있게 거래하는 것과 같습니다.

 
이반 네그레쉬니 :

아마도 시간 예측 변수(월, 주, 일, 시간...)의 조합에 의해 트리가 특정 BUY/SELL 막대로 이동합니다.

이는 가격 변동과 이 속성의 상관 관계가 거의 0이 될지라도 큰 막대의 시간을 기억하고 역사적으로 수익성 있게 거래하는 것과 같습니다.

그럴 수도 있지만 예측 변수는 요일과 시간, 즉 2개뿐입니다. 이 속성으로 5*14=70 그룹을 얻을 수 있으며 샘플에는 403933개의 행이 있습니다. 5770개의 대상 라인이 그룹에 속하는 반면 33000개의 대상 라인이 각 그룹에 속하는 것으로 나타났습니다. 그리고 다른 예측 변수도 고려한다면 이미 많은 그룹이 있을 것입니다. 사과를 세로로 가로질러 여러 조각으로 자르고 조각에 표시를 하고 다른 조각보다 더 많은 표시가 있는 조각을 태블릿에 적고 조각이 많기 때문에 조각이 있고 하나의 기호만 있는 것과 같습니다. . 따라서 특정 표본 크기에 대해 몇 개의 예측 변수가 있어야 하는지에 대한 질문이 발생합니다. 사과 조각은 어떤 크기여야 합니까?

글쎄, 그 자체로 요일과 시간의 규칙성이 있으며 크로노 미터 적 요인이 여기에 영향을 미칩니다 - 거래 세션의 시작 , 거래 세션 의 기간, 뉴스 (주로 동시에 발표되는 경제 / 통계 및 요일).

 
알렉세이 비아즈미킨 :

그럴 수도 있지만 예측 변수는 요일과 시간, 즉 2개뿐입니다. 이 기능에 따라 5*14=70 그룹을 얻을 수 있으며 샘플에는 403933개의 행이 있습니다. 5770개의 대상 라인이 그룹에 속하는 반면 33000개의 대상 라인이 각 그룹에 속하는 것으로 나타났습니다. 그리고 다른 예측 변수도 고려한다면 이미 많은 그룹이 있을 것입니다. 사과를 세로로 가로질러 여러 조각으로 자르고 조각에 표시를 하고 다른 조각보다 더 많은 표시가 있는 조각을 태블릿에 적고 조각이 많기 때문에 조각이 있고 하나의 기호만 있는 것과 같습니다. . 따라서 특정 표본 크기에 대해 몇 개의 예측 변수가 있어야 하는지에 대한 질문이 발생합니다. 사과 조각은 어떤 크기여야 합니까?

글쎄, 그 자체로 요일과 시간의 규칙성이 있으며 시간 측정 요소가 여기에 영향을 미칩니다 - 거래 세션의 시작 , 거래 세션 의 기간, 뉴스 (주로 동시에 발표되는 경제 / 통계 및 요일).

Maxim Dmitrievsky, 이 문제를 어떻게 해결합니까?

일반적으로 어떤 옵션이 있습니까? 사과 조각은 다를 수 있습니다..
앙상블의 각 ns에 대해 하나 또는 다른 컨텍스트를 추가하고 특정 제어 ns에서 이러한 컨텍스트를 사용합니까?
문맥이란, 예를 들어 몇 가지 기본 정의, 개념, 예측자 및 일부 데이터와의 연결을 의미합니다.