트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2537

 
Aleksey Vyazmikin # :

그리고 타겟이 랜덤으로 설정되지 않는다면?

그러나 ~함에 따라? 입력 중 하나를 출력에 복제하시겠습니까? 잘 배우십시오. 시도도 한 것 같습니다.

Aleksey Vyazmikin # :

여기에서 실험을 했습니다. 저는 보통 샘플을 3개로 나누어서 하나의 샘플로 결합하고 100개의 트리 모델을 훈련시킨 다음 사용하지 않은 예측자를 살펴보고 차단했습니다. 그런 다음 평소와 같이 두 번째 샘플에서 재학습 정지를 사용하여 모델을 훈련하고 예측 변수를 제외하지 않고 훈련할 때 세 번째 샘플의 결과를 옵션과 비교했습니다. 결과는 선택된 예측 변수에서 더 나은 것으로 나타났으며 여기에서 나는 이 효과의 결론에 대해 의아해합니다. "다른 예측 변수의 선택은 구간에 대한 샘플의 차이로 인한 것입니다. 전체 샘플 에서 오랜 기간 동안 중요성을 잃지 않는 예측 변수를 자동으로 선택합니다. " time .".

예, 미래에 영향을 미칠 항목을 선택했습니다. 과거에는 영향이 거의 없었을 수도 있지만, 향후에도 좋은 영향을 미치기 때문에 전체 표본에 대한 평균 결과를 토대로 선정했습니다.

Aleksey Vyazmikin # :

그러나 이것이 표본이 클수록 장기적으로 모델이 더 안정적이라는 것을 의미합니까? 이런 식으로 훈련을 위한 예측 변수를 선택할 수 있습니까? 이것은 재교육에 기여하지 않습니까?

그들이 말했듯이 시장은 변화하고 있습니다. 새로운 플레이어가 와서 새 로봇을 만들고 기존 로봇을 끄는 등의 작업을 수행합니다. 매우 큰 샘플에서 모델은 이러한 모든 변경 사항에 대한 평균 결과에 도달할 것이며 아마도 0이 될 것입니다. 최대의 효율성을 위해 훈련의 깊이를 선택하고 정기적으로 재훈련하는 것이 필요하다고 생각합니다. 나 자신도 같은 기간으로 실험합니다(예: 2년 동안의 테스트, 토요일에 재교육, 며칠에서 1~2년까지 데이터 크기를 시도했습니다).
이론적으로 각 재훈련에 대해 훈련을 위한 샘플 크기를 어떻게든 자동으로 결정하는 것이 더 나을 것입니다. 하지만 아직 방법을 모르겠습니다.

Aleksey Vyazmikin # :
일반적으로 CatBoost 제작자로부터 모델의 하이퍼파라미터를 찾은 다음 사용 가능한 전체 샘플에서 어리석게도 모델을 작업에 적용해야 한다는 권장 사항을 들었습니다.

나쁜 제작자는 조언하지 않을 것입니다) 나는 앞으로 걷기(VF)에서 하이퍼파라미터를 선택합니다. 왜냐하면 데이터의 순서는 그대로 유지되며 여기서는 오래된 데이터의 영향의 악화에 따라 훈련을 위한 히스토리의 깊이를 선택하는 것이 가능합니다. 데이터가 시간이 지남에 따라 변경되지 않는 경우 교차 검증(CV)에서도 가능하지만 이는 시장에 관한 것이 아닙니다.
물론 선택 후에는 현재까지 학습하고 HF나 WF의 forward 부분에 있던 시간만큼 모델을 사용해야 합니다.
테스트 사이트와 동일한 사이트에서 교육함으로써 모델과 하이퍼파라미터를 해당 1개의 테스트에 맞춥니다. 그리고 HF 또는 WF에 대해 10-50번 훈련하면 역사의 많은 부분에 대해 최고의 하이퍼파라미터를 찾을 수 있습니다.
어쩌면 더 나을 수도 있고, 일주일에 한 번 하이퍼파라미터를 선택하기에는 너무 게으른 것일 수도 있습니다.) 그래서, 실제로 더 나은 것은 - 연습이 보일 것입니다.

 
도서관 # :
이론적으로 각 재훈련에 대해 훈련을 위한 샘플 크기를 어떻게든 자동으로 결정하는 것이 더 나을 것입니다. 하지만 아직 방법을 모르겠어

평균을 결정하려면

gen의 크기라면. 알 수 없는 특종 - 리샘플링 크기 계산

n=(t^2*시그마^2)/delta_y^2

- 무작위 표본의 경우(계층화 및 연속 표본의 경우 공식이 조금 더 복잡해짐)

저것들. 필요한 신뢰 확률 P와 ver-ty 95%에 대한 해당 신뢰 계수(신뢰도) t=2 ... 평균의 허용 가능한 최대 한계 오차를 결정해야 합니다. 트레이더) 제수로 ... 그리고 분산(시그마)은 알 수 없지만 이전 관찰에서 알 수 있습니다 ...

일반적으로 부동 창[원칙적으로 "샘플 크기"라고 말할 수 있음] 및 t-통계에 대해 이야기할 때 이에 대해 썼고 평면 추세와 "우리가 있는 위치"의 확률을 결정하는 t-통계량에 대해 이야기할 때 의심을 썼습니다. - RS를 거부하거나 RS를 흡수하기 위해 ...

물론 기능에 규범이 있는 경우에 한합니다. 분포, 글쎄, 그것은 결과에 영향을 미치는 주요 요인입니다 (아마도 이미 dy / dx-> min을 결정했을 것입니다) ... 우리는 다 요인 모델에 대해 이야기하고 있지 않습니다 (아마도이 경우 당신은 계산된 값에서 최대값을 취할 수 있습니다... IMHO)

사인의 몫을 결정하기 위해

같은 방식으로 오류 표시기 및 평균의 분산 대신 몫의 한계 오차(delta_w)와 대체 특성 w(1-w)의 분산을 사용합니다.

주파수(w)가 대략적으로 알려지지 않은 경우 계산은 최대값을 고려합니다. 공유 분산 값, 0.5(1-0.5)=0.25

cboe by opts, 가장 가까운 2개의 K_opt 만료 날짜 전 분은 비대칭 평가에 포함됩니다(대체 기호로)...

또는 사랑. 맛과 색의 다른 징후(옵션이 없는 경우)

p.s 여기처럼

pps가 있는 그대로 논리적으로, 그리고 알려지지 않은 유전자가 있는 모델을 구축할 때 샘플 충분성 계산을 구현하는 방법. 전체성은 심판을 갖는 문제입니다. 데이터와 논리 ... 하지만 2년 - 나에게도 표준인 것 같습니다. 인구 유전자 범위 ... IMHO

Определение объема выборки
Определение объема выборки
  • 2013.08.16
  • baguzin.ru
Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов...
 
JeeyCi # :

평균을 결정하려면

gen의 크기라면. 알 수 없음 - 무작위 샘플에 대한 재샘플링 볼륨 계산(계층화 및 연속 샘플의 경우 공식이 조금 더 복잡해짐)

n=(t^2*시그마^2)/delta_y^2

저것들. 필요한 신뢰 확률 P와 ver-ty 95%에 대한 해당 신뢰 계수(신뢰도) t=2 ... 평균의 허용 가능한 최대 한계 오차를 결정해야 합니다. 트레이더) 제수로 ... 그리고 분산(시그마)은 알 수 없지만 이전 관찰에서 알 수 있습니다 ...

일반적으로 부동 창[원칙적으로 "샘플 크기"라고 말할 수 있음] 및 t-통계에 대해 이야기할 때 이에 대해 썼고 평면 추세와 "우리가 있는 위치"의 확률을 결정하는 t-통계량에 대해 이야기할 때 의심을 썼습니다. - RS를 거부하거나 RS를 흡수하기 위해 ...

물론 기능에 규범이 있는 경우에 한합니다. 분포, 글쎄, 그것은 결과에 영향을 미치는 주요 요인입니다 (아마도 이미 dy / dx-> min을 결정했을 것입니다) ... 우리는 다 요인 모델에 대해 이야기하고 있지 않습니다 (아마도이 경우 당신은 계산 된 ... IMHO에서 최대 값을 취할 수 있습니다.

사인의 몫을 결정하기 위해

같은 방식으로 오류 표시기 및 평균의 분산 대신 몫의 한계 오차(delta_w)와 대체 특성 w(1-w)의 분산을 사용합니다.

cboe by opts, 가장 가까운 2개의 K_opt 만료 날짜 전 분은 비대칭 평가에 포함됩니다(대체 기호로)...

또는 사랑. 맛과 색의 다른 징후(옵션이 없는 경우)

p.s 여기처럼

pps가 있는 그대로 논리적으로, 그리고 알려지지 않은 유전자가 있는 모델을 구축할 때 샘플 충분성 계산을 구현하는 방법. 전체성은 심판을 갖는 문제입니다. 데이터와 논리 ... 하지만 2년 - 나에게도 표준인 것 같습니다. 인구 유전자 범위 ... IMHO

FOR 평균 정의:
(높음+낮음)/2
 
블라디미르 바스카 코프
FOR 평균 정의:
(높음+낮음)/2

화내고 싶지 않았지만 "중간", (높음 + 낮음) / 2, 엄밀히 말하면 전혀 부를 수 없으며 이에 대한 더 많은 학명이 있습니다. 사건의 시기는 알 수 없고 불균등하고 불규칙하다.

 
막심 쿠즈네초프 # :

화내고 싶지 않았지만 "중간", (높음 + 낮음) / 2, 엄밀히 말하면 전혀 부를 수 없으며 이에 대한 더 많은 학명이 있습니다. 사건의 시기는 알 수 없고 불균등하고 불규칙하다.

내 생각에 이것은 평균의 가장 평균입니다.
 
막심 쿠즈네초프 # :

사건 의 시기는 알 수 없고 불균등하고 불규칙하다.

참, 습관적으로 '징조'를 생각하면서 ' 사건' 을 놓치고 ... - 나는 항상 잊어 버립니다 ... 말씀을 상기시켜 주셔서 감사합니다! .. - 여기에서 Bayes '정리 , 판단 논리적으로, 그래서 나는

 
어리석은 것일 수도 있지만 닫기 외에는 사용하는 것을 좋아하지 않습니다. 가까운 곳에서 일련의 관찰(미안)이 있을 때 관찰 사이에 고정된 시간 기간이 있다는 것을 항상 알고 있습니다(항상 동일하고 안정적이며 나에게 알려져 있음). 그리고 그들과 함께 낮음 / 높음 및 다른 계산을 사용할 때 관찰 사이에 ..... 임의의 기간이 나타납니다. 이것은 항상 하나의 관찰에서 다른 관찰로 다릅니다.
 
레나트랩 # :
어리석은 것일 수도 있지만 닫기 외에는 사용하는 것을 좋아하지 않습니다. 가까운 곳에서 일련의 관찰(미안)이 있을 때 관찰 사이에 고정된 시간 기간이 있다는 것을 항상 알고 있습니다(항상 동일하고 안정적이며 나에게 알려져 있음). 그리고 그들과 함께 낮음 / 높음 및 다른 계산을 사용할 때 관찰 사이에 ..... 임의의 기간이 나타납니다. 이것은 항상 하나의 관찰에서 다른 관찰로 다릅니다.

무작위성과 항상 다른 것에 대해 물론, 이것은 마하넛입니다 ... 이것은 실제로이 모든 할라부다를 연구하는 전체 목적입니다 - 시간과 가격의 높거나 낮은 것을 다소 정확하게 결정하기 위해 :-)

 
레나트랩 # :
어리석은 것일 수도 있지만 닫기 외에는 사용하는 것을 좋아하지 않습니다. 가까운 곳에서 일련의 관찰(미안)이 있을 때 관찰 사이에 고정된 시간 기간이 있다는 것을 항상 알고 있습니다(항상 동일하고 안정적이며 나에게 알려져 있음). 그리고 그들과 함께 낮음 / 높음 및 다른 계산을 사용할 때 관찰 사이에 ..... 임의의 기간이 나타납니다. 이것은 항상 하나의 관찰에서 다른 관찰로 다릅니다.

엄격하게 수학적으로 접근하는 경우 Open을 사용해야 합니다. 그 이유는 해당 틱의 도착 순간이 Markovian이기 때문입니다. 이는 개방으로 명확하게 정의됩니다(완벽한 시간과 누락된 따옴표가 없다고 가정). 틱이 도착하는 순간 닫기는 시간 프레임 세그먼트가 끝나기 전에 닫기로 명확하게 정의될 수 없습니다.

그러나 더 자주 폐쇄로 작업하는 것이 일반적입니다. 아마도 매일 인용문으로 작업하던 시절부터였을 것입니다.

 
Alexey Nikolaev # :

엄격하게 수학적으로 접근하는 경우 Open을 사용해야 합니다. 틱의 도착 순간이 Markovian이기 때문입니다. 이는 오프닝으로 고유하게 정의됩니다.

기술적으로 말해서, 마감은 유효한 시간이 있는 유일한 가격입니다. 한 막대를 다른 막대로 변경하는 순간 가격은 종가와 정확히 같습니다.

open은 새 막대의 첫 번째 눈금 가격입니다. 이 첫 번째 눈금이 막대 변경 후 10분이면 해당 순간 동안 열립니다.

사유: