트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1614

 
알렉세이 니콜라예프 :

예를 들어 모든 전략이 BUY만 하는 경우 시간상 교차를 최소화하는 것(항상 긍정적인 상관관계를 최소화함)으로 귀결될 것입니다. BUY 및 SELL이 허용되는 경우 시간 교차는 전략의 잘못된 부분을 상쇄하는 데 유용할 수 있습니다(음의 상관 관계는 일반적으로 포트폴리오에 좋습니다).

아마도 전략의 시간과 교차 시간을 통해 간단하게 상관 관계를 결정할 수 있습니다.

일반적으로 다방향 신호의 상호보상에는 동의하지만, 제 경우에는 서로 다른 전략을 사용해야 하고, 각각의 표시를 하는 것도 다른 곡이지만 이것도 사용할 생각입니다.

그러나 유사한 전략을 찾기 위해서는 그룹에서 선택하거나 위험(로트)을 분담하기 위해서는 시장에 진입하고 퇴출하는 시점뿐만 아니라 진입 방향도 고려해야 합니다. 여기에서 가장 좋은 방법에 대해 더 많이 생각해야 합니다.

 
알렉세이 비아즈미킨 :

완벽하다는 것은 무엇을 의미합니까? 저는 수동으로 하지 않고 지금 보이는 방식으로 스크립트를 작성합니다.

제 경우에는 각 예측 변수 값 옵션을 개별적으로 평가하는 것이 이상적입니다. 그리고, 하나의 목표를 하나의 예측자로 부스트하는 예측자의 활성화 범위를 병합하고 싶습니다. 내가 아는 그리드는 하지 않는 것으로, 병합이 순위의 예측자를 스파링(노드 구축 ) 다른 예측 변수와 함께. 이론상.


아래 그림과 같이 값 1과 4와 같이 중간 값을 제외하고 하나의 분할에서 간격이 있는 범위를 집계할 수 있는 분할 그리드는 무엇입니까?


이상적(Ideal) - 이상적으로 정확히는 분리 평가 기능에 따른 의미. 그녀는 수천 가지 옵션을 평가하고 가장 좋은 옵션을 기억할 것이고 그는 매듭이 될 것입니다.

가장 쉬운 방법은 24개의 표준 포리스트/부스팅을 훈련하여 각각에 해당하는 시간의 예측자를 제공하는 것입니다.

 
도서관 :

이상적(Ideal) - 이상적으로 정확히는 분리 평가 기능에 따른 의미. 그녀는 수천 가지 옵션을 평가하고 가장 좋은 옵션을 기억할 것이고 그는 매듭이 될 것입니다.

알고리즘에 따르면 어떤 알고리즘이 올바른지 알 수 있습니다. CatBoost 에만 메싱을 위한 3가지 알고리즘이 있습니다.

도서관 :

가장 쉬운 방법은 24개의 표준 포리스트/부스팅을 훈련하여 각각에 해당하는 시간의 예측자를 제공하는 것입니다.

이것은 조건부로 샘플을 24배 줄인 다음(내 샘플은 이미 너무 작음), 트리 구축 탐욕의 원칙을 관찰하면서(트리 분할에 대한 실험에서 밝혀진 것처럼 항상 사실이 아님), 특정 시간에 통계적으로 가장 가능성이 높았던 나무 가지에 대한 예측 변수만 선택하지만, 제 생각에는 다른 규칙에 관계없이 기호를 찾아 나무에 넣어야 합니다. 전체 샘플에 비해 이점을 제공한 경우 하루 중 특정 시간(활성화에 대한 조건부로 더 정확한 설명 하나의 이벤트)에 대한 조정을 얻지 못하고 하나의 시트에 독립적인 확률이 누적됩니다.

 
알렉세이 비아즈미킨 :

이것은 예측 능력에 대한 예측 변수 값의 범위를 테스트하고 예측 능력을 더 잘 강조하는 방식으로 범위의 세그먼트를 분할하려고 시도하는 알고리즘입니다. 대상이 3개인 표본이 있고 표본이 1 - 24%, 2 - 50%, 3 - 26%로 분포되어 있고 값의 범위가 있는 특정 예측자가 있으므로 그리드의 목표는 다음과 같습니다. 예측 변수 값의 영역을 찾기 위해 목표 1이 24%가 아니라 "예측"되고 이 섹션이 분할된다고 가정해 보겠습니다. 이러한 그리드를 구성하기 위한 알고리즘에는 다양한 변형이 있습니다.

재미있는 아이디어지만 이렇게 하면 더 쉽겠죠?..

항목 1) mash에 대한 일종의 알고리즘이 있습니다. 훈련 모

p.2) train과 test로 구분되는 샘플이 있습니다.

p.3) 어떤 원칙(시간, 차트 패턴, 모두 함께, 다른 것 ... ...)에 따라 클러스터링된 가격이 있습니다(이것은 시장 상황 또는 클러스터로 인식될 수 있음)

추신. 클러스터가 많거나 매우 양호해야 합니다. 많은


액션 알고리즘:

1) 우리는 기차에서 MO를 훈련합니다

2) 과학적 모델의 바닥은 테스트를 예측합니다.

3) 테스트에서 모델이 오류 없이 예측한 점을 선택합니다. 이를 ХТ(좋은 점)이라고 부르겠습니다.

4) 각 XT는 위의 항목 3의 일부 클러스터에 해당합니다..

그게 다야, 이제 우리는 모델이 잘 거래되는 시장의 클러스터(상태)를 압니다.


그러나 내가 제안한 접근 방식에는 먼저 해결해야 할 개념적 결함이 있습니다. 오히려 문제는 접근 방식도 아닌 정보 표현 방식에 있다.

 
mytarmailS :


p.3) 어떤 원칙(시간, 차트 패턴, 모두 함께, 다른 것 ... ...)에 따라 클러스터링된 가격이 있습니다(이것은 시장 상황 또는 클러스터로 인식될 수 있음)

추신. 클러스터가 많거나 매우 양호해야 합니다. 많은

이해가 되지 않습니다. 타겟 큐 포인트의 가격을 그대로 가져와 클러스터링하거나 무엇을 제안하시겠습니까?


mytarmailS :


3) 테스트에서 모델이 오류 없이 예측한 점을 선택합니다. 이를 ХТ(좋은 점)이라고 부르겠습니다.

4) 각 XT는 위의 항목 3의 일부 클러스터에 해당합니다..

그게 다야, 이제 우리는 모델이 잘 거래되는 시장의 클러스터(상태)를 압니다.

아이디어는 흥미롭지만 그 원리는 내가 제안한 것과 전혀 관련이 없거나 완전히 이해하지 못합니다. 우리는 모델이 특정 비율의 클러스터를 활성화했다는 것을 배웠고 다음에는 이에 대해 무엇을 해야 합니까? 내가 이해하는 한, 당신은 어떤 잎이 (우리가 한 나무에 대해 이야기하고 있다면) 얼마나 많은 클러스터가 활성화되었는지, 그리고 잎이 하나의 클러스터를 훨씬 더 자주 활성화한다면, 이것은 그것을 결정하는 법을 배웠다고 말할 것입니다. . 여기에서 대부분의 시트가 다른 클러스터에서 고르게 올바르게 활성화되어 분명히 임의성을 나타낼 수 있습니다. 그리고 다시, 클러스터링 알고리즘에 확신이 있어야 합니다. 결과가 고유한 클러스터이고 유사한 클러스터가 많지 않은지 확인하십시오.

 
알렉세이 비아즈미킨 :

알고리즘에 따르면 어떤 알고리즘이 올바른지 알 수 있습니다. CatBoost에만 메싱을 위한 3가지 알고리즘이 있습니다.

이것은 조건부로 샘플을 24배 줄인 다음(내 샘플은 이미 너무 작음), 트리 구축 탐욕의 원칙을 관찰하면서(트리 분할에 대한 실험에서 밝혀진 것처럼 항상 사실이 아님), 특정 시간에 통계적으로 가장 가능성이 높았던 나무 가지에 대한 예측 변수만 선택하지만, 제 생각에는 다른 규칙에 관계없이 기호를 찾아 나무에 넣어야 합니다. 전체 샘플에 비해 이점을 제공한 경우 하루 중 특정 시간(활성화에 대한 조건부로 더 정확한 설명 하나의 이벤트)에 대한 조정을 얻지 못하고 하나의 시트에 독립적인 확률이 누적됩니다.

샘플을 자르는 위치에 어떤 차이가 있습니까? 외부에서 24개의 스캐폴드를 만들거나 내부에서 예를 들어 처음 24개의 노드를 시간으로 나눈 값을 추가하여? 이 24개 노드에서 샘플의 1/24가 나머지 분기로 이동합니다.

 
그건 그렇고, 내가 부스팅에 대해 좋아하지 않는 것은 권장 목재 깊이가 7-10이라는 것입니다.
저것들. 100개의 예측 변수가 있고 나눗셈도 각 예측 변수의 중간에서 시작됩니다. 그런 다음 높은 확률로 중간에 7개의 서로 다른 예측 변수를 나눕니다. 아마도 1 또는 2는 거의 1/4까지 공유할 것입니다.
아니면 알고리즘이 알고리즘을 반으로 나누지 않고 더 작은 조각으로 부스팅하는 데 작동합니까? 아는 사람 있나요?
그리고 누가 나무의 깊이를 사용합니까?
 
도서관 :

샘플을 자르는 위치에 어떤 차이가 있습니까? 외부에서 24개의 스캐폴드를 만들거나 내부에서 예를 들어 처음 24개의 노드를 시간으로 나눈 값을 추가하여? 이 24개 노드에서 샘플의 1/24가 나머지 분기로 이동합니다.

감소에 관한 것이 아니라 분할 외부의 샘플에 대한 예측자의 행동에 대한 통계에 관한 것입니다. 이는 예측자 값 선택의 무작위성을 줄여야 합니다.

그건 그렇고 AlgLib은 각 분할에 그리드를 만들거나 한 번 만든 다음이 그리드를 사용합니까? 내가 알기로 는 CatBoost 의 개발자들은 그리드가 한 번만 끝난다고 주장합니다.

 
알렉세이 비아즈미킨 :

이해가 되지 않습니다. 타겟 큐 포인트의 가격을 그대로 가져와 클러스터링하거나 무엇을 제안하시겠습니까?

당신의 목표, 아무 .. 내가 조금 헐렁하게 설명했습니다 ....

클러스터는 한 가지 목적으로만 필요합니다.


그래서 우리는 새로운 테스트에서 XT를 발견하고 좋은 것으로 받아 들였습니다..

이제 새 데이터에서 모델을 적용하기 위해 이 TX를 찾아야 합니다. 모델은 XT에서만 잘 작동하기 때문입니다. 하지만 새 데이터에서는 어떻게 인식합니까? 클러스터 번호별 옵션으로

 
알렉세이 비아즈미킨 :

일반적으로 다방향 신호의 상호보상에는 동의하지만, 제 경우에는 서로 다른 전략을 사용해야 하고, 각각의 표시를 하는 것도 다른 곡이지만 이것도 사용할 생각입니다.

그러나 유사한 전략을 찾기 위해서는 그룹에서 선택하거나 위험(로트)을 분담하기 위해서는 시장에 진입하고 퇴출하는 시점뿐만 아니라 진입 방향도 고려해야 합니다. 여기에서 가장 좋은 방법에 대해 더 많이 생각해야 합니다.

나는 그 아이디어를 논리적인 결론에 이르게 할 것이다. 하나의 자산에 일련의 시스템이 있다고 가정합니다. 각 시스템은 시장에 출시될 때 고정된 볼륨의 위치를 유지하지만 방향은 바뀔 수 있습니다. 전략의 수익성과 변동성은 알려져 있습니다. 공식 (t1-t2)/sqrt(T1*T2)로 전략 간의 상관 관계를 정의해 보겠습니다. 여기서 T1과 T2는 시장에 머무는 기간이고 t1과 t2는 이러한 전략이 유지되는 기간입니다. 시장에서 동시에 그리고 각각 동등하게 그리고 반대로 지시합니다. 가격이 SB에 가깝다는 가정 하에 도출된 단순화된 공식입니다. 이제 최적의 포트폴리오를 찾기 위해 마코위츠 이론 을 적용할 모든 데이터가 있습니다.

분명히, 우리는 이러한 방식으로 의미 있는 포트폴리오를 얻지 못할 것입니다(적어도 하나의 자산만 사용된다는 사실 때문에). 약간의 수정이 필요합니다.

1) 최적화 알고리즘 변경(파라미터 제한, 패널티). 전략 간의 상관관계 정의를 구체화합니다.

2) 전략 수립 시점에 이미 포트폴리오를 최적화합니다. 즉, 포트폴리오 최적의 조건을 기반으로 전략을 찾는 것입니다. 이것이 어떻게 실제적인 방식으로 공식화될 수 있는지 완전히 명확하지 않지만 접근 방식이 전반적으로 더 논리적으로 보입니다. 이미 쓴 것처럼 알고리즘 등을 다시 작성하는 등의 작업이 필요합니다. 게임이 촛불의 가치가 있다는 사실이 아니라