트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2648

 
Aleksey Nikolayev #:

식별 된 상자로 무엇을해야하는지에 대한 질문은 복잡하고 가능한 모든 경우에 대해 명확하고 모호하지 않은 규칙이 거의 없다고 생각합니다. 훌륭하고 신중한 알고리즘은 아마도 비밀스러운 '노하우'일 것입니다.)

동일한 예측자 세트에서 케이스를 얻은 경우 교차하지 않는 것으로 충분할 수 있습니다. 교차점이 있는 경우 별도의 상자에 할당할 수 있으며, 그 보완 요소를 여러 개의 상자로 나눌 수 있습니다. 그러나 상자의 수가 너무 많으면 샘플이 너무 많이 조각화됩니다. 따라서 상자의 개념을 일반화할 수 있는데, 규칙의 언어로는 AND에 부정과 OR을 추가하는 것을 의미합니다.

완전히 다른 예측 변수(예: 랜덤 포레스트 방법)에서 박스를 얻은 경우, 박스는 그 안에 해당하는 샘플 부분의 의미에서만 겹칠 수 있습니다. 여기에는 아마도 포트폴리오에 가까운 아이디어가 필요할 것입니다.

예측자 집합이 부분적으로 겹치는 경우 접근 방식이 혼합되어 있어야 하지만 확실하게 말하기는 어렵습니다.

이를 어떻게 통합된 계획에 넣을 수 있는지 명확하지 않습니다. 의사 결정 트리를 간단하고 "멋지게" 구성하는 표준 방식은 이러한 문제를 우회하기 때문에 우리의 목적에 적합하지 않습니다. 가지 치기 알고리즘을 선택하여 개선 할 수 있지만 제 생각에는 규칙 구성 알고리즘을 창의적으로 재 작업하는 것이 좋습니다.

가장 현명한 결론...

기본 제공 알고리즘에는 근사 규칙, 즉 다음과 같은 멍청한 규칙만 있습니다:

x[1]>0.5 && x[3]> -0.2 &...

그들은 변수 (행렬 또는 프레임 X1.....X10의 열)와 추상적 인 경계 (숫자 X[1]> 0.5 )만 가지고 있으며, 그는 수업에서 경계를 만드는 방법을 배우는 과정에서 자신이 발명했습니다.

사소한 X1> X2는 어떨까요?

또는 X1 !> X2의 부정은 어떻습니까?

X1> (X2*X3) 은 어떨까요?

그리고 고정되지 않은 시장에서는 작동하지 않는 지수에 대한 바인딩은?


제 말은 "A "가 있지만 "B "가 없으면 "C"라는 식을 말하는 것입니다.

알고리즘이 처음부터 그런 것은 아닙니다.

알고리즘은 포레스트가 수백 개의 규칙을 만들고 클래스 확률의 합을 보는 것과 동일합니다. 시장에서는 희귀 이벤트에 관심이 있으므로 규칙의 수가 아니라 규칙의 수로 이동해야 합니다.

 

차원 축소 알고리즘이 정규화 유무 에 따라 데이터 유형이 다른 샘플을 어떻게 보는지 궁금합니다.

예를 들어 데이터 유형에는 문자열과 숫자가 있습니다.

q1           q2
1    c -1.630015623
2    c  1.781979246
3    b -0.598134088
4    a -0.611477494
5    b -0.347432530
6    b -0.474427356
7    e -1.048827859
.....

먼저 q1을 숫자로 변환합니다.

q1           q2
1    3 -1.630015623
2    3  1.781979246
3    2 -0.598134088
4    1 -0.611477494
5    2 -0.347432530
6    2 -0.474427356
7    5 -1.048827859

.... 

done

이제 UMAP 알고리즘으로 전송하여 고유 벡터를 얻습니다.

                  [,1]         [,2]
    [1,]   6.762433406   9.08787260
    [2,] -21.488330368  10.67183802
    [3,]   6.810413818   9.35273386
    [4,] -20.950310976  15.20258097
    [5,]  32.100723691  -9.74704393
    [6,]   6.892939805  16.84639975
    [7,] -17.096480607  -6.63144430

점을 시각화합니다.

멋진 웜을 얻었습니다))

변수 q1로 점에 색을 칠해 보겠습니다.


변수 q1이 이 웜의 구조를 만드는 것을 볼 수 있듯이, 이 변수는 그 자체로 중요도를 끌어올려 변수 q2의 기여도를 감소시킵니다.

이는 변수 q1의 값이 크고 데이터가 정규화되지 않았 기 때문입니다.

데이터를 정규화하면 각 변수가 동일한 기여도를 가지게 되고 다음과 같은 결과를 얻을 수 있습니다.

일부 참가자에게는 이것이 너무 당연한 일이고 정규화해야 한다는 것을 이해합니다,

하지만 변수의 기여도를 높이거나 낮춤으로써 클러스터링을 제어할 수 있다는 생각을 해본 적이 있나요?

 
mytarmailS #:

포인트 시각화


기생충처럼 보입니다 :)

 
mytarmailS #:

하지만 변수의 기여도를 높이거나 낮춤으로써 클러스터링을 제어할 수 있다고 생각해 본 적이 있나요?

네, 의도적으로 중요성을 과대 또는 과소 평가할 수 있습니다.
하지만 이것은 예술이기 때문에 분석하기가 어렵습니다.
가격의 비고정성으로 인해 상황은 악화되고, 저는 오랫동안 징후와 싸우고 있습니다. 규모나 정규화를 변경하면 학습된 모델의 속성이 변경됩니다.
 
Maxim Dmitrievsky #:
고정되지 않은 가격 때문에 저는 오랫동안 간판과 전쟁을 치르고 있습니다.
우리 모두가 싸우고 있습니다.
 
mytarmailS 차원 축소 알고리즘이 정규화 유무 에 따라 데이터 유형이 다른 샘플을 어떻게 보는지 궁금합니다.

예를 들어 데이터, 문자열 및 숫자 유형이 있습니다.

먼저 q1을 숫자로 변환합니다.

문자열은 숫자보다는 범주형으로 변환하는 것이 좋습니다. 물론 UMAP에서 처리할 수 있다면 말이죠.

a=1과 e=5는 5배가 아니라 따뜻함과 부드러움처럼 서로 다를 뿐입니다. 그리고 이를 디지털화함으로써 더 따뜻하고 부드럽게 만들 수 있습니다.

 
elibrarius #:

a=1은 e=5와 다섯 배는 다르지 않아요. 그냥 다를 뿐이죠,

네, 맞아요, 제가 멍청했어요.

핫 변환을 하든가 해야죠.
 
Aleksey Nikolayev #:

식별 된 상자를 어떻게 처리해야하는지에 대한 질문은 복잡하고 가능한 모든 경우에 대해 명확하고 모호하지 않은 규칙이 거의 없다고 생각합니다. 훌륭하고 신중한 알고리즘은 아마도 비밀스러운 '노하우'일 것입니다.)

동일한 예측자 집합에서 케이스를 얻은 경우 교차하지 않는 것으로 충분할 수 있습니다. 교차점이 있는 경우 별도의 상자에 할당할 수 있으며, 그 보완 요소를 여러 개의 상자로 나눌 수 있습니다. 그러나 상자의 수가 너무 많으면 샘플이 너무 많이 조각화됩니다. 따라서 상자의 개념을 일반화할 수 있는데, 규칙의 언어로는 AND에 부정과 OR을 추가하는 것을 의미합니다.

완전히 다른 예측 변수(예: 랜덤 포레스트 방법)에서 박스를 얻은 경우, 박스는 그 안에 해당하는 샘플 부분의 의미에서만 겹칠 수 있습니다. 여기에는 아마도 포트폴리오에 가까운 아이디어가 필요할 것입니다.

예측자 집합이 부분적으로 겹치는 경우 여러 가지 접근 방식이 혼합되어 있을 수 있지만 확실하게 말하기는 어렵습니다.

이를 어떻게 통합된 계획에 넣을 수 있는지 명확하지 않습니다. 의사 결정 트리를 간단하고 "멋지게" 구성하는 표준 방식은 이러한 문제를 우회하기 때문에 우리의 목적에 적합하지 않습니다. 가지 치기 알고리즘을 선택하여 개선 할 수 있지만 제 생각에는 규칙 구성 알고리즘을 창의적으로 재 작업하는 것이 좋습니다.

글쎄요, 세부 사항을 이해하지 않으면 논리를 변경하기가 어렵습니다.

개인적으로 상자의 추가 2 개 좌표 (2-양자 경계)가 무엇인지 이해하지 못했습니다. 저는 그것이 샘플 트리밍이라고 가정했습니다.

제 방법을 개발하는 데 유용한 것을 찾고 있습니다. 나는 또한 "상자"를 붙이고 있지만 알고리즘이 완벽하지 않습니다.

 
Aleksey Vyazmikin #:

세부 사항을 이해하지 못하면 로직을 변경하기 어렵습니다.

저는 개인적으로 상자의 추가 2 좌표가 무엇인지 이해하지 못했습니다 (2-양자 경계) - 저는 그것이 샘플 트리밍이라고 가정했습니다.

내 방법을 개발하는 데 유용한 것을 찾고 있습니다. 저도 "상자"를 붙이는 방법을 가지고 있지만 알고리즘이 완벽하지 않습니다.

PRIM에 대해 구체적으로 이야기하고 있다면 내 링크에서 두 개의 예측 변수 x1과 x2에 대해 어떻게 작동하는지에 대한 예를 제공했습니다. 따라서 (A1<X1<B1)&(A2<X2<B2) 형식의 상자가 선택됩니다. 상자 밖에 남은 것은 분명히 상자 안의 것과 다른 클래스에 속하는 것으로 간주됩니다.각 단계에서 상자에서 작은 조각(필링) 을 잘라내는 알고리즘의 본질을 간단한 예시를 통해 보여주려는 시도가 있었습니다.어떤 조각이 잘리고 "궤적"단계의 최적성 조건에서 어떤 예측자가 선택되는지.

저는 이 알고리즘이 (풀이 트리를 위한) 규칙을 만드는 표준 알고리즘을 필요에 맞게 어떻게 수정할 수 있고 수정해야 하는지에 대한 예로서 흥미로웠습니다.

 
Aleksey Nikolayev #:

PRIM에 대해 구체적으로 이야기하는 경우, 방금 링크에서 두 개의 예측 변수 x1과 x2에 대해 어떻게 작동하는지 예제를 제공했습니다. 따라서 (A1<X1<B1)&(A2<X2<B2) 형식의 상자가 선택됩니다. 상자 밖에 남은 것은 분명히 상자 안의 것과 다른 클래스에 속하는 것으로 간주됩니다.각 단계에서 상자에서 작은 조각(필링)을 잘라내는 알고리즘의 본질을 간단한 예시를 통해 보여주려는 시도가 있었습니다.어떤 조각이 잘리고 "궤적"단계의 최적성 조건에서 어떤 예측자가 선택되는지.

저는 이 알고리즘이 (풀이 트리를 위한) 규칙을 만드는 표준 알고리즘을 필요에 맞게 어떻게 수정할 수 있고 수정해야 하는지를 보여주는 예로서 흥미로웠습니다.

처음에는 이해하지 못했는데 설명해 주셔서 감사합니다.

그러나 첫 번째 단계의 알고리즘은 상자로 더 잘 분리되는 예측자 쌍을 찾은 다음 "필링"을 적용해야 한다는 것이 밝혀졌습니다.

사유: