세그먼트 범위를 결합하는 알고리즘 - 생성에 도움 - 페이지 7

 
Aleksey Nikolayev :

질문은 주제에서 벗어나 더 철학적입니다. 기능을 세그먼트로 분할하여 분류하는 접근 방식은 입력에 대한 출력의 불연속적인 종속성을 의미한다는 것을 알고 있습니까? 즉, 거래가 한 속성 값 집합으로 시작되고 첫 번째 속성 값에 매우 매우 가까운 다른 속성 값 집합으로 거래가 열리지 않을 때 상황이 발생할 수 있습니다(경계 근처에 있지만 반대쪽에 있음). 이것이 잘못된 접근이라고 말하는 것이 아닙니다. 저는 묻고 싶습니다. 트레이더의 직관이 이면에 있습니까, 아니면 임의적인 선택입니까?

네, 이론상 가능합니다. 그러나 부스팅 방법은 다른 예측 변수에 대한 많은 연속적인 트리의 구성을 의미합니다. 즉, 다른 기능에 대해 원하는 경계를 선택할 수 있으므로(통계적 정당성이 있는 경우) "오류"가 평준화됩니다.

알렉세이 니콜라예프 :

가능한 대안으로 로지스틱 회귀 또는 최근접 이웃 방법을 통한 분류를 제안할 수 있습니다. 출력에서 클래스에 속할 확률의 추정치를 얻을 수 있습니다. 예를 들어 트랜잭션의 양을 결정하는 데 사용할 수 있습니다. 나는 특정 알고리즘을 주장하지 않으며 특정 MO 알고리즘을 선택하는 상인의 측면에 관심이 있습니다.

CatBoost는 또한 클래스에 속할 확률의 추정치를 제공하지만 내 관찰에 따르면 모든 것이 정확히 반대입니다. 충분히 자주 발생하지 않는 드문 관찰에 대한 더 많은 확신은 과대 평가로 이어지며 독립 샘플에서 이것은 잘못된 분류로 이어지거나 더 드물게 높은 점수를 받을 수 있습니다.

거래에 CatBoost를 사용하는 이유:

1. 빠른 알고리즘.

2. 즉시 사용 가능한 ML의 많은 발전을 포함하여 현대적이고 진화하는 알고리즘.

3. Python 및 R 없이 MT5에서 모델을 오프라인으로 적용하는 방법.

 
Aleksey Vyazmikin :

여기서 문제는 "많은 가치 있는 세그먼트와 유독한 세그먼트"를 식별하는 방법입니다. 이전에 제안한 대로 상호 호환성을 식별하거나 두 단계로 수행해야 합니다. 아니면 다른 옵션이 있습니까?

나는 길을 두 번 지나야 압니다. 먼저 지도를 만든 다음 경로를 선택합니다. 지도 없이 바로 갈 수도 있지만, 특히 길을 따라 계곡과 늪이 있고 나침반, 별 및 태양이 없는 경우 훨씬 더 큰 위험이 있습니다.

문제는 조치 비용과 초기 데이터의 가용성입니다. 분명히 여기에서 작업을 설정해야합니다. 조건은 다를 수 있습니다. 우리는 점과 세그먼트의 수를 알고 있습니다. 우리는 세그먼트의 수는 모르지만 포인트의 수는 알고 있고, 포인트와 세그먼트의 수는 알지 못하지만 상당히 많다는 것만 압니다. 우리는 한 점에서 세그먼트의 수가 많아야 N이라는 것을 알고 있습니다.

일반적으로 이 부분을 먼저 공식화해야 합니다.

 
Aleksey Vyazmikin :

네, 이론상 가능합니다. 그러나 부스팅 방법은 다른 예측 변수에 대한 많은 연속적인 트리의 구성을 의미합니다. 즉, 다른 기능에 대해 원하는 경계를 선택할 수 있으므로(통계적 정당성이 있는 경우) "오류"가 평준화됩니다.

때로는 이것이 전혀 오류가 아니라는 느낌이 있으며 기능에 대한 응답의 종속성(문제의 경우)이 좋을 수 있습니다.   때로는 두근두근.

알렉세이 비아즈미킨 :

CatBoost는 또한 클래스에 속할 확률의 추정치를 제공하지만 내 관찰에 따르면 모든 것이 정확히 반대입니다. 충분히 자주 발생하지 않는 드문 관찰에 대한 더 많은 확신은 과대 평가로 이어지며 독립 샘플에서 이것은 잘못된 분류로 이어지거나 더 드물게 높은 점수를 받을 수 있습니다.

내 말은 각각의 특정 기능 세트에 대해 훈련된 모델이 "0 또는 1"에 답하는 대신 0에서 1 사이의 간격에 대한 숫자로 답을 제공한다는 것을 의미합니다. 예를 들어, 로지스틱 회귀는 정확히 이와 같이 작동합니다. 랜덤 포레스트에서는 이것도 가능한 것 같지만 정확히 이것을 말씀하시는지 아니면 메트릭스를 말씀하시는지 이해가 되지 않습니다.

 
Dmitry Fedoseev :

Dmitry, 도와주세요. 알고리즘에서 cut[] 배열을 int에서 float로 변경해야 하지만 컴파일러에서 오류가 발생합니다.

 
Valeriy Yastremskiy :

나는 길을 두 번 지나야 압니다. 먼저 지도를 만든 다음 경로를 선택합니다. 지도 없이 바로 갈 수도 있지만, 특히 길을 따라 계곡과 늪이 있고 나침반, 별 및 태양이 없는 경우 훨씬 더 큰 위험이 있습니다.

완전한 어둠이 용감한 여행자를 기다립니다 :)

발레리 야스트렘스키 :

문제는 조치 비용과 초기 데이터의 가용성입니다. 분명히 여기에서 작업을 설정해야합니다. 조건은 다를 수 있습니다. 우리는 점과 세그먼트의 수를 알고 있습니다. 우리는 세그먼트의 수는 모르지만 포인트의 수는 알고 있고, 포인트와 세그먼트의 수는 알지 못하지만 상당히 많다는 것만 압니다. 우리는 한 점에서 세그먼트의 수가 많아야 N이라는 것을 알고 있습니다.

일반적으로 이 부분을 먼저 공식화해야 합니다.

글쎄, 우리는 검색을 시작할 때 포인트와 세그먼트의 수를 알고 있으며 1 - 40개 조각에 들어갈 수 있는 세그먼트의 가능한 최대값도 알고 있습니다(세그먼트에 하나의 대상 유형에서 두 개의 옵션).

사실, 열거를 위한 세그먼트의 수가 다를 수 있습니다. 이제 1에서 263까지 얻었지만 중복이 있을 수 있습니다.

 
Aleksey Nikolayev :

때로는 이것이 전혀 오류가 아니라는 느낌이 있으며 기능에 대한 응답의 종속성(문제의 경우)이 좋을 수 있습니다.   때로는 두근두근.

클래스 중 하나의 더 큰 비율의 세그먼트에서 통계적 히트에 대해 이야기하는 경우 예, 서로 옆에 있는 세그먼트는 대상에 대해 다른 성향을 가질 수 있습니다. 학습을 용이하게하기 위해 변형을 시도하고 싶습니다. 변형의 본질은 대상에 속하는 유형과 확률의 정도에 따라 세그먼트의 순위가 될 것이므로 왼쪽에는 0의 경우 세그먼트, 단위의 경우 오른쪽 - 중앙에서 약하게 표현됨.

알렉세이 니콜라예프 :

내 말은 각각의 특정 기능 세트에 대해 훈련된 모델이 "0 또는 1"에 답하는 대신 0에서 1 사이의 간격에 대한 숫자로 답을 제공한다는 것을 의미합니다. 예를 들어, 로지스틱 회귀는 정확히 이와 같이 작동합니다. 랜덤 포레스트에서는 이것도 가능한 것 같지만 정확히 이것을 말씀하시는지 아니면 메트릭스를 말씀하시는지 이해가 되지 않습니다.

이것은 x축에 대한 훈련 후 CatBoost 모델이며, 확률 척도는 파란색 곡선 - 예제의 수, 그 수가 감소하고 있음을 알 수 있습니다.

아쿠아 - 클래스 0 및 마그네타 - 클래스 1. 빨간색 곡선 - 손실, 연한 녹색 - 이익.

그리고 이것은 이미 독립 표본에 있는 동일한 모델입니다.

로지스틱 회귀가 다른 분포를 가질 것이라고 생각합니까?

매개변수 조정이 없는 로지스틱 회귀 알고리즘 자체는 CatBoost에 패합니다.

 
Aleksey Vyazmikin :

로지스틱 회귀가 다른 분포를 가질 것이라고 생각합니까?

매개변수 조정이 없는 로지스틱 회귀 알고리즘 자체는 CatBoost에 패합니다.

아니요, 실제로 알고리즘을 비교하는 것에 대해 말하는 것이 아닙니다. 나는 알고리즘을 선택하고 훈련할 때 클래스가 a) 서로 명확하게 분리되고, b) 혼합되고, c) 점의 일부 혼합이 될 수 있다는 사실을 고려하는 것이 올바른 방법에 대한 철학적 질문에 관심이 있습니다. ) 및 b). (a)의 경우 명확한 분류가 필요하고, (b)의 경우 모호한 분류가 필요하며, (c)의 경우 어떻게든 혼합하되 흔들지 않아야 합니다.

아마도 내 질문을 MO 스레드로 옮겨야 할 것입니다.

 
Aleksey Nikolayev :

아니요, 실제로 알고리즘을 비교하는 것에 대해 말하는 것이 아닙니다. 나는 알고리즘을 선택하고 훈련할 때 클래스가 a) 서로 명확하게 분리되고, b) 혼합되고, c) 점의 일부 혼합이 될 수 있다는 사실을 고려하는 것이 올바른 방법에 대한 철학적 질문에 관심이 있습니다. ) 및 b). (a)의 경우 명확한 분류가 필요하고, (b)의 경우 모호한 분류가 필요하며, (c)의 경우 어떻게든 혼합하되 흔들지 않아야 합니다.

아마도 내 질문을 MO 스레드로 옮겨야 할 것입니다.

명확한 분리로 아마도 모든 알고리즘이 대처할 것입니다. 문제는 어떤 알고리즘이 혼합 클래스의 영역을 추출하기 위해 부분 공간을 가장 잘 할당할 수 있는지입니다.

거래에서 마크업의 문제는 마크업 정확성의 모호성으로 인해 학습에 추가적인 어려움이 있습니다.

현재 사용 가능한 많은 ML 방법을 사용해 본 적이 없으므로 장단점을 적절하게 평가할 수 없습니다.

 
프랙탈 클러스터 형태로 공간을 미래로 추정할 수 있습니다.
 
Veniamin Skrepkov :
프랙탈 클러스터 형태로 공간을 미래로 추정할 수 있습니다.

어떻게 하는지 보여주실 수 있나요?