트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3357

 
그림을 간단한 언어로 설명하자면, 분류기의 경우 클래스 레이블이 사용되기 때문에 히스토그램의 첫 번째와 두 번째 경우가 동일합니다. 거기에는 가장 가능성이 높은 클래스에 대한 단위가 있습니다. 훈련 후에는 클래스 확률이 아니라 시그모이드 또는 소프트맥스를 통과한 예측 오차에서 1을 뺀 값을 제공합니다.

이는 예측 임계값을 설정할 때 예상했던 것과 완전히 일치하지 않습니다.
 

확률적 접근 방식은 훌륭하고 옳습니다. 우리는 항상 강한 노이즈를 갖게 될 것이며, 중요한 것은 SB 하에서와 다른 점을 찾는 것입니다. 이를 위해서는 노이즈 분산만으로는 충분하지 않습니다.

IMHO의 분류 작업은 정보를 상당히 버리기 때문에 적합하지 않습니다. 원하는 방향으로 가격 변동 값의 분포를 살펴보고 이 분포가 부호에 따라 어떻게 달라지는지 모델링한 다음, 이 분포의 유형에 따라 (SB에서와 차이가 있는 경우) 이미 TS를 구축하는 것과 같은 것이 필요합니다.

 
Maxim Dmitrievsky #:
다시 새로운 정의 몇 가지.
마지막으로 한 가지 더: 분류기가 잘못된 확률을 출력하기 때문에 보정되었습니다. 원래의 형태로는 의미가 없습니다. 잊어버리세요.

참을 수 없습니다.

무작위 프로세스에 연결되지 않은 추상적이고, 읽은 참조, 완벽한 확률 같은 것은 존재하지 않습니다.

그런 건 없습니다.

동전이 던져질 확률 등입니다.

따라서 모든 분류기는 특정 분류기를 특징짓는 확률을 제공하며, 이는 우리가 필요로 하는 특성, 즉 예측 오류를 제공합니다. 다른 분류기는 해당 클래스 예측 오류와 함께 다른 확률을 제공합니다.

예측자 및 관련 레이블과 클래스 밸런싱에 따라 확률을 클래스로 나누는 임계값을 설정하는 문제가 발생합니다. "보정"이라고 하는 이 작업을 위한 도구는 위에 나와 있습니다. 콜코즈 방식으로도 이 작업을 수행할 수 있습니다.

어쨌든 특정 분류기로 작업할 때는 본질적으로 다른 확률이 없기 때문에 특정 분류기에 의해 주어진 확률에 대한 예측 오류를 크게 줄일 수 있습니다. 확률이 마음에 들지 않으면 분류기로 작업하거나 보정을 수행하세요. 이 특정 프로세스에서는 이론적으로 존재하지 않는 '완벽한' 확률을 위한 여지가 없습니다.

한 가지 분명한 것은 0.5 임계값으로 클래스를 나누는 것은 매우 의심스럽고 거의 효과가 없다는 것입니다.

 
СанСаныч Фоменко #:

도저히 받아들일 수 없었습니다.

분류기가 제공하는 확률은 의미가 없습니다. 확률이 아니니까요. 필요하면 사용할 수 없습니다. 기관차보다 앞서 달리지 말고 이 사실을 새로운 의미로 채우지 마세요. 최소한 그 사실을 다루세요.
 
СанСаныч Фоменко #:

견딜 수가 없었어요.

무작위 프로세스와 관련이 없는 추상적, 읽기 참조, 이상적, 확률 같은 것은 존재하지 않습니다.

그런 건 없어요.

동전이 던져질 확률 등입니다.

따라서 모든 분류기는 특정 분류기를 특징짓는 확률을 제공하며, 이는 우리가 필요로 하는 특성인 예측 오차를 제공합니다. 다른 분류기는 해당 클래스 예측 오류와 함께 다른 확률을 제공합니다.

예측자 및 관련 레이블과 클래스 밸런싱에 따라 확률을 클래스로 나누기 위한 임계값을 설정하는 문제가 발생합니다. "보정"이라고 하는 이 작업을 위한 도구는 위에 나와 있습니다. 이 작업은 콜코즈 방식으로도 수행할 수 있습니다.

어쨌든 특정 분류기로 작업할 때는 본질적으로 다른 확률이 없기 때문에 특정 분류기에 의해 주어진 확률에 대한 예측 오류를 크게 줄일 수 있습니다. 확률이 마음에 들지 않으면 분류기로 작업하거나 보정을 수행하세요. 이 특정 프로세스에서는 이론적으로 존재하지 않는 '완벽한' 확률을 위한 자리는 없습니다.

한 가지 분명한 것은 0.5 임계값으로 클래스를 나누는 것은 매우 의심스럽고 거의 효과가 없다는 것입니다.

여기서 우리는 잘못된 확률 모델을 사용할 때 흔히 발생하는 매트스탯 오류에 대해 이야기하고 있습니다. 예를 들어 회귀의 노이즈가 실제로 라플라스 분포이고 가우스 분포로 계산하면 분명히 오류가 발생합니다.

추신. 사실, 요점은 MO의 확률 론적 기원으로 돌아가는 것입니다 (그런데 적어도 소련에서는 처녀 시절에 통계적 학습이라고 불렀습니다).

 

위의 예는 이미 설명했습니다. OOS를 통과하는 분류기가 있지만 수익은 60/40으로 분배됩니다. 마음에 들지 않으면 결정 임계값을 높여 보지만 상황은 변하지 않고 때로는 더 악화되기도 합니다. 왜 그런지 고개를 갸우뚱하게 됩니다.

실제 확률 추정의 경우 상황이 바뀌어야 하기 때문이라는 설명이 제공됩니다.

해결책이 제시됩니다.


 
Maxim Dmitrievsky #:

위의 예는 이미 설명했습니다. OOS를 통과하는 분류기가 있지만 수익은 60/40으로 분배됩니다. 마음에 들지 않으면 결정 임계값을 높여 보지만 상황은 변하지 않고 때로는 더 악화되기도 합니다. 왜 그런지 고개를 갸우뚱하게 됩니다.

실제 확률 추정의 경우 상황이 바뀌어야 하기 때문이라는 설명이 주어집니다.

해결책이 주어집니다.


오래 전에 이미 뻔하지 않았나요?
 
사후 최적화 - 역시 아무도 말할 수 없지만 보정이라고 합니다! 아, 맞습니다.
 
Maxim Dmitrievsky #:

위의 예는 이미 설명했습니다. OOS를 통과하는 분류기가 있지만 수익은 60/40으로 분배됩니다. 마음에 들지 않으면 결정 임계값을 높여 보지만 상황은 변하지 않고 때로는 더 악화되기도 합니다. 왜 그런지 고개를 갸우뚱하게 됩니다.

실제 확률 추정의 경우 상황이 바뀌어야 하기 때문이라는 설명이 주어집니다.

해결책이 주어집니다.


그러나 보정은 만병 통치약이 아니며 무료가 아니며 기존 분류기의 좋은 속성이 필요하다는 점을 지적하고 싶습니다. 자세한 설명을 피하기 위해 SHAD에 대한 두 번째 참고 문헌에서 인용하겠습니다. "일반적으로 이 방법은 각 실제 클래스에 대해 예측 확률이 동일한 분산으로 정규분포되어 있는 경우 잘 작동한다는 것을 알 수 있습니다." 이것은 플랫 보정에 관한 것이지만, 다른 방법도 몇 가지 조건이 반드시 충족되어야 합니다.

실제로 모든 것은 matstat에서와 마찬가지로 사용된 모델의 확률적 특성이 연구 중인 데이터와 일치해야 합니다.

 
Aleksey Nikolayev #:

그러나 보정은 만병통치약이 아니며 무료가 아니며 기존 분류기의 좋은 속성이 필요하다는 점을 지적하고 싶습니다. 자세한 설명을 피하기 위해 SHAD에 대한 두 번째 참고 문헌에서 인용하겠습니다. "일반적으로 이 방법은 각 실제 클래스에 대해 예측 확률이 동일한 분산으로 정규분포되어 있는 경우 잘 작동한다는 것을 알 수 있습니다." 이것은 플랫 보정에 관한 것이지만 다른 조건도 반드시 충족되어야 합니다.

실제로 모든 것은 matstat에서와 마찬가지로 사용된 모델의 확률적 특성이 연구 중인 데이터와 일치해야 합니다.

물론 이것은 원시 모델 확률을 사용하는 것은 쓸모가 없기 때문에 출력을 확률적으로 만드는 방법일 뿐입니다.