트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3176

 
fxsaber #:

물론 상황에 따라 다릅니다. 그러나 종종 샘플 직후에 고장이 발생하는 것을 볼 수 있습니다. 아마도 어떤 일에 더 많은 주의를 기울이고 너무 자주 발생한다는 인상을 받는 인지적 왜곡일 수 있습니다.

자주 발생한다면 글로벌 패턴이 바뀌는 것에 대해 의문의 여지가 없어야 하고, 그렇지 않다면 중단 시점이 같은 날짜가 될 것입니다.

그러나 순전히 통계적으로 발생 빈도가 바뀔 수도 있습니다. 즉, 이전 패턴은 계속 작동하지만 여러 가지 이유로 인해 이전에는 발생하지 않았던 새로운 패턴이 모델에 추가될 수 있으며, 가장 중요한 것은 훈련 중에 발생하지 않았다는 것입니다. 예를 들어 변동성이 크게 변경되어 코드(조건부 예측 변수)에 일부 고정된 값이 있거나 이러한 변동성에 대한 관측값이 거의 없는 경우, 훈련 중 또는 다른 범위에서 항상 안정적이었던 경우 등이 있습니다. 즉, 새로운 데이터가 수집되면 샘플에서 새로운 관찰이 증가하므로 이러한 이벤트의 출현을 감지할 수 있는 메커니즘이 필요합니다.

드문 이벤트를 기반으로 전략을 세우고 그 추세가 1년 이상 지속되는 경우 반대의 경우도 발생할 수 있습니다. 최근에 저는 EA 구축의 기적을 보게 되었습니다.

그 사람은 처음에 2016년 이후 EA의 행동 내역(금 상승)만 보았고, 무언가 고장 났으며 MO의 도움을 받아 올바른 차트 분석을 최적화해야 한다고 불평했습니다.

자세히 살펴보니 12개의 지표가 각각 평균 100개의 신호를 보냈으며, 즉 실제로는 이력의 다른 지표에서 감지된 배출량을 공통 그룹으로 결합한 것으로 나타났습니다. 이러한 이상값이 동일한 확률적 결과로 기록에서 계속 반복되나요?

예, 통계적으로는 이상값이 아니지만 이상값이 아닌 이상값이 있지만 이를 다른 이상값과 구분하는 방법은 문제입니다.

FXSABER #:

차트는 3년간의 일일 거래량을 보여줍니다.

틱의 경우 많은 것처럼 보이지만 분 단위로 10 년부터 더 큰 범위를 사용하고 신호는 처음에는 그렇게 빈번하지 않으며 기본 신호가 있습니다.

FXSABER #:

제가 하지 않은 것은 각 범위에 대한 차트를 만드는 것이 었습니다. 통계 데이터는 세어 보았지만 차트 자체는 보지 않았습니다.

패턴의 역학을 살펴보면 샘플에 비해 상대적으로 짧은 시간 간격에있는 덩어리 일 수 있으며, 패턴의 관찰이 전체 간격에 걸쳐 반복되는 경향이 있으면 좋습니다.

또 다른 뉘앙스는 동일한 CatBoost를 사용하면 새로운 데이터에서 약 50%의 잎이 죽는다는 것, 즉 모델이 구축된 패턴이 더 이상 발생하지 않는다는 것입니다.

fxsaber #:

강조 표시된 부분을 이해하지 못했습니다.

다른 두 샘플은 훈련이 수행된 샘플에 이어 테스트 및 시험용 샘플입니다.

처음에 테스트는 CatBoost의 오버트레이닝을 제어하기 위해, 즉 새로운 패턴이 테스트 샘플에서 개선되지 않을 때 개선에 대한 반복이 중지되는 데 사용되었습니다. 그리고 시험 - 이미 모델을 독립적으로 테스트하는 것입니다. 이상적으로는 훈련과 테스트를 통해 시험에서 성공할 모델을 선택하는 방법을 배워야 하는데, 이는 별도의 문제입니다.

물론 모델 선택 작업이 해결되면 필요한 경우 훈련용 샘플을 늘리거나 최소한 훈련 및 테스트 샘플을 현재 날짜에 더 가깝게 이동할 수 있습니다.

 
Aleksey Vyazmikin #:

어떤 유의성 테스트를 제안하시나요? 저는 양자 세그먼트 선택 알고리즘이 완벽하다고 말하는 것이 아니라, 반대로 많은 쓰레기가 들어와서 이를 개선하고 싶다는 것입니다.

나는 그것이 일종의 "파이 해킹"이라고 결정한 징후와 정확히 어떤 부분, 양자 세그먼트 선택 또는 양자 세그먼트 (즉, 내가 만든 그래프)에 의해 잘 그리고 훈련없이 선별 된 문자열의 스크리닝을 이해하지 못합니까? 예,이 방법은 나무 모델을 만드는 일반적인 접근 방식과는 약간 다르지만 그다지 많지는 않지만 개념은 남아 있습니다.

SB의 예와 관련하여 두 가지 고려 사항이 있습니다:

1. 프로세스를 알 수 없고 데이터만 있는 경우 거래하기 가장 좋은 시간이 있다는 패턴으로 받아들일 수 있습니다. 아니면 이 가설을 거부할 수 있는 고려사항이 있을까요?

2. 이러한 관측값이 시간(이벤트 기록)에 따라 비교적 고르게 분포되어 있다면 난수 생성기 오류에 가깝습니다.

교육에서는 보통 최소 10년 이상의 장기간에 걸친 샘플을 사용합니다.

실험을 수정할 것을 제안할 수 있습니다. 1부터 10까지의 숫자가 있는 상자 10개, 흰색 공 100개, 검은색 공 100개가 있다고 가정해 보겠습니다(숫자 10과 100은 조건부로 가져옴). 공은 어떻게 든 상자에 배열 된 다음 각 상자에 공이 몇 개 있는지 살펴보고 배열 알고리즘에 규칙이 있는지, 즉 특정 색상의 공이 우세한 상자에 어떤 숫자가 있는지 이해하려고 노력합니다.

따라서 각 공 (두 가지 색상의 공)을 서랍 중 하나에 0.1의 동일한 확률로 무작위로 넣으면 결국 색상 비율에 균일 성이 없습니다! 거의 항상 거의 모든 흰색과 거의 모든 검은 색이있는 상자가 있습니다. 그리고 문제는 DSP의 품질이 전혀 문제가 아니며 실제 양자 DSP를 사용하면 모든 것이 동일합니다. 이는 확률적 무작위성의 본질에 관한 것입니다. 불규칙성은 항상 존재하지만 다음 레이아웃에서 발견될 상자의 수는 절대 예측할 수 없습니다. 앞의 예에서 요일과 시간도 마찬가지입니다(요일은 상자 번호의 아날로그입니다).

이를 수행하는 방법에는 두 가지가 있습니다. 실제로 불균일성이 동일한 확률에서보다 훨씬 더 크다는 것을 보여 주려고 노력합니다. 이것은 일종의 통계적 테스트를 통해 이루어집니다. 또는 불균일성이 작더라도 노이즈로 인해 약하게 나타나는 어떤 규칙성 때문인지 확인합니다. 그러나 그것은 믿음과 실천의 문제이며 그것이 효과가 있다면 괜찮습니다.

박스 숫자(요일)가 여러분의 퀀타에 대한 비유라는 점을 분명히 이해하셨기를 바랍니다.

 
Aleksey Nikolayev #:

실험을 수정할 것을 제안할 수 있습니다. 1에서 10까지의 숫자가있는 상자 10 개, 흰색 공 100 개, 검은 색 공 100 개 (숫자 10과 100은 일반적으로 사용됨)가 있다고 가정합니다. 공이 어떻게 든 상자에 배열 된 다음 각 상자에 공이 몇 개 있는지 살펴보고 배열 알고리즘에 규칙이 있는지, 즉 특정 색상의 공이 우세한 상자에 어떤 숫자가 있는지 이해하려고합니다.

따라서 각 공 (두 가지 색상의 공)을 서랍 중 하나에 0.1의 동일한 확률로 무작위로 넣으면 결국 색상 비율에 균일 성이 없습니다! 거의 항상 거의 모든 흰색과 거의 모든 검은 색이있는 상자가 있습니다. 그리고 문제는 DSP의 품질이 전혀 문제가 아니며 실제 양자 DSP를 사용하면 모든 것이 동일합니다. 이는 확률적 무작위성의 본질에 관한 것입니다. 불규칙성은 항상 존재하지만 다음 레이아웃에서 발견될 상자의 수는 절대 예측할 수 없습니다. 앞의 예에서 요일과 시간도 마찬가지입니다(요일은 상자 번호와 유사합니다).

이를 수행하는 방법에는 두 가지가 있습니다. 실제로 불균일성이 동일한 확률에서보다 훨씬 더 크다는 것을 보여 주려고 노력합니다. 이것은 일종의 통계적 테스트를 통해 이루어집니다. 또는 불균일성이 작더라도 노이즈로 인해 약하게 나타나는 규칙성 때문인지 확인합니다. 하지만 이것은 이미 믿음과 연습의 문제이며 효과가 있다면 괜찮습니다.

박스 숫자(요일)가 여러분의 퀀타에 대한 비유라는 점을 분명히 이해하셨기를 바랍니다.

SB에 대해 이야기하고 있다면 모델 (나무 또는 신경망)의 본질은 데이터에서 패턴을 찾는 것이기 때문에 어떤 종류의 모델에 대해 이야기 할 수 있습니다.

한 상자에 같은 색의 공이 많이있을 수 있다는 사실에 대해-실험을 10 번하고 결과를 얻을 때마다 (샘플을 10 개 부분으로 나누고) 대부분이 결과가 비슷한 경우에만 양자 세그먼트를 선택합니다. 실험을 10번 수행한 후 같은 상자에서 다른 상자보다 특정 색의 공이 더 많이 발견될 확률은 얼마인가요?

이 경우에 적합한 추가 통계 테스트를 알고 있나요?

아무것도 확신 할 수 없으며 SB에 ....

확실성을 더할 수 있는 방법을 찾고 있습니다.

또한 선택한 양자 세그먼트가 예측자의 다른 부분보다 여전히 비 무작위 분할 가능성이 더 높다고 가정합니다. 이것을 공식이나 일종의 추정치로 표현하는 방법을 모르겠습니다. 나는 그러한 세그먼트를 조약돌 내부의 귀중한 광물 / 금속의 정맥으로 추상적으로 인식합니다.....

 

더 명확하게 설명하는 방법을 몰라서 두 개의 트리 분할을 개략적으로 보여드리겠습니다.

두 개의 막대는 두 개의 예측 변수이며 세로 막대는 시간을 상징합니다(정확하게 재현하지는 않았습니다).

굵은 선은 트리 모델에 의한 예측자 분할의 표준 위치입니다.

두 번째 예측자(그림의 왼쪽)는 2에서 3을 포함하는 범위에서 단위가 가장 많이 누적되어 있음을 보여 주며, 제가 색상으로 강조 표시했습니다.

첫 번째 분할 후, 첫 번째 분할에서 남아있는 수치를 푸른색으로 강조 표시했습니다(오른쪽 부분, 단위가 가지를 따라 이동한 부분이라고 가정해 보겠습니다).

따라서 첫 번째 분할 후 남은 총 단위를 계산하면 분할은 정확히 중간에서 이루어지고 1에서 2를 포함하여 분할해야하지만 첫 번째 열에는 절대적인 측면에서 응답에 대한 가장 약한 통계 지표가 4 개와 각각 8 개만 포함되고 중앙에는 10 개와 12 개가 포함됩니다. 양자 컷오프는 1과 4 열을 한쪽으로, 2와 3 열을 다른쪽으로 이동할 수 있으며, 이는 양자 컷오프가 없는 경우보다 총 단위가 한 개 적지만 처음에는 이 범위에서 8개가 더 관찰되므로 중요한 것으로 보입니다. 즉, 이 범위는 인접한 두 범위보다 더 많은 단위를 계속 포함할 것으로 예상됩니다.

양자 세그먼트 선택이라는 개념의 본질을 설명할 수 있었나요?

추가하자면, 이것은 산술적 오류를 허용하는 관습입니다. 여기서 중요한 것은 숫자가 아니라 텍스트와 논리입니다.
 

일상적인 용어로 -162와 +162 범위의 예측자가 있어 신호를 보냅니다.

양자 세그먼트 감지의 도움으로 우리는 레벨의 범위를 찾을 수 있으며, 예를 들어 더 자주 발생하는 레벨에 부딪히면 그 아래 레벨로 바운스됩니다. 레벨에 가깝지 않은 나머지 구간은 순서대로 간단히 분류할 수 있습니다. 그리고 하나의 예측 변수이지만 서로 다른 목적에 따라 데이터를 표현하는 두 가지 방법이 있다는 것이 밝혀졌습니다.


 
Aleksey Vyazmikin #:

이 사례에 적합한 추가 통계 테스트를 알고 계신가요?

가장 보편적인 것은 아마도 몬테카를로일 것입니다. 명백히 분리할 수 없는 클래스의 상황을 반복적으로 시뮬레이션하고 퀀타가 평균적으로 어떻게 행동하는지 확인합니다. 만약 무언가를 발견한다면 그것은 자기 패배입니다.

그럴듯하게 분할 불가능한 클래스는 특징과 동일한 분포로 생성된 샘플을 가져와서 얻을 수 있습니다.

 
Aleksey Nikolayev #:

가장 보편적인 것은 아마도 몬테카를로일 것입니다. 분명히 분리할 수 없는 클래스의 상황을 반복해서 시뮬레이션하고 퀀타가 평균적으로 어떻게 행동하는지 확인하세요. 무언가를 발견하면 자기기만입니다.

그럴듯하게 분할 불가능한 클래스는 특징과 동일한 분포로 생성된 샘플을 가져와서 얻을 수 있습니다.

몬테카를로는 시퀀스를 혼합하고 무작위로 문자열을 얻는 것인데, 그게 어떻게 도움이 될까요? 그리고 시퀀스가 무작위가 아니라고 가정하면 시퀀스를 혼합하는 것은 옳지 않을 것입니다...... 시계열에서 무작위가 아닙니다. 더 자세히 설명해 주시면 이해가 잘 안 됩니다.

테스트를 위해 이러한 샘플을 CSV로 만들 수 있나요? R에서 충분히 빠르다고 생각합니다. 그렇지 않으면 코드를 작성하는 데 하루를 더 소비하게 될 것이고 제대로 할 수 있을지 모르겠습니다.

 
Aleksey Vyazmikin #:

몬테카를로는 시퀀스를 혼합하고 문자열을 무작위로 가져오는 것인데 어떻게 도움이 되나요? 그리고 시퀀스가 무작위가 아니라고 가정하면 시퀀스를 혼합하는 것은 옳지 않을 것입니다..... 시계열에서 무작위적이지 않습니다. 아이디어를 더 자세히 설명해 주시면 이해가 잘 안 됩니다.

테스트를 위해 이러한 샘플을 CSV로 만들 수 있나요? R에서는 충분히 빠르다고 생각합니다. 그렇지 않으면 코드를 작성하는 데 하루를 더 소비하게 될 것이고 제대로 할 수 있을지 모르겠습니다.

통계 라이브러리에는 다양한 분포에 대한 샘플을 생성하는 함수가 있으므로 MT5에서 이 작업을 수행할 수 있습니다. 예를 들어 첫 번째 열에 부호로 200의 일반 샘플을 생성하고 두 번째 열에서 0.5의 확률로 무작위 선택으로 마크를 만들 수 있습니다.

이 작업을 여러 번 수행하고 매번 무언가를 계산해야 하므로 패키지 내에서 어떻게든 자동화하는 것이 더 좋을 것입니다.

 
Aleksey Nikolayev #:

통계 라이브러리에는 다양한 분포에 대한 샘플을 생성하는 기능이 있는 MT5에서 이 작업을 수행할 수 있습니다. 예를 들어, 첫 번째 열에 부호로 200의 정규 샘플을 생성하고 두 번째 열에는 각각 0.5의 확률로 무작위 선택으로 마크를 만듭니다.

이 작업을 여러 번 수행하고 매번 무언가를 계산해야 하므로 패키지 내에서 어떻게든 자동화하는 것이 더 좋을 것입니다.

이 기능을 사용해 본 적이 없습니다.

이 기능 때문인가요?

Генерирует псевдослучайные величины, распределенные по нормальному закону с параметрами mu и sigmа. В случае ошибки возвращает false. Аналог rnorm() в R. 



bool  MathRandomNormal( 
   const double  mu,             // математическое ожидание 
   const double  sigma,          // среднеквадратическое отклонение 
   const int     data_count,     // количество необходимых значений 
   double&       result[]        // массив для получения псевдослучайных величин 
   );
 
 
Aleksey Vyazmikin #:

무작위 오버슈팅이 얼마나 비생산적인 접근 방식인지에 대해 썼던 것처럼요.

저는 샘플링 가능성을 테스트할 때 예측자 선택의 무작위성 요소와 함께 오버샘플링을 사용하며, CatBoost에서 수년 동안 이를 사용해 왔습니다.

예측자 응답이 무작위로 추출되었기 때문에 무작위 추출은 모델이 계속 작동할 것으로 기대하는 정당성을 제공하지 않습니다.

다시 무의미한 논쟁에 휘말릴 위험이 있습니다. 무작위로 발견한 집합이 OO에서 작동하는 것과 가장 힘든 정신적 고통을 겪으면서도 근본적인 정당성 없이 발명된 집합의 차이점은 무엇일까요? 검증 방법이 동일한 경우. 수사학적 질문입니다.

무작위 검색과 무작위 선택 요소가 있는 검색의 차이점은 무엇인가요? ))
사유: