기고글 토론 "트레이딩 내 통계적 분산의 역할"

 

새로운 기고글 트레이딩 내 통계적 분산의 역할 가 게재되었습니다:

본 문서는 MQL5의 통계 확률 분포에 대해 논하고 이론적 통계 분산을 다루는 클래스들을 다룬 제 다른 문서의 논리적 후속작입니다. 이제 이론적 기반이 확보되었으므로 실제 데이터 셋으로 직접 이동하여 이 기반을 정보적으로 활용할 것을 제안합니다.

앞서 언급한 문서에서 설명한 도구를 사용하여 히스토그램을 표시하겠습니다. 이를 위해 저는 HTML에서 다뤄지는 시리즈의 히스토그램을 표시하는histogramSave 함수를 작성했습니다. 이 함수는 2개의 패러미터를 받습니다: 클래스 어레이(f) 및 클래스 중간값 어레이(b).

예를 들어, volatilityTest.mq5 스크립트를 사용하여 4시간 단위의 포인트에서 EURUSD 쌍 500바에 대한 최대값 최소값 간의 절대값 차이에 대한 히스토그램을 작성했습니다.

1번 그림. 데이터 히스토그램 (EURUSD H4의 절대 변동성)


작성자: Denis Kirichenko

 

데니스, 기사에 대한 댓글이 있습니다.

이론에 관해서는 의문의 여지가 없으며 모든 것이 자세히 설명되어 있습니다.

실습에 관해서는 경험적 히스토그램을 보여주는 그림, 특히 그림 2에 주목하고 싶습니다. 요점은 분석에서 두 가지 매우 중요한 부정확성이 있다는 것입니다.

첫째, 히스토그램을 생성하는 스크립트에 너무 적은 수의 클래스(9개)를 설정했는데, 이는 그 자체로 피어슨의 기준이 가진 힘에 큰 타격을 주며 그 적용을 비효율적으로 만듭니다. 앞으로는 200~300개의 수업을 수강하여 표본 크기가 허용된다면(물론 실제로 그렇게 된다면) 실수하지 않도록 하세요. 정확히 그렇게했다면 로그 정규 분포 테스트에서 음의 결과가 나왔을뿐만 아니라 하이퍼 세컨에 대한 수익률 테스트도 확인할 수 있었을 것입니다. 그건 그렇고, 그러한 두 분포가 특정 값과 그 계수를 동시에 나타낼 수 없다는 것을 확인하는 것은 매우 쉽습니다. 하이퍼 세컨스의 "절반"을 취하고 그 자체로 컨볼 루션 (무작위 변수에서 계수를 취하는 것과 유사) : 로그 정규 분포는 확실히 얻지 못할 것입니다.

두 번째 부정확성은 수익률 분포의 최고점(일명 기대치)이 정확히 0이어야 한다는 선험적 지식을 사용하지 않았다는 것입니다(그렇지 않았다면 우리 모두는 오래 전에 억만장자가 되었을 것입니다). 그렇기 때문에 그림 2의 히스토그램이 오른쪽으로 이동한 것처럼 보이지만 그렇지 않아야 합니다. 다시 말하지만, 히스토그램을 그릴 때 이 점을 고려하면 테스트의 신뢰도를 높일 수 있습니다.

추신: 저는 모델링의 기초에 관한 기사를 쓰고 있어서 관심이 많습니다. 귀하의 기사에 감사드립니다. 주제에 있습니다. 안부 전해주세요.

 
alsu:
...첫째, 히스토그램을 생성하는 스크립트에 너무 적은 수의 클래스(9개)를 설정했는데, 이는 그 자체로 피어슨의 기준에 큰 타격을 주며 그 적용을 비효율적으로 만들 수 있습니다. 앞으로는 200~300개의 수업을 수강하여 표본 크기가 허용한다면(물론 실제로 그렇게 된다면) 실수하지 않도록 하세요. 이런 식으로 수행했다면 로그 정규 분포 테스트에서 음의 결과가 나오고 하이퍼 세컨에 대한 수익 테스트가 음의 결과를 제공하는지 확인할 수 있습니다. 그건 그렇고, 그러한 두 분포가 특정 값과 그 계수를 동시에 나타낼 수 없다는 것을 확인하는 것은 매우 쉽습니다. 하이퍼 세컨스의 "절반"을 취하고 그 자체로 컨볼 루브 (임의의 값에서 계수를 취하는 것과 유사) : 당신은 확실히 로그 정규 분포를 얻지 못할 것입니다.

알수님, 의견 주셔서 감사합니다!

순서대로 가자.

클래스 수는 자발적으로 설정되지 않고 일부 공식에 따라 설정됩니다. 제 경우에는 스터지스공식입니다 . 가장 인기있는 규칙 중 하나입니다. 완벽하지는 않지만 동의합니다. 하지만 여전히...

그리고 어떤 규칙에 따라 200-300 개의 수업을 듣습니까?

두 번째 부정확성은 수익률 분포의 최고점(일명 기대치)이 정확히 0이어야 한다는 선험적 지식을 사용하지 않았다는 것입니다(그렇지 않았다면 우리 모두는 오래 전에 억만장자가 되었을 것입니다). 그렇기 때문에 그림 2의 히스토그램이 오른쪽으로 이동한 것처럼 보이지만 그렇지 않아야 합니다. 다시 말하지만, 히스토그램을 만들 때 이 점을 고려하면 테스트의 신뢰도를 높일 수 있습니다.

사실에 근거하여 샘플을 분석합니다. 저는 제가 가진 것을 분석합니다. 그렇다면 어떤 기준으로 수익률 분포의 상단이 정확히 0점에 위치해야 할까요? 제가 뭔가 오해하고 있을지도 모르겠네요...

게다가 피팅이 구현된 분포( X~HS(-0.00, 1.00))를 보면 첫 번째 파라미터인 시프트 파라미터가 정확히 0이라는 것을 쉽게 알 수 있습니다. 사실, 이는 예상과 같습니다.

추신 : 모델링의 기초에 대한 기사를 작성하고 있으므로 관심이 많습니다. 주제에 맞는 기사를 작성해 주셔서 감사합니다. 안부 전해주세요.
글쓰기에 행운을 빕니다! 연구를위한이 틈새 시장은 매우 깊고 흥미로운 것 같습니다.....
 

다음은 표준값 샘플링에 대한 또 다른 HTML 보고서입니다. 그림이 어느 정도 가독성이 있기를 바랍니다. 그러나 기사에 있는 것과 동일하지 않습니다. 방금 최신 데이터를 가져온 것입니다.

보시다시피 평균 = 0입니다. 그리고 가장 잘 맞는 분포는 쌍곡선 세컨트 분포입니다: X~HS(0.00, 1.00).


 

정확히 Sturges의 공식은 정확히 9 개의 클래스를 제공했지만 이것은 오히려 샘플 크기를 늘리는 것에 대해 생각할 이유입니다 (공식을 뒤집어 보면 약 256 개가 있습니까?).

게다가 이 공식은 정규 분포(이 공식이 도출된)의 일반 모집단에 대해서만 잘 작동하며, 고려할 때 표본 크기는 200개 이하의 값입니다. 대체 공식을 사용할 수 있습니다 - 디아코니스, 스콧....

일반적으로 Sturges는 그의 공식에 대한 논리적 정당성을 제공하지 않았습니다. 예, 이항 분포에 의한 정규 분포의 근사치를 기반으로합니다. 이것이 클래스 수 선택의 효율성 문제에 어떤 영향을 미칠 수 있을까요? 최적성 기준은 저자가 정의한 적이 없으며 공식 자체는 무작위로 작성되었습니다. 그러나 요점은 오랫동안 Sturges의 접근 방식이 어떤 식 으로든 공식화 된 유일한 접근 방식이었고 모든 통계 패키지에 자동으로 (그리고 제 생각에는 매우 무심코!) 포함되었다는 것입니다. 그런데이 공식은 거의 항상 매우 과소 평가 된 클래스 수를 제공하기 때문에 매우 성가신 일입니다.

다시 한 번, 대체 공식이 있지만 역설적이게도 개인용 컴퓨터의 존재는 자신의 머리를 장치로 사용할 수있는 기회, 즉이 특정 샘플에 대해 다소 최적의 클래스 수를 결정하는 시각적 방법을 제공 할 때이 지표를 부드럽게 변경하여 그래프의 부드러움과 히스토그램의 해상도 사이에서 타협을 달성 할 수있는 기회를 제공합니다. 그건 그렇고,이 방법은 종종 어떤 공식보다 더 좋고 빠릅니다.

저는 항상 모든 사람에게 숫자를 공식에 넣기 전에 숫자의 의미와 적용 방법 (및 적용 여부)을 물어보라고 말합니다. 요컨대, 저는 Sturges의 공식을 사용하는 것에 반대하며 구식이고 부적절하다고 생각합니다).

평균과 관련하여. 그렇지 않다면 우리는이 MO의 부호에 해당하는 한 방향으로 항상 어리석게 베팅하고 미리 결정된 크기의 수익을 얻을 수 있기 때문에 수익에 대한 기대치는 0이어야합니다. 그래프의 왼쪽 절반은 오른쪽 절반의 거울 이미지여야 하므로 (비율 증가와 감소가 통계적으로 동일하고 차이가 없어야 함) 대칭의 중심이 중앙과 일치해야 합니다.

따라서 HS(0.00, 1.00)를 취하므로 클래스의 중심, 즉 0 클래스는 대칭 간격(-x0;x0)의 지수 값을 포함해야 하며, 그렇지 않으면 0에 대한 클래스의 이동과 관련된 체계적 오류가 계산에 도입되어 결국 카이제곱 테스트 결과에 영향을 미칩니다. 0점은 0 클래스의 중간에 있지 않습니다.

사실 이산 데이터에서 클래스를 대칭으로 만드는 방법에 대한 문제는 매우 사소하지 않으며, 각 특정 샘플에 대해 개별적으로 매우 신중하게 해결하는 것이 좋습니다. 그렇지 않으면 클래스로 나누는 경계를 잘못 선택하기 때문에 부적절한 결과를 얻을 위험이 있습니다.

 
관심 있는 분들을 위한 가이드로서 다양한 계약 기준의 피팅 분포의 힘을 비교하는 재미있는 기사가 있습니다.
 

알수님, 제 글의 주제는 아니지만 매우 흥미로운 주제를 다루어 주 셨습니다. 제가 할 수 있는 한 이 문제를 더 연구해 보겠습니다.

건설적인 비판에 감사드립니다!

 
데니스, 안녕하세요.

트레이딩에서 과학적 지식의 적용 가능성에 대한 귀하의 의견이 마음에 듭니다.
확률 이론과 수학 통계에 익숙한 사람에게 어떤 책을 추천해 주시겠습니까?
 
sizon56:
데니스, 안녕하세요.

트레이딩에서 과학적 지식의 적용 가능성에 대한 귀하의 의견이 마음에 듭니다.
확률 이론과 수학 통계에 익숙한 사람에게 어떤 책을 추천하고 싶은지 알려주세요.

의견 주셔서 감사합니다!

초보자를 위한 책, 즉 라이트 롤을 찾아야 한다고 생각합니다. 가장 중요한 것은 책의 텍스트가 더 이상 읽는 것을 방해해서는 안된다는 것입니다 :-))).

나는 가이디 셰프와 불라 셰프를 좋아했습니다.....

여기에 흥미로운 스레드가 있습니다.

Теория вероятности для чайников - Образование и наука - RSDN
  • rsdn.org
Здравствуйте, Decker, Вы писали: Поддерживаю, Гмурман — мужик, что надо. Книга и впрямь чего-то стоит. Есть у меня дома книженция одна, наш профессор доморощенный написал, тоже все понятно и легко. Я по ней учил... правда ее в электронке нету, если что нужно будет, могу отсканить
 
alsu:

두 번째 부정확성은 수익률 분포의 최고점(일명 기대치)이 정확히 0이어야 한다는 선험적 지식을 사용하지 않았다는 것입니다(그렇지 않았다면 우리 모두는 오래 전에 억만장자가 되었을 것입니다).

전혀 그렇지 않습니다. 0을 기준으로 분포의 상단이 이동(상품의 상승/하락)했다고 해서 미래에도 동일할 것이라는 의미는 아닙니다. 그렇기 때문에 대부분의 트레이더가 억만장자가 아닌 것입니다.

안부 전해드립니다.

 
joo:

...분포의 상단을 0(상승/하락 상품)을 기준으로 이동한다고 해서 반드시 미래에도 그럴 것이라는 의미는 아닙니다...

동의합니다.

알수에게 질문합니다. 영점에 대해 이야기 할 때 시장 효율성을 의미합니까?