인용 부호의 종속성 통계(정보 이론, 상관 관계 및 기타 기능 선택 방법) - 페이지 11

 
HideYourRichess :

정보 엔트로피의 개념은 독립 기호에 대해 Shannon에 의해 도입되었습니다. 내 말을 못 믿겠다면 학술사전을 찾아보라. 나는 이 주제에 대해 더 이상 당신과 논쟁하지 않을 것입니다. 시장에 대한 정보 엔트로피를 계산할 수 없습니다. 알파벳을 모르고 기호의 빈도를 모르며 기호의 독립성도 알 수 없기 때문입니다.

다음 질문인 조건부 엔트로피는 원래 알파벳 사이에 종속성이 있는 경우입니다. 이것은 논의된 정보 엔트로피와 동일하지 않습니다.

아카이버를 사용한 예가 어떤 결론에 도달했는지 이해하지 못하지만 이렇게 말하겠습니다. 아카이버의 임무는 조건부 엔트로피를 정보 엔트로피로 변환하는 것입니다. 저것들. 결과 시퀀스에서 문자가 가능한 한 독립적인 완벽하게 정의된 제한된 알파벳을 만듭니다. 문자 수준에서 문학 텍스트의 정렬된 구조를 혼합하면 당연히 이러한 문자 시퀀스가 깨지고 압축이 악화됩니다. 완전히 임의의 문자 집합을 더 이상 압축할 수 없는 지점까지.


처음에는 질문에 대한 귀하의 진술이 역설적인 것 같습니다. 상호 정보를 계산한 결과 0이 아닌 다른 값을 얻으면 종속성이 있는 알파벳을 사용했습니다. 독립적인 값을 연구하면 상호 정보는 항상 0(또는 이 값에 매우 가까움)이 됩니다.
 
상호 엔트로피는 조건부와 동일하지 않으며 정보용과 동일하지 않습니다.
 
TheXpert : 왜 숫자는 알파벳이 아닙니까?

알파벳 - 그러나 숫자 체계는 아닙니다.

알파벳 선택.

좋아, 그렇게 될거야. 다음과 같이 알파벳을 만들었습니다.

나는 역사(EURUSD, H1, 약 10년)를 통틀어 무조건적인 수익 분포를 찾습니다. 히스토그램은 다소 알려져 있습니다. 이것은 가우스 종을 연상시키는 일종의 곡선이지만 0에 가깝고 꼬리 부분에서 차이가 있습니다. 나는 그것을 여기에서 그리지 않을 것이다.

그런 다음 분포를 몇 분위수로 나눌지 선택합니다. 30이라고 합시다. 이것은 알파벳이 될 것입니다. 여기 그가 있습니다:

0: [-10000.000; -305.000),2166
1: [-305.000; -210.000),2167
2: [-210.000; -161.000),2166
3: [-161.000; -130.000),2166
4: [-130.000; -110.000),2166
5: [-110.000; -90.000),2167
6: [-90.000; -80.000),2166
7: [-80.000; -60.000),2166
8: [-60.000; -50.000),2166
9: [-50.000; -40.000),2167
10: [-40.000; -30.000),2166
11: [-30.000; -20.000),2166
12: [-20.000; -10.000),2166
13: [-10.000; -10.000),2167
14: [-10.000; 0.000),2166
15: [0.000; 10.000),2166
16: [10.000; 20.000),2167
17: [20.000; 24.000),2166
18: [24.000; 30.000),2166
19: [30.000; 40.000),2166
20: [40.000; 50.000),2167
21: [50.000; 62.000),2166
22: [62.000; 80.000),2166
23: [80.000; 90.000),2166
24: [90.000; 110.000),2167
25: [110.000; 136.000),2166
26: [136.000; 170.000),2166
27: [170.000; 211.000),2166
28: [211.000; 300.000),2167
29: [300.000; 10000.000),2167

설명: 먼저 분위수(0에서 29까지)가 옵니다. 그런 다음 5 자리 핍에서 분위수 경계를 특성화하는 반간격이 옵니다. 분위수 22가 62에서 80포인트로의 양수 수익률에 해당한다고 가정해 보겠습니다. 그리고 마지막 숫자는 이 분위수에 속하는 값의 수입니다(분위수로 분할의 정확성을 제어하기 위해).

예, 큰 수익에는 그다지 좋지 않습니다. 왜냐하면. 실제로 반품은 최대 약 3,000개의 새 항목이 될 수 있습니다. 글쎄, 이것들은 뚱뚱한 꼬리이며 아무 것도 할 수 없습니다 ...

이러한 알파벳은 카이제곱 검정을 계산할 때 나에게 편리했습니다. 독립성에서 매우 심각한 편차가 있더라도 최소 관절 히트 빈도가 5보다 작지 않기 때문에 편리합니다(이것이 카이제곱의 정확성을 위한 조건입니다). 아마도 알파벳의 다른 선택이 더 나을 것입니다.

일반적으로 분위수의 수가 50일 때 극한 분위수의 내부 경계가 이전 300개 대신 약 380개의 새 포인트로 이동한다고 가정해 보겠습니다. 이미 나아졌지만 여전히 훌륭하지는 않습니다.

 
Mathemat :

그런 다음 분포를 분할할 분위수를 선택합니다. 30이라고 합시다. 이것은 알파벳이 될 것입니다. 여기 그가 있습니다:

어렵지 않다면 알파벳을 사용하여 데이터를 분석하는 방법을 알려주시겠습니까? 나는 이제 matlab에서 NS의 도움으로 분석하는 동안 비슷한 작업으로 고심하고 있습니다.

NN이 아닌 알파벳 형태로 표현된 데이터를 분석할 수 있는 방법이 없을까요?

 
Mathemat :

진짜 . 거기에 어떤 제한도 발견하지 못했지만 합계와 로그는 MQL4에서 수행할 수 있습니다. 나는 세르게예프 가 무엇을 했는지 모른다. 그러나 다른 출처에서 내가 아는 한 계산에서 가장 어려운 부분은 감마 함수 계산이었습니다. TI에 대한 이야기는 없었습니다.


사람들은 Y. Sultonov의 "시장 가격 예측을 위한 보편적 회귀 모델" 의 기사에 따라 지표를 작성했습니다. 여기 코드 기반에 있습니다.

거기 에 유사한 구조가 사용됩니까? 아님?

 
HideYourRichess :
상호 엔트로피는 조건부와 동일하지 않으며 정보용과 동일하지 않습니다.

질문을 남깁니다. 시스템에 임의 값의 독립성을 요구하는 경우 상호 정보 통계를 적용하는 목적은 무엇입니까? 이 경우 상호 정보는 0과 같습니다. 여기저기 써있습니다.

그리고 나는 또한 TI에 엔트로피 개념을 도입한 것이 소련 학파의 특징이었다고 말할 것입니다. 미국인들은 상호 정보를 계산하기 위해 다음과 같은 고전적인 공식을 제공합니다.

즉, 개념으로서의 엔트로피가 없습니다.

 
HideYourRichess : 정보 엔트로피의 개념은 독립 기호에 대해 Shannon에 의해 도입되었습니다. 내 말을 못 믿겠다면 학술사전을 찾아보라.

정보 엔트로피(Wiki)에 대한 기사를 찾았습니다. 거기에서 인용 1:

엔트로피 는 통계적으로 독립적인 메시지를 생성하는 소스의 기본 메시지당 정보의 양입니다.

이것은 엔트로피, 일반 엔트로피입니다. 이 정의를 말씀하시는 건가요?

예, 알파벳 문자가 중복 및 종속성이 없도록 통계적으로 독립적 이어야 한다는 데 동의할 준비가 되어 있습니다. 이것이 바로 아카이버가 하는 일이며 텍스트를 만드는 데 사용된 알파벳과 분명히 다른 알파벳을 만듭니다.

그러나 우리는 그렇게 생각하지 않습니다! 우리가 생각하는 것에 대해 더 알아보십시오.

또한 같은 장소에서 이미 견적 2를 받았습니다.
조건부 엔트로피

알파벳 문자의 순서가 독립적이지 않은 경우(예: 프랑스어에서 문자 "q"는 거의 항상 "u"가 오고 소비에트 신문에서 "leader"라는 단어 뒤에는 "production" 또는 "labor"라는 단어가 옵니다. 일반적으로 따랐음), 그러한 기호의 시퀀스(따라서 엔트로피)가 전달하는 정보의 양은 분명히 더 적습니다. 조건부 엔트로피는 이러한 사실을 설명하는 데 사용됩니다.

이것은 다르며 이미 다음과 같이 작성했습니다.

HideYourRichss : 다음 질문인 조건부 엔트로피는 소스 알파벳의 문자 사이에 종속성이 있는 경우입니다. 이것은 논의된 정보 엔트로피와 동일하지 않습니다.

Topicstarter의 연설(그리고 내 것도)은 정보 엔트로피에 관한 것이 아니라 젠장, 상호 정보 (다시 Wiki)에 관한 것이었습니다!!

상호 정보 는 한 확률 변수에 포함된 정보의 양을 다른 확률 변수와 비교하여 설명하는 두 확률 변수의 통계 함수입니다.

상호 정보는 [I(X,Y)에 대한 공식은 다음과 같습니다 . ]

이제 마지막 요점:

HideYourRichess : 아카이버의 임무는 조건부 엔트로피를 정보 엔트로피로 변환하는 것입니다. 저것들. 결과 시퀀스에서 문자가 가능한 한 독립적인 완벽하게 정의된 제한된 알파벳을 만듭니다. 문자 수준에서 문학 텍스트의 정렬된 구조를 혼합하면 당연히 이러한 문자 시퀀스가 깨지고 압축이 악화됩니다. 완전히 임의의 문자 집합을 더 이상 압축할 수 없는 지점까지. 그래서 무엇? 그리고 시장은 어떻습니까?

우리가 정보 엔트로피라고 부르는 것이 아니라 상호 정보에 대해 이야기하고 있음에도 불구하고 시장. 모든 것. 점. 시장은 끝났다.

 
IgorM :

어렵지 않다면 알파벳을 사용하여 데이터를 분석하는 방법을 알려주시겠습니까? 나는 이제 matlab에서 NS의 도움으로 분석하는 동안 비슷한 작업으로 고심하고 있습니다.

NN이 아닌 알파벳 형태로 표현된 데이터를 분석할 수 있는 방법이 없을까요?

솔직히 말해서, 나는 당신의 질문을 잘 이해하지 못했습니다. 우리는 단순히 알파벳의 각 문자에 일련 번호를 할당한 다음 평소와 같이 숫자를 분석합니다. 아마 뭔가 구체적인 것이 있을 것 같은데 잘 모르겠습니다.

Roman.: 사람들은 Y. Sultonov의 "시장 가격 예측을 위한 범용 회귀 모델" 기사를 기반으로 지표를 작성했습니다. 여기 코드베이스에 있습니다.

거기 에 유사한 구조가 사용됩니까? 아님?

예, terver / 통계 또는 정보 이론의 힌트조차 없습니다! Yusuf 는 이 스레드에 자신의 게시물을 올렸지만 주제에서 벗어난 것으로 판명되었습니다. 토론 주제와 관련이 없습니다. ... 예, 거기에 로그가 있는 것 같았지만 ...
 
Mathemat :

예, terver / 통계 또는 정보 이론의 힌트조차 없습니다! ... 예, 거기에 로그가 있는 것 같았지만 ...

여기여기 에서 구불구불한 곡선 이 나와 매우 유사하다는 것을 의미합니다 ... :-))) 감마 분포의 존재를 포함하므로 솔루션에 대한 접근 방식은 유사해야 합니다.

최소한 조건부로 이것이 가능합니까?

 

트릭은 감마 분포 함수가 기사에서 마치 공기에서 나온 것처럼 보인다는 것입니다. 아마도 모션의 결정론적 디퓨라를 해결할 때지만 통계적 또는 terver 분석의 결과는 아닙니다. Roman , 지금까지 나는 솔루션에 대한 접근 방식에서 어떤 유사점도 보지 못했습니다. 심지어 조건부에서도 마찬가지입니다.

그러나 자세히 보면 여전히 유사점을 찾을 수 있습니다. 예를 들어 Yusuf 의 기사에서도 볼 수 있는 "배포"라는 단어에서 :)