트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1280

 

저는 제 의견을 고수합니다. 존자 XanKsanych(Fa)의 무조건적인 두 친척이 여기에 살고 있습니다. 1) 화가 난 투자자들에게 추월당한 아들 Alyoshenka, 2) 그의 할아버지의 작품을 읽는 모든 사람에게 수십억 달러를 약속하는 Kesh의 손자.

혼동하지 마십시오!

 

무슨 일이 일어나고 있는지에 대한 StarCraft 2 게임 전문가의 흥미로운 의견. 특히 지난 경기에서 부정 행위에 대해. 대기업에서 그러한 광경을 조직하는 것은 주로 마케팅 전략이라는 것을 잊지 마십시오. 이 일중 행사를 위해 주식을 사는 것이 옳을 것입니다.


 

관심이 있는 경우 순열 및 예측 변수의 실제 제거를 통해 중요도 테이블을 비교할 수 있습니다.

열거형(1만큼 제거) 기차에 의한 예측 변수의 중요성
, 특성, 절대값, 관련값 * 100
1) 17 0.01097643069603077 99
2) 30 0.006790004907923086 61
3) 61 0.004684715336508855 42
4) 2 -0.0002692516957934765 -2
5) 59 -0.0006465367565449825 -5
6) 34 -0.0006503517167333328 -5
7) 5 -0.001340840857516234 -12
8) 41 -0.001504570905518282 -13
9) 15 -0.001971414359495396 -17
10) 49 -0.002008411960897655 -18
11) 6 -0.002027305543154334 -18
12) 55 -0.002292162160081906 -20
13) 47 -0.002398304141661728 -21
14) 29 -0.003010337993465118 -27
15) 51 -0.004160368206123241 -37
16) 45 -0.004454751375256194 -40
17) 31 -0.004888451443569572 -44
18) 0 -0.00493201061731692 -44
19) 48 -0.005610904510929521 -51
20) 3 -0.005764515487066274 -52
21) 57 -0.005965409431599886 -54
22) 10 -0.006056332510674986 -55
23) 35 -0.006367565963429744 -58
24) 58 -0.006638024809636447 -60
25) 43 -0.007371220115761079 -67
26) 9 -0.007420288551508419 -67
27) 21 -0.007838972444520739 -71
28) 4 -0.007840269966254226 -71
29) 44 -0.008004942292835771 -72
30) 16 -0.008290498838290847 -75
31) 36 -0.008995332552560964 -81
32) 50 -0.009024243316015798 -82
33) 27 -0.009105675807931257 -82
34) 24 -0.01027361001595535 -93
35) 7 -0.01052719088846928 -95
36) 26 -0.01082406611271462 -98
37) 18 -0.01155880619525071 -105
38) 60 -0.01156309946744785 -105
39) 56 -0.01203862169736691 -109
40) 1 -0.01203862169736691 -109
41) 25 -0.0122272134638268 -111
42) 38 -0.01241174339783128 -113
43) 62 -0.01249635462233889 -113
44) 28 -0.01266702047388507 -115
45) 11 -0.01359028620740281 -123
46) 39 -0.01404126970316556 -127
47) 20 -0.01439737068264699 -131
48) 52 -0.01439756725211659 -131
49) 42 -0.01444571512808378 -131
50) 22 -0.01551886866180208 -141
51) 33 -0.01615798882405024 -147
52) 12 -0.01905830020505599 -173
53) 14 -0.01926462731981513 -175
54) 37 -0.01995084300903066 -181
55) 40 -0.020510512124551 -186
56) 19 -0.021415509666178 -195
57) 63 -0.02151966963894812 -196
58) 54 -0.02355949029687353 -214
59) 64 -0.02507021252693609 -228
60) 32 -0.02702794503628224 -246
61) 8 -0.02803580711831312 -255
62) 13 -0.03090123190409769 -281
63) 46 -0.03344678821960098 -304
64) 53 -0.03558721250407129 -324
65) 23 -0.04407219798162174 -401

순열 방법에 따른 예측 변수의 중요성
, 특성, 절대값, 관련값 * 100
1) 55 0.04340158682225395 99
2) 61 0.02562763893643727 59
3) 58 0.02546470705535522 58
4) 56 0.02529445125891924 58
5) 59 0.02513377163594621 57
6) 57 0.02208166602125552 50
7) 64 0.02019285632774162 46
8) 60 0.0160907362360114 37
9) 43 0.0125324616278514 28
10) 35 0.01239249171969528 28
11) 13 0.01233138008911674 28
12) 24 0.01170363669371338 26
13) 62 0.01162424331038356 26
14) 63 0.01149019906346291 26
15) 45 0.01127777161657609 25
16) 34 0.01085020622422195 24
17) 46 0.01061844113396632 24
18) 20 0.01007598993178244 23
19) 2 0.009874770749918993 22
20) 19 0.00973881761283335 22
21) 1 0.009100774421598679 20
22) 32 0.009027289557555301 20
23) 9 0.008970631365350451 20
24) 54 0.00802484531062575 18
25) 8 0.007874015748031482 18
26) 53 0.007388216046985141 17
27) 41 0.006952887365763216 16
28) 12 0.0065631543248105 15
29) 21 0.006511968996697037 15
30) 31 0.006445981174562854 14
31) 30 0.005790682414698156 13
32) 42 0.005742446472030011 13
33) 22 0.003590654957257189 8
34) 4 0.003590358440616087 8
35) 38 0.00350243104857792 8
36) 10 0.00350243104857792 8
37) 29 0.003392223030944636 7
38) 5 0.003253553701826867 7
39) 52 0.003019071994331074 6
40) 11 0.002622140078149371 6
41) 15 0.001506974549529611 3
42) 49 0.001178236999850979 2
43) 27 0.000646877104963639 1
44) 23 0.0001088642328799794 0
45) 0 -0.0007427642973199949 -1
46) 36 -0.0008086747680855211 -1
47) 18 -0.001719116017552688 -3
48) 16 -0.003868408494392753 -8
49) 7 -0.004264601904658535 -9
50) 25 -0.004436590312574581 -10
51) 44 -0.004549722466056144 -10
52) 17 -0.005094229165450173 -11
53) 33 -0.007112771718937178 -16
54) 50 -0.008009653155771651 -18
55) 6 -0.008725562553674474 -20
56) 26 -0.01000190433609049 -23
57) 47 -0.01158648521535965 -26
58) 3 -0.01809942562041326 -41
59) 51 -0.01843159353630121 -42
60) 39 -0.02375369534904158 -54
61) 40 -0.02659139305699997 -61
62) 37 -0.02970174182772609 -68
63) 48 -0.031083105562031 -71
64) 14 -0.03323633066169551 -76
65) 28 -0.03952723165321592 -91

순열에 따르면 처음 10개 행은 예측 변수가 제거되면 오류가 2-6%, 열거에서 처음 10개 - 0.1-0.2%만 악화됨을 보여줍니다. 실제로, 트리는 항상 거의 동일한 양호한 분리가 있는 다른 예측자를 찾을 것입니다(주로 제거된 예측자와 상관 관계가 있기 때문이지만 사전에 제거되더라도 여전히 무언가가 있을 것입니다).

흥미롭게도 실제 거리에서 예측 변수의 거의 절반이 부정적인 중요성을 나타냅니다. 그것들이 제거되면 트리의 오류가 감소합니다. 그들은 분명히 시끄럽습니다. 그러나 가장 시끄러운 것은 결과를 0.5%만 악화시킵니다.
음, 중요도의 순서가 전혀 비슷하지 않다는 사실은 열거를 통해 잡음 예측자를 필터링하는 것이 여전히 더 낫다는 생각으로 이어집니다.

 

아마도 어떤 종류의 표준이나 잘 알려진 예와 비교해야하고 빛으로 뜨겁지 않기 때문일 수 있습니다.

+ 속도가 매우 중요합니다. imports는 alglib 에 내장되어 있지 않기 때문에 순열이 지금 최적이라고 생각합니다(무차별 대입 방법을 많이 시도했습니다)

 
도서관 :

순열에 따르면 처음 10개 행은 예측 변수가 제거되면 오류가 2-6%, 열거에서 처음 10개 - 0.1-0.2%만 악화됨을 보여줍니다. 실제로, 트리는 항상 거의 동일한 양호한 분리가 있는 다른 예측자를 찾을 것입니다(주로 제거된 예측자와 상관 관계가 있기 때문이지만 사전에 제거되더라도 여전히 무언가가 있을 것입니다).

그리고 왜 공통 오류가 필요합니까? 평형 이진 샘플이 있습니까? 나는 클래스 1 정확도를 개선하는 방법을 찾는 데 더 기울고 있습니다.

 
알렉세이 비아즈미킨 :

그리고 왜 공통 오류가 필요합니까? 평형 이진 샘플이 있습니까?

일반적인 실수 - 단일 잎이 아니라 나무 / 숲을 의미합니다.

알렉세이 비아즈미킨 :

나는 클래스 1 정확도를 개선하는 방법을 찾는 데 더 기울고 있습니다.

나도)

 
막심 드미트리예프스키 :

아마도 어떤 종류의 표준이나 잘 알려진 예와 비교해야하고 빛으로 뜨겁지 않기 때문일 수 있습니다.

+ 속도가 매우 중요합니다. import는 alglib에 내장되어 있지 않기 때문에 지금은 순열이 최적이라고 생각합니다(많은 무차별 대입 방법을 시도했습니다)

열거(1에 의한 삭제/추가)는 다른 모든 방법을 비교해야 하는 표준입니다. 하지만 오랜만입니다. 동의합니다. 그러나 그가 최소 5%를 추가한다면 나는 기다릴 준비가 되어 있습니다.
 
순열에 대한 또 다른 작은 실험.
동일한 트리에서 다른 실행으로 인해 순열의 무작위성으로 인해 중요도도 변경됩니다.
 
도서관 :
순열에 대한 또 다른 작은 실험.
동일한 트리에서 다른 실행으로 인해 순열의 무작위성으로 인해 중요도도 변경됩니다.

나는 어떤 샘플에서 순열 방법의 결과를 확인하고 있는지, 훈련된 방법에서, 아니면 테스트한 방법에서 확인하고 있는지 명확히 하고 싶었습니다.

내가 이해하는 한 노이즈는 훈련 외부의 샘플에서 완전히 작동하지 않는 것입니다. 하지만 포인트는 단일 예측 변수가 아니라 연결/리프에 있다고 생각합니다. 저것들. 두 가지 옵션이 있습니다. 예측자가 쓰레기이거나 단순히 올바르게 사용되지 않았습니다. 쓰레기 잎.

 
알렉세이 비아즈미킨 :

나는 어떤 샘플에서 순열 방법의 결과를 확인하고 있는지, 훈련된 방법에서, 아니면 테스트한 방법에서 확인하고 있는지 명확히 하고 싶었습니다.

내가 이해하는 한 노이즈는 훈련 외부의 샘플에서 완전히 작동하지 않는 것입니다. 하지만 포인트는 단일 예측 변수가 아니라 연결/리프에 있다고 생각합니다. 저것들. 두 가지 옵션이 있습니다. 예측자가 쓰레기이거나 단순히 올바르게 사용되지 않았습니다. 쓰레기 잎.

훈련 중이기 때문에 나무는 저개발. 재훈련된 트리에서는 테스트 트리에서 필요합니다. 나무도 그 소리를 기억할 것입니다.
훈련이 부족한 사람들에게는 그것이 중요하지 않다고 생각합니다.
그러나 표본 크기가 중요합니다. 크면 클수록 대표성이 높습니다. 그리고 내 훈련 영역은 3배 더 큽니다.

----------

https://www.mql5.com/ru/blogs/post/723619 자습서로 판단하면 대규모 대표 샘플은 클래스별 균형을 선택적으로 만들어 시간적 무작위성을 줄입니다. 훈련되지 않은 나무로 옮겼습니다.
하지만 내가 틀렸을 수도 있고 테스트 사이트에서 예측 변수의 중요성을 확인할 필요가 있습니다.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015там есть несколько страниц посвященных этой теме. Вот итоговая:Отмеченный...
사유: