交易中的机器学习：理论、模型、实践和算法交易

Alexander_K2 2019.01.29 19:31 #12791

我坚持我的观点：尊贵的KsanKsanych（法）有两个无可置疑的亲属。1）儿子阿廖申科，他被愤怒的投资者抓住了，2）孙子凯沙，他承诺给任何阅读他祖父的创作的人提供数十亿美元。

请不要把这两者混为一谈!

Aleksey Vyazmikin 2019.01.29 20:47 #12792

一位《星际争霸2》游戏专业人士对发生的事情发表了有趣的看法。特别是关于最后一场比赛中的作弊行为。我们不应忘记，组织大公司的这种场面主要是一种营销举措。正确的做法是在一天之内为这一事件购买他们的股票。

Forester 2019.01.30 09:21 #12793

如果你有兴趣，你可以通过排列组合和实际的预测器去除来比较重要性表

通过暴力手段提高预测因子的重要性（删除1）。，特征，绝对值，相关值*100 1) 17 0.01097643069603077 99 2) 30 0.006790004907923086 61 3) 61 0.004684715336508855 42 4) 2 -0.0002692516957934765 -2 5) 59 -0.0006465367565449825 -5 6) 34 -0.0006503517167333328 -5 7) 5 -0.001340840857516234 -12 8) 41 -0.001504570905518282 -13 9) 15 -0.001971414359495396 -17 10) 49 -0.002008411960897655 -18 11) 6 -0.002027305543154334 -18 12) 55 -0.002292162160081906 -20 13) 47 -0.002398304141661728 -21 14) 29 -0.003010337993465118 -27 15) 51 -0.004160368206123241 -37 16) 45 -0.004454751375256194 -40 17) 31 -0.004888451443569572 -44 18) 0 -0.00493201061731692 -44 19) 48 -0.005610904510929521 -51 20) 3 -0.005764515487066274 -52 21) 57 -0.005965409431599886 -54 22) 10 -0.006056332510674986 -55 23) 35 -0.006367565963429744 -58 24) 58 -0.006638024809636447 -60 25) 43 -0.007371220115761079 -67 26) 9 -0.007420288551508419 -67 27) 21 -0.007838972444520739 -71 28) 4 -0.007840269966254226 -71 29) 44 -0.008004942292835771 -72 30) 16 -0.008290498838290847 -75 31) 36 -0.008995332552560964 -81 32) 50 -0.009024243316015798 -82 33) 27 -0.009105675807931257 -82 34) 24 -0.01027361001595535 -93 35) 7 -0.01052719088846928 -95 36) 26 -0.01082406611271462 -98 37) 18 -0.01155880619525071 -105 38) 60 -0.01156309946744785 -105 39) 56 -0.01203862169736691 -109 40) 1 -0.01203862169736691 -109 41) 25 -0.0122272134638268 -111 42) 38 -0.01241174339783128 -113 43) 62 -0.01249635462233889 -113 44) 28 -0.01266702047388507 -115 45) 11 -0.01359028620740281 -123 46) 39 -0.01404126970316556 -127 47) 20 -0.01439737068264699 -131 48) 52 -0.01439756725211659 -131 49) 42 -0.01444571512808378 -131 50) 22 -0.01551886866180208 -141 51) 33 -0.01615798882405024 -147 52) 12 -0.01905830020505599 -173 53) 14 -0.01926462731981513 -175 54) 37 -0.01995084300903066 -181 55) 40 -0.020510512124551 -186 56) 19 -0.021415509666178 -195 57) 63 -0.02151966963894812 -196 58) 54 -0.02355949029687353 -214 59) 64 -0.02507021252693609 -228 60) 32 -0.02702794503628224 -246 61) 8 -0.02803580711831312 -255 62) 13 -0.03090123190409769 -281 63) 46 -0.03344678821960098 -304 64) 53 -0.03558721250407129 -324 65) 23 -0.04407219798162174 -401	根据互换法，预测因子的重要性 0）0.043401，绝对值，相关值*100 1) 55 0.04340158682225395 99 2) 61 0.02562763893643727 59 3) 58 0.02546470705535522 58 4) 56 0.02529445125891924 58 5) 59 0.02513377163594621 57 6) 57 0.02208166602125552 50 7) 64 0.02019285632774162 46 8) 60 0.0160907362360114 37 9) 43 0.0125324616278514 28 10) 35 0.01239249171969528 28 11) 13 0.01233138008911674 28 12) 24 0.01170363669371338 26 13) 62 0.01162424331038356 26 14) 63 0.01149019906346291 26 15) 45 0.01127777161657609 25 16) 34 0.01085020622422195 24 17) 46 0.01061844113396632 24 18) 20 0.01007598993178244 23 19) 2 0.009874770749918993 22 20) 19 0.00973881761283335 22 21) 1 0.009100774421598679 20 22) 32 0.009027289557555301 20 23) 9 0.008970631365350451 20 24) 54 0.00802484531062575 18 25) 8 0.007874015748031482 18 26) 53 0.007388216046985141 17 27) 41 0.006952887365763216 16 28) 12 0.0065631543248105 15 29) 21 0.006511968996697037 15 30) 31 0.006445981174562854 14 31) 30 0.005790682414698156 13 32) 42 0.005742446472030011 13 33) 22 0.003590654957257189 8 34) 4 0.003590358440616087 8 35) 38 0.00350243104857792 8 36) 10 0.00350243104857792 8 37) 29 0.003392223030944636 7 38) 5 0.003253553701826867 7 39) 52 0.003019071994331074 6 40) 11 0.002622140078149371 6 41) 15 0.001506974549529611 3 42) 49 0.001178236999850979 2 43) 27 0.000646877104963639 1 44) 23 0.0001088642328799794 0 45) 0 -0.0007427642973199949 -1 46) 36 -0.0008086747680855211 -1 47) 18 -0.001719116017552688 -3 48) 16 -0.003868408494392753 -8 49) 7 -0.004264601904658535 -9 50) 25 -0.004436590312574581 -10 51) 44 -0.004549722466056144 -10 52) 17 -0.005094229165450173 -11 53) 33 -0.007112771718937178 -16 54) 50 -0.008009653155771651 -18 55) 6 -0.008725562553674474 -20 56) 26 -0.01000190433609049 -23 57) 47 -0.01158648521535965 -26 58) 3 -0.01809942562041326 -41 59) 51 -0.01843159353630121 -42 60) 39 -0.02375369534904158 -54 61) 40 -0.02659139305699997 -61 62) 37 -0.02970174182772609 -68 63) 48 -0.031083105562031 -71 64) 14 -0.03323633066169551 -76 65) 28 -0.03952723165321592 -91

通过暴力手段提高预测因子的重要性（删除1）。
，特征，绝对值，相关值*100
1) 17 0.01097643069603077 99
2) 30 0.006790004907923086 61
3) 61 0.004684715336508855 42
4) 2 -0.0002692516957934765 -2
5) 59 -0.0006465367565449825 -5
6) 34 -0.0006503517167333328 -5
7) 5 -0.001340840857516234 -12
8) 41 -0.001504570905518282 -13
9) 15 -0.001971414359495396 -17
10) 49 -0.002008411960897655 -18
11) 6 -0.002027305543154334 -18
12) 55 -0.002292162160081906 -20
13) 47 -0.002398304141661728 -21
14) 29 -0.003010337993465118 -27
15) 51 -0.004160368206123241 -37
16) 45 -0.004454751375256194 -40
17) 31 -0.004888451443569572 -44
18) 0 -0.00493201061731692 -44
19) 48 -0.005610904510929521 -51
20) 3 -0.005764515487066274 -52
21) 57 -0.005965409431599886 -54
22) 10 -0.006056332510674986 -55
23) 35 -0.006367565963429744 -58
24) 58 -0.006638024809636447 -60
25) 43 -0.007371220115761079 -67
26) 9 -0.007420288551508419 -67
27) 21 -0.007838972444520739 -71
28) 4 -0.007840269966254226 -71
29) 44 -0.008004942292835771 -72
30) 16 -0.008290498838290847 -75
31) 36 -0.008995332552560964 -81
32) 50 -0.009024243316015798 -82
33) 27 -0.009105675807931257 -82
34) 24 -0.01027361001595535 -93
35) 7 -0.01052719088846928 -95
36) 26 -0.01082406611271462 -98
37) 18 -0.01155880619525071 -105
38) 60 -0.01156309946744785 -105
39) 56 -0.01203862169736691 -109
40) 1 -0.01203862169736691 -109
41) 25 -0.0122272134638268 -111
42) 38 -0.01241174339783128 -113
43) 62 -0.01249635462233889 -113
44) 28 -0.01266702047388507 -115
45) 11 -0.01359028620740281 -123
46) 39 -0.01404126970316556 -127
47) 20 -0.01439737068264699 -131
48) 52 -0.01439756725211659 -131
49) 42 -0.01444571512808378 -131
50) 22 -0.01551886866180208 -141
51) 33 -0.01615798882405024 -147
52) 12 -0.01905830020505599 -173
53) 14 -0.01926462731981513 -175
54) 37 -0.01995084300903066 -181
55) 40 -0.020510512124551 -186
56) 19 -0.021415509666178 -195
57) 63 -0.02151966963894812 -196
58) 54 -0.02355949029687353 -214
59) 64 -0.02507021252693609 -228
60) 32 -0.02702794503628224 -246
61) 8 -0.02803580711831312 -255
62) 13 -0.03090123190409769 -281
63) 46 -0.03344678821960098 -304
64) 53 -0.03558721250407129 -324
65) 23 -0.04407219798162174 -401

根据互换法，预测因子的重要性
0）0.043401，绝对值，相关值*100
1) 55 0.04340158682225395 99
2) 61 0.02562763893643727 59
3) 58 0.02546470705535522 58
4) 56 0.02529445125891924 58
5) 59 0.02513377163594621 57
6) 57 0.02208166602125552 50
7) 64 0.02019285632774162 46
8) 60 0.0160907362360114 37
9) 43 0.0125324616278514 28
10) 35 0.01239249171969528 28
11) 13 0.01233138008911674 28
12) 24 0.01170363669371338 26
13) 62 0.01162424331038356 26
14) 63 0.01149019906346291 26
15) 45 0.01127777161657609 25
16) 34 0.01085020622422195 24
17) 46 0.01061844113396632 24
18) 20 0.01007598993178244 23
19) 2 0.009874770749918993 22
20) 19 0.00973881761283335 22
21) 1 0.009100774421598679 20
22) 32 0.009027289557555301 20
23) 9 0.008970631365350451 20
24) 54 0.00802484531062575 18
25) 8 0.007874015748031482 18
26) 53 0.007388216046985141 17
27) 41 0.006952887365763216 16
28) 12 0.0065631543248105 15
29) 21 0.006511968996697037 15
30) 31 0.006445981174562854 14
31) 30 0.005790682414698156 13
32) 42 0.005742446472030011 13
33) 22 0.003590654957257189 8
34) 4 0.003590358440616087 8
35) 38 0.00350243104857792 8
36) 10 0.00350243104857792 8
37) 29 0.003392223030944636 7
38) 5 0.003253553701826867 7
39) 52 0.003019071994331074 6
40) 11 0.002622140078149371 6
41) 15 0.001506974549529611 3
42) 49 0.001178236999850979 2
43) 27 0.000646877104963639 1
44) 23 0.0001088642328799794 0
45) 0 -0.0007427642973199949 -1
46) 36 -0.0008086747680855211 -1
47) 18 -0.001719116017552688 -3
48) 16 -0.003868408494392753 -8
49) 7 -0.004264601904658535 -9
50) 25 -0.004436590312574581 -10
51) 44 -0.004549722466056144 -10
52) 17 -0.005094229165450173 -11
53) 33 -0.007112771718937178 -16
54) 50 -0.008009653155771651 -18
55) 6 -0.008725562553674474 -20
56) 26 -0.01000190433609049 -23
57) 47 -0.01158648521535965 -26
58) 3 -0.01809942562041326 -41
59) 51 -0.01843159353630121 -42
60) 39 -0.02375369534904158 -54
61) 40 -0.02659139305699997 -61
62) 37 -0.02970174182772609 -68
63) 48 -0.031083105562031 -71
64) 14 -0.03323633066169551 -76
65) 28 -0.03952723165321592 -91

通过互换，前10行显示，如果我们删除一个预测器，误差将恶化2-6%，列举的前10行只恶化0.1-0.2%，因为在实践中，树总是会找到另一个预测器，对它来说，几乎有同样好的分离度（主要是由于那些与被删除的预测器相关的预测器，但即使它们以前被删除，仍然会找到一些东西）。

有趣的是，几乎一半的预测因子在实际删除时显示出负的重要性，即如果它们被删除，那么树的误差就会减少，也就是说，它们显然是有噪声的。但最吵的那个只差0.5%。
而重要性顺序完全不一样的事实，导致了这样的想法：通过列举来筛选出嘈杂的预测因子，还是比较好的。

测试日志 - 算法交易, 交易机器人

Maxim Dmitrievsky 2019.01.30 10:31 #12794

也许是因为你必须与某种基准或已知的例子进行比较，而不是用光热。

+速度是非常重要的。由于alglib没有内置的导入功能，我认为包络法是目前最佳的方法（尝试了一堆蛮力方法）。

Aleksey Vyazmikin 2019.01.30 11:00 #12795

elibrarius。

通过互换，前10行显示，如果你删除一个预测器，误差会恶化2-6%，列举的前10行--只恶化0.1-0.2%，因为在实践中，树总会找到另一个预测器，对它来说，会有几乎一样好的分离（主要是由于与被删除的预测器相关，但即使你以前删除它们，你仍然会发现一些东西）。

你为什么需要总体误差，你有一个平衡的二元样本吗？我更倾向于寻找方法来提高1级的准确性。

Forester 2019.01.30 11:21 #12796

阿列克谢-维亚兹米 金。

为什么要有一个共同的误差，你有平衡的二元采样吗？

常见的错误不是一片单独的叶子，而是一棵树/森林。

阿列克谢-维亚兹米 金。

我更倾向于寻找方法来提高1级的准确性。

我也是)

Forester 2019.01.30 11:23 #12797

马克西姆-德米特里耶夫斯基。

也许是因为你必须与某种基准或已知的例子进行比较，而不是用光热。

+速度是非常重要的。由于alglib没有内置导入功能，我认为现在洗牌是最佳选择（尝试了一堆蛮力方法）。

矫枉过正（删除/添加1）是所有其他方法应该比较的基准。但它很漫长，我同意。但如果它至少增加5%，我愿意等待。

Forester 2019.01.30 11:30 #12798

另一个关于包络的小实验。
在同一棵树上的不同运行中，由于排列组合的随机性，重要性的顺序也会发生变化

Aleksey Vyazmikin 2019.01.30 11:44 #12799

elibrarius。
另一个关于排列组合的小实验。
在同一棵树上的不同运行中，由于随机性的排列组合，重要性的顺序也会发生变化。

我想澄清一下，你是在哪个样本上测试互换法的结果，是训练过的那个，还是测试的那个？

我理解，噪音是在训练之外的样本上完全停止工作的东西。但我认为这不是一个单一的预测因素，而是关系/离开的问题。也就是说，有两种可能--预测器是垃圾，或者只是没有被正确使用，也就是说，叶子是垃圾。

Forester 2019.01.30 11:56 #12800

阿列克谢-维亚兹米 金。

我想澄清一下，你是在哪个样本上测试互换法的结果，是训练过的那个，还是测试的那个？

我理解，噪音是在训练之外的样本上完全停止工作的东西。但我认为这不是一个单一的预测因素，而是关系/离开的问题。即有两种可能--预测器是垃圾，或者只是没有被正确使用，即叶子是垃圾。

在学习方面，由于树是没有经过训练的。在过度训练的树上，它应该是在测试树上，因为树也会记住噪声。
对于未经训练的树木，这并不重要。
但样本量确实很重要。它越大，就越有代表性。而我的训练地块是3倍大。

---------

根据https://www.mql5.com/ru/blogs/post/723619 教程，大量的代表性样本使各班的平衡成为不必要的，减少了时间上的随机性。把这个转给了没有受过训练的树木。
但我可能是错的，我需要在测试图上检查预测者的意义。

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015там есть несколько страниц посвященных этой теме. Вот итоговая:Отмеченный...

交易中的机器学习：理论、模型、实践和算法交易 - 页 1280