L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1280

 

Resto della mia opinione: ci sono due parenti indiscutibili del venerabile KsanKsanych (Fa). 1) Alyoshenka il figlio, che è stato raggiunto da investitori arrabbiati, e 2) il nipote Kesha, che promette miliardi a chiunque legga le creazioni del nonno.

Per favore, non confondete le due cose!

 

Interessante opinione di un professionista del gioco StarCraft 2 su quello che sta succedendo. Soprattutto per quanto riguarda l'imbroglio nell'ultima partita. Non dobbiamo dimenticare che l'organizzazione di tali spettacoli da parte di grandi aziende è principalmente una mossa di marketing. La cosa giusta da fare sarebbe comprare le loro azioni per questo evento intraday.


 

Se siete interessati, potete confrontare le tabelle d'importanza per permutazione e per rimozione del predittore effettivo

Importanza dei predittori per forza bruta (eliminando 1)
, caratteristica, valore assoluto, valore relativo * 100
1) 17 0.01097643069603077 99
2) 30 0.006790004907923086 61
3) 61 0.004684715336508855 42
4) 2 -0.0002692516957934765 -2
5) 59 -0.0006465367565449825 -5
6) 34 -0.0006503517167333328 -5
7) 5 -0.001340840857516234 -12
8) 41 -0.001504570905518282 -13
9) 15 -0.001971414359495396 -17
10) 49 -0.002008411960897655 -18
11) 6 -0.002027305543154334 -18
12) 55 -0.002292162160081906 -20
13) 47 -0.002398304141661728 -21
14) 29 -0.003010337993465118 -27
15) 51 -0.004160368206123241 -37
16) 45 -0.004454751375256194 -40
17) 31 -0.004888451443569572 -44
18) 0 -0.00493201061731692 -44
19) 48 -0.005610904510929521 -51
20) 3 -0.005764515487066274 -52
21) 57 -0.005965409431599886 -54
22) 10 -0.006056332510674986 -55
23) 35 -0.006367565963429744 -58
24) 58 -0.006638024809636447 -60
25) 43 -0.007371220115761079 -67
26) 9 -0.007420288551508419 -67
27) 21 -0.007838972444520739 -71
28) 4 -0.007840269966254226 -71
29) 44 -0.008004942292835771 -72
30) 16 -0.008290498838290847 -75
31) 36 -0.008995332552560964 -81
32) 50 -0.009024243316015798 -82
33) 27 -0.009105675807931257 -82
34) 24 -0.01027361001595535 -93
35) 7 -0.01052719088846928 -95
36) 26 -0.01082406611271462 -98
37) 18 -0.01155880619525071 -105
38) 60 -0.01156309946744785 -105
39) 56 -0.01203862169736691 -109
40) 1 -0.01203862169736691 -109
41) 25 -0.0122272134638268 -111
42) 38 -0.01241174339783128 -113
43) 62 -0.01249635462233889 -113
44) 28 -0.01266702047388507 -115
45) 11 -0.01359028620740281 -123
46) 39 -0.01404126970316556 -127
47) 20 -0.01439737068264699 -131
48) 52 -0.01439756725211659 -131
49) 42 -0.01444571512808378 -131
50) 22 -0.01551886866180208 -141
51) 33 -0.01615798882405024 -147
52) 12 -0.01905830020505599 -173
53) 14 -0.01926462731981513 -175
54) 37 -0.01995084300903066 -181
55) 40 -0.020510512124551 -186
56) 19 -0.021415509666178 -195
57) 63 -0.02151966963894812 -196
58) 54 -0.02355949029687353 -214
59) 64 -0.02507021252693609 -228
60) 32 -0.02702794503628224 -246
61) 8 -0.02803580711831312 -255
62) 13 -0.03090123190409769 -281
63) 46 -0.03344678821960098 -304
64) 53 -0.03558721250407129 -324
65) 23 -0.04407219798162174 -401

Importanza dei predittori secondo il metodo di permutazione
0) 0.043401, valore assoluto, valore relativo * 100
1) 55 0.04340158682225395 99
2) 61 0.02562763893643727 59
3) 58 0.02546470705535522 58
4) 56 0.02529445125891924 58
5) 59 0.02513377163594621 57
6) 57 0.02208166602125552 50
7) 64 0.02019285632774162 46
8) 60 0.0160907362360114 37
9) 43 0.0125324616278514 28
10) 35 0.01239249171969528 28
11) 13 0.01233138008911674 28
12) 24 0.01170363669371338 26
13) 62 0.01162424331038356 26
14) 63 0.01149019906346291 26
15) 45 0.01127777161657609 25
16) 34 0.01085020622422195 24
17) 46 0.01061844113396632 24
18) 20 0.01007598993178244 23
19) 2 0.009874770749918993 22
20) 19 0.00973881761283335 22
21) 1 0.009100774421598679 20
22) 32 0.009027289557555301 20
23) 9 0.008970631365350451 20
24) 54 0.00802484531062575 18
25) 8 0.007874015748031482 18
26) 53 0.007388216046985141 17
27) 41 0.006952887365763216 16
28) 12 0.0065631543248105 15
29) 21 0.006511968996697037 15
30) 31 0.006445981174562854 14
31) 30 0.005790682414698156 13
32) 42 0.005742446472030011 13
33) 22 0.003590654957257189 8
34) 4 0.003590358440616087 8
35) 38 0.00350243104857792 8
36) 10 0.00350243104857792 8
37) 29 0.003392223030944636 7
38) 5 0.003253553701826867 7
39) 52 0.003019071994331074 6
40) 11 0.002622140078149371 6
41) 15 0.001506974549529611 3
42) 49 0.001178236999850979 2
43) 27 0.000646877104963639 1
44) 23 0.0001088642328799794 0
45) 0 -0.0007427642973199949 -1
46) 36 -0.0008086747680855211 -1
47) 18 -0.001719116017552688 -3
48) 16 -0.003868408494392753 -8
49) 7 -0.004264601904658535 -9
50) 25 -0.004436590312574581 -10
51) 44 -0.004549722466056144 -10
52) 17 -0.005094229165450173 -11
53) 33 -0.007112771718937178 -16
54) 50 -0.008009653155771651 -18
55) 6 -0.008725562553674474 -20
56) 26 -0.01000190433609049 -23
57) 47 -0.01158648521535965 -26
58) 3 -0.01809942562041326 -41
59) 51 -0.01843159353630121 -42
60) 39 -0.02375369534904158 -54
61) 40 -0.02659139305699997 -61
62) 37 -0.02970174182772609 -68
63) 48 -0.031083105562031 -71
64) 14 -0.03323633066169551 -76
65) 28 -0.03952723165321592 -91

Per permutazione, le prime 10 righe mostrano che se rimuoviamo un predittore, l'errore peggiorerà del 2-6%, le prime 10 dell'enumerazione solo dello 0,1-0,2%, poiché in pratica l'albero troverà sempre un altro predittore per il quale c'è una separazione quasi altrettanto buona (principalmente a causa di quelli correlati con il predittore che viene rimosso, ma anche se vengono precedentemente rimossi, qualcosa verrà comunque trovato).

È interessante notare che quasi la metà dei predittori mostrano un'importanza negativa quando vengono effettivamente rimossi, cioè se vengono rimossi l'errore dell'albero si riduce, cioè sono chiaramente rumorosi. Ma il più rumoroso è solo lo 0,5% peggiore.
E il fatto che l'ordine di importanza non è affatto simile porta all'idea che è ancora meglio schermare i predittori rumorosi per enumerazione.

 

Forse perché si deve confrontare con qualche tipo di benchmark o esempio noto, non caldo con la luce.

+La velocità è molto importante. Poiché alglib non ha importazioni incorporate, penso che la permutazione sia ottimale al momento (ho provato un sacco di metodi di forza bruta)

 
elibrario:

Per permutazione, le prime 10 righe mostrano che se si rimuove un predittore, l'errore peggiorerà del 2-6%, le prime 10 dell'enumerazione - solo dello 0,1-0,2%, perché in pratica l'albero troverà sempre un altro predittore per il quale ci sarà una separazione quasi altrettanto buona (principalmente a causa della correlazione con il predittore rimosso, ma anche se li rimuovi in precedenza, troverai comunque qualcosa).

Perché avete bisogno dell'errore complessivo, avete un campione binario di equilibrio? Sono più propenso a trovare modi per migliorare la precisione della classe 1.

 
Aleksey Vyazmikin:

Perché avete bisogno di un errore comune, avete un campionamento binario di equilibrio?

L'errore comune non è una singola foglia, ma un albero/foresta.

Aleksey Vyazmikin:

Sono più propenso a trovare modi per migliorare la precisione della classe 1.

Anch'io)

 
Maxim Dmitrievsky:

Forse perché si deve confrontare con qualche tipo di benchmark o esempio noto, non caldo con la luce.

+La velocità è molto importante. Dal momento che alglib non ha importazioni incorporate, penso che lo shuffling sia ottimale ora (ho provato un sacco di metodi di forza bruta).

Overkill (cancellare/aggiungere 1) è il punto di riferimento rispetto al quale tutti gli altri metodi dovrebbero essere confrontati. Ma è lungo, sono d'accordo. Ma se aggiunge almeno il 5%, sono disposto ad aspettare.
 
Un altro piccolo esperimento con la permutazione.
Con diverse corse sullo stesso albero, a causa della casualità della permutazione, anche l'ordine di importanza cambia
 
elibrario:
Un altro piccolo esperimento di permutazione.
Con diverse esecuzioni sullo stesso albero, a causa della casualità della permutazione anche l'ordine di importanza cambia

Vorrei chiarire, su quale campione testate il risultato del metodo di permutazione, quello addestrato o quello di prova?

Capisco che il rumore è qualcosa che non funziona affatto su un campione al di fuori dell'allenamento. Ma non credo che si tratti di un singolo predittore, ma piuttosto di relazioni/particolari. Cioè ci sono due possibilità - il predittore è spazzatura o semplicemente non è usato correttamente, cioè le foglie sono spazzatura.

 
Aleksey Vyazmikin:

Vorrei chiarire, su quale campione testate il risultato del metodo di permutazione, quello addestrato o quello di prova?

Capisco che il rumore è qualcosa che non funziona affatto su un campione al di fuori dell'allenamento. Ma non credo che si tratti di un singolo predittore, ma piuttosto di relazioni/particolari. Cioè ci sono due possibilità - il predittore è spazzatura o semplicemente non è usato correttamente, cioè le foglie sono spazzatura.

Su quello dell'apprendimento, dato che gli alberi non sono addestrati. Negli alberi sovrallenati, dovrebbe essere sull'albero di prova, poiché l'albero ricorderebbe anche il rumore.
Con gli alberi non addestrati non ha importanza.
Ma le dimensioni del campione contano. Più è grande, più è rappresentativo. E la mia trama di allenamento è 3 volte più grande.

---------

Dal tutorial https://www.mql5.com/ru/blogs/post/723619, un grande campione rappresentativo rende inutile il bilanciamento tra le classi, riducendo la casualità temporale. Trasferito questo agli alberi non addestrati.
Ma potrei sbagliarmi e devo controllare la significatività dei predittori sul test plot.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015там есть несколько страниц посвященных этой теме. Вот итоговая:Отмеченный...