Aprendizado de máquina no trading: teoria, prática, negociação e não só - página 1280

 

Mantenho a minha opinião: há dois parentes inquestionáveis do venerável KsanKsanych (Fa). 1) Alyoshenka o filho, que foi apanhado por investidores zangados, e 2) o neto Kesha, que promete bilhões a qualquer um que leia as criações do seu avô.

Por favor, não confunda as duas coisas!

 

Opinião interessante de um profissional de jogos do StarCraft 2 sobre o que está a acontecer. Especialmente sobre a trapaça no último jogo. Não devemos esquecer que organizar tais espectáculos a partir de grandes empresas é, antes de mais, uma acção de marketing. A coisa certa a fazer seria comprar suas ações para este evento dentro de um dia.


 

Se você estiver interessado, você pode comparar tabelas de importância por permutação e por remoção real do preditor

Importância dos preditores por força bruta (eliminando 1)
, característica, valor absoluto, valor relacionado * 100
1) 17 0.01097643069603077 99
2) 30 0.006790004907923086 61
3) 61 0.004684715336508855 42
4) 2 -0.0002692516957934765 -2
5) 59 -0.0006465367565449825 -5
6) 34 -0.0006503517167333328 -5
7) 5 -0.001340840857516234 -12
8) 41 -0.001504570905518282 -13
9) 15 -0.001971414359495396 -17
10) 49 -0.002008411960897655 -18
11) 6 -0.002027305543154334 -18
12) 55 -0.002292162160081906 -20
13) 47 -0.002398304141661728 -21
14) 29 -0.003010337993465118 -27
15) 51 -0.004160368206123241 -37
16) 45 -0.004454751375256194 -40
17) 31 -0.004888451443569572 -44
18) 0 -0.00493201061731692 -44
19) 48 -0.005610904510929521 -51
20) 3 -0.005764515487066274 -52
21) 57 -0.005965409431599886 -54
22) 10 -0.006056332510674986 -55
23) 35 -0.006367565963429744 -58
24) 58 -0.006638024809636447 -60
25) 43 -0.007371220115761079 -67
26) 9 -0.007420288551508419 -67
27) 21 -0.007838972444520739 -71
28) 4 -0.007840269966254226 -71
29) 44 -0.008004942292835771 -72
30) 16 -0.008290498838290847 -75
31) 36 -0.008995332552560964 -81
32) 50 -0.009024243316015798 -82
33) 27 -0.009105675807931257 -82
34) 24 -0.01027361001595535 -93
35) 7 -0.01052719088846928 -95
36) 26 -0.01082406611271462 -98
37) 18 -0.01155880619525071 -105
38) 60 -0.01156309946744785 -105
39) 56 -0.01203862169736691 -109
40) 1 -0.01203862169736691 -109
41) 25 -0.0122272134638268 -111
42) 38 -0.01241174339783128 -113
43) 62 -0.01249635462233889 -113
44) 28 -0.01266702047388507 -115
45) 11 -0.01359028620740281 -123
46) 39 -0.01404126970316556 -127
47) 20 -0.01439737068264699 -131
48) 52 -0.01439756725211659 -131
49) 42 -0.01444571512808378 -131
50) 22 -0.01551886866180208 -141
51) 33 -0.01615798882405024 -147
52) 12 -0.01905830020505599 -173
53) 14 -0.01926462731981513 -175
54) 37 -0.01995084300903066 -181
55) 40 -0.020510512124551 -186
56) 19 -0.021415509666178 -195
57) 63 -0.02151966963894812 -196
58) 54 -0.02355949029687353 -214
59) 64 -0.02507021252693609 -228
60) 32 -0.02702794503628224 -246
61) 8 -0.02803580711831312 -255
62) 13 -0.03090123190409769 -281
63) 46 -0.03344678821960098 -304
64) 53 -0.03558721250407129 -324
65) 23 -0.04407219798162174 -401

Importância dos preditores de acordo com o método de permutação
0) 0,043401, valor absoluto, valor relacionado * 100
1) 55 0.04340158682225395 99
2) 61 0.02562763893643727 59
3) 58 0.02546470705535522 58
4) 56 0.02529445125891924 58
5) 59 0.02513377163594621 57
6) 57 0.02208166602125552 50
7) 64 0.02019285632774162 46
8) 60 0.0160907362360114 37
9) 43 0.0125324616278514 28
10) 35 0.01239249171969528 28
11) 13 0.01233138008911674 28
12) 24 0.01170363669371338 26
13) 62 0.01162424331038356 26
14) 63 0.01149019906346291 26
15) 45 0.01127777161657609 25
16) 34 0.01085020622422195 24
17) 46 0.01061844113396632 24
18) 20 0.01007598993178244 23
19) 2 0.009874770749918993 22
20) 19 0.00973881761283335 22
21) 1 0.009100774421598679 20
22) 32 0.009027289557555301 20
23) 9 0.008970631365350451 20
24) 54 0.00802484531062575 18
25) 8 0.007874015748031482 18
26) 53 0.007388216046985141 17
27) 41 0.006952887365763216 16
28) 12 0.0065631543248105 15
29) 21 0.006511968996697037 15
30) 31 0.006445981174562854 14
31) 30 0.005790682414698156 13
32) 42 0.005742446472030011 13
33) 22 0.003590654957257189 8
34) 4 0.003590358440616087 8
35) 38 0.00350243104857792 8
36) 10 0.00350243104857792 8
37) 29 0.003392223030944636 7
38) 5 0.003253553701826867 7
39) 52 0.003019071994331074 6
40) 11 0.002622140078149371 6
41) 15 0.001506974549529611 3
42) 49 0.001178236999850979 2
43) 27 0.000646877104963639 1
44) 23 0.0001088642328799794 0
45) 0 -0.0007427642973199949 -1
46) 36 -0.0008086747680855211 -1
47) 18 -0.001719116017552688 -3
48) 16 -0.003868408494392753 -8
49) 7 -0.004264601904658535 -9
50) 25 -0.004436590312574581 -10
51) 44 -0.004549722466056144 -10
52) 17 -0.005094229165450173 -11
53) 33 -0.007112771718937178 -16
54) 50 -0.008009653155771651 -18
55) 6 -0.008725562553674474 -20
56) 26 -0.01000190433609049 -23
57) 47 -0.01158648521535965 -26
58) 3 -0.01809942562041326 -41
59) 51 -0.01843159353630121 -42
60) 39 -0.02375369534904158 -54
61) 40 -0.02659139305699997 -61
62) 37 -0.02970174182772609 -68
63) 48 -0.031083105562031 -71
64) 14 -0.03323633066169551 -76
65) 28 -0.03952723165321592 -91

Por permutação, as primeiras 10 linhas mostram que se removermos um preditor, o erro piorará em 2-6%, as primeiras 10 da enumeração apenas em 0,1-0,2%, já que na prática a árvore sempre encontrará outro preditor para o qual há uma separação quase tão boa (principalmente por aquelas correlacionadas com o preditor sendo removido, mas mesmo que sejam removidas anteriormente, algo ainda será encontrado).

Curiosamente, quase metade dos preditores mostram importância negativa quando realmente removidos, ou seja, se eles são removidos, então o erro da árvore é reduzido, ou seja, eles são claramente ruidosos. Mas o mais ruidoso é apenas 0,5% pior.
E o fato de a ordem de importância não ser nada semelhante leva à idéia de que ainda é melhor selecionar os preditores ruidosos por enumeração.

 

Talvez porque você tem que comparar com algum tipo de referência ou exemplo conhecido, não quente com a luz.

A +velocidade é muito importante. Como a algibeira não tem importações incorporadas, penso que a permutação é óptima neste momento (experimentei um monte de métodos de força bruta).

 
elibrarius:

Por permutação, as primeiras 10 linhas mostram que se você remover um preditor, o erro piorará em 2-6%, os primeiros 10 da enumeração - apenas em 0,1-0,2%, porque na prática a árvore sempre encontrará outro preditor para o qual haverá uma separação quase tão boa (principalmente devido à correlação com o preditor removido, mas mesmo que eles sejam removidos anteriormente, algo ainda será encontrado).

Por que você precisa do erro geral, você tem uma amostra binária de equilíbrio? Estou mais inclinada a encontrar formas de melhorar a precisão da classe 1.

 
Aleksey Vyazmikin:

Por que você precisa de um erro comum, você tem uma amostragem binária de equilíbrio?

O erro comum não é uma folha individual, mas uma árvore/floresta.

Aleksey Vyazmikin:

Estou mais inclinada a encontrar formas de melhorar a precisão da classe 1.

Eu também)

 
Maxim Dmitrievsky:

Talvez porque você tem que comparar com algum tipo de referência ou exemplo conhecido, não quente com luz.

A +velocidade é muito importante. Uma vez que a algibeira não tem importações incorporadas, acho que o baralhamento é óptimo agora (experimentei um monte de métodos de força bruta).

Overkill (delete/add 1) é a referência em relação à qual todos os outros métodos devem ser comparados. Mas é longo, eu concordo. Mas se acrescentar pelo menos 5%, estou disposto a esperar.
 
Mais uma pequena experiência com permutação.
Com execuções diferentes na mesma árvore, devido à aleatoriedade da permutação, a ordem de importância também muda
 
elibrarius:
Mais uma pequena experiência com permutação.
Com diferentes execuções na mesma árvore, devido à aleatoriedade da permutação, a ordem de importância também muda

Gostaria de esclarecer, em que amostra você testa o resultado do método de permutação, a que foi treinada, ou a que foi testada?

Eu entendo que o ruído é algo que deixa de funcionar em uma amostra fora do treinamento. Mas eu não acho que se trata de um único preditor, mas sim de relacionamentos/saídas. Isto é, há duas possibilidades - o preditor é lixo ou simplesmente não está sendo usado corretamente, ou seja, as folhas são lixo.

 
Aleksey Vyazmikin:

Gostaria de esclarecer, em que amostra você testa o resultado do método de permutação, a que foi treinada, ou a que foi testada?

Eu entendo que o ruído é algo que deixa de funcionar em uma amostra fora do treinamento. Mas eu não acho que se trata de um único preditor, mas sim de relacionamentos/saídas. Isto é, há duas possibilidades - o preditor é lixo ou simplesmente não está sendo usado corretamente, ou seja, as folhas são lixo.

No de aprendizagem, uma vez que as árvores não estão treinadas. Em árvores sobretreinadas, deveria estar na árvore de teste, já que a árvore também se lembraria do barulho.
Com árvores não treinadas não importa.
Mas o tamanho da amostra é importante. Quanto maior for, mais representativa é. E o meu plano de treino é 3 vezes maior.

---------

De acordo com o tutorial https://www.mql5.com/ru/blogs/post/723619, uma grande amostra representativa torna desnecessário o equilíbrio entre as classes, reduzindo a aleatoriedade temporal. Transferiu isto para as árvores não treinadas.
Mas posso estar errado e preciso de verificar o significado dos preditores na trama de teste.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015там есть несколько страниц посвященных этой теме. Вот итоговая:Отмеченный...