L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2800

 
mytarmailS #:

La particolarità è che sembra esserci un forte sbilanciamento delle classi, se per 100 esempi ci sono 5 voti di una classe e 95 voti di un'altra, come può il modello dare più di 0,5 probabilità per la prima classe? Non è una domanda al modello, è una domanda all'autore del dataset.

C'è più del 30% di prima classe. E sì, è possibile, non vedo il problema. È sufficiente trovare una lista di regole che abbia maggiori probabilità di predire "1" rispetto a "0", anche se raramente.

Inoltre, nessuno impedisce di cambiare il dataset bilanciando le classi.
 
Aleksey Vyazmikin #:

C'è più del 30% di prima classe. E, sì, forse, non vedo il problema. È sufficiente trovare una lista di regole che abbia maggiori probabilità di predire "1" rispetto a "0", anche se raramente.

Inoltre, nessuno può cambiare il dataset bilanciando le classi.

Vi stavate lamentando di catbust, e catbust non è una lista di regole.

 
Solo i NS necessitano di bilanciamento. I modelli in legno non richiedono il bilanciamento.
 
mytarmailS #:

Ti stavi lamentando dei catbuster, e i catbuster non sono di legno.

La lamentela non riguarda l'algoritmo, che è quello che è, ma il fatto che è meglio alimentarlo con dati già masticati.

Prima l'hai capito in qualche modo...

Forum sul trading, sui sistemi di trading automatizzati e sulla verifica delle strategie di trading.

L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading

mytarmailS, 2016.10.29 11:22 pm.

situazione ipotetica....

Abbiamo 100 potenziali predittori, per semplicità di spiegazione facciamo che siano indicatori.

Immaginiamo di sapere inizialmente che in tutti questi predittori c'è una sola situazione profittevole, ovvero quando l'RSI ha superato 90 e lo stocastico è appena sceso sotto lo zero (la situazione dal soffitto, ovviamente), questa situazione dà un calo del prezzo con una probabilità del 90%, tutti gli altri predittori sono un rumore completo, tutte le altre situazioni nei predittori RSI e stocastico sono anch'esse un rumore completo, e ci sono centinaia e centinaia di situazioni diverse....

quindi abbiamo circa lo 0,01% di segnale utile contro il 99,9% di rumore.

Supponiamo che per miracolo il vostro MO elimini tutti i 98 predittori e ne lasci solo due: RSI e stocastico.

In RSI ci sono centinaia di situazioni RSI>0, RSI>13, RSI<85, RSI=0, RSI<145, ............. e così centinaia e centinaia, nello stocastico non ci sono meno situazioni, la situazione di lavoro è solo una, poiché si addestra MO a riconoscere tutti i movimenti di prezzo, MO costruirà modelli tenendo conto di tutte le possibili situazioni che esistono in RSI e stocastico, e la probabilità in quelle situazioni che funzionino è quasi zero, ma MO è obbligato a tenerle in considerazione e a costruire alcuni modelli su di esse, nonostante il fatto che sia il vero rumore, e quell'unica situazione di lavoro si perderà tra centinaia di altre soluzioni, questo è il retraining.....

Ebbene, come l'avete ottenuta alla fine?


Giustificare cosa c'entrano la rappresentazione del modello e le proporzioni dell'obiettivo. Sto dicendo che il modello può essere rappresentato come un foglio modernizzato - una regola.

 
elibrarius #:
Solo i modelli NS necessitano di un bilanciamento. I modelli ad albero non richiedono il bilanciamento.

Questo vale per i dati buoni, in ogni caso i contatori all'interno dell'algoritmo lavorano e prendono decisioni sul numero di obiettivi assegnati...

 
Aleksey Vyazmikin #:

La particolarità è che il modello CatBoost preferisce assegnare a tutti gli esempi una probabilità inferiore a 0,5 - quindi non classifica l'obiettivo "1", e anche ciò che è compreso tra 0 e 0,5 non è molto ben distribuito.

Se abbiamo 100 esempi del target 5 etichette ("A") e 95 etichette ("B").

allora il modello non può dare una probabilità per l'etichetta "A" maggiore di 0,5.

In qualche singola regola può farlo, ma il post dice catbust, e questo è un modello (somma di predizioni di regole), non una singola regola, e la somma non avrà una probabilità così alta.


Anche se il modello è sicuro che si tratti del segno "A". la somma delle probabilità delle regole del marchio "A" sarà sovrastata dalla somma delle regole di "B" perché le regole di "B" saranno molto più grandi.

 
elibrarius #:
Solo i NS necessitano di bilanciamento. I modelli in legno non richiedono il bilanciamento.

https://stats.stackexchange.com/questions/340854/random-forest-for-imbalanced-data

random forest for imbalanced data?
random forest for imbalanced data?
  • 2018.04.16
  • MSilvy MSilvy 139 1 1 silver badge 8 8 bronze badges
  • stats.stackexchange.com
I have a dataset where yes=77 and no=16000, a highly imbalanced dataset. My plan was to identify the most important variables influencing the response variable using random forest and then develop a logistic regression model using the selected variable. I am planning to use...
 
mytarmailS #:

se abbiamo 5 voti ("A") e 95 voti ("B") per 100 esempi del target

allora il modello non può dare una probabilità per l'etichetta "A" maggiore di 0,5

In alcune singole regole può farlo, ma il post dice che si tratta di un modello (somma di predizioni di regole), non di una singola regola, e la somma non avrà una probabilità così alta.


Anche se il modello è sicuro che si tratti del segno "A". la somma delle probabilità delle regole del marchio "A" sarà sovrastimata dalla somma delle regole di "B" perché le regole di "B" saranno molto più grandi.

Tutto dipende dai predittori e dal numero di alberi del modello.

Non insisto sul modello CatBoost per l'addestramento.

 

https://www.mql5.com/ru/blogs/post/723619

77 esempi su 16000 sono troppo pochi. 77 esempi non sono affatto rappresentativi.
L'unica possibilità è studiare l'albero in modo molto approfondito.

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
elibrarius #:

https://www.mql5.com/ru/blogs/post/723619

77 esempi su 16000 sono troppo pochi. 77 esempi non sono affatto rappresentativi.
L'unica possibilità è studiare l'albero in modo molto approfondito.

Com'è il libro?