L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1615

 
Aleksey Vyazmikin:

Non si tratta di restringimento, ma di statistica del comportamento del predittore su un campione al di fuori di una divisione - questo dovrebbe ridurre la casualità della selezione di un valore di predittore.

A proposito, AlgLib fa la griglia su ogni divisione o una volta sola e poi usa quella griglia? Da quanto ho capito, gli sviluppatori di CatBoost affermano che la griglia è fatta solo una volta da loro.

Non c'è casualità. Viene selezionata la migliore partizione disponibile di ogni predittore. C'è casualità nella foresta, quando ogni albero viene alimentato non con tutti i predittori, ma per esempio con la metà di quelli selezionati casualmente.

Impara una volta. Non c'è riqualificazione. Per gli alberi/foreste, non sembra esserci alcun riapprendimento, probabilmente perché è piuttosto veloce da riapprendere.
E perché la griglia? Gli alberi hanno nodi e foglie.

 
elibrario:
A proposito, quello che non mi piace dei boost è che la profondità dell'albero raccomandata è 7-10.
Cioè, se abbiamo 100 predittori e la divisione lì inizia anche nel mezzo di ogni predittatore. È molto probabile che avremo 7 diversi predittori divisi a metà. Forse 1 o 2 si divideranno in un quarto, difficilmente più piccolo.
O negli algoritmi di boosting l'algoritmo non lavora per mezza divisione, ma in pezzi più piccoli? Qualcuno lo sa?
E chi usa quale profondità d'albero?


 
Maxim Dmitrievsky:


47 minuti sono un peccato... per ascoltare le basi, che sono per lo più note. Solo una domanda specifica è interessante. Se lo sai - dimmelo)

 
elibrario:

47 minuti sono un peccato... per ascoltare le basi, che sono per lo più note. Solo una domanda specifica è interessante. Se lo sai, dimmelo.

Sono tutti costruiti in modo diverso, bisogna leggere il manuale di ognuno.

non importa se hai dei chip informativi che sono rilevanti per l'obiettivo, allora qualsiasi metodo funziona

Stavo confrontando la foresta con il boosting su caratteristiche simili. Il boosting ha meno overfit, complessivamente +-

 
Maxim Dmitrievsky:

Sono tutti costruiti in modo diverso, dovete leggere l'aiuto per ogni

non importa se ci sono caratteristiche informative che sono rilevanti per l'obiettivo, allora qualsiasi metodo funziona

Stavo confrontando la foresta con il boosting su caratteristiche simili. Il boosting ha meno overfit, in generale +-

A che profondità hai impostato il boosting?
 
Maxim Dmitrievsky:

Sono tutti costruiti in modo diverso, dovete leggere l'aiuto per ogni

non importa se ci sono caratteristiche informative che sono rilevanti per l'obiettivo, allora qualsiasi metodo funziona

Stavo confrontando la foresta con il boosting su caratteristiche simili. Il boosting ha meno overfit, in generale +-

Questo è quello che voglio dire. Se gli input sono adatti allo scopo, qualsiasi metodo funzionerà. È quello che volevo controllare perché i miei input sono davvero buoni. Ma solo l'ottimizzatore di Reshetov lo dimostra, e come si capisce un esperto non è sufficiente per fare una valutazione soggettiva. Non si tratta del metodo, ognuno dei metodi richiede solo un certo numero di caratteristiche (Max, è la prima volta che uso questa parola a causa tua) qualcuno ne ha bisogno molto, qualcuno poco, ma in generale, se i dati di input spiegano la variabile di output, allora qualsiasi metodo funzionerà. E penso che i risultati saranno simili. Vorrei poter utilizzare i miei ingressi in sistemi diversi da Reshetov. È necessario andare nel forum dei programmatori, non so dove andare :-(.
 
elibrario:
Che profondità hai impostato per il boosting?

Da 2 a 10, maggiore è la profondità, maggiore è l'adattamento

in modo ottimale 3-7

Anche il passo del gradiente può essere cambiato. In generale, non importa, i risultati sono meno dispersione, meno offset, meno segnali, ecc. e l'immagine media è conservata. È una questione di ottimizzazione, non ha niente a che vedere con la qualità.


 
Max, onestamente, grazie per il video sul neurone naturale, ma questo video non è molto buono. Il fatto è che ho una teoria di riqualificazione a cui penso da molto tempo e l'ho costruita abbastanza adeguatamente per me. Sono sicuro che lo staff di Yandex sarebbe interessato ad ascoltarlo. Eh... Vorrei trovare la forza di registrare un video. Sono sempre ubriaco o divertente. Non lo so :-(
 
Mihail Marchukajtes:
Max, voglio ringraziarti per il video sul neurone naturale, ma questo video non è così buono. La questione è che io ho una teoria di riqualificazione a cui ho pensato per molto tempo e che ho costruito in modo abbastanza adeguato per me. Sono sicuro che lo staff di Yandex sarebbe interessato ad ascoltarlo. Eh... Vorrei trovare la forza di registrare un video. Sono sempre ubriaco o divertente. Non lo so :-(

)) le regolarità dovrebbero essere ricercate attraverso la statanalisi piuttosto che torturare i neuroni

Per esempio, nel mio penultimo articolo ho dato le fluttuazioni stagionali dell'EURUSD per 10 anni, per mesi. Quest'anno si sta ripetendo. Aprile-maggio sarà il più interessante (a breve termine)
 
Maxim Dmitrievsky:

)) le regolarità dovrebbero essere cercate attraverso la statanalisi, non torturando i neuroni

Questo è quello che voglio dire. Prima di scomodare JPrediction lascio solo 150 pezzi su 6000 mila colonne, che sono statisticamente significativi, e solo allora cerco quella famigerata legge che descrive l'output. Il numero di colonne dovrebbe essere il doppio del numero di righe della tabella, in teoria, in modo che l'algoritmo abbia abbastanza dati tra cui scegliere. Di conseguenza, l'ottimizzatore lascia da 5 a 10 pezzi sui 150 suggeriti da me per formare il modello finale.