L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2037

 
Rorschach:

L'ultima colonna è l'obiettivo, il resto è l'input

In generale ho tagliato il campione in 3 parti 60% - formazione e 20 formazione di controllo e campione non coinvolto nella formazione.

La memoria mangia molto - 18 gigabyte - sono sorpreso. Quanta memoria avete?

Ho iniziato il processo di apprendimento con impostazioni quasi predefinite, ma vedo che il campione di allenamento sta migliorando rapidamente, mentre il campione di controllo non mostra alcun miglioramento dopo il primo albero.

Quindi la domanda è: sei sicuro che ci sia uno schema?

C'è un suggerimento che le classi non sono affatto ben bilanciate, sembra essere una percentuale di unità intorno al 10%?

 
Igor Makanu:

Quindi non possiamo formalizzare il concetto di TC?

Sembra che TC sia un'ispirazione o che stia suonando uno strumento musicale?

Non appena riusciremo a formalizzarlo e a scriverlo in un linguaggio, allora qualche ragazzo intelligente inventerà un compilatore per quel linguaggio, e i commercianti spariranno nel dimenticatoio)

Igor Makanu:

O torniamo al nostro ... - Si scopre che il TS è principalmente l'analisi delle informazioni di mercato e il processo decisionale

Se non capite cosa significano le parole di cui sopra e capite che per questo motivo i risultati dell'analisi delle stesse informazioni possono non essere gli stessi per persone diverse e che solo il futuro può mostrare chi ha ragione)

 
dr.mr.mom:

Perché questo pessimismo globale? ))) Ho "osservato" come si allenano anche prima di tutti i moderni pacchetti di NeuroShell Day Pro. E anche allora ho ottenuto risultati robusti che non so come funziona internamente ed è stato difficile, quasi impossibile da aggiungere a MT4.

Sono d'accordo che sarebbe auspicabile imbullonare la GPU.

La questione è che tipo di NS sono e in quale paradigma sono stati costruiti/appresi, i miei sono in evoluzione.

Sì, la prima variante robusta può essere addestrata anche per un giorno (anche se in pratica su un vecchio portatile di casa ci vogliono 8 ore). Ma per tornare alla necessità di un'ulteriore evoluzione della prima variante a scapito della sua robustezza sarà necessario tra un mese. Cioè anche con dieci strumenti di lavoro nella vita reale prima ci sarà una nuova variante.

Ora, per quanto riguarda l'architettura, prendiamo l'algoritmo NEAT come base e aggiungiamo le nostre caratteristiche. All'uscita l'architettura si evolverà, compresa l'architettura.

Quindi va così.

E allo stesso tempo consiglio di leggere libri/lezioni di microbiologia ecc.

E nelle dispute purtroppo uno è un pazzo (argomentando senza conoscenza), l'altro è un bastardo (argomentando con conoscenza), preferisco uno scambio di opinioni con argomenti/ragionamento.

Dopo tutto, l'importante è avere un impatto, al diavolo, andiamo)))

Niente di cui discutere, perché in qualsiasi quadro normale ha fatto e mostrato, con un minimo di codice

gli homebrew non sono particolarmente discussi qui, solo modelli maturi come il catbust o le reti neurali di oggi

Questo polverone di mouse con le reti neurali mql non è nemmeno interessante da discutere, perché il mondo è molto più avanti, e ogni anno raddoppia il divario.

Supponiamo che mi diciate: "ho un tale-e-qualcosa modello su tensorflow"... Io dico "bene, posso fare lo stesso modello su un Torch per 5 minuti e controllarlo. E tu mi dici che hai costruito qualcosa in mql. A cosa mi serve quell'informazione e come posso ricrearla?

 
Aleksey Vyazmikin:

In generale ho tagliato il campione in 3 parti 60% - formazione e 20 formazione di controllo e un campione non coinvolto nella formazione.

Mangia molta memoria - 18 gigabyte - sono sorpreso. Quanta memoria avete?

Ho iniziato il processo di apprendimento con impostazioni quasi predefinite, ma vedo che il campione di allenamento sta migliorando rapidamente, mentre il campione di controllo non mostra alcun miglioramento dopo il primo albero.

Quindi la domanda è: siete sicuri che lo schema ci sia?

C'è un suggerimento che le classi non sono affatto ben bilanciate, sembra essere una percentuale di unità intorno al 10%?

I sistemi ad albero non hanno bisogno del bilanciamento delle classi in un grande campione. Le reti neurali si inceppano per lo squilibrio, e gli alberi spargono chiaramente tutto sulle foglie.
Questo è uno dei motivi per cui sono passato agli alberi.

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?
Нужна ли деревьям и лесам балансировка по классам?
  • www.mql5.com
Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный
 
Aleksey Nikolayev:

Beh, sì, solo rendendosi conto che è impossibile formalizzare in modo chiaro e univoco il significato di queste parole) e rendendosi conto che per questo motivo i risultati dell'analisi delle stesse informazioni possono variare molto da una persona all'altra e che solo il futuro può mostrare chi aveva ragione)

con l'analisi delle informazioni di mercato, in generale, non ci sono problemi... tranne che per l'avidità del ricercatore che pensa che il mercato dia informazioni solo a lui e ha bisogno di elaborare tutti i dati, cioè qui il compito è formalizzato come la ricerca di un modello che si ripete, altri dati dovrebbero essere scartati (non utilizzati)

con la decisione è triste - generare TS che passerà il test e in avanti è possibile, ma trovare collegamenti tra le statistiche del tester di strategia e il tempo di persistenza del TS o la possibilità di determinare la conformità del TS con il contesto di mercato - questo è il problema

cioè, come scrivi tu, il problema è nel futuro


Penso che in generale abbiamo fatto un po' di progressi nella formalizzazione del problema,

in linea di principio non è difficile fare uno scarico di statistiche di test e provare ad addestrare NS in Python,

Determinazione del contesto di mercato, imho, come hai scritto - solo una decisione del commerciante, cioè dubito che sia possibile formalizzare o algoritmizzare o indagare

 
elibrarius:
I sistemi ad albero non sembrano aver bisogno del bilanciamento delle classi. Le reti neurali si inceppano per lo squilibrio, mentre gli alberi distribuiscono chiaramente tutto sulle foglie.
Questo è uno dei motivi per cui sono passato agli alberi.

CatBoost è richiesto, ma ha il proprio bilanciatore, ma apparentemente non può farcela.

Generalmente se c'è un forte squilibrio allora l'apprendimento andrà, ma statisticamente con più zeri nelle foglie ci saranno solo zeri, cioè se ci sono poche regole chiare per tirare una piccola classe allora potrebbe funzionare, altrimenti si spargerà su tutte le foglie.

 
Aleksey Vyazmikin:

CatBoost è richiesto, ma ha il proprio equilibratore, ma apparentemente non riesce.

Generalmente se c'è un forte squilibrio allora l'apprendimento andrà, ma statisticamente con più zeri nelle foglie ci saranno solo zeri, cioè se ci sono poche regole chiare per tirare una piccola classe allora può funzionare, altrimenti si distribuirà su tutte le foglie.

O come sempre non ci sono quasi schemi nei dati.

Aleksey Vyazmikin:

Generalmente se c'è un forte squilibrio allora l'apprendimento andrà, ma statisticamente con più zeri nelle foglie ci saranno solo zeri, cioè se ci sono poche regole chiare per tirare fuori una piccola classe allora può funzionare, altrimenti sarà spalmato su tutte le foglie.

La regola empirica è chiara: prendere la divisione che rende le foglie più pulite dalle impurità dell'altra classe.

Ho aggiunto un link a un blog, con un grande campione ci sarà qualcosa da formare foglie con classe piccola, in più si può usare la radice dell'indice di Gini (ma non ho trovato la sua formula).

 
Aleksey Vyazmikin:

Penso che per una quantità così grande di dati dovresti rendere gli alberi più profondi, in modo che le foglie possano essere pulite meglio.
Se hai 10 mila esempi in una foglia, ovviamente, sarà spalmato, ma se lo dividi per 100, penso che sarà più chiaro.

Alglib foresta è fino a 1 esempio per foglio, la separazione è al 100%. Solo 0 o 1 rimarrà nelle foglie.
 
elibrarius:
Aleksey Vyazmikin:

O come sempre non c'è quasi nessuno schema nei dati.

La regola empirica è chiara: prendere la divisione che rende le foglie più pulite dalle impurità di un'altra classe.

Ho aggiunto un link al blog, con un grande campione ci sarà qualcosa da formare foglie con una piccola classe, in più si può usare la radice dell'indice di Gini (solo che non ho trovato la formula).

Quindi ha pochi predittori - piccola dimensionalità, quindi anche le opzioni per le combinazioni di alberi sono piccole.

Ho preso un campione dell'1% - c'è il 100% di apprendimento nel test - non penso che ci sia un modello pronunciato.

E, CatBoost prende i predittori un po' a caso per costruire - così riduce il fit, per la loro comprensione.

elibrarius:

Penso che per una tale quantità di dati sia necessario rendere gli alberi più profondi, in modo che le foglie si puliscano meglio.
Se si rimane con 10k esempi in una foglia, allora è ovvio che sarà spalmato, ma se si porta la divisione a 100, penso che sarà già più chiaro.

L'albero è profondo 6, e penso che abbiamo bisogno di più profondità se abbiamo più predittori.

Ho fatto una griglia di 256.

 
Aleksey Vyazmikin:

L'albero è profondo 6 e penso che la profondità sia necessaria con più predittori.

La griglia è 256.

Più sono le file, più è necessaria la profondità.
Se ci sono gigabyte, significa milioni di righe. Con una profondità di 6, il foglio finale sarà 1/64 dell'intero numero di esempi/file, cioè decine di migliaia se ci sono milioni di input.

Provate una profondità di 15 (questo sembra essere un massimo, il foglio di lavoro finale conterrà 1/32768esima parte delle linee).