L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2424

 
transcendreamer:

In realtà, l'onere della prova è a carico dell'accusa, quindi spetta a voi dimostrare che il prodotto è inferiore agli standard (non come dichiarato)

Faccio solo appello alla logica e al buon senso 🧐

Beh, neanche tu sei un imputato))) Più come un esperto) Allora fai la tua perizia

 
YURY_PROFIT:

Beh, neanche tu sei un imputato))) Più come un esperto) Allora fai la tua perizia

Ti chiederò delle prove 😉 perché sei il procuratore.

O forse hai già guadagnato un milione lì e non è abbastanza per te.

 
Igor Makanu:

Questo è stupido, ci sono utenti, ci sono produttori di prodotti/beni/servizi

Non hai costruito la tua auto, vero? Hai comprato un'auto già pronta da un produttore di auto.

SZZ: si può fare scientificamente... hai sentito il teorema di Pitagora? Dov'è il tuo?)))


l'umorismo è sulle risorse del profilo, qui da appena letto: "i 3 elementi si sono riuniti, fotografo di merda, modello di merda e cosplay di merda "


su questo... come se il mercato permettesse di pubblicare nuove versioni del prodotto, senza contare che alcuni autori di prodotti semplicemente riottimizzano i loro EAs sui nuovi dati storici ...... "in generale, gli elementi sono venuti insieme" - qui, tra l'altro, uno degli "elementi" - imho, bassa formazione dei clienti, pochi sono in grado di controllare la qualità del prodotto, ma è così ovunque - compresi gli acquirenti delle auto di cui sopra - per così dire marketing

Dove hai visto la stupidità? Quel post ha detto, in primo luogo che implicava un lavoro intellettuale e in secondo luogo che "NON ha imparato ad usare".

Per criticare le pubblicazioni testuali, bisogna essere al livello dell'autore. È stato fatto un paragone ridicolo con Pitagora. Qual è lo scopo di tutto ciò?

Un esempio più appropriato potrebbe essere il seguente: Hai comprato un computer quantistico ma non riesci a imparare a usarlo, anche dopo aver letto le istruzioni dettagliate.

Spero che tu capisca qual è la differenza fondamentale.

 
Ragazzi cileni sexy - avete per caso confuso il ramo?
 
Il livello può essere visto immediatamente dalla percezione di certi argomenti (link) e altre cose. Due o tre persone sono sull'argomento, il resto è solo per fluff, come al solito
 
mytarmailS:

Qual è la differenza fondamentale tra "game \stop game" e "open \non open" o "buy \non buy"?

Non credo ci sia niente, la solita classificazione...


L'avvio/arresto di un altro robot dovrebbe essere più facile del proprio acquisto/vendita...

C'è meno rumore di mercato (il rumore è filtrato dal robot controllato), la soluzione è più facile da trovare - perché ci sono meno invarianti

 
Maxim Kuznetsov:

avvio/arresto di un altro robot - dovrebbe essere più facile che il proprio acquisto/vendita...

meno rumore di mercato (il rumore è filtrato da un robot controllato), la soluzione è più facile da trovare - perché ci sono meno invarianti

Non c'è differenza, lo start/stop sarà controllato da altri segnali in cui ci sarà rumore
 
Maxim Kuznetsov:

avvio/arresto di un altro robot - dovrebbe essere più facile che il proprio acquisto/vendita...

meno rumore di mercato (il rumore è filtrato dal robot controllato), la soluzione è più facile da trovare - perché ci sono meno invarianti

hmmm...

Sono ancora scettico, ho filtrato la rete con un altro, ma voi filtrate un po' di TS-game e va bene?

 

Allora, ho condotto la prima fase della ricerca, che ho annunciato prima, e cerchiamo di capire quali sono i risultati effettivi. Scriverò e penserò a colpo d'occhio, non so il risultato fino alla fine, ci sono un sacco di informazioni, e come analizzare correttamente è anche una questione.

Ho preso il campione dal 2014 fino alla prima metà del 2021 (60% treno, 20% test, 20% esame), 5336 predittori, fissati tutti i parametri - 6 alberi di profondità e 100 set random-seed, tasso di apprendimento 0,03 e 1000 iterazioni (alberi) con arresto automatico in caso di nessun miglioramento dopo nuovi 100 alberi sul campione di controllo, altre impostazioni non sono importanti, ma i parametri variabili sono il tipo di quantizzazione e il numero di limiti quantici. Il numero di limiti quantici aumenta progressivamente da 8 a 512 e il tipo di quantizzazione - 6 diverse varianti, teniamo le tabelle di quantizzazione in un file separato.

Avendo addestrato tutti i modelli, otteniamo una tabella di 42 modelli ordinati per la colonna "Balans_Exam" - selezione indipendente.

La schermata mostra una tabella con valori centrali nascosti, ma i primi cinque migliori e cinque peggiori sono mostrati, e il valore medio degli indicatori è stato calcolato per l'intero campione.



Alla fine vengono selezionati due modelli - evidenziati in verde chiaro, differiscono nel numero di quanti - 8 e 128 rispettivamente e nel tipo di quantizzazione - Median e UniformAndQuantiles.

Poi ho diviso il campione all'interno del test in 8 parti, in modo che ogni parte ha avuto 6 mesi, e addestrato modelli con la prima e la seconda tabella fissa di quantum separatamente, e per ciascuno, chiamiamolo un progetto, utilizzato 5 opzioni per la formazione, in cui il parametro random-seed - 100 varianti da 8 a 800 con passo 8:

  1. Allenare 1000 alberi senza controllo di arresto sul sottocampione di prova;
  2. Addestrare 1000 alberi sul sottocampione con controllo stop sul sottocampione di prova dopo 100 iterazioni senza miglioramento;
  3. Allenare 100 alberi senza fermare il controllo sul test del sottocampione;
  4. Allenare 50 alberi senza controllo di stop sul sottocampione di prova;
  5. Allenare 5 alberi senza fermare il controllo sul test del sottocampione.

Dopo aver completato l'addestramento, i modelli risultanti sono stati analizzati per le seguenti opzioni per ottenere statistiche sui predittori di CatBoost:

  1. PredictionValuesChange;
  2. LossFunctionChange;
  3. Importanza della caratteristica interna.

Ho poi fatto la media dei risultati separatamente per ogni 1/8 del campione, e li ho assemblati in una tabella complessiva ordinata in base al valore medio dell'indice di significatività del predittore in ogni segmento, controllando separatamente la presenza di un predittore significativo in ogni segmento e utilizzando anche la tabella ordinata in base a tale indice. La procedura descritta è stata fatta per ogni progetto e ogni tipo di statistica nel modello.

Di seguito è riportato un estratto della tabella per l'allenamento della variante 5 e l'analisi del modello della variante 1

Poi ho fatto delle impostazioni per escludere dall'allenamento i predittori che non rientravano negli n primi predittori. Se non c'erano abbastanza predittori che soddisfacevano i criteri, non veniva creato nessun file di impostazioni. Le impostazioni sono state fatte per ogni variante statistica e progetto. Sono stati utilizzati i seguenti limiti sul numero di predittori utilizzati per l'addestramento: 5/25/50/100/300/500/1000/2000/3000. Così abbiamo ottenuto l'insieme delle impostazioni.

Successivamente, ho condotto l'addestramento con un'impostazione fissa della tabella quantica sul campione - 60% test - 20% esame - 20% con un massimo di 1000 alberi e fermare l'addestramento sul test del campione, l'addestramento è stato eseguito per tutte le impostazioni e due versioni delle tabelle quantiche, 100 modelli con semina casuale - 100 opzioni da 8 a 800 in incrementi di 8. Inoltre, l'addestramento separato è stato eseguito per le due tabelle quantistiche senza esclusione dei predittori, ma con enumerazione casuale - 100 varianti da 8 a 800 in passi di 8.

Qui sotto c'è la tabella con la configurazione del partizionamentomediano a 8 confini- le prime e le ultime 5 scelte migliori.

Qui sotto c'è una tabella con 128 limiti impostati con il metodo UniformAndQuantiles - prime e ultime 5 scelte migliori.


La prima conclusione che si può trarre è che il modello ha un potenziale, che dipende dai predittori utilizzati, il cui uso è influenzatodalla semina casuale. E pensando ad alta voce, suggerirei che l'obiettivo della selezione delle impostazioni/metodi non dovrebbe essere il miglior risultato, ma il risultato medio di profitto o altri indicatori. Vorrei sottolineare che il valore medio del risultato finanziario nel campione al di fuori della formazione (colonna Balans_Exam) nella prima variante è 2222,39 e nella seconda variante 1999,13.

Successivamente, compiliamo una tabella dei valori medi delle metriche dei modelli con una ripartizione delle impostazioni per il loro allenamento.

Diseguito è riportata una tabella con una suddivisione in 8 limiti secondo il metodoMedian per diverse impostazioni responsabili dell'esclusione dei predittori- le prime 10 varianti sono i valori medi.


Di seguito una
tabella con 128 limiti usando il metodo UniformAndQuantilesper le diverse impostazioni responsabili dell'esclusione dei predittori - leprime 10 scelte sono i valori medi.


Per decifrare ciò che abbiamo qui nella colonna "File_Name" suggerisco di usare la seguente tabella



Proviamo ad analizzare passo dopo passo, riducendo il numero di combinazioni osservate.

La tabella qui sotto calcola quali "Progetti" sono nella top ten delle due tabelle quantistiche.

E qui vediamo che in entrambe le tabelle ci sono buoni rappresentanti del primo progetto (Exp_000) e il quinto(Exp_004), che è meglio e da cui abbandonare non è chiaro, ma il fatto che entrambi ottenuto nella top ten motivo di pensare. Forse si dovrebbe prendere le statistiche con eventuali coefficienti su tutta la tabella - non so - proporre opzioni. Tuttavia voglio notare che la variante Exp_004 è buona perché richiede il minor tempo per preparare i dati per creare i file di setup, il che è logico perché ci sono solo 5 alberi. Penso che sia troppo presto per trarre conclusioni definitive sulla scelta del numero di alberi per la formazione iniziale, non credi?

Nella tabella qui sotto per le decine di due tabelle quantistiche guardiamo il tipo di analisi dei predittori e il numero limite di predittori usati nel modello.



Possiamo vedere dalla tabella che il primo metodo di analisi mostra un numero maggiore di risposte, e possiamo anche vedere che la maggior parte delle impostazioni del numero di predittori utilizzati nel modello non supera le 50 unità.

Suggerisco di guardare ora i risultati dei modelli stessi, prendendo quei campioni di progetti le cui impostazioni sono risultate essere in maggioranza, per la prima tabella quantitativa - CB_Svod_Exp_000_x_000000002 , e per la seconda - CB_Svod_Exp_004_x_000000002.


Qui sotto c'è una tabella con il metodo Median per l'impostazione della selezione dei predittori CB_Svod_Exp_000_x_0000002 - le prime 5 migliori e 5 peggiori varianti - in 8 limiti.



Di seguito è riportata una tabella con una suddivisione di 128 limiti per metodo UniformAndQuantiles di selezione dei predittori impostando CB_Svod_Exp_004_x_000000002 - le prime 5 migliori e 5 peggiori varianti.

Qui sotto ci sono delle tabelle riassuntive per il confronto - la prima riga contiene i dati della tabella quantitativa iniziale, la seconda riga contiene i dati dopo l'enumerazionecasuale, e la terza riga contiene i risultati della selezione secondo la procedura di selezione dei predittori:

1.Tabellamediana a8 confini



2. tabella con 128 limiti impostati secondo il metodoUniformAndQuantiles



Le stime delle due tabelle mostrano una diminuzione dei risultati per i campioni di training e di test, e un miglioramento delle prestazioni per il campione indipendente, in altre parole l'effetto del fitting è diminuito migliorando le caratteristiche dei predittori e riducendone il numero.


Quali conclusioni provvisorie si possono trarre:

1. È possibile alimentare semplicemente il campione CatBoost, ma manipolare i predittori può migliorare significativamente il modello, compreso il risultato finanziario.

2. Non è sempre necessario usare un gran numero di predittori disponibili nel campione per ottenere un buon risultato - si scopre che usare solo l'1% di tutti i predittori è sufficiente per ottenere i buoni risultati che stimiamo dalla media.

Per sviluppare questa idea, dobbiamo condurre esperimenti su altri campioni, e se il risultato si ripete, possiamo pensare di ridurre il numero di combinazioni per trovare risultati promettenti. L'obiettivo è quello di sviluppare un metodo cieco che permetterebbe di trovare medie migliori senza guardare i campioni di test ed esami, il che aumenterebbe del 40% il campione per l'allenamento e aggiungerebbe anche il rilevamento di predittori con una risposta stabile.

Si potrebbe pensare di filtrare ulteriormente i predittori al momento della stima, aggiungendo un fattore di aggiustamento per la loro utilità/efficacia in vista del risultato finanziario ottenuto.

Perché guardo i finanziari - il punto è che diversi eventi possono verificarsi nel mercato e se il modello può selezionare preferenzialmente eventi con un rendimento più elevato, allora mi piace questo approccio del modello, mentre guardo gli indicatori statistici stimati del modello e il grafico stesso.

Spero che abbiate trovato il post interessante, aspetto i vostri commenti!

Ho allegato un file con tutte le tabelle - chiunque sia interessato e voglia pensare.

File:
CB_Svod_Si_Q.zip  697 kb
 
E poi si possono prendere gli incrementi da 5 a 15, ed è altrettanto buono.

O setacciare tutti i predittori per correlazione prima (secondi di tempo) e poi prendere i rimanenti 5-15 (se si può ottenere così tanti)

Ecco come l'econometria fa risparmiare tempo.