L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2812

 
Maxim Dmitrievsky #:

Se ne è parlato qui più di un anno fa, quando stavo scrivendo gli algoritmi RL.

Non voglio ancora tornare indietro, e nemmeno io.
Non sono dalla posizione delle etichette, ma da quella, ad esempio, di alcune politiche molto complesse e dettagliate del comportamento degli agenti.
 
mytarmailS #:
Non parlo dalla posizione delle etichette, ma dalla posizione, per esempio, di alcune politiche multistep molto complesse del comportamento dell'agente.
Vi confondete con l'RL tabellare, dove nelle tabelle vengono ottimizzate le direzioni delle transizioni da uno stato all'altro, queste sono politiche. Queste tabelle sono state poi sostituite dalle reti neurali. Questo avviene quando ci sono molti stati dell'agente, ad esempio nei giochi. Si hanno solo 2-3 stati di acquisto/vendita, ecc. Quindi si ottimizzano le transizioni verso questi stati attraverso una funzione di ricompensa, ad esempio campionando gli scambi con una certa condizione di redditività, e le politiche sono ottimizzate attraverso le NS. Una politica è la relazione tra l'ambiente e lo stato verso il quale si vuole effettuare la transizione. Ad esempio, la relazione tra i valori degli indicatori e la direzione delle operazioni.

Non ha senso fare un passaggio multiplo di 100500 transizioni attraverso la tabella quando il NS ha già approssimato tutto e mostrato l'errore delle vostre azioni. Questo è necessario se si deve prima saltare, poi sparare, ricaricare, raccogliere il bottino, correre dall'altra parte, ecc. Si tratta di eseguire un sacco di azioni, e voi ne avete solo 2-3. Anche se il boss è il boss :)

Ho dimenticato di aggiungere che lì l'agente influenza anche l'ambiente, lo cambia, e l'ambiente sull'agente. Ecco perché è necessario imparare migliaia di ripetizioni per passare attraverso tutte le combinazioni. Nel nostro caso non è così, l'ambiente non cambia, quindi possiamo farlo in una sola volta. In un contesto del genere, l'apprendimento per rinforzo perde completamente il suo significato. È possibile trovare il percorso più breve verso l'obiettivo in un solo passaggio.
 
Lo schema di soluzione è semplice: viene eseguita una pre-elaborazione del set di dati. Viene eseguita l'analisi standard. Dal resto, ogni input viene preso come variabile target e l'output di ogni ML viene preso come fic. Viene valutata la predizione di ogni input e quelli "prevedibili" vengono scartati. Gli input che superano il filtro vengono inclusi nel modello di lavoro attraverso la previsione dell'output in ML. Io butterei via i chip che non influenzano la predizione in questo modo.
 
Maxim Dmitrievsky #:
Questo accade quando ci sono molti stati agente, ad esempio nei giochi. Si hanno solo 2-3 stati di acquisto/vendita, ecc.

No, è così primitivo, altrimenti non sarebbe affatto in questa direzione.


Lo stato non è un acquisto/vendita, l'acquisto/vendita è un'azione, e lo stato è grosso modo il numero di cluster dell'ambiente corrente, e ogni cluster di stato ha la sua azione...

Ma l'azione non deve essere necessariamente primitiva come comprare/vendere, può essere il ragionamento dell'agente sul futuro per esempio....

Ad esempio, se compro ora a [i], e nella candela di trading[i+1] il prezzo scenderà, ma non al di sotto di un certo prezzo, aspetterò la prossima candela [i+2], ma se il prezzo scenderà ancora più in basso farò marcia indietro, altrimenti continuerò a comprare[i...20].

Questi sono ragionamenti non banali sul futuro e portano alla scoperta della poziya consapevole....

Ma esistono una miriade di combinazioni di opzioni di ragionamento di questo tipo, quindi per non doverle esaminare tutte, addestriamo una funzione Q, cioè l'agente prende in considerazione per il ragionamento solo le opzioni che hanno un buon valore Q ,

Il neurone o la matrice Q vengono addestrati in anticipo...

Ecco come la vedo io...

 
peregrinus_vik #:
Lo schema di soluzione è semplice.

)))) sì, certo...

Ho paura di chi dice "è semplice".

 
mytarmailS #:

No, è così primitivo, altrimenti non avrebbe questa direzione...


lo stato non è un bysel, il bysel è un'azione, e lo stato è grosso modo il numero di cluster dell'ambiente corrente, e ogni cluster di stato ha la sua azione...

Ma l'azione non deve essereprimitiva come un byte, può essere un pensiero dell'agente sul futuro, per esempio....

Ad esempio, se ora compro a [i], e nella candela di trading[i+1] il prezzo scenderà, ma non al di sotto di un certo prezzo, aspetterò la prossima candela [i+2], ma se il prezzo scenderà ancora di più farò marcia indietro, altrimenti continuerò a comprare[i...20].

Questi sono ragionamenti non banali sul futuro e portano alla scoperta della posizione realizzata....

Ma esistono una miriade di combinazioni di opzioni di ragionamento di questo tipo, quindi per non doverle esaminare tutte, addestriamo la funzione Q, cioè l'agente prende in considerazione per il ragionamento solo le opzioni che hanno un buon valore Q ,

Il neurone o matrice Q viene addestrato in anticipo...

Ecco come la vedo io...

Sono d'accordo, buy sell no trade non è uno stato. Ci sono una miriade di stati.))))))

 
Valeriy Yastremskiy #:

Sono d'accordo, comprare vendere non commerciare non è uno stato. Ci sono un hulliard di stati.)))))

Non ci sono molti stati (se si tratta di un cluster).

Ci sono un'orda di opzioni per ragionare sulle azioni future.

ma il ragionamento è necessario per trovare le azioni più corrette in ogni stato, inoltre, dovrebbero essere riviste a ogni candela.

 
mytarmailS #:

No, è così primitivo, altrimenti non avrebbe questa direzione...


lo stato non è un bysel, il bysel è un'azione, e lo stato è grosso modo il numero di cluster dell'ambiente corrente, e ogni cluster di stato ha la sua azione...

Ma l'azione non deve essereprimitiva come un byte, può essere un pensiero dell'agente sul futuro, per esempio....

Ad esempio, se ora compro a [i], e nella candela di trading[i+1] il prezzo scenderà, ma non al di sotto di un certo prezzo, aspetterò la prossima candela [i+2], ma se il prezzo scenderà ancora di più farò marcia indietro, altrimenti continuerò a comprare[i...20].

Questi sono ragionamenti non banali sul futuro e portano alla scoperta della posizione realizzata....

Ma esistono una miriade di combinazioni di opzioni di ragionamento di questo tipo, quindi per non doverle esaminare tutte, addestriamo la funzione Q, cioè l'agente prende in considerazione per il ragionamento solo le opzioni che hanno un buon valore Q ,

Il neurone o matrice Q viene addestrato in anticipo...

Ecco come la vedo io...

Quando si inizia a vedere bene, il fattore "wow" scompare.

Lei sta descrivendo la politica di un agente, un approccio su più fronti. Ho scritto tutto al riguardo. Sto scrivendo in un linguaggio da nerd per dare un senso alla cosa, e l'ho dimenticato.

Esattamente, è così primitivo.

Qui c'è una persona che prima di essere bannata aveva la bava alla bocca per quanto riguarda gli agenti).

 
Valeriy Yastremskiy #:

Sono d'accordo, comprare vendere non commerciare non è uno stato. Ci sono un'infinità di stati.))))

Stati agenti, o stati di azione. Ti suggerisco di passare un paio di mesi a leggere libri per capire quello che hai scritto e arrivare alle stesse conclusioni) senza la reazione dell'ambiente alle azioni dell'agente non c'è nulla da ottimizzare, si fa in un solo passaggio.

Ci sono stati dell'ambiente, stati dell'agente, matrici di transizioni (politiche) dell'agente da stato a stato, tenendo conto dei cambiamenti nell'ambiente. L'ambiente è statico, non cambia a causa delle azioni dell'agente. Pertanto, è necessario definire solo la matrice delle azioni dell'agente in un ambiente statico, cioè gli obiettivi. La marcatura degli obiettivi avviene in un unico passaggio.
 
Maxim Dmitrievsky #:
Stati dell'agente, o azioni. Le suggerisco di passare un paio di mesi a leggere libri per capire ciò che ha scritto e giungere alle stesse conclusioni) senza la reazione dell'ambiente alle azioni dell'agente, non c'è nulla da ottimizzare, si fa tutto in un solo passaggio.

Ci sono stati dell'ambiente, stati dell'agente, matrici di transizioni (politiche) dell'agente da uno stato all'altro, tenendo conto dei cambiamenti nell'ambiente. L'ambiente è statico, non cambia a causa delle azioni dell'agente. Pertanto, è necessario definire solo la matrice delle azioni dell'agente in un ambiente statico, cioè gli obiettivi. La marcatura degli obiettivi avviene in un solo passaggio.
Se voglio penalizzare l'agente per operazioni non redditizie...
L'obiettivo è "fai trading con quello che vuoi, ma senza perdere, e stai sul mercato".

Come si può descrivere questo con i markup?