Galateo del mercato o buone maniere in un campo minato - pagina 10

 

Ciao paralocus, credo che tu possa iniziare da qui e poi vedremo.

A proposito, a tutti coloro che sono interessati: la strategia "blocca le perdite e lascia crescere i profitti" o "blocca i profitti e lascia crescere le perdite" (a seconda che il mercato sia in trend o piatto, sull'orizzonte di trading scelto) non è ottimale quando si reinveste il capitale. In questo caso, è più redditizio fissare su ogni passo con il reinvestimento! Cioè, se abbiamo 10 transazioni redditizie continue, allora è più redditizio pagare le commissioni alle società di brokeraggio e reinvestirle, che mantenere una posizione per tutto il tempo e risparmiare sullo spread.

Questo è il paradosso, dal quale non è lontano alla bernullizzazione delle transazioni, e dopo di che - all'uso effettivo dell'equazione di base del commercio nella forma analitica (a differenza di Vince) senza alcun problema di parametrizzazione.

 
Neutron >> :

Ciao paralocus, penso che tu possa iniziare da lì e poi vedremo.


Grazie!

Ho tre perceptron sull'input (tre finora) che è il primo strato. La composizione dello strato è la seguente:

Un perceptron su RSI, uno su CCI e uno su stocastico. Tutti gli ingressi e le uscite sono normalizzati (-1 ; +1). I perceptrons sono addestrati da un genetista sullo schema più semplice - sulla scissione.

Ora voglio aggiungere un secondo strato di due perceptron, uno dei quali è addestrato solo per comprare e l'altro solo per vendere. Domanda:

È sufficiente che i percettori del secondo strato siano addestrati, per così dire, ciascuno nella propria specialità, mentre si usano gli stessi dati del primo strato, o

Anche i perceptron del primo strato devono essere addestrati separatamente per l'acquisto e separatamente per la vendita?

 
paralocus писал(а) >>

Grazie!

Niente affatto!

Vedete, paralocus, il NS è in sostanza un sommatore universale e matematicamente non fa differenza se si acuiscono i neuroni dello strato di uscita individualmente per vendere o comprare, o si costruisce il terzo strato da un unico neurone con attivazione ipertangente, la cui polarità di uscita punterà a comprare o vendere, e l'ampiezza alla probabilità di successo (certezza della rete in esso). Da questo punto di vista, non c'è bisogno di specializzare forzatamente i neuroni del primo strato - saranno determinati nel processo di formazione, e tenendo conto del fatto che la potenza di calcolo di NS non aumenta quando si passa da un'architettura a due strati a tre strati (tranne che per alcuni casi esotici) e il fatto che la lunghezza del campione di formazione è proporzionale al quadrato di tutti i pesi della rete (e il campione dovrebbe essere minimo, se possibile, per la risposta operativa agli eventi di mercato), e utilizzando il principio del rasoio di Occam (non è necessario diventare inutilmente grande).

P.S. Sì, è importante che la densità di probabilità del segnale d'ingresso per NS abbia aspettativa zero e distribuita nell'intervallo +/-1 in modo uguale (scaffale). Questo aumenta notevolmente l'apprendimento e le prestazioni della rete.

 
Neutron >> :

Non ancora!

Vedete, paralocus, la NS è in sostanza un sommatore universale e matematicamente non fa differenza se si acuiscono i neuroni dello strato di uscita individualmente per vendere o comprare, o si crea il terzo strato da un unico neurone con attivazione ipertangente, la cui polarità di uscita indicherà l'acquisto o la vendita, e l'ampiezza la probabilità di successo (la fiducia della Rete in essa). Da questo punto di vista, non c'è bisogno di specializzare forzatamente i neuroni del primo strato - saranno determinati nel processo di formazione, e tenendo conto del fatto che la potenza di calcolo di NS non aumenta quando si passa da un'architettura a due strati a tre strati (tranne alcuni casi esotici) e il fatto che la lunghezza del campione di formazione è proporzionale al quadrato di tutti i pesi della rete (e il campione, se possibile, dovrebbe essere minimo, per la risposta operativa agli eventi di mercato), nonché utilizzando il principio del rasoio di Occam (non c'è bisogno di diventare inutilmente grande).

P.S. Sì, è importante che la densità di probabilità del segnale d'ingresso per NS abbia aspettativa zero e sia distribuita nell'intervallo +/-1 in modo uguale (scaffale). Questo aumenta notevolmente l'apprendimento e le prestazioni della rete.

Alcune cose sono chiare, ma molte sono nuove! Per non perdere nulla, chiederò man mano...

1. NS è infatti un sommatore universale e non fa quasi nessuna differenza dal punto di vista matematico, se si affilano i neuroni nello strato di uscita individualmente per vendere o comprare, o si costruisce il terzo strato da un unico neurone con attivazione ipertangente, che in uscita polarità-saggio punterà a comprare o vendere, e ampiezza - alla probabilità di successo (fiducia della rete in esso).

Ho capito l'adder, ma che dire del neurone con attivazione ipertangente - che tipo di bestia è? Normalizzo ingressi e uscite con sigmoide, e per assicurarmi che il segnale su ingressi e uscite sia corretto (-1<max e minimi < +1), ho riscritto sottilmente l'indicatore Perseptron. Cioè, prendiamo tre neuroni di ingresso e diamo i loro output al quarto (con attivazione ipertangente) il cui output può essere assolutamente trasparente come una stima probabilistica di un esito positivo di uno scambio nella direzione specificata (verso la polarità attiva) ... giusto?


2. Da questo punto di vista, non c'è bisogno di specializzare forzatamente i neuroni del primo strato - si determineranno da soli nel processo di formazione

Cioè, i neuroni dello strato di input dovrebbero semplicemente essere addestrati a separare i dati di input in "destra" e "sinistra". Sono un po' confuso su come "sono determinati nel processo di addestramento" - significa l'addestramento del neurone di uscita ipertangente, o l'addestramento di tutti i neuroni di uscita e di ingresso in una volta? Se tutti insieme, il genetista non permetterà di ottimizzare più di 8 parametri simultaneamente, mentre ce ne sono almeno 12 in una tale griglia (... senza contare i parametri dei tacchini) - cosa dobbiamo fare? Se vuoi allenare separatamente - prima ogni parametro di input separatamente, e poi solo quello di output (lo sto facendo ora), non sarà un errore?


3. Il fatto che la lunghezza di un campione di allenamento è proporzionale al quadrato di tutti i pesi della rete (e il campione, se possibile, deve essere minimo, per reagire rapidamente agli eventi di mercato).

Com'è? Eleviamo al quadrato tutti i pesi della rete, poi sommiamo questi quadrati e otteniamo a cosa dovrebbe essere proporzionale la lunghezza del campione di allenamento?

Sull'inutilità dei campioni lunghi lo so già - sono arrivato, per così dire, per "prova ed errore scientifico". Ho anche trovato la data (2008.12.02), a partire dalla quale i dati sono semplicemente inutili per la griglia - nessuna correlazione con l'effettiva dinamica del mercato.


4. L'opzione migliore sembra essere un NS a due strati con uno strato nascosto e un neurone di uscita.

Qui non capisco qualcosa... Se c'è uno strato di neuroni in entrata, uno strato di neuroni in uscita e uno strato nascosto di neuroni, allora sono già tre. Allora perché c'è una rete a due strati?


5. Sì, è importante che la densità di probabilità di ingresso per il NS abbia aspettativa zero e sia uniformemente distribuita nell'intervallo +/-1 (scaffale). Questo aumenta significativamente l'efficienza dell'addestramento e le prestazioni della rete.

Io stesso capisco la necessità della normalizzazione del segnale d'ingresso (a livello di intuizione), ecco perché trasformo il segnale d'ingresso in modo che l'uscita abbia la stessa forma, ma nell'intervallo -/+1. Ma come si distribuisce la densità di probabilità di un RSI normalizzato? Per esempio, il segnale di ingresso del mio neurone RSI si presenta così:


Questo è sufficiente o è necessario qualcos'altro?

P/S Mi trovo bene con il rasoio, l'importante è capire cosa tagliare...:-)

 
paralocus писал(а) >>

1. Capisco l'adder, il neurone di attivazione ipertangente - che tipo di cosa è? Normalizzo ingressi e uscite con sigmoide, e per assicurarmi che il segnale di ingressi e uscite sia corretto (-1<max e minimi < +1), ho leggermente modificato l'indicatore Perseptron. Cioè, prendiamo tre neuroni di ingresso e diamo i loro output al quarto (con attivazione ipertangente) il cui output può essere assolutamente trasparente come una stima probabilistica di un esito positivo di uno scambio nella direzione specificata (verso la polarità attiva) ... giusto?

È un neurone, la cui funzione di attivazione (FA) è una tangente iperbolica (gamma di valori +/- 1) - è conveniente per prendere una decisione commerciale - comprare/vendere, e se |FA|<const - fuori dal mercato.

Tutti i neuroni NS devono avere una FA non lineare (con alcune eccezioni - tranne l'ultima). Nulla dipende dal tipo specifico di FA, tranne il tasso di apprendimento.

2. Da questo punto di vista, non c'è bisogno di specializzare forzatamente i neuroni del primo strato - si determineranno da soli nel corso dell'allenamento.

Cioè, i neuroni dello strato di input dovrebbero semplicemente essere addestrati a separare i dati di input in "destra" e "sinistra". Sono un po' confuso su come "sono determinati nel processo di addestramento" - significa l'addestramento del neurone di uscita ipertangente, o l'addestramento di tutti i neuroni di uscita e di ingresso in una volta? Se tutti insieme, il genetista non permetterà di ottimizzare più di 8 parametri simultaneamente, mentre ce ne sono almeno 12 in una tale griglia (... senza contare i parametri dei tacchini) - cosa dobbiamo fare? Se alleno separatamente - prima ogni parametro di input separatamente, e poi solo quello di output (che è quello che sto facendo ora), sarebbe un errore?

Naturalmente, dovremmo addestrarli tutti in una volta, altrimenti avremo un problema di confusione nel legno. Non ho avuto a che fare con la genetica, quindi non posso aiutare.

3. Il fatto che la lunghezza del campione di allenamento è proporzionale al quadrato di tutti i pesi della rete (e il campione, se possibile, dovrebbe essere minimo, per una rapida reazione agli eventi di mercato).

Com'è? Squadrare tutti i pesi della rete, poi sommare questi quadrati e ottenere la lunghezza del set di allenamento?

C'è una lunghezza ottimale dell'insieme di allenamento P, che è il minimo della somma dell'errore di approssimazione e di generalizzazione. Questo optimum è determinato unicamente dal numero di sinapsi w nella rete e dalla dimensione dell'input d (numero di input della rete):

Popt=k*w*w/d, dove k è una costante adimensionale di ordine 1 e tiene conto del fatto della variabilità del mercato.

Il criterio di ottimizzazione è la commensurabilità dell'errore della rete sul campione di test e su quello di addestramento, cioè se la rete normalmente addestrata indovina il 55% correttamente, mostrerà approssimativamente lo stesso risultato nel test sui nuovi dati. Inoltre, per tali NS non c'è nessun problema di riqualificazione legato all'aumento del numero di iterazioni nel metodo ORO - non c'è un minimo locale di errore - la funzione è momentanea e tende asintoticamente alla costante.

4. Una variante ottimale sembra bilayer NS con uno strato nascosto e un neurone di uscita.

Qui non sto seguendo... Se c'è uno strato di neuroni in entrata, uno strato di neuroni in uscita e uno strato nascosto di neuroni, allora sono già tre. Allora perché la rete è a due strati?

È una questione di terminologia. Non distinguo lo strato di ingresso come uno speciale. Pertanto, intendevo il NS che ha solo due strati - lo strato di input (aka nascosto) e lo strato di output (composto da un singolo neurone).

Tuttavia, come si distribuisce la densità di probabilità del RSI normalizzato? È sufficiente o è necessario qualcos'altro?

Non lo so. Devi tracciare la distribuzione di densità di probabilità della prima serie di differenza del tuo RSI e guardare il grafico - ci dovrebbe essere un ripiano con ampiezza massima +/-1.

 
Neutron писал(а) >>

Non sto individuando lo strato di ingresso come uno speciale. Pertanto, intendevo il NS che ha solo due strati - strato di input (anche nascosto) e strato di output (composto da un neurone).

Cioè, la rete consiste di diversi perceptron paralleli nel primo strato e uno nello strato di uscita, con ingressi del perceptron di uscita pari al numero di perceptron nel primo strato?

 
Neutron >> :

Naturalmente addestrando tutti insieme, altrimenti avremo un problema - "nel bosco e fuori dal bosco". Non ho avuto a che fare con un genetista, quindi non posso aiutarti.


Ecco fatto! E speravo di poter "migliorare" la mia maglia in un'autoformazione più tardi...

Digerendo le risposte che ho ottenuto... >> Disegnerò quello che capisco

 
FION писал(а) >>

Quindi la rete consiste di diversi perceptron paralleli nel primo strato e uno nello strato di uscita, con il numero di ingressi del perceptron di uscita uguale al numero di perceptron nel primo strato?

Proprio così.

Ma, l'ingresso di ogni perceptron ha un ingresso aggiuntivo separato per un offset costante +1. Questo accelera l'apprendimento e aumenta la potenza della rete.

 
Neutron писал(а) >>

Proprio così.

Ma, l'ingresso di ogni perseptron ha un ingresso aggiuntivo separato per un offset costante +1. Questo accelera l'apprendimento e aumenta la potenza della rete.

Capisco. L'offset costante sposta solo leggermente il punto di attivazione sulla curva ipertangente.

 

Neutron ha scritto >>.


Ecco cosa ho capito:

L'ipertangente è risolto. Fino ad ora stavo usando la sigmoide e dovevo sottrarre uno dal risultato, con questo non è più necessario. Per quanto ho capito, la figura mostra l'architettura ottimale di NS per il mercato. Il numero di ingressi è 12, e il numero di sinapsi è 4. Quindi, usando la formula Popt=k*w*w/d otteniamo 144/4 = 36... Sono 36 barre? O 36 vicino a situazioni di acquisto/vendita? Ho capito bene?