Cosa inserire nell'ingresso della rete neurale? Le vostre idee... - pagina 39

 
Aleksey Vyazmikin #:
Questo è il modo in cui i rami vengono spammati....



Non mi interessa Sei costruttivo.

 
Alexey Volchanskiy #:

Considerando che ho uno scalper in funzione con una frequenza di campionamento ask/bid di 1 Hz, il trading su barre mensili mi sembra un'aberrazione mentale. Senza la minima traccia di trolling.

ricordando qualsiasi DSP: nella sandbox locale, i tick hanno una frequenza di 3-5 Hz ... estremamente sgradevole per un campione di 1.

 
Andrey Dik #:


... decine di migliaia* di righe di codice denso....

decine di migliaia di righe di codice...

Alexei, ti risponderò più tardi.
 
Ho pensato Perché l'output di una rete neurale è solo BUY e SELL?

Beh, diciamo HOLD. Dopo tutto, lo stesso SoftMax può scegliere...

qualsiasi cosa, non ci sono limiti alla fantasia. Ad esempio, prendiamo due strategie diverse. Una è piatta, l'altra è in trend. All'ingresso inseriamo, come di consueto, ciò che abbiamo inserito in precedenza.




All'uscita, decidiamo quale strategia opererà ora (o monitorerà i suoi segnali). E qui Softmax mostra la strategia flat: la strategia flat controlla la presenza di un segnale, TP, SL e così via secondo le sue regole già formalizzate. Poi ancora: analisi dei dati di input.



Il NS decide che ora il grafico è più adatto a una strategia di trend e le passa il controllo. UPD Farò qualcosa di semplice. Se c'è qualcosa di interessante, lo posterò.
 
Ivan Butko #:


Ho pensato Perché l'output di una rete neurale è solo BUY e SELL?

Beh, diciamo HOLD. Dopo tutto, lo stesso SoftMax può scegliere...

qualsiasi cosa, non ci sono limiti alla fantasia. Ad esempio, prendiamo due strategie diverse. Una è piatta, l'altra è in trend. All'ingresso inseriamo, come di consueto, ciò che abbiamo inserito in precedenza.




All'uscita, decidiamo quale strategia opererà ora (o monitorerà i suoi segnali). E qui Softmax mostra la strategia flat: la strategia flat controlla la presenza di un segnale, TP, SL e così via secondo le sue regole già formalizzate. Poi ancora: analisi dei dati di input.



Il NS decide che ora il grafico è più adatto a una strategia di trend e le passa il controllo. UPD Farò qualcosa di semplice. Se c'è qualcosa di interessante, lo pubblicherò.

È possibile distribuire le uscite in pullback (limite) e breakout (stop), ma di norma la rete è troppo... o aggiungere neuroni allo stato quando si ottiene il GPT, o viceversa, per semplificare le opzioni delle possibili azioni della rete. la prima opzione è stata espressa da me diversi anni fa, ma è stata bersagliata di pomodori nel ramo MO, anche se le stesse persone che si opponevano all'aumento del numero di neuroni ora stanno addirittura cercando di padroneggiare il LLM in relazione ai mercati.

In breve, dovreste cercare di non ascoltare nessuno. potete ascoltare me (riferimento alla famosa frase 😊).

 
Andrey Dik #:

È possibile distribuire le uscite in rollback (limite) e breakdown (stop), ma di norma la rete è troppo... o aggiungere neuroni allo stato quando si ottiene il GPT, o viceversa, per semplificare le opzioni delle possibili azioni della rete. la prima opzione è stata espressa da me diversi anni fa, ma è stata bersagliata di pomodori nel ramo MO, anche se le stesse persone che si opponevano all'aumento del numero di neuroni ora stanno addirittura cercando di padroneggiare il LLM in relazione ai mercati.

in breve, dovreste cercare di non ascoltare nessuno. potete ascoltare me (riferimento alla famosa frase 😊).



Grazie per l'idea. Limite e stop sono essenzialmente direzioni diverse. In alcuni una strategia, o anche dei due: dove si negozia il prezzo migliore, l'altro su un breakout.



A ndrey Dik #:

La prima opzione è stata espressa da me diversi anni fa, ma è stata gettata con i pomodori nel thread MO, anche se le stesse persone che erano contrarie all'aumento del numero di neuroni ora stanno addirittura cercando di padroneggiare LLM applicato ai mercati.


Ben fatto.

Bandiera nelle loro mani e forse condivideranno il Graal con noi quando la chat glielo scriverà. Io sono ostinatamente riluttante a disegnare il Graal.

 
Aleksey Vyazmikin #:

1. Pensavo che lei facesse riferimento al thread sul MO, perché alcuni partecipanti avevano opinioni critiche sugli algoritmi discussi nei suoi articoli. Ho solo deciso di chiarire, come ho capito, qual è il motivo del disaccordo nella sostanza, secondo me. Non voglio tirare fuori l'argomento delle personalità.

2. So cosa cercare - dipendenze statisticamente stabili sui segmenti quantistici dei predittori, ma non so ancora quali segni lo indichino. Quando si costruisce un modello, è necessario avere un'alta probabilità di fare il passo giusto a una nuova iterazione - tutto qui :)

3. ...

4. Ancora non si capisce cosa intendo. Per semplificare, immaginate di poter controllare forzatamente, in un approccio iterativo, secondo l'algoritmo di ottimizzazione, tutti i risultati delle varianti tra cui dovete fare una scelta, e che tale scelta avvicini il modello a un determinato obiettivo su tutti i campioni disponibili. E qui in tasca c'è un modello (o coefficienti - come volete chiamarlo) che è buono sui dati disponibili, ma non è necessariamente l'opzione migliore. In altre parole, l'algoritmo dà un'occhiata a quello che sarà il FF sui dati finali quando sceglie un passo da risolvere in un'iterazione. Ecco cosa intendo: quando non si sbircia, si può accidentalmente ottenere un buon risultato che dipende da passi casuali. Stiamo parlando di dati di mercato. E il risultato può diventare negativo quando vengono forniti nuovi dati. In ogni caso, il punto è che non è facile capire se si è ottenuto un buon modello per caso o grazie a un algoritmo , su un sottocampione non rappresentativo.

5. Quindi l'uso è lo stesso dell'ottimizzatore standard con la sua genetica e i suoi FF standard. L'ammissibilità si riferisce alla probabilità di ottenere un modello stabile (impostazioni) su nuovi dati. È chiaro cosa verrà cercato e trovato....

6. A proposito, avete valutato come gli algoritmi affrontano le caratteristiche categoriali?

7. Molti algoritmi utilizzano la randomizzazione per la variabilità, non ne avete incontrato nessuno al di fuori del MOE? Se volete la ripetibilità del risultato, fissate il seme.

È necessario confrontare non solo un modello, ma almeno un centinaio di modelli, secondo alcuni criteri statistici descrittivi. Solo la probabilità di scegliere le giuste impostazioni (modello) può essere stimata su nuovi dati...

8. La discesa del gradiente viene utilizzata come metodo efficiente per utilizzare le risorse computazionali. Ci sono metodi più complicati e pesanti, come ha detto il docente in un video, ma non me lo ricordo, ho capito solo la logica.

1. Il disaccordo, come mi sembra, è che gli oppositori degli algoritmi di ottimizzazione negano la loro applicabilità sui dati di mercato, anche se non si accorgono attivamente (o fanno finta di non accorgersi) che gli AO sono presenti in una forma o nell'altra nelle stesse reti neurali e in altri strumenti di MO.

2. Quale grado di robustezza è necessario? Un po' o un po' di più? È necessario raggiungere la massima stabilità possibile su nuovi dati, questa è la funzione di fitness che deve essere massimizzata.

3. ...

4. L'algoritmo di ottimizzazione non è l'unico componente del processo di ottimizzazione (per qualche motivo tutti lo dimenticano). L'AO stesso può essere paragonato alla benzina per un'auto, che non si preoccupa di dove va l'auto, se la benzina è cattiva l'auto potrebbe non andare affatto, mentre migliore è la benzina, più veloce può andare l'auto (cioè raggiungere l'obiettivo più velocemente). Per capire il ruolo dell'AO nel processo di ottimizzazione, ho già fatto un esempio più volte, riportando uno schema. Vi ricordo ancora una volta che è possibile effettuare una ricerca completa dei parametri (sia che si tratti di una semplice TC sia che si utilizzino i metodi MO) e ottenere il valore della funzione di fitness di questi parametri; come si può notare, in questo esempio l'algoritmo di ottimizzazione non è affatto coinvolto, ma è comunque necessario scegliere tra tutti i parametri della ricerca completa. Si può notare che AO agisce sempre come un acceleratore del risultato, non partecipa di per sé alla correttezza della selezione del risultato (la funzione di fitness è solo un parametro esterno per AO). Solo la funzione di fitness partecipa alla correttezza della selezione dei risultati (la correttezza può essere intesa come qualsiasi cosa, compresa la capacità di far funzionare con successo il TS su nuovi dati). Pertanto, quando si parla di robustezza o di capacità del sistema di operare con successo su nuovi dati, non si deve guardare all'AO, ma alla funzione di fitness, a ciò che consiste e a tutto ciò che precede la performance della funzione di fitness (la performance della valutazione delle decisioni).

5. Si vedano i paragrafi precedenti.

6. Sono in fase di ricerca su questo argomento. Al momento è in corso di verifica un articolo su questo argomento. Sto pensando di continuare a esporlo (l'argomento).

7. Randomizzare lo stato iniziale dei parametri del sistema non per ottenere risultati casuali in uscita, ma per coprire la più ampia area possibile di possibili varianti dei parametri. L'output non deve essere casuale, ma un risultato abbastanza definito (in termini di robustezza - il massimo della funzione di fitness che descrive se stessa e l'indice di robustezza). In questo caso è conveniente utilizzare il metodo dei limiti: la prima iterazione - parametri casuali, l'ultima iterazione - parametri richiesti. Tra di essi si trova l'area dei valori della funzione di fitness, che mostra l'efficienza dell'algoritmo di ottimizzazione: più a destra del risultato casuale, peggiore è l'AO, rispettivamente, più a sinistra, più vicino al massimo richiesto del risultato ottimale (ripeto, il risultato ottimale, che soddisfa la massima robustezza possibile del sistema), più efficiente è l'AO. Se la rete neurale mostra risultati diversi, e con una grande dispersione, significa che l'algoritmo utilizzato come parte della rete neurale è stupidamente bloccato da qualche parte nell'estremo locale della funzione di fitness (la funzione di perdita utilizzata).

8. Probabilmente il docente vi ha detto che gli algoritmi spesso utilizzati per l'addestramento delle reti si bloccano in modo elementare? - Probabilmente no, ma ha sottolineato, suppongo, che sono molto veloci. Sì, sono veloci perché non hanno popolazione e quindi riducono il numero di esecuzioni necessarie sui dati di addestramento, ma è per questo che sono stati progettati: per essere veloci, ma la convergenza ne risente (nulla in questo mondo è gratis).

Alexey, spero che ora guarderai l'argomento sollevato da un'angolazione leggermente diversa, diversa da quella accettata nel ramo MO e, in generale, in molti altri luoghi. I MOSisti sono molto simili ai credenti che prendono molte cose per fede (non è né male né bene, solo che a volte impedisce di guardare molte cose dal punto di vista della logica), o come gli alchimisti fanatici che combinano i metodi MOS nella speranza di ottenere la pietra filosofale - un sistema MOS funzionante su OOS. Non sono un oppositore del MO, ma cerco sempre di smontare le cose per capire l'impatto di ogni ingranaggio della macchina sul risultato.

 
Andrey Dik #:

1. Il disaccordo, a mio avviso, è che gli oppositori degli algoritmi di ottimizzazione negano la loro applicabilità ai dati di mercato, pur ignorando attivamente (o fingendo di non notare) che le AR sono presenti in una forma o nell'altra nelle stesse reti neurali e in altri strumenti di MO.

2. Quale grado di robustezza è necessario? Un po' o un po' di più? È necessario raggiungere la massima stabilità possibile sui nuovi dati, questa è la funzione di fitness che deve essere massimizzata.

3. ...

4. L'algoritmo di ottimizzazione non è l'unico componente del processo di ottimizzazione (per qualche motivo tutti lo dimenticano). L'AO stesso può essere paragonato alla benzina per un'auto, che non si preoccupa di dove va l'auto, se la benzina è cattiva l'auto potrebbe non andare affatto, mentre migliore è la benzina, più veloce può andare l'auto (cioè raggiungere l'obiettivo più velocemente). Per capire il ruolo dell'AO nel processo di ottimizzazione, ho già fatto un esempio più volte, riportando uno schema. Vi ricordo ancora una volta che è possibile effettuare una ricerca completa dei parametri (sia che si tratti di una semplice TC sia che si utilizzino i metodi MO) e ottenere il valore della funzione di fitness di questi parametri; come si può notare, in questo esempio l'algoritmo di ottimizzazione non è affatto coinvolto, ma è comunque necessario scegliere tra tutti i parametri della ricerca completa. Si può notare che AO agisce sempre come acceleratore del risultato, non partecipa di per sé alla correttezza della selezione del risultato (la funzione di fitness è solo un parametro esterno per AO). Solo la funzione di fitness partecipa alla correttezza della selezione del risultato (la correttezza può essere intesa come qualsiasi cosa, compresa la capacità di far funzionare con successo il TS su nuovi dati). Pertanto, quando si parla di robustezza o di capacità del sistema di operare con successo su nuovi dati, non si deve guardare all'AO, ma alla funzione di fitness, a ciò che consiste e a tutto ciò che precede la performance della funzione di fitness (la performance della valutazione delle decisioni).

5. Si vedano i paragrafi precedenti.

6. Sto facendo una ricerca su questo argomento. Al momento ho un articolo su questo argomento da controllare. Penso che continuerò ad approfondirlo (l'argomento).

7. Randomizzare lo stato iniziale dei parametri del sistema non per ottenere risultati casuali in uscita, ma per coprire la più ampia area possibile di possibili varianti dei parametri. L'uscita non deve essere casuale, ma un risultato abbastanza definito (in termini di robustezza - il massimo della funzione di fitness che descrive se stessa e l'indice di robustezza). In questo caso è conveniente utilizzare il metodo dei limiti: la prima iterazione - parametri casuali, l'ultima iterazione - parametri richiesti. Tra di essi si trova l'area dei valori della funzione di fitness, che mostra l'efficienza dell'algoritmo di ottimizzazione: più a destra del risultato casuale, peggiore è l'AO, rispettivamente, più a sinistra, più vicino al massimo richiesto del risultato ottimale (ripeto, il risultato ottimale, che soddisfa la massima robustezza possibile del sistema), più efficiente è l'AO. Se la rete neurale mostra risultati diversi con un ampio spread, significa che l'algoritmo utilizzato nella rete neurale è bloccato da qualche parte nell'estremo locale della funzione di fitness (la funzione di perdita utilizzata).

8. Il docente vi ha probabilmente detto che gli algoritmi spesso utilizzati per l'addestramento delle reti si bloccano in modo elementare? - Probabilmente no, ma ha sottolineato, suppongo, che sono molto veloci. Sì, sono veloci perché non hanno una popolazione e quindi riducono di un fattore uno il numero di esecuzioni necessarie sui dati di addestramento, ma è per questo che sono stati progettati: per essere veloci, ma la convergenza ne risente (nulla a questo mondo è gratis).

Alexey, spero che ora guarderai l'argomento sollevato da un'angolazione leggermente diversa, diversa da quella accettata nel ramo MO e, in generale, in molti altri luoghi. I MOSisti sono molto simili ai credenti che prendono molte cose per fede (non è né un male né un bene, solo che a volte impedisce di guardare molte cose dal punto di vista della logica), o come gli alchimisti fanatici che combinano i metodi MOS nella speranza di ottenere la pietra filosofale - un sistema MOS funzionante su OOS. Non sono un oppositore del MO, ma cerco sempre di smontare le cose per capire l'impatto di ogni ingranaggio della macchina sul risultato.

1. Sopra ho già scritto dell'applicazione frontale, del fatto che gli articoli non sono considerati come algoritmi astratti, ma come un sostituto dell'algoritmo dell'ottimizzatore standard, che si suppone debba essere usato con FF standard. E questo approccio non è molto efficace, come molti hanno già capito. Questo accade perché in ogni articolo di qualsiasi autore, il lettore cerca di trovare qualcosa di utile per il trading. Bisogna solo tenerne conto e non offendere i lettori per questo. Forse dovreste fornire esempi di FF nell'articolo che tengano conto non solo degli indicatori che descrivono il risultato finanziario, ma anche di altri indicatori che lo influenzano, che sono impliciti ma non nominati?

2. La resilienza in questo contesto è una variabile binaria che deriva dalla misurazione della distorsione della probabilità di incontrare una delle classi su un segmento predittivo quantificato rispetto al numero di tutti i rappresentanti della classe nel campione. Quando si cambiano i sottocampioni, il bias della probabilità non dovrebbe cambiare, quindi questa sarebbe la stabilità. È come trovare la stazionarietà in processi non stazionari. Quindi il modello viene costruito su questi dati e più correttamente vengono individuati tali segmenti quantici, maggiore è la probabilità di sceglierli in ogni fase dell'algoritmo di costruzione del modello e quindi maggiore è la probabilità di costruire il modello necessario. È chiaro che la sezione di validazione dei risultati non viene valutata inizialmente. Di conseguenza, c'è un obiettivo, c'è una metrica per la valutazione, ma ciò che influisce sul risultato non è del tutto chiaro: abbiamo bisogno di ulteriori metriche di valutazione.

Di seguito è riportato un grafico che mostra la probabilità (percentuale) di selezionare un segmento quantico stabile dal pool a ogni iterazione dell'algoritmo di costruzione del modello per ciascuna delle due classi.

4. Ho già scritto nel primo paragrafo, e qui mi limiterò a ripetere che le persone cercano di capire perché ne hanno bisogno, e arrivano a comprendere l'alternativa all'ottimizzatore standard con la sua genetica. Quali altri parametri lontani dal mercato dovrebbero essere impostati in FF - non è chiaro alla maggior parte delle persone.

7. Non ho scritto che l'obiettivo è ottenere risultati casuali in uscita. L'obiettivo è considerare diversi modi di trovare una soluzione, compreso il cambiamento del paesaggio astratto da diverse dimensioni.

8. Penso che non sia corretto dare per scontato che le persone competenti nel loro campo non abbiano le conoscenze e l'esperienza necessarie. Questo vale sia per il conferenziere astratto che per molti membri del forum. A volte, prima di dimostrare la propria posizione, è necessario comprendere la logica dell'avversario. Siamo impegnati in una direzione in divenire, ci possono essere diversi punti di vista sulla situazione, che possono cambiare, quindi non è produttivo pensare in modo categorico. E se si afferma qualcosa riferendosi alla propria esperienza - ho fatto così e così, ma il risultato è stato triste, penso che sia perché "quel...". - allora forse qualcuno suggerirà una soluzione, o condividerà il suo risultato con dati iniziali simili.

Tutto quello che hai scritto finora sul tuo lavoro qui, l'ho letto nei tuoi articoli, come credo l'abbiano letto molti altri che hanno scritto commenti su di essi. È il presupposto che le persone siano sottosviluppate, che si manifesta nelle loro convinzioni, che porta a conflitti con lei. Osservo che il thread sul MO è solo un esempio di uno in cui qualsiasi affermazione o approccio viene messo in discussione, cercando una ragione per cui un metodo è inefficace, anche se sembra essere efficace. È per questo che vedo pregiudizi nei giudizi da parte vostra. Molti partecipanti al thread sul MO non sono motivati nelle loro affermazioni, ma non sempre perché non hanno argomenti. Penso che sia una deformazione professionale. Sì, può essere frustrante.

Se pensate di avere una conoscenza più approfondita della questione, di capire bene la matematica del processo e di voler beneficiare le persone, allora prestate attenzione agli approcci dei missionari nei tempi antichi - trovate un terreno comune e dialogate da lì. E se non volete farlo, potete semplicemente ignorare gli altri rappresentanti con le loro opinioni e convinzioni. Chi ha bisogno di leggere i vostri pensieri intelligenti trarrà da solo le conclusioni necessarie.

In generale, ho cercato di mostrarvi l'altro lato della causa del conflitto, nella speranza che esso cessi e che i suoi partecipanti si ascoltino a vicenda e comincino a trattare adeguatamente le critiche, senza insulti reciproci.

 
Aleksey Vyazmikin #:

8.

Non si rende conto che con questo messaggio non sta spegnendo il conflitto, ma aggiungendo olio al fuoco?

Se non l'ha fatto intenzionalmente, allora suggerisco a tutti di far finta che il punto 8. del post di Aleksey Vyazmikin semplicemente non esista.

 
Mi piace l'interpretazione di Alexei, è vicina allo stato reale delle cose. Ma possiamo anche aggiungere che non si dovrebbe insegnare in modo aggressivo ciò che non si è ancora pienamente compreso. Soprattutto se non si hanno risultati a supporto. Si può dimostrare il proprio punto di vista con riferimenti a documenti scientifici autorevoli (come si fa nel thread sul MO) o in altri modi che dovrebbero riassumere l'essenza della narrazione, senza dogmi soggettivi. Come se io mi occupassi di reti neurali da 20 anni e ora fossi il più intelligente.