L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2208
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
quel link che ho dato sul wiki sul semi. Ho capito che i segni sono i bordi delle sezioni stabili.
ZZ non va, perché la marcatura continua senza differenze nelle sezioni, e l'apprendimento continua allo stesso modo, e se segnando ZZ è come se ci fossero troppi esempi con caratteristiche diverse e il risultato dell'apprendimento non può essere buono.
Le etichette sono note target{classes}. Il resto dei dati è senza di loro, solo sotto forma di caratteristiche.
Queste etichette dovrebbero avere un qualche significato. Per esempio, le etichette che sono gatti o coccodrilli
Nel nostro caso, non abbiamo idea di dove siano i gatti. Quindi non conosciamo alcun modello o come si differenziano, il che rende ancora più difficile
in modo da poter forzare le marcature iniziali, passare attraverso le varianti
sono solo l'obiettivo/le classi conosciute. Il resto dei dati senza di loro
È come impostare la giusta direzione di ricerca)).
Queste etichette dovrebbero avere un qualche significato. Per esempio, etichette che dicono che sono gatti o coccodrilli.
In questo caso, non abbiamo idea di dove siano i gatti. Cioè, non conosciamo i modelli e le loro differenze, il che rende il compito ancora più difficile.
in modo da poter forzare le marcature iniziali e passare attraverso le varianti.
Il bruteforcing completo è sempre meglio del bruteforcing incompleto. Il punto sul markup non completamente corretto è sempre stato lì. E la maledizione della dimensionalità si risolve solo con la giusta direzione di ricerca. Si tratta di trovare/identificare la zona giusta per passare attraverso le varianti.
Ho cercato di estendere l'idea dell'accettabilità dei piccoli campioni per GMM. Addestrare 6 mesi, testare 5 anni. Ho diviso i tag in n parti di dimensione fissa. Per ogni parte ho creato il mio modello GMM, ho generato 1000 campioni da ciascuno, li ho ammassati e ho addestrato il catbusto. Ho selezionato le caratteristiche e ho ottenuto così:
Seconda versione, stessi tag, con lo stesso partizionamento, ma con pre-miscelazione:
X = X.sample(frac=1.0)
In entrambi i casi è stato utilizzato un obiettivo fisso. Posso riprodurre questo esperimento se volete. Non sono bravo a interpretare questi fenomeni, forse c'è una spiegazione.
Ho cercato di estendere l'idea dell'accettabilità dei piccoli campioni per GMM. Addestrare 6 mesi, testare 5 anni. Ho diviso i tag in n parti di dimensione fissa. Per ogni parte ho creato il mio modello GMM, ho generato 1000 campioni da ciascuno, li ho ammassati e ho addestrato il catbusto. Ho selezionato le caratteristiche e ho ottenuto così:
Seconda versione, stessi tag, con lo stesso partizionamento, ma con pre-miscelazione:
In entrambi i casi è stato utilizzato un obiettivo fisso. Posso riprodurre questo esperimento se volete. Non sono forte nell'interpretazione di tali fenomeni, forse c'è una spiegazione.
Scusate ragazzi, c'è una domanda.
Qual è il numero di rapporti di ponderazione nelle vostre griglie, e su quanti mestieri vengono formati?
Voglio capire la relazione tra queste quantità e speculare sulla dipendenza del sovrallenamento da questa relazione. Grazie.
Questa miscelazione avviene prima del gmm o prima del boost? È necessario controllare l'equilibrio delle classi per l'addestramento/test. Forse gli zero sono andati in traina e gli uno in prova. Si potrebbe anche provare il clustering separato per segni di acquisto e di vendita.
La miscelazione è fatta prima di creare GMM.
Prima di questo lascio cadere le etichette per condizione:
questo porta sempre l'equilibrio della classe a 1/1 con leggere variazioni:
In questo caso 115 etichette sono state mescolate e divise in 4 parti. Dopo di che, 4 GMM sono stati creati sulla base di essi. Da ognuno di essi sono state seminate 1000 etichette che sono state combinate in un unico dataframe. Nella fase successiva sarà diviso in test e triplo binario.
L'equilibrio delle classi di campioni era un po' diverso dall'ideale. Ma i campioni del treno e del test avevano circa lo stesso rapporto
Di seguito sono riportati i risultati della simulazione con lo stesso campione di 115 tag diviso in 4 parti, ma senza miscelazione. Il bilanciamento delle classi è ovviamente un po' migliore, ma non credo che influenzi i risultati in modo significativo.
Questo può sembrare sciocco, ma penso che ci sia una sorta di correlazione temporale nella serie che i modelli GMM trovano in diverse parti della serie. Scompare se si rompe l'ordinamento mischiando la fila.
Non ho pensato al clustering separato, lo proverò stasera.
L'agitazione viene fatta prima di creare il GMM.
Prima di questo, far cadere le etichette per condizione:
questo porta sempre l'equilibrio della classe a 1/1 con leggere variazioni:
In questo caso, 115 tag sono stati mischiati e divisi in 4 parti. Dopo di che, 4 GMM sono stati creati sulla base di essi. Da ognuno di essi sono state seminate 1000 etichette che sono state combinate in un unico dataframe. Nella fase successiva sarà diviso in test e triplo binario.
L'equilibrio delle classi di campioni era un po' diverso dall'ideale. Ma i campioni del treno e del test avevano circa lo stesso rapporto
Di seguito sono riportati i risultati della simulazione con lo stesso campione di 115 tag diviso in 4 parti, ma senza miscelazione. Il bilanciamento delle classi è ovviamente un po' migliore, ma non credo che influenzi i risultati in modo significativo.
Questo può sembrare sciocco, ma penso che ci sia una sorta di correlazione temporale nella serie che i modelli GMM trovano in diverse parti della serie. Scompare se si rompe l'ordinamento mischiando la fila.
Non ho pensato al clustering separato, lo proverò stasera.
Dovrò disegnarlo, non è molto chiaro... Beh, è un fatto che le distribuzioni sono diverse in entrambi i casi. Inoltre hai già rimosso la serializzazione. Molto probabilmente le distribuzioni risultano molto poco informative, e i nuovi punti dopo il campionamento cominciano a trovarsi in un posto poco chiaro. Cioè le informazioni della serie si perdono, sì, perché le citazioni non sono indipendenti.
O fare su qualche semplice esempio (non citazioni) e confrontare poi.
Dovrò disegnare, non è molto chiaro... Beh, è un fatto che le distribuzioni sono diverse in entrambi i casi. Inoltre avete già rimosso la serie. Molto probabilmente, le distribuzioni risultano molto poco informative, e i nuovi punti dopo il campionamento cominciano a trovarsi in un posto poco chiaro. Cioè le informazioni della serie si perdono, sì, perché le citazioni non sono indipendenti.
O fare su qualche semplice esempio (non citazioni) e confrontare poi.
Maxim, ciao. è da molto tempo che non vengo qui... Ho provato a gestirlo e ho un sacco di domande))) Immagino che MARKUP sia uno spread? Il markup è un semplice confronto del valore attuale con l'attuale + un numero casuale, a seconda del segno > o < si mette un markup 1 o 0. giusto? Per un test, hai impostato markup=0.0? (se il vassoio MARKUP=0.00001 credo)) giusto?
Maxim, ciao, è passato molto tempo da quando sono venuto qui... Sto cercando di capirlo e ho un sacco di domande))) Immagino che MARKUP sia uno spread? Il markup è un semplice confronto del valore attuale con l'attuale + un numero casuale, a seconda del segno > o < si mette un markup 1 o 0. giusto? Per un test, hai messo markup=0.0? (per vassoio, penso MARKUP=0.00001)) giusto?
Ciao. Sì, proprio così. Lo stesso markup è usato nel tester. Riguardo agli articoli, probabilmente è meglio chiedere negli articoli. Da avere in un unico posto.
Analizzo il feedback e vedo cosa può essere migliorato