L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2746
Ti stai perdendo delle opportunità di trading:
- App di trading gratuite
- Oltre 8.000 segnali per il copy trading
- Notizie economiche per esplorare i mercati finanziari
Registrazione
Accedi
Accetti la politica del sito e le condizioni d’uso
Se non hai un account, registrati
quindi controllate prima di farlo.
Controllare cosa? Hai una rotazione??
Non è più divertente.
Per riassumere la teoria di Sanych (dato che lui stesso non è riuscito a formalizzarla correttamente e a fornire esempi):
È completamente sbagliato.
1. Ho scritto sopra a proposito della mia concezione di "potere predittivo".
2. Il significato non è chiaro
3. Non esiste una traina nel senso usuale del termine. Adattamento della foresta casuale. Dimensione del campione = 1500 barre, numero di alberi=150. La dimensione del campione viene ricavata dal grafico dell'errore di adattamento. Su questo campione di 170 predittori, si procede alla selezione e alla preelaborazione dei predittori in base a diversi criteri. Alla fine, tra i 20-30 predittori rimanenti, vengono selezionati 5-10 predittori sulla base della massima capacità predittiva e il modello viene adattato. La barra successiva viene prevista utilizzando il modello ottenuto. All'arrivo di una nuova barra, l'intero processo di costruzione del modello viene ripetuto.
L'errore massimo di adattamento è di circa il 20%, ma è piuttosto raro. Di solito si aggira intorno al 10%.
4. Ho descritto il mio approccio in precedenza.
Ancora una volta.
ma l'obiettivo non è uno zigzag, vero?
Completamente sbagliato
1. Sopra ha scritto della sua comprensione della "capacità predittiva".
2. Il significato non è chiaro
3. nessuna trayne nel senso usuale del termine. Adattamento della foresta casuale. Dimensione del campione = 1500 barre, numero di alberi = 150. La dimensione del campione viene ricavata dal grafico dell'errore di adattamento. Su questo campione di 170 predittori, si procede alla selezione e alla preelaborazione dei predittori in base a diversi criteri. Alla fine, tra i 20-30 predittori rimanenti, vengono selezionati 5-10 predittori sulla base della massima capacità predittiva e il modello viene adattato. La barra successiva viene prevista utilizzando il modello ottenuto. All'arrivo di una nuova barra, l'intero processo di costruzione del modello viene ripetuto.
L'errore massimo di adattamento è di circa il 20%, ma è piuttosto raro. Di solito si aggira intorno al 10%.
4. Ho descritto il mio approccio in precedenza.
La fiducia che i risultati futuri saranno altrettanto soddisfacenti deriva dalla statistica di capacità predittiva, che:
1. dovrebbe avere un valore di sd sufficientemente alto
2. un valore di sd basso.
Come al solito, se si riescono a trovare predittori con un sd inferiore al 10%, la variazione dell'errore di previsione sarà più o meno la stessa.
La mia conclusione:
1. Dovremmo adottare (o sviluppare) uno degli algoritmi di "capacità predittiva".
2. Trovare un elenco di predittori i cui valori di capacità predittiva differiscono di un fattore uno.
3. Eseguire una finestra e ottenere le statistiche: media e deviazione dalla media. Se siete fortunati, troverete un elenco di questo tipo. Io l'ho trovato.
Il modello non ha importanza. Sui miei predittori RF, ada, GBM, GLM danno circa lo stesso risultato. SVM è leggermente peggiore. Non va affatto bene con nnet.
Tutto il successo sta nei predittori e nella loro preelaborazione. E tu stai dicendo cose senza senso!
Questo ha più senso. Da dove provengono gli obiettivi, dai risultati del clustering?
Ho il segno degli incrementi normali.
Il target è secondario. Il problema del target è rappresentato dai predittori: è possibile abbinare o meno i predittori a un determinato target.
Ho un segno per gli incrementi normali.
Il target è secondario. Il problema del target è rappresentato dai predittori: si possono adattare i predittori a un determinato target oppure no.
La capacità predittiva è correlazione e NON informazione:
1. La correlazione è la "somiglianza" di una serie stazionaria con un'altra, e c'è sempre un valore, e non c'è un valore di "nessuna relazione". La correlazione ha sempre un qualche valore, quindi si può facilmente usare la correlazione per trovare la relazione tra un insegnante e i fondi di caffè.
2. La selezione delle schede è la frequenza di utilizzo delle schede nella costruzione dei modelli. Se prendiamo predittori che non hanno nulla a che fare con l'insegnante, otteniamo comunque una classifica di schede.
Un analogo alla mia comprensione del "potere predittivo" è per esempio caret::classDist(), che definisce le distanze di campionamento Mahalanobis per ogni classe di centri di gravità. Oppure woeBinning. Ci sono molti approcci e molti pacchetti in R. Ce ne sono altri basati sulla teoria dell'informazione.
Ho un segno per gli incrementi normali.
Il target è secondario. Il problema dell'obiettivo è rappresentato dai predittori: è possibile abbinare o meno i predittori a un determinato obiettivo.
Il segno degli incrementi e il segno di ZZ non garantiscono il profitto. 5 piccoli incrementi si sovrapporranno facilmente a uno forte, ma nella direzione opposta. E 10, ad esempio, barre profittevoli notturne saranno coperte anche da 1 barra perdente giornaliera (solo 10% di errore).
Quale linea di equilibrio si otterrà sui nuovi dati? Spero che non sia orizzontale con piccole fluttuazioni verso l'alto e verso il basso?
Anche negli articoli di Vladimir l'errore è intorno al 10-20%, ma la linea di equilibrio non ispira ottimismo.
Continuo a non capire. Non si tratta di correlazione o di frequenza d'uso. Come viene stimato il presc.sp. nell'addestramento o da cosa viene stimato?
La stessa algebra vettoriale, la stessa mappatura delle caratteristiche che elimina il problema della multicollinearità.
- cioè la selezione/proiezione spaziale di "componenti" essenzialmente uguali .... La selezione/proiezione spaziale di "componenti" essenzialmente uguali nello spazio delle caratteristiche multicollineari offre un campo di applicazione dell'algebra vettoriale(!); per non sbarazzarsi della multicollinearità in modo artigianale, è meglio tenerne conto (ad esempio, riducendo il tutto allo spazio 3d o a quello che si vuole e operando con le proiezioni; se necessario, i dati iniziali possono essere moltiplicati per queste stime, come qualcosa di simile ai caricamenti dei fattori, anche se di solito è la libreria stessa a misurare questa distanza di Mahalanobis e a fornire i risultati).
In ogni caso, il risultato finale è la stessa approssimazione della media e della st.dev e la possibilità di prendere decisioni di trading basate su di esse.
- Non esiste un'altra modellazione in natura: ci sono solo modi per risolvere problemi comuni (eteroscedasticità, multicollinearità, autocorrelazione dei residui) in uno spazio (diversamente) n-dimensionale...
e non si può prescindere dalla statistica... la soluzione al problema della correlazione dei tratti è qui in forma esplicita...
p.s..
AGGIORNATO: questo strumento(MD) viene ancora utilizzato per il clustering/raggruppamento/classificazione multidimensionale... per selezionare gli outlier in uno spazio multidimensionale... è talvolta utilizzato insieme alla distanza euclidea... "quando le variabili non sono correlate -- la distanza di Mahalanobis coincide con la consueta distanza euclidea ".... in LDA... in generale la tz è quella che ho descritto prima....
Con questo post non intendevo in alcun modo equiparare PCA e clustering, ma solo ricordare che sia PCA che MD danno la possibilità di eliminare gli outlier nello spazio multidimensionale... ma l'essenza del mio aggiornamento non cambia: si tratta di soluzioni di problemi spaziali mediante algebra vettoriale per tenere conto del problema della multicollinearità (in modo da non distorcere/spostare le stime statistiche).