L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 2757

 
Aleksey Nikolayev #:

La prima idea per sovraccaricare è scrivere un'altra funzione con lo stesso nome ma con argomenti diversi. Non l'ho mai fatto in Rcpp, quindi non so se funzionerà. Probabilmente dovrò creare il codice C in un file separato e usare sourceCpp() invece di cppFunction().

Grazie

 
Maxim Dmitrievsky #:
Corretto. Per mancanza di ipotesi a priori, si utilizza il secondo tipo.
Aleksey Nikolayev #:

A mio parere, esistono due tipi di connessione.

Il primo è quello causale, che è determinato da informazioni a priori sull'oggetto della ricerca provenienti dalla conoscenza dell'area tematica in questione, piuttosto che da alcuni calcoli.

Il secondo tipo è la dipendenza probabilistica, che può essere calcolata a posteriori da alcuni dati ottenuti osservando il comportamento dell'oggetto. Il secondo tipo comprende la correlazione, la dipendenza deterministica (come caso estremo) e così via, compresa quella descritta dalle copule e da altri metodi. La base per lo studio di questo tipo è l'ipotesi che esista una distribuzione congiunta per i predittori e l'obiettivo.

Per mancanza di esperimenti si utilizza il secondo tipo (ad es. US Food & Drugs Association - non testa un campione normale rappresentativo per le sue conclusioni, quindi si affida ad approcci bayesiani)... e senza informazioni a priori, non c'è proprio nulla da modellare.

 
JeeyCi #:

In mancanza di esperimenti , si ricorre al secondo tipo (ad es. US Food & Drugs Association - non testa un campione rappresentativo normale per le sue conclusioni, quindi si affida ad approcci bayesiani)... e senza informazioni a priori, non c'è proprio nulla da modellare.

Avete dato un'occhiata al libretto stesso? C'è qualcosa con cui giocare? Ci darò un'occhiata quando avrò finito.

Ci sono molte librerie di questo tipo, quindi sono molto richieste.
 

Qualcuno ha partecipato al concorso Numerai? Cosa bisogna fare per guadagnare?

Bisogna investire il proprio denaro? Non capisco quale sia il loro modello di pagamento.

 
Evgeni Gavrilovi #:

Qualcuno ha partecipato al concorso Numerai? Cosa bisogna fare per guadagnare?

Bisogna investire il proprio denaro? Non capisco quale sia il loro modello di pagamento.

Forse questo può essere d'aiuto.
 

Non ho guardato la biblioteca, l'articolo è disgustoso - contraddice il buon senso della stat ....

in inglese standard fonti - il significato dell'analisi delle serie temporali si riduce al cambiamento della politica al momento del trattamento/intervento e all'analisi del cambiamento della pendenza del trend aggregato (che, suppongo, può essere interpretato come un attore -- che subisce l'influenza della politica e modifica il suo processo decisionale al momento del trattamento -- che è ciò a cui mira la ricerca dei marketer quando valutano l'effetto di sconti, vendite, ecc. promozioni per capire se il prezzo non è adatto ai clienti, o il prodotto in linea di principio, o la posizione del centro commerciale, ecc.)д.)...

ma il problema è sempre lo stesso nella modellazione - per valutare il post-trattamento, ovviamente, è necessario un campione(!) per approssimare le conclusioni "aiutato-non aiutato-indifferente" (in termini di intervento)...

e in termini di controfattuale - è importante porre la domanda giusta per valutare la dinamica dei cambiamenti causati da un cambiamento di politica (o da un intervento) - per scegliere la metrica, l'obiettivo e i parametri (per la messa a punto) -- perché domande diverse possono dare risultati diversi (e cambiamenti di pendenza diversi) - quindi conclusioni diverse.

Sono confuso dal problema dello squilibrio nei dati reali di ML (che distorce le stime) - qualcuno di voi lo risolve con il sovracampionamento/undersampling? -- Non vedo il motivo di distorcere i dati reali in questo modo....

ma è necessario ottenere un campione rappresentativo nella fase di pre-trattamento (distribuzione di probabilità a priori), e la distribuzione posteriore si ottiene nel post-trattamento (ad esempio, il cambiamento di politica)... È qui che è importante decidere la regola di arresto, ossia se aumentare il campione per affinare i risultati o se accontentarsi del limite di campione scelto per trarre una conclusione, che probabilmente sarà meno statisticamente significativa rispetto a quella che si otterrebbe aumentando il campione.... ma non è detto che l'aumento del campione aumenti la significatività statistica della media o della varianza.

= questo è un problema di dimensioni... di solito, se l'effetto dell'intervento è grande, può essere visto in un campione piccolo....

rimane anche il problema dei fattori (FS) - aumentando il numero di fattori considerati, si riduce il bias delle stime, ma aumenta la varianza... compito: trovare fattori significativi (come di consueto nell'analisi esplorativa dei dati - per questo si chiamaData_Science e non una stupida approssimazione di random da parte dei programmatori) per ottenere stime imparziali con bassa varianza (il bilanciamento di questi due obiettivi è a discrezione dello sviluppatore).

Vladimir ha già detto molto sul problema della selezione dei fattori - se stiamo modellando le probabilità per selezionare un trade ad alta probabilità.

P.S..

la velocità e l'accelerazione (se presenti) sono sempre importanti nell'analisi delle serie temporali, il loro confronto tra il periodo precedente e quello successivo al trattamento fornisce conclusioni (anche sul cambio di direzione)...

anche la divergenza/convergenza e gli estremi dei target correttamente selezionati rimangono validi... tutto è come al solito: si tratta della progettazione/architettura della rete neurale... e si prevedono solo le tendenze e le probabilità del loro sviluppo - niente di più... e nel mercato dei day trader tutto cambia più velocemente che in un trend di lungo periodo (se analizzato da D1) - quindi il fattore tempo dovrebbe essere inserito anche nel modello del robot per il day trading.... in generale, formalizzate il vostro stile di trading, in modo da non dover stare sempre seduti davanti al monitor e, se volete, cercate ragioni statistiche per le entrate e le uscite o per stare fuori dal mercato (anche per la gestione del rischio - quando il mercato non è chiaro).

p.p.s

l'argomento può essere sviluppato all'infinito in termini di studio dei Modelli Causali Strutturali (cosa dipende da cosa, come ho notato in precedenza) - includendo la considerazione di fattori esogeni (influenza dall'esterno) ed endogeni (ad esempio, materie prime o valute finanziarie, e anche il cambio di partito al governo, credo).... in generale, come al solito, è possibile esaminare i dati per qualsiasi ipotesi ed esaminare l'accettazione o il rifiuto dell'ipotesi nulla per un particolare livello di significatività di interesse (aumentando la dimensione del campione per il suo [livello di significatività] possibile miglioramento).

p.p.p.s

anche se ad alcuni non piace la parola distribuzione probabilistica - ma l'essenza di essa non cambia - le distribuzioni sono ancora probabilistiche, anche se sono condizionali (la condizione fornisce una ragione per la classificazione) ... e Prima_trattamento e Dopo_trattamento (in un test A/B) possono essere considerati come un cambiamento di condizioni (politica), ma è possibile stimare la regressione o confrontare la varianza (se è cambiata), anche se la pendenza è la stessa.

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
  • www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
 
Ho l'impressione che tutto questo sia molto lontano dal commercio
 
per questo dico che dovresti prima decidere l'algoritmo (compresi gli sbilanciamenti - non so cosa volevi fare con essi?)... e poi cercare una libreria che ti permetta di caricare il codice con le entità/classi necessarie... - quando prima si consigliava il sovracampionamento)... e poi cercare una libreria che permetta di aggiungere le entità/classi necessarie al codice... o codificare la propria libreria con le classi necessarie... o di codificare la propria libreria con le classi necessarie.
 
JeeyCi #:
per questo dico che dovresti prima decidere l'algoritmo (compresi gli sbilanciamenti - non so cosa volevi fare con essi?)... e poi cercare una libreria che ti permetta di caricare il codice con le entità/classi necessarie... - quando prima si consigliava il sovracampionamento)... e poi cercare una libreria che permetta di aggiungere le entità/classi necessarie al codice... o codificare la propria libreria con le classi necessarie... o di codificare la propria libreria con le classi necessarie.
Il ricampionamento viene effettuato per rimuovere i valori anomali e gaussianizzare il campione.

In generale stavo suggerendo un campionamento significativo per entropia o correlazione. Per rendere i chip più informativi. Inoltre, si prendono gli incrementi e si aggiunge loro la massima informazione dalla serie originale con ogni tipo di trasformazione. Più una finestra di stuttering non fissa. È un approccio da principianti e nessuno l'ha mai fatto. Ma ho preso una schifezza di coronavirus e sto riposando ☺️.

Gli inferni casuali avrebbero dovuto aiutare a scegliere le schede informative come opzione, ma si è rivelato che non si trattava di quello.
 
JeeyCi #:
per questo dico che dovresti prima decidere l'algoritmo (compresi gli sbilanciamenti - non so cosa volevi fare con essi?)... e poi cercare una libreria che ti permetta di caricare il codice con le entità/classi necessarie... - quando prima si consigliava il sovracampionamento)... e poi cercare una libreria che permetta di aggiungere le entità/classi necessarie al codice... o codificare la propria libreria con le classi necessarie... o codificare la propria libreria con le classi necessarie.

Tutto ciò di cui avete bisogno è stato codificato prima di voi.

La shell caret di R contiene fino a 200(!) modelli, nella vostra terminologia (librerie) + tutto il pipelining necessario per il data mining e la selezione dei modelli.

Il problema è nella selezione dei predittori e nella loro selezione, non ci sono problemi nei modelli per molto tempo.