L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 1963

 
Maxim Dmitrievsky:

neuroni D multipli (tipo griglia)

errore, % = 45.10948905109489

addio )

Ho inviato all'autore della griglia i miei tagli e la mia indignazione per posta.
Che cosa ha determinato? L'autenticità delle banconote?
 
Valeriy Yastremskiy:
Cosa ha determinato? L'autenticità delle banconote?

 
Maxim Dmitrievsky:

Logica fallace.
 
Valeriy Yastremskiy:
Logica fallace.

Ci possono essere alcune insidie. Per esempio, non si possono usare valori negativi negli attributi perché usa quelli binarizzati nei suoi microtest. Non c'è nulla di tutto ciò nella scarsa descrizione, non mostra alcun errore.

 
Maxim Dmitrievsky:

ci possono essere delle insidie. Per esempio, non si possono avere valori negativi negli attributi perché usa quelli binari nei suoi microtest. Non c'è nulla di tutto ciò nella descrizione scarna, non mostra errori.

La corruzione avviene spesso sulla base di sintomi non espliciti. Ed è un problema individuarli in una logica apparentemente corretta.
 
Pesi da una parte e binari dall'altra. Ecco da dove veniamo.
 

Interessante approccio NS per il filtraggio collaborativo

Si possono prendere strumenti di trading e strategie invece di persone e ID di film, e qualche metrica invece di voti (aspettativa, ecc.). Poi calcola le variabili nascoste per lo strumento e la strategia. E poi tutto quello che vuoi. Abbinare il sistema allo strumento o generarlo al volo con le caratteristiche necessarie, costruire sintetici per il sistema....

 
Maxim Dmitrievsky:
Ho inviato all'autore della griglia i tagli e la mia indignazione

Mi chiedo cosa abbia risposto.

 
mytarmailS:

Mi chiedo cosa abbia scritto.

Finora niente. Ci deve essere una certa regolarità nei campioni, questo è il punto. È un approccio diverso. Penso che su set regolari e su dovrebbe essere insegnato. Cioè, più bassa è l'entropia nella riga, migliore è la res, e in quel dataset i campioni sono mischiati in modo casuale. In termini oabocanstiani, non è tanto il modello che è importante, ma la sequenza
 
elibrarius:
Mescoliamo lo split più pulito con quello meno pulito. Cioè peggioreremo il risultato sul vassoio, in linea di principio non è importante per noi. Ma non è sicuro che migliorerà il risultato sul test, cioè la generalizzabilità. Qualcuno dovrebbe provare... Personalmente, non credo che la generalizzazione sia migliore del caso dell'impalcatura.

È molto più facile limitare la profondità dell'albero e non fare l'ultima spaccatura, fermandosi alla precedente. Ci ritroveremo con lo stesso foglio meno chiaro che se facessimo uno split extra. La tua opzione darebbe qualcosa in mezzo, sia che facciamo uno split sia che non lo facciamo. Per esempio, con il tuo metodo farai la media del foglio al 7° livello di profondità. Sarà leggermente più pulito del foglio del 6° livello di profondità. Penso che la generalizzazione non cambierà molto, ed è un sacco di lavoro per testare l'idea. Puoi anche fare una media di alcuni alberi con livelli di profondità 6 e 7 - otterrai più o meno lo stesso risultato della tua metodologia.

Probabilmente non ho chiarito prima che ci dovrebbe essere almeno l'1% di indicatori rimasti nel foglio su campioni piccoli e 100 su campioni grandi, quindi ovviamente la suddivisione non sarà al punto di non avere errori nel foglio su nessuna classe.

Sembra che tu abbia frainteso l'ultimo passo - io lo vedo come una valutazione statistica del campione rimanente dell'1% - in questo campione osserviamo che il risultato migliora con le suddivisioni per diversi predittori, otteniamo informazioni di sottospazio, per esempio:

Se A>x1, allora il target 1 sarà corretto al 40%, cioè al 60% del sottocampione

Se B>x2, allora il target 1 sarà identificato correttamente con il 55%, che è il 45% del sottocampione.

Se A<=x1, allora il target 1 sarà definito correttamente dal 70%, che è il 50% del sottocampione

Ognuno di questi split ha un fattore di significatività (non ho ancora deciso come calcolarlo), e anche l'ultimo split ne ha uno.

e così via, diciamo fino a 5-10 predittori, poi quando si applica, se si raggiunge l'ultimo split, si sommano i coefficienti (o si usa un metodo più complicato di somma), e se la somma dei coefficienti supera la soglia, allora il foglio è classificato 1, altrimenti zero.


Un modo semplice per implementare questo è quello di costruire forzatamente una foresta fino al penultimo split, e poi escludere i predittori già selezionati dal campione, in modo da selezionarne di nuovi. O semplicemente, dopo aver costruito l'albero, filtrare il campione per foglia e passare attraverso ogni predittore da solo alla ricerca della migliore divisione che soddisfi il criterio di completezza e precisione.

E, il risultato sul campione di formazione migliorerà se l'altra classe "0" significa nessuna azione e non l'ingresso opposto, altrimenti ci può essere sia un miglioramento che un peggioramento.