L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3312

 
Ivan Butko #:

Potete dirmi per favore cosa non è spazzatura? Non ho mai visto nessuno parlare di dati di input puliti. Ma sento parlare di spazzatura in continuazione sul forum.

Che cosa sono? Se si parla di spazzatura, allora non si è avuta spazzatura, altrimenti non c'è niente con cui confrontarla

È un movimento direzionale, un vettore.

ma tirarlo fuori dalla spazzatura è una sfida.

Per esempio, cercherei di caricare il mio indicatore nei neuroni come predittori e cercherei di identificare i segni della spazzatura e del raccoglitore di spazzatura.

 
СанСаныч Фоменко #:

Permettetemi di chiarire il mio punto di vista.

Qualsiasi algoritmo MO cerca di ridurre l'errore. La riduzione dell'errore è più efficace sulla spazzatura, perché i valori "convenienti" per la riduzione dell'errore sono molto più comuni nella spazzatura. Di conseguenza, è certo che l'"importanza" dei predittori per la spazzatura sarà più alta che per la NON spazzatura. Per questo motivo esiste una preelaborazione, che richiede molto più lavoro dell'effettivo adattamento del modello.

In questo esempio artificiale che stiamo considerando (non si tratta di dati di mercato),
la scheda dell'asse U non è spazzatura ed è molto buona per definire le classi. La scheda dell'asse X è pessima perché le due classi sono mescolate in modo quasi uniforme.

L'albero dividerà facilmente i dati in 1 e 2 esempi dall'immagine con una sola divisione attraverso Y=0,5 con una purezza assoluta delle classi, cioè una probabilità di classe =100%. Quando si verifica la suddivisione sull'asse X, la purezza sarà di circa il 50%, l'algoritmo selezionerà la suddivisione più pulita, su Y. In altri termini, la vostra affermazione secondo cui verrà selezionata una suddivisione spazzatura su X è errata in questi esempi.

Il terzo esempio è più complicato. La foglia con U<0,2 sarà selezionata dall'algoritmo, poiché la purezza della classe = 100%, anche la foglia U>0,8 sarà selezionata.
La foglia da 0,2 a 0,8 ha una purezza di circa il 50%, cioè è tanto spazzatura quanto qualsiasi altra suddivisione sull'asse X.
Un'ulteriore suddivisione non ha senso, poiché non si utilizzeranno foglie con una probabilità di classe del 50%.
Se si fa una cosa stupida e si divide questa parte di spazzatura fino a 1 esempio in una foglia, si useranno le suddivisioni sia su Y che su X. Bene, se abbiamo 1 esempio in una foglia, allora la sua purezza è ovviamente = 100%. Ma questi non sono fogli rappresentativi. Solo i principianti lo faranno.

I primi 3 fogli sono sufficienti, oppure si può smettere di dividere le foglie almeno per l'1-5-10% del numero totale di esempi nel foglio. In questo esempio si usano foglie con purezza >90%, e queste saranno le prime 2 foglie: U<0,2 e U>0,8. Il resto delle foglie sarà 50% +-10% a causa della miscelazione non uniforme.


 
Renat Akhtyamov #:

... Proverei a caricare il mio indicatore sui neuronici come predittori e cercherei di identificare i segni di spazzatura e spazzino

E cosa ti impedisce di provare?

 
Andrey Dik #:

Nessuno sa cosa sia spazzatura e cosa no, sono ipotesi.

Se sapessimo esattamente cosa è cosa, non ci sarebbe un thread di 3K pagine)).

Si fa semplicemente l'ipotesi che andare oltre tali limiti sia "spazzatura", anche questi limiti sono ipotetici. Ecco perché l'espressione "rubbish in - rubbish out" non è altro che una bella frase, ciò che è rubbish per un ricercatore non è rubbish per un altro ricercatore. È come le onde di Eliot.

Non c'è bisogno di firmare per tutti.

Molto probabilmente lei non sa quali esempi sono "spazzatura" e quali no. Per lei è un concetto ipotetico. Se sapessi cosa è cosa, non staresti seduto in questo thread a scrivere generalizzazioni profonde per tutti.

Quando imparerai le basi della Difesa? È una domanda retorica.

 
Vladimir Perervenko #:

Non è necessario firmare per tutti.

Molto probabilmente non sai quali esempi sono "spazzatura" e quali no. Per te è un concetto ipotetico. Se sapessi cosa è cosa, non staresti seduto in questo thread a scrivere profonde generalizzazioni per tutti.

Quando imparerai le basi della Difesa? È una domanda retorica.


Il tuo post non dimostra che tu sappia cosa è spazzatura e cosa no.
Inoltre, questa è la cosa divertente, se sai cosa non è spazzatura, allora non c'è bisogno del MO.

Questo è lo scopo e l'obiettivo dell'OI: separare le mosche dalle cotolette.

Se lo sapete, cosa ci fate qui?

 

In fisica, i segnali che influenzano il segnale di cui abbiamo bisogno sono solitamente considerati spazzatura. Qualsiasi segnale, qualsiasi azione sia causata da qualcosa, viene chiamata spazzatura perché non è necessaria e non fornisce una valutazione corretta del segnale necessario al ricercatore. E così, beh, in natura non c'è spazzatura))))))))))

Qui, quando si cercano modelli di prezzo, inefficienza o altro, il segnale da valutare è l'impatto di alcuni eventi reali o della loro totalità sul prezzo. E tutte le altre influenze saranno spazzatura.

Non si pretende la verità del giudizio del corso))))

 
Valeriy Yastremskiy #:

In fisica, i segnali che influenzano il segnale di cui abbiamo bisogno sono solitamente considerati spazzatura. Qualsiasi segnale, qualsiasi azione sia causata da qualcosa, viene chiamata spazzatura perché non è necessaria e non fornisce una valutazione corretta del segnale necessario al ricercatore. E così, beh, in natura non c'è spazzatura))))))

In questo caso, quando si cercano modelli di prezzo, inefficienza o altro, il segnale da valutare è l'impatto di alcuni eventi reali o della loro totalità sul prezzo. Ma tutte le altre influenze saranno spazzatura.

Non si pretende la verità del giudizio del corso))))

Se ci immergiamo nella teoria DSP, le cose stanno così:

inizialmente si conosce un segnale utile senza spazzatura (ad esempio una linea di tendenza o una curva)

poi, al tick successivo, il segnale utile viene sottratto dalla massa totale dei segnali e vengono identificati i segnali non necessari, cioè i rifiuti.

 
Il littering delle caratteristiche viene valutato in relazione a specifiche caratteristiche target e viceversa. Se non c'è una relazione di causa-effetto, il set di dati è spazzatura nella sua interezza o in uno dei suoi componenti. E spesso non si tratta di caratteristiche, ma di markup errato.

Perché anche la spazzatura può essere suddivisa in modo da essere utile. Ad esempio, ordinare per tipo o per dimensione.
 
Ivan Butko #:

Potete dirmi per favore cosa non è spazzatura? Non ho mai visto nessuno parlare di dati di input puliti. Ma sento parlare di spazzatura in continuazione sul forum.

Che cosa sono? Se si parla di spazzatura, allora non si è avuta spazzatura, altrimenti non c'è niente con cui confrontarla

NON è una schifezza è un predittore che è correlato a/influenzato da un insegnante. Ecco un pacchetto di proxy pieno di algoritmi per separare la spazzatura dalla NON spazzatura. Tra l'altro, è tutt'altro che l'unico in R.

Ad esempio, mashka per l'incremento dei prezzi degli insegnanti è spazzatura, così come tutti gli algoritmi di lisciatura.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
La preelaborazione riguarda la normalizzazione, non la spazzatura.
I detriti sono la selezione delle caratteristiche e in parte l'ingegneria delle caratteristiche

Sanych, smettila di dare in pasto rifiuti a persone che sono immature.

Se ti riferisci alla selezione delle caratteristiche come parte dei modelli, non sono assolutamente d'accordo, perché la selezione delle caratteristiche come parte dei modelli è una schifezza qualsiasi.