L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3187

 
Non capivo affatto il significato di ciò che era successo, ma questo è uno stato d'animo normale per me.
 
fxsaber #:.

ZЫ In generale, se c'è interesse a cercare di trovare differenze tra le due file, è possibile fornirle.

Date un'occhiata a quello che vi ho scritto. Sarò in grado di guardarlo io stesso solo in autunno.

 
Aleksey Nikolayev #

Forester#:

Ho fatto un esperimento con il campione su cui ho pubblicato le gif, ci sono già il 47% di unità nel campione, i dati sono riassunti in una tabella.


Descrizione del contenuto delle colonne:

  • Generazione - il numero di generazione casuale del target con un numero fisso di "1" e "0", l'ultima riga - il target originale
  • % Somiglianza di tutti - viene specificata la percentuale di somiglianza del target.
  • % Somiglianza "1" - viene specificata la percentuale di somiglianza del target, ma solo per la risposta "1".
  • % Somiglianza "0" - viene specificata la percentuale di somiglianza dell'obiettivo, ma solo per una risposta "0".
  • Q_All - quanti segmenti quantici totali sono stati trovati utilizzando 870 tabelle quantiche e 6533 predicati.
  • Q_All% - quanti "Q_All" come percentuale del campione con il target originale
  • Q sampled - mostra quanti segmenti quantici sono stati campionati (sono stati campionati solo quelli che non si sovrappongono nell'intervallo)
  • Q selezionato% - quanti "Q selezionati" in percentuale dal campione con target originale.
  • Predittori - per quanti predittori del campione è stato possibile trovare un segmento quantico che soddisfa i criteri indicati.
  • Predictors % - quanti "Predictors" in espressione percentuale dal campione con target originale

Mi spiego: per un predittore è possibile selezionare più di un segmento quantico in totale e questi segmenti non devono sovrapporsi nell'intervallo del valore del predittore.

Quello che non mi piace è che nell'intervallo del 50% dei target vengano lasciati in posizione, il che può influire negativamente sulla valutazione del risultato.

In effetti, è emerso che sono stati trovati molti segmenti quantici su bersagli casuali, ma poiché si trattava di alcuni cluster (presumibilmente), diverse tabelle si sono sovrapposte alle loro coordinate, quindi dopo aver selezionato gli intervalli non sovrapposti, è emerso che la qualità (utilità) di questi segmenti quantici è peggiore (inferiore) rispetto a quelli originali di un fattore 10. Di conseguenza, in media, sul campione con l'obiettivo originale, i tagli quantici sono stati trovati di più per diversi predittori di 3,5 volte.

Cosa ne pensate dei risultati?

Aggiunto:

Il grafico della sequenza binaria del target casuale e dell'originale si presenta come segue


 
Aleksey Vyazmikin #:

Ho condotto un esperimento con il campione su cui ho pubblicato le gif, ci sono già il 47% di unità nel campione, i dati sono riassunti nella tabella.


Descrizione del contenuto delle colonne:

  • Generazione - il numero di generazione casuale del target con un numero fisso di "1" e "0", l'ultima riga - il target originale
  • % Somiglianza di tutti - viene specificata la percentuale di somiglianza del target.
  • % Somiglianza "1" - viene specificata la percentuale di somiglianza del target, ma solo per la risposta "1".
  • % Somiglianza "0" - viene specificata la percentuale di somiglianza dell'obiettivo, ma solo per una risposta "0".
  • Q_All - quanti segmenti quantici totali sono stati trovati utilizzando 870 tabelle quantiche e 6533 predicati.
  • Q_All% - quanti "Q_All" come percentuale del campione con il target originale
  • Q sampled - mostra quanti segmenti quantici sono stati campionati (sono stati campionati solo quelli che non si sovrappongono nell'intervallo)
  • Q selezionato% - quanti "Q selezionati" in percentuale dal campione con target originale.
  • Predittori - per quanti predittori del campione è stato possibile trovare un segmento quantico che soddisfa i criteri indicati.
  • Predictors % - quanti "Predictors" in espressione percentuale dal campione con target originale

Mi spiego: per un predittore è possibile selezionare più di un segmento quantico in totale e questi segmenti non devono sovrapporsi nell'intervallo del valore del predittore.

Quello che non mi piace è che nell'intervallo del 50% dei target vengano lasciati in posizione, il che può influire negativamente sulla valutazione del risultato.

In effetti, è emerso che sono stati trovati molti segmenti quantici su bersagli casuali, ma poiché si trattava di alcuni cluster (presumibilmente), diverse tabelle si sono sovrapposte alle loro coordinate, quindi dopo aver selezionato gli intervalli non sovrapposti, è emerso che la qualità (utilità) di questi segmenti quantici è peggiore (inferiore) rispetto a quelli originali di un fattore 10. Di conseguenza, in media, sul campione con l'obiettivo originale, sono stati trovati più tagli quantici per diversi predittori di 3,5 volte.

Cosa ne pensate dei risultati?

Domanda per Alexei. Non sono esperto di teoria statistica. Ho solo suggerito di mescolare l'obiettivo invece della generazione.
 
Forester #:
Domanda per Alexei. Non sono bravo in teoria statistica. Ho solo suggerito di mescolare l'obiettivo invece della generazione.

Capisco.

Ho un altro suggerimento da darti: e se rendessimo più gestibile il processo di costruzione della foresta, e prendessimo un sottocampione specifico del segmento quantistico selezionato come radice per ogni albero?

La profondità si aggira intorno a 2-3 spaccature, in modo che gli esempi di classi classificabili per foglia siano almeno l'1%.

Credo che il modello sarà più stabile.

 
Aleksey Vyazmikin #:

Ho condotto un esperimento con il campione su cui ho pubblicato le gif, ci sono già il 47% di unità nel campione, i dati sono riassunti nella tabella.


Descrizione del contenuto delle colonne:

  • Generazione - il numero di generazione casuale del target con un numero fisso di "1" e "0", l'ultima riga - il target originale
  • % Somiglianza di tutti - viene specificata la percentuale di somiglianza del target.
  • % Somiglianza "1" - viene specificata la percentuale di somiglianza del target, ma solo per la risposta "1".
  • % Somiglianza "0" - viene specificata la percentuale di somiglianza dell'obiettivo, ma solo per una risposta "0".
  • Q_All - quanti segmenti quantici totali sono stati trovati utilizzando 870 tabelle quantiche e 6533 predicati.
  • Q_All% - quanti "Q_All" come percentuale del campione con il target originale
  • Q sampled - mostra quanti segmenti quantici sono stati campionati (sono stati campionati solo quelli che non si sovrappongono nell'intervallo)
  • Q selezionato% - quanti "Q selezionati" in percentuale dal campione con target originale.
  • Predittori - per quanti predittori del campione è stato possibile trovare un segmento quantico che soddisfa i criteri indicati.
  • Predictors % - quanti "Predictors" in espressione percentuale dal campione con target originale

Mi spiego: per un predittore è possibile selezionare più di un segmento quantico in totale e questi segmenti non devono sovrapporsi nell'intervallo del valore del predittore.

Quello che non mi piace è che nell'intervallo del 50% dei target vengano lasciati in posizione, il che può influire negativamente sulla valutazione del risultato.

In effetti, è emerso che sono stati trovati molti segmenti quantici su bersagli casuali, ma poiché si trattava di alcuni cluster (presumibilmente), diverse tabelle si sono sovrapposte alle loro coordinate, quindi dopo aver selezionato gli intervalli non sovrapposti, è emerso che la qualità (utilità) di questi segmenti quantici è peggiore (inferiore) rispetto a quelli originali di un fattore 10. Di conseguenza, in media, sul campione con l'obiettivo originale, sono stati trovati più tagli quantici per diversi predittori di 3,5 volte.

Cosa ne pensate dei risultati?

Aggiunto:

Il grafico della sequenza binaria del target casuale e dell'originale si presenta come segue


Dieci simulazioni non sono nulla, ne servono migliaia per ottenere una significatività statistica.

Inoltre, non sono pronto a dare un parere da esperto su un caso particolare, ma ho solo indicato i possibili problemi e i modi comuni per risolverli.

 
Aleksey Vyazmikin #:

Cosa ne pensate dei risultati?

Aggiunto:

Il grafico della sequenza binaria del target casuale e dell'originale ha questo aspetto.

Stai facendo delle sciocchezze inutili e senza sosta. Saber almeno l'ha fatto accadere in mezz'ora e se ne è dimenticato.
 
Aleksey Nikolayev #:

Dieci simulazioni non sono nulla, per avere una significatività statistica ne servono migliaia.

Inoltre, non sono pronto a dare un parere da esperto su un caso particolare, ma ho solo indicato possibili problemi e modi comuni di risolverli.

Migliaia - richiede troppe risorse di calcolo - un passaggio - circa 40 minuti - calcolo di base su una scheda video.

In generale, ho pensato che questo test permettesse solo di verificare la possibilità di tali cluster su diversi intervalli del predittore.

È necessario esaminare la probabilità di colpire un particolare intervallo del segmento quantistico, che è già stato selezionato inizialmente.

Inoltre, vorrei sentire l'opinione sulla questione della differenza dell'obiettivo nell'espressione percentuale per l'affidabilità di questo test.

 
Maxim Dmitrievsky #:
Stai dicendo delle sciocchezze senza senso e senza sosta. Saber almeno l'ha fatto accadere in mezz'ora e se ne è dimenticato.

Tieni per te le tue valutazioni sulle prestazioni altrui, soprattutto quando non capisci cosa sta facendo l'altra persona.

Sono aperto alle critiche costruttive, e da te non ne arrivano.

 
Aleksey Vyazmikin #:

Tenete per voi le valutazioni delle prestazioni altrui, soprattutto quando non capite cosa sta facendo l'altro.

Io sono aperto alle critiche costruttive, tu no.

Stai facendo delle stronzate. È stato scritto più volte che otterrete QUALSIASI risultato a caso. Apri gli occhi per vedere. Niente da aggiungere :)

Riesci almeno a capire cosa stai facendo e perché)?