C'è uno schema nel caos? Proviamo a trovarlo! Apprendimento automatico sull'esempio di un campione specifico. - pagina 12

 
elibrarius #:

Scegliete questi modelli in base al migliore del test?

Oppure tra i tanti migliori del test c'è anche il migliore dell'esame?

Nello specifico, la selezione è avvenuta semplicemente in base al migliore dell'esame.

 
Aleksey Vyazmikin #:

In particolare, c'è stata una selezione semplicemente in base ai migliori all'esame.

Anch'io ho dimostrato di essere il migliore all'esame. Non ci sarà alcun esame prima di passare al trading reale. O meglio, sarà per soldi veri....

Ora ho fatto una selezione di segni per valking forward (da 10000 a 5000 e un trayne come il tuo e un test), all'esame entrambi si fondono.

È necessario fare la selezione in qualche modo sul test, in modo da preservare l'apprendimento all'esame.

 
elibrarius #:

Ho mostrato il migliore anche all'esame. Non ci sarà alcun esame prima di passare al trading reale. O meglio, sarà per soldi veri....

Ora ho fatto una selezione di segni per valking forward (da 10000 a 5000 e un trayne come il tuo e un test), all'esame entrambi si fondono.

È necessario fare la selezione in qualche modo sul test, in modo che l'apprendimento sia preservato all'esame.

Al momento si può solo aumentare la probabilità di selezione corretta, purtroppo. Per questo motivo sto prendendo in considerazione il batch trading, quando vengono selezionati molti modelli in una volta sola, sperando che l'accuratezza media sia sufficiente e che riesca a ottenere un profitto medio.

 
È necessario trovare caratteristiche funzionanti tra centinaia di migliaia di caratteristiche, e poi capire perché funzionano. E poi è necessario scrivere diverse TC su di esse, non facendo un bruteforcing, ma selezionando iperparametri ottimali.
Altrimenti, il risultato sarà comunque un adattamento, quando si dovrà scegliere tra centinaia di modelli in base all'esame.
La cosa più importante è capire perché le caratteristiche funzionano, almeno approssimativamente. Poi si possono migliorare o aggiungere etichette.

Anche accatastare un gruppo di modelli poco chiari non è una buona idea. Perché dovrete riqualificare un mucchio di elementi sconosciuti.

È necessario fare un po' di forza bruta con la selezione delle caratteristiche per sceglierne di buone e poi meditare sul perché funzionano. A quel punto sarà chiaro dove andare a parare. La forza bruta di per sé è inefficace per la preparazione del TC, ma dovrebbe essere considerata come un'attività esplorativa.
 
Maxim Dmitrievsky #:
È necessario trovare caratteristiche funzionanti tra centinaia di migliaia di caratteristiche, e poi capire perché funzionano. E poi è necessario scrivere diverse TC su di esse, non facendo un bruteforcing, ma selezionando iperparametri ottimali.
Altrimenti, il risultato sarà comunque un adattamento, quando si dovrà scegliere tra centinaia di modelli in base all'esame.
La cosa più importante è capire perché le caratteristiche funzionano, almeno approssimativamente. Poi si possono migliorare o aggiungere etichette.

Anche accatastare un gruppo di modelli poco chiari non è una buona idea. Perché dovrete riqualificare un mucchio di elementi sconosciuti.

È necessario fare un po' di forza bruta con la selezione delle caratteristiche per sceglierne di buone e poi meditare sul perché funzionano. A quel punto sarà chiaro dove andare a parare. La forza bruta in sé è inefficace per la preparazione del TC, dovrebbe essere considerata come un'attività esplorativa.
Sono d'accordo. La comprensione del processo può essere ottenuta da diversi punti di vista).
 
Maxim Dmitrievsky #:
È necessario trovare caratteristiche funzionanti tra centinaia di migliaia di caratteristiche, e poi capire perché funzionano. E poi è necessario scrivere diverse TC su di esse, non facendo un bruteforcing, ma selezionando iperparametri ottimali.
Altrimenti, quando si sceglierà tra centinaia di modelli in base all'esame, il risultato sarà comunque un adattamento.
La cosa più importante è capire perché le caratteristiche funzionano, almeno approssimativamente. Poi si possono migliorare, o si possono migliorare le etichette ad esse associate.

Non è nemmeno una buona idea confezionare un mucchio di modelli oscuri. Perché poi si dovrà riqualificare un mucchio di cose sconosciute.

È necessario fare forza bruta con la selezione delle caratteristiche per scegliere quelle buone e poi meditare sul perché funzionano. A quel punto sarà chiaro dove andare a parare. La forza bruta di per sé è inefficace per la preparazione del TC, ma deve essere considerata come un'attività esplorativa.

Il punto è che il compito di capire la ragione dell'efficienza dei predittori è estremamente difficile e si colloca nel campo dell'interpretazione del comportamento del mercato, o avete un approccio più affidabile? Inoltre, i predittori funzionano in gruppo perché sono primitivi, e come mettere insieme i predittori che funzionano in gruppo non è una domanda semplice, se si tratta di un'operazione di bosting - finora l'ovvio è usare un albero decisionale. E per costruire alberi decisionali efficaci, è necessario ridurre significativamente il campione, e meglio ancora alimentare solo quei predittori che presumibilmente formano una relazione efficace. E qui il metodo della ricerca del modello può essere molto utile, poiché il modello utilizza, di norma, solo una parte dei predittori.

Adattamento o non adattamento: credo che tutte le azioni di adattamento delle probabilità siano adatte. Un'altra cosa è che la storia della distribuzione delle probabilità sui predittori può essere ripetuta o dimenticata per un lungo periodo di tempo. A questo punto è importante avere un metodo per determinare la transizione di queste fasi.

 
Aleksey Vyazmikin #:

L'addestramento di CatBoost, con le impostazioni riportate di seguito, con Seed brute force dà questa distribuzione di probabilità.

1. Campionamento del treno

2. Selezione del test

3. Campione d'esame

Come si può notare, il modello preferisce classificare quasi tutto per zero, in modo da ridurre le possibilità di errore.

Alexey, l'addestramento è essenzialmente un adattamento, non è vero?

 
Renat Akhtyamov #:

Alexei, l'allenamento è essenzialmente un adattamento, non è vero?

Essenzialmente, sì.

L'ottimizzazione in un tester consiste nel modificare le metriche su cui opera l'algoritmo, mentre l'apprendimento nei metodi MO (alberi e loro varianti, NS) consiste nel modificare l'algoritmo valutando e interpretando la storia delle metriche.

La simbiosi sarebbe epica.....

 
Renat Akhtyamov #:

Alexei, l'allenamento è essenzialmente un adattamento, non è vero?

Insegnare agli scolari è anche adattare le loro conoscenze alle conoscenze esistenti).

 
Aleksey Vyazmikin #:

Questo è il punto, il compito di capire il motivo della performance dei predittori è estremamente difficile, e si trova nel regno dell'interpretazione del comportamento del mercato, o avete un approccio più robusto? Inoltre, i predittori funzionano in gruppo, perché sono primitivi, e come mettere insieme i predittori che funzionano in gruppo non è una domanda semplice, se si tratta di un'operazione di bosting - finora l'ovvio è l'uso di un albero decisionale. E per costruire alberi decisionali efficaci, è necessario ridurre significativamente il campione, e meglio ancora alimentare solo quei predittori che presumibilmente formano una relazione efficace. E qui il metodo della ricerca del modello può essere molto utile, poiché il modello utilizza, di norma, solo una parte dei predittori.

Adattamento o non adattamento: credo che tutte le azioni di adattamento delle probabilità siano adatte. Un'altra cosa è che la storia della distribuzione delle probabilità sui predittori può essere ripetuta o dimenticata per un lungo periodo di tempo. A questo punto è importante avere un metodo per determinare la transizione di queste fasi.

piccoli gruppi da 5 a 10 per l'addestramento.

1-3 è meglio.

Se nessuno di loro produce nulla, che senso ha parlare di una mitica connessione tra loro? spazzatura + spazzatura...