L'apprendimento automatico nel trading: teoria, modelli, pratica e algo-trading - pagina 3167

 
mytarmailS #:

Avete mai visto questi numeri da soli?

0,99 treni/test, con il modello troncato a un paio di iterazioni. Rimangono solo poche regole che predicono bene le classi.

 
Maxim Dmitrievsky #:

0,99 train/test, con il modello ridotto a un paio di iterazioni. Rimangono solo poche regole che predicono bene le classi.

TP=10 e SL=1000 ?)

 
Forester #:

TP=10 e SL=1000 ?)

No, è divertente se vuoi fare molte operazioni.

aprirne di nuovi ad ogni barra
 
Vladimir Perervenko #:

Cosa vuol dire "fatto in casa"? Esiste una giustificazione teorica, un buon articolo. Esiste un pacchetto chiamato RLTv3.2.6. Funziona abbastanza bene. Fate attenzione alla versione.


Buona fortuna

Secondo me, non è fatto in casa, se si verificano le seguenti condizioni con un esempio specifico.

All'inizio, ora molto meno, il sito era pieno di "geni" autocostruiti, che seduti in cucina inventavano qualcosa, usavano una terminologia fuori di testa e iniziavano a "ricercare", e non solo a "ricercare" ma a confutare cose esistenti e generalmente riconosciute.

Tutte queste persone non si rendono conto che il loro codice fatto in casa non vale un centesimo, perché non ha alcun fondamento teorico che sia pubblicato su riviste serie e poi discusso, spesso per anni, da persone con la formazione corrispondente. Poi il codice viene scritto e testato da un gran numero di utenti e solo dopo diventa adatto all'uso industriale.

Non ha senso discutere di "geni" locali.

Ma katbust.

Confrontiamo la documentazione su katbust e XGBoost per capire la subdolezza di un'organizzazione non centrale e di uno sviluppo professionale molto simile.

 
Maxim Dmitrievsky #:
E il principale uomo che si è fatto da sé e che si è fatto da solo è Breiman, perché non ha scritto in R. È proprio un kolkhoznik.

Imparate R in modo da non sembrare completamente ignoranti: praticamente tutti i pacchetti in R NON sono scritti in R. Di solito sono in C++ o Fortran, e R è solo un accesso. Ecco perché gli algoritmi computazionalmente intensivi in R non funzionano peggio del C++.

 
СанСаныч Фоменко #:

Imparate R per non apparire completamente ignoranti: quasi tutti i pacchetti in R NON sono scritti in R. Di solito si tratta di C++ o Fortran, e R è solo un accesso. Ecco perché gli algoritmi ad alta intensità di calcolo in R non funzionano peggio del C++.

Non ci credo, è la prima volta che lo sento dire.

Ci saranno altre informazioni illuminanti? )

Sono già arrivato al catbuster... )))

 
mytarmailS riduzione della dimensionalità, il modello è diventato più ripetibile.

e l'ultimo tocco forse decorativo


Mi chiedo come verrà addestrato il MO su questi dati.

Questo è un campione di prova.

Avete mai visto numeri del genere per conto vostro?




Molto probabilmente si tratta di una riqualificazione, poiché è legata a valori di prezzo assoluti.

 

Scrivendo una funzione che ri-etichetta le etichette e le rende più prevedibili per i tratti, il modello diventa più stabile.

Se si dispone di un piccolo set di dati, è possibile rilasciarlo per il controllo e assicurarsi dei propri dati (o essere frustrati).

Per gli appassionati di python:

    c = coreset[coreset.columns[1:-4]] // ваш датасет без меток. Нужно брать только трейн/тест данные, на остальных не делать кластеризацию, иначе подгонка
    kmeans = KMeans(init='k-means++', n_clusters=clusters).fit(c) // кол-во кластеров - гиперпараметр
    coreset['clusters'] = kmeans.predict(c)
    mean_labels = coreset.groupby('clusters')['labels'].apply(lambda x: x.mean()) // считаем среднее по меткам каждого кластера
    coreset['labels'] = coreset.apply(lambda row: 0 if mean_labels[row['clusters']] < 0.5 else 1, axis=1) // если среднее больше 0.5, то для всех элементов кластера ставим метку 1 и наоборот
il modello è più stabile se i cluster sono rappresentativi. Quindi, con un metodo di forza bruta, è possibile determinare il numero di cluster e quali chip raggruppare.
 
Aleksey Nikolayev #:

Per quanto ne so, i comandi per lavorare con R in una sessione interattiva sono commentati. Prima si carica l'intero script per definire le funzioni e poi i comandi riga per riga, premendo invio dopo ciascuno di essi. Questo è probabilmente qualcosa di simile a uno standard nelle pubblicazioni scientifiche: affidarsi solo alla riga di comando ed evitare ambienti come Rstudio.

Per brevità ho chiamato CTree dai modelli di raccolta dati e di classe, che sembrano anch'essi inevitabili.

Il rilevamento delle anomalie è incluso negli obiettivi: si cerca di individuare i punti in cui gli incendi sono anomalamente frequenti.


PS. Qualche tempo fa vi ho scritto sull'uso della distribuzione di Poisson, ed eccola sviluppata nel codice di lavoro.

Non l'ho ancora provato tutto - sono bloccato su uno dei miei compiti.

Cercherò sicuramente di eseguirlo sui miei dati. Sto accumulando diverse soluzioni su questo argomento.

Per quanto riguarda la distribuzione di Pausson, è interessante in teoria, ma quando guardo i dati, la sequenza, diciamo che ci possono essere 20 zeri in fila e poi un mix di zeri e uno, e questi salti sono significativi, sembrano essere incoerenti con la distribuzione.

 
Aleksey Vyazmikin #:

Per quanto riguarda la distribuzione di Pausson, è piuttosto interessante in teoria, ma quando guardo i dati, la sequenza, diciamo, può essere composta da 20 zeri in fila e poi da un mix di zeri e uno, e queste omissioni sono significative, sembrano essere incoerenti con la distribuzione.

L'idea è quella di dividere gli esempi in gruppi diversi tra loro e all'interno dei quali vi sia omogeneità. Non è affatto certo che le caratteristiche specifiche permettano di farlo. Né è certo che qualcuna di esse lo faccia, ad esempio a causa della non stazionarietà.

Non ho intenzione di studiare questo articolo in dettaglio, perché tocca solo l'argomento che mi interessa. CHAID è un po' più vicino, ma non è proprio la stessa cosa.