トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 19

 
アレクセイ・ブルナコフ
何も失ってはいないのです。そして、クラスタの変更を順次行っていくことになります。クラスタからクラスタへの移行点では、クラスタnで買いを入れ、クラスタmでポジションを閉じるというように、正方行列を構築して取引方法を変更することができます。次に、売りについても同じマトリックスです。すべてのバリエーションは、ただ通過するだけです。そして、クラスタリングパラメータを変化させ、ループの中で結果を見ることができます。
これは面白い
 
Dr.トレーダー

おそらく、rとrattleで森を作るパラメータが違うので、結果も違うのでしょう。ラトル本体では、ツリーの数や変数を変更することも可能です。

そして、トレーニングデータでのラトルの誤差は34%、検証データでの誤差は3%ということですね。テストデータに何か問題があるのか、トレーニングデータに既に存在していたのか、あるいはデータセットが非常に小さく、たまたまそのようになったのか、どちらかです。

いいえ、すべてのステージでガラガラで、わずかな誤差があります。

とRは全ステージで大活躍 )

のパラメータは同じであり、どのようなパラメータでもこのようなギャップはあり得ません。

 
ファイルを添付するにはどうしたらいいのでしょうか? または添付できないか、フリーズしてしまいます...。
 
mytarmailS:

そして、Rにもう一つ質問です。

ライブラリ(KZA)

DAT <- rnorm(1000)

KZP <- kzp(DAT,m=100,k=3)

summary(KZP,digits=2,top=3)


どうすれば、"summary" http://prntscr.com/bhtlo9、これらの数字を扱うことができるようになるのでしょうか。

私もそんな悩みを抱えています。通常、attributes(KZP)を実行して利用可能な変数のリストを取得し、KZP$windowなどの変数を調べて正しい数値を見つけます。しかし、ここでは、これらの数値は関数Summary自体で生成され、どこにも保存されません。

ここで、ソースコードです。https://cran.r-project.org/web/packages/kza/index.html、このようなことをする必要があります。

summary.kzp <- function(object, digits = getOption("digits"), top=1, ...)
{
        cat(" Call:\n ")
        dput(object$call, control=NULL)

        M=object$window
        if (is.null(object$smooth_periodogram)) {       d<-object$periodogram } else { d<-object$smooth_periodogram }
        
        mlist<-rep(0,top)
        for (i in 1:top) {
                mlist[i]<-which.max(d)
                d[which.max(d)]=NA                      
        }

   cat("\n Frequencies of interest:\n")
   print((mlist-1)/M, digits=digits, ...)

    cat("\n Periods of interest:\n")
    print(M/(mlist-1), digits=digits, ...)
    invisible(object)
}
 

ドクター・トレーダー、ありがとう。)

ガラガラについて、私は問題が何であるかを理解し、ガラガラもデータをサンプリング "sample() "このアクションは必要ですか? サンプリングとR上で私は同じ結果を得たが、トリックは、新しいデータが一度に1ローソク足で来るということです、それはそれらをサンプリングすることはできません。

そして、サンプル全体がサンプリングされた場合、結果はサンプル外を含むすべての期間で驚くべきものであることが判明しましたが、実際のデータを提出すると、それはいつもと同じです。

では、このサンプリングは全く必要ないのだろうか?

 

はい、そうすべきです。sample - rattleはトレーニングデータを行ごとにいくつかのグループに分割します(行は75%/15%/15%の割合で3つのテーブルにランダムに分配されます)。つの入力ファイルから3つのテーブルが得られます。列は影響を受けず、すべてのテーブルで同じになる。

train テーブル - モデルの学習に使用される。

validateテーブルとtestテーブル - 訓練をコントロールするために必要。

昨年度のデータを取得し、次の月の取引を行うためにモデルを訓練するとします。訓練自体は、train テーブルでのみ行われます。その後、2つ目または3つ目のテーブルで、誤差を数えながらモデルをテストすることができます。モデルが正しくトレーニングされていれば、最初のテーブルのみを使用してトレーニングされたにもかかわらず、3つのテーブルの誤差はほぼ等しくなります。

これはランダムフォレストでは 簡単にチェックできる。ほとんどどんなデータセットでも、訓練された表の誤差は0%になる。しかし、テスト表と検証表で同じモデルをチェックすると、ほとんどの場合50%の誤差が見られるでしょう。これはモデルが過剰に訓練されていることを意味し、mt5 に移行することで徐々に預金を使い果たすことになる。
しかし、SanSanych の例で先に掲載した RData ファイルを使用すると、訓練テーブル上のフォレストのエラーは約 30%になる。注目すべきは、validateテーブルとtestテーブルでは、モデルがトレーニング中にこれらのテーブルからのデータを見なかったにもかかわらず、誤差はほぼ同じままであることです。このようなモデルは、安全にmt5に転送して取引することができます。

もし、サンプリングなしで利用可能なすべてのデータを取り、モデルを訓練し、誤差が0%であることを確認して喜べば、実際の取引ではすべてが非常に悪くなります。

 
Dr.トレーダー

はい、そうですね。sample - rattleは、学習データを行単位でいくつかのグループに分割します(行は75%/15%/15%の割合で、3つのテーブルにランダムに割り当てられます)。1つの入力ファイルから3つのテーブルを生成します。カラムはこの影響を受けず、すべてのテーブルで同じになります。

Train table - これに基づきモデルの学習が行われます。

検証およびテストテーブル - トレーニングのコントロールのために

例えば、昨年のデータを使って、次の月に取引するためのモデルを学習させたいとします。トレーニング自体は、列車のテーブルの上だけで行われます。その後、2つ目、3つ目のテーブルで、その誤差を数えてモデルをテストすることができます。モデルが正しく学習されれば、最初の表だけを用いて学習したにもかかわらず、3つの表全体の誤差はほぼ等しくなります。

ランダムフォレストで確認するのは簡単です。ほとんどのデータセットが0%テーブルでエラーを出す可能性があります。しかし、同じモデルをテストテーブルと検証テーブルでチェックした場合、おそらく50%のエラーが発生するでしょう。これはモデルが再トレーニングされることを意味し、mt5に移行することで徐々に預金を失っていくことになります。
しかし、SanSanychの例でRDataファイルを取ると、列車表で30%の誤差が発生します。驚くべきことに、モデルは学習中にこれらのテーブルのデータを見ていないにもかかわらず、検証テーブルとテストテーブルの誤差はほぼ同じになります。このモデルを簡単にmt5に転送してトレードすることができます。

もし、サンプリングなしで利用可能なすべてのデータを取得し、モデルを訓練し、0%の誤差を見て満足するのであれば、それは実際の取引では非常に悪いことになります。

言いたいことはわかりますが、3つともサンプルでは誤差が小さくても、サンプルなしのデータでは誤差が大きくなるという風刺です。

私はあなたのデータを送信しますプライベートメッセージであなたの電子メールを送信し、自分の目で確認したり、私はどちらかを添付したり、添付しようとすると、一般的にフォーラムがハングアップしないので、ファイルを添付するために私を教えてください。

 

とにかく、私は私のモデル(ランダムフォレスト)を訓練し、結果は満足のいくものではありませんが、再教育のようなものではありません。

1) 私の目標はジグザグで膝が0.5%のものです。

2)予測因子-レベルとローソク足-合計100もの(オシレーターや他の指標は含まず)

3)モデル自体は全く最適化されていない、3分割を置いただけ、木の本数は200本

4) ちなみに、PrunePredictors(特徴選択)を通すと、全100個のうち3個だけ予測変数が捨てられ、合計97個の予測変数が残ります。

サンプルはトレーニング用とテスト用の2つに分けられ、テスト用はトレーニング用の5番目の部分です。

学習部分:モデル誤差33


テスト時:モデル誤差32%。


この獣をまだ理解していないので、データはサンプリングされていません。

これで、クラスタについて考えることができるようになりました

 

フォーラム:画像の挿入方法

これは、画像がいつまでもフォーラムに残り、1年後でもすべてのユーザーがその画像を見て、何の画像だったのかを理解することができる唯一の方法なのです。

フォーラムで無期限に写真を残すには、1年後でも全ユーザーが見て理解できるようにすることです。

 
mytarmailS:

問題は、同じデータと同じモデルで、なぜRとrattleで結果が異なるかではない

質問2:「アウトオブサンプル」モデルをガラガラでテストすることに何の意味があるのでしょうか?

あなたは私の投稿を誤解している