トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Dr. Trader 2017.06.06 04:03 #3851

なるほど、その0.8％は正直に得られたものなのですね。どうやら、オーバートレーニングから保護するためのアルゴリズムがモデルに組み込まれているようです。

マキシム・ドミトリエフスキー

まず、非常に大きな集合であること、次に特徴の性質が全くわかっていないこと、そして、ベクトルやフォレストなどの線形モデルは明らかにここでは適しておらず、複雑な非格子を作る必要があること、が理由かもしれませんね。

分類モデルが合わないんですよね、はい。回帰が必要である。モデルの精度ではなく、Logloss関数で評価するため、通常、回帰結果に対してより高い推定値が得られます

MultiLogLoss <- function(act, pred) {
  eps <- 1 e-15
  pred <- pmin(pmax(pred, eps), 1 - eps)
  sum(act * log(pred) + (1 - act) * log(1 - pred)) * -1 / length(act)
}

act (actual) - 期待される結果、ベクトル
pred (predicted) - 予測された結果，ベクトル．

この機能のスコアは低いほど良い。関数の結果が0.6931472以上であれば、モデルは悪く、この結果はランダムな推測を示唆しています。

そして、第54回の結果から判断すると、優勝者は、参加者のデータに対して隠された新しいもので推定すると0.690467となり、これは目指すべき結果であると言えます。

Maxim Dmitrievsky 2017.06.06 04:39 #3852

Dr.トレーダー

なるほど、その0.8％は正直に得られたものなのですね。どうやら、モデルにはオーバーフィッティング防止アルゴリズムが組み込まれているようです。

分類モデルが合わないんですよね、はい。回帰が必要である。結果はモデルの精度ではなく、Logloss関数で評価されるため、通常は回帰結果の方が高得点になります

act (actual) - 期待される結果、ベクトル
pred (predicted) - 予測された結果，ベクトル．

この機能のスコアは低いほど良い。関数の結果が0.6931472以上であれば、モデルは悪く、この結果はランダムな推測を示唆しています。

第54回の結果から判断すると、優勝者は参加者に隠された新しいデータで推定すると0.690467となり、これは目指すべき結果であると言えます。

Regression NSはトレーニングサンプルでこれを生成します、テストサンプルでもあります、正しく解釈する方法は分かりませんが、私にも悪いように見えます )つまり、標準的な単純なニューラルネットワークでは、分類に対する回帰の利点はなく、他の分類方法に対する利点もない。そして、正規化された入力と出力があり、回帰はこの場合、私には意味がありません......。

СанСаныч Фоменко 2017.06.06 06:45 #3853

競争の激しい分野での文献選定

GARCH, GJR-GARCH, EGARCHのタイトルとキーワードで検索した結果、5087件が一致しました。

GARCHモデルは賢いはずで、すべてが透明にモデル化されています。

1.元の系列をlog(Xi/ Xi-1)として増分値に変換する。

2.平均値はARIMAモデルでモデル化されています

3.歪度、尖度（太い尾）等の意味での分散のニュアンスをモデル化している。

4.分布そのものをモデル化したものです。通常、歪んだt分布か歪んだGED分布のどちらかが取られる。

取引所での取引を考える場合、モデルパラメータの変化を考慮するのか、スプレッドを考慮するのか、スイッチングモードを持つモデルが紹介されています。

記事の中には、Rで書かれた既成のコードがあることが多い。

Maxim Dmitrievsky 2017.06.06 08:33 #3854

サンサニッチ・フォメンコ

競争の激しい分野での文献選定

GARCH, GJR-GARCH, EGARCHのタイトルとキーワードで検索した結果、5087件が一致しました。

GARCHモデルは賢いはずで、すべてが透明にモデル化されています。

1.元の系列をlog(Xi/ Xi-1)として増分値に変換する。

2.平均値はARIMAモデルでモデル化されています

3.歪度、尖度（太い尾）等の意味での分散のニュアンスをモデル化している。

4.分布そのものをモデル化したものです。通常、歪んだt分布か歪んだGED分布のどちらかが取られる。

取引所での取引を考える場合、モデルパラメータの変化を考慮するのか、スプレッドを考慮するのか、スイッチングモードを持つモデルが紹介されています。

記事の中には、Rで書かれた既成のコードがあることが多い。

インクリメントが何のトレンドも示さないというのはどうなんでしょう？私のモデルも短期的な精度のためにグラデーションを使用していますが、巧妙な方法でトレンドの比率も見ています

あ、そうか、違うタイムサンプルで増分を見ればいいんだ。異なるTFからnsリターンセルフをトレーニングしてみましたか？

СанСаныч Фоменко 2017.06.07 07:07 #3855

マキシム・ドミトリエフスキー

インクリメントは何のトレンドも示さないというのはどうでしょうか。

はい、そうです。

モデルが予測するのは、増量か方向か。それが分類モデルです。

ニュースの動きを認識するような分類モデルは、私は知りません。そして、GARCHの場合は、これがモデルのポイントであり、発生した動きを計算することです。ファットテイルズ-トレンドが崩れ、急反転が起きたときのニュースでの動きです。

まあ、いろいろな時間軸で増え方を見ることができます。

いくつかのタイムフレームのGARCHモデルには興味深いものがある。意味は以下の通りです。

仮にH1での増分を予測したとする。このモデルには、分布を特徴づける入力データが必要である。このような入力データ（通常はボラティリティ）として、前時間ではなく、現在の時間内の分単位を取ります。

pantural 2017.06.08 15:35 #3856

Dr.トレーダー

numeraiは、今年に入ってから何度かルールを変えている。

以前は、訓練テーブルでモデルを訓練し、テストテーブルで誤差をチェックし、予測値を送ると、隠されたテストテーブルにそれを外挿し、その誤差をカウントするというシンプルで良い方法でした。隠しテーブルの誤差が少ない方が勝ち。テストデータセットでの誤差が、彼らの隠れデータセットでの誤差と本当に一致していたので、自分のモデルを確認することができたのは、非常に良かったし正解でした。

その後、何かを変更したところ、テストデータセットでのエラーと、隠していたチェックデータセットでのエラーの相関がなくなってしまったのです。トップからの指導者はすべて消え、ただ運良く自分のモデルを隠しチェック台に入れた人がランダムに勝ちました。numerai側の失敗をイミフ、いくつかのランダムなゴミとコンテストではありません。

そして、適当な人たちばかりが乱入してきたのを見て、自分たちの間違いに気づき、何かを変えたのです。ここで、予測値はいくつかの基準に従って評価される。一番腹が立つのは、「独自性」の基準で、もし誰かが以前に同じような結果を送っていたら、あなたの結果は盗作として拒否されることです。つまり、複数の人が同じフレームワークを使ってモデルを作った場合、早起きして予測を送った人がお金を手にすることができるのです。
モデルの精度は、利益を計算する上で全く意味をなさなくなった。エラー0が出て、トップで1位になっても、何も稼げません。トップは、自分たちがダウンロードさせたテストデータでの結果を表示しているので、トップは、自分たちの隠した検証表の結果を表示しなくなったからです。
今のコンテストのあり方はナンセンスだし、透明性もないし、すべてがめちゃくちゃです。またコンテストの何かを変更するのを待っている、願わくば再び適切なものになることを。

ルール変更前のこのサイトで、実際にいくら稼いだのでしょうか？

Dr. Trader 2017.06.08 17:19 #3857

Maxim Dmitrievsky 2017.06.08 17:51 #3858

Dr.トレーダー

どちらかというと、ある種のリベートサービスのようなものです ))データサイエンティストに支払うようなものではない

Dr. Trader 2017.06.08 19:19 #3859

毎週、上位100位までの入賞者には合計3,600ドルが支払われるが、賞金のボリュームが非常に少なくなってしまうのだ。1位は1000ドル、2位は435ドル、3位は257ドル......といった具合だ。たとえ10位に入ったとしても（通常500人以上の参加者がいる）、得られるのはわずか63ドルだ。いじめられているんですね。

このコンテストは、お金を稼ぐというよりも、自分のモデルをリーダーと比較し、データマイニングのさまざまなアプローチを学ぶための方法だと考えています。

Dr. Trader 2017.06.08 19:36 #3860

リーダーボードのスコア（val logloss、垂直方向）と、新しいデータでモデルが得たスコア（live logloss、水平方向）がどのように関連しているかを知りたかったのです。(第55回)

左下の長方形の人たちだけよくやった。残りは、リーダーボードに進出しても、新しいデータで損をした。リーダーボードで最も良いログロス（右の下2点）が、新しいデータでは最も悪かったのです。

グラフの一番左の点を持つものが勝ちで、意図的な機械学習というよりは、ランダムな異常値のように見える。

興味深いのは、検証データでのloglossが0.690〜0.691と、ほぼ全てのデータが新しいデータでも良い結果を示したことです、これがどう関係しているのかは分かりませんが。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 386