トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 596

 
アレクセイ・テレンテフ
クロスバリデーション(K-fold)を試してみる。
新鮮なデータの影響力を高めるために、どのように役立てるか。
 
エリブラリウス
新鮮なデータのインパクトを高めるために、どのような工夫をしているのでしょうか。
考えてみてください。個々のデータブロックを与えてモデルを訓練することで、時系列のシーケンスからモデルがある程度独立し、その結果、新しいデータが「バイアス」なく評価されるようになるのです。
 
アレクセイ・テレンテフ
考えてみてください。別々のデータブロックを与えてモデルを教えることで、時系列のシーケンスからモデルが独立し、新しいデータが「バイアス」なく評価されるようになります。

"シーケンス非依存な時系列 "は、攪拌によって確保される。それがなければ、このモデルはまったく意味をなさない。

そして問題は、モデルが新しい市場トレンドをより早く拾い上げるために、データを混ぜる際に最も新鮮なデータの重要性をいかに高めるか、ということです。

 
エリブラリウス

"シーケンス非依存な時系列 "は、攪拌によって確保される。それがなければ、このモデルはまったく意味をなさない。

そして、問題は、モデルが新しい市場動向をより早く察知するために、最も新鮮なデータの重要性をどのように混ぜるのか、ということです。

事前学習は古いデータで行う。トレーニングの最終段階は、新しいデータで行われます。
 

I.e.2ステップのトレーニング?
大量のデータでの学習+得られたモデルの新鮮なデータでの再学習。
試すことが可能です。


そこで、学習データセットに2〜3回、新しいデータを追加することを思いつきました。シャッフルしても、意義は高まる。

 
エリブラリウス

気になったのは、すべてをシャッフルした場合、新鮮なデータがトレーニングに与える影響をより強くするにはどうすればいいのか、ということです。

直近の学習例を何度か複製する仕掛けがある。
また、例えばgbmパッケージでは、学習例ごとに重要度係数を設定することができますが、これはニューロンではなく、あくまで一例です。


エリブラリウス

"シーケンスに依存しない時系列 "はシャッフリングによって提供される。それがなければ、このモデルはまったく意味をなさない。

ほとんどのモデルは、配列依存性というものが全くない。例えばニューロンでは、学習例ごとに誤差を計算し、その誤差の合計が重みの変化に影響する。和の順序が変わっても和は変化しない。

しかし、モデルにはbatch.sizeパラメータなどがあり、学習に使うデータの割合に影響を与えることが多い。もし、ごく一部の学習データを取って、混合をオフにすると、モデルは毎回同じ小さなセットを取ることになり、すべてが悪い方向に進んでしまうのです。darchについては特に知りませんが、mixingをオフにしても完全に失敗することはないはずで、他のパラメータに何か問題があるのでしょう。


アレクセイ・テレンテフ
クロスバリデーション(K-fold)を試してみる。

全く同感です。モデルの作者が過食防止を声高に主張しようとも、それが本当かどうかはk-foldでしかわからないのです。

 
そろそろ切り上げ、結論を出してください。
そして、実践を見せる。
 
アレクサンドル・イワノフ
そろそろ切り上げ、結論を出してください。
そして、実践を見せる。

Coming soon..."ほぼ完了"

これは私の人生で最も困難なことです。

 
マキシム・ドミトリエフスキー

Coming soon..."ほぼ完了"

これは私の人生で最も困難なことです。

うっ、デモを試すためにすりすりペン😀👍👍新鮮な美味しいグラニーパイのよう😂😀。
 
もちろんイミフですが、ここで枝のすべてのページ、あなたはSanSanychからスローガンで起動する必要があります - "ごみで - ゴミ箱に"。そして、あなたの認識と創造の才能のすべては、まず第一に、インプットのゴミを減らすことに向けられ、その後で初めて、コンピュータのハードウェアに極限まで負荷をかけようとするはずです。
理由: