トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 87

 
サンサニッチ・フォメンコ

すべてのパッケージ(モデル)は、2つのカテゴリーに分けることができます。

  • 一筋縄ではいかない
  • は原理的に合いません。

基本的に良い」とされたパッケージの性能はほぼ同じで、その差は大きくはありません。

問題はモデルではなく、予測変数のセットとその前処理にある。予測変数のセットをいくつか取れば、過学習のモデルを構築する可能性も、誤差の大きさも、モデルの変更にほとんど依存しない。したがって、「原理的に適合する」ものの中から、最もシンプルで高速なモデルを選択する必要があります。

PS.

自分の体験からTSの構築における労働投入量の75%以上の私では - 予測変数の選択であり、すべての場合は、特定のターゲット変数のようなセットを拾うために管理しています。

サン・サニッチさん、こんにちは。

また、交差しない3つのデータ区間に対して、あなたの方法で異なる予測値が得られた場合、それらは非定常(ノイズなど)であることに従うべきでしょうか?

 
サンサニッチ・フォメンコ

すべてのパッケージ(モデル)は、2つのカテゴリーに分けることができます。

  • 一筋縄ではいかない
  • は原理的に合いません。

基本的に良い」とされたパッケージの性能はほぼ同じで、その差は大きくはありません。

問題はモデルではなく、予測変数のセットとその前処理にある。予測変数のセットをいくつか取れば、過学習のモデルを構築する可能性も、誤差の大きさも、モデルの変更にほとんど依存しない。したがって、「原理的に適合する」ものの中から、最もシンプルで高速なモデルを選択する必要があります。

PS.

自分の体験からTCの構築における労働投入の75%以上は,特定のターゲット変数について予測変数のセットを選択することが可能であれば,その選択であると言えます.

どのモデル、何を言っているんだ. 聞くようなものです。で、その答えが"何を踊 ってほしいか "なんです。:)

絶対に、二度としないでください!2行の質問を読むより、10行の文章を書く方が簡単なんです

 
mytarmailS:

多分、誰かが興味を持つだろう、私はquantstratという 取引のシミュレーションと取引システムを構築できるパッケージを見つけた。

http://www.rinfinance.com/agenda/2013/workshop/Humme+Peterson.pdf

再投稿
 
アレクセイ・ブルナコフ

サンサンヒさん、こんにちは。

しかし、もしあなたの方法論で、学習時に交差していない3つのデータセグメントで異なる予測値が得られた場合、それらは非定常(ノイズなど)であることに従うべきでしょうか?

予測変数の有意性は,モデルが学習されたときに一度だけ得られる.そうすると、このモデルは「applicable」であって「trainable」ではない。
 
サンサニッチ・フォメンコ
予測値の関連性は、モデルの学習時に一度だけ取得されます。そうすると、そのモデルは「教えられる」のではなく、「適用できる」のです。
確か、そこで何度か教えなければならないのですよね?
 
Alexey Burnakov:
確か何回か教えないといけないんですよね?

まさか!?

もう一度言います。

1. 時系列予測変数の大きな塊、たとえば、10 000個のオブザベーション(線)を取る。

2.厳密には機械的に第一部7000円、第二部3000円と分けているのです。

3.最初の部分をランダムに3つに分ける:トレーニング用、テスト用、検証用

4.学習用サンプルに対してモデルをティーチング(適合-適合)する。

5.学習したモデルをテストサンプルと検証サンプルに適用する。

6.トレーニング、テスト、バリデーションの3つのサンプルすべてにおいて、誤差がほぼ等しい場合、第7項を適用します。

7.その時系列で切れ目のない時系列 である2番目の部分についてモデルを適用する。

8.この部分の誤差も前の3つとほぼ等しいとすると

  • この予測変数のセットでは、モデルの再トレーニングは行われません。
  • は、4つのセット(3つのランダムと1つのシーケンシャル)すべてで得られた誤差であり、モデルフィッティングによって減らすことが非常に難しい誤差である。
私のモデルのエラー性能は、ada、randomforest、SVMとその多くの種類のものである。nnetはもっとひどい。

 
サンサニッチ・フォメンコ

まさか!?

もう一度言います。

1. 時系列予測変数の大きな塊、例えば10,000個のオブザベーション(線)を取る。

2.厳密には機械的に第一部7000円、第二部3000円と分けているのです。

3.最初の部分をランダムに3つに分ける:トレーニング用、テスト用、検証用

4.学習用サンプルに対してモデルをティーチング(適合-適合)する。

5.学習したモデルをテストサンプルと検証サンプルに適用する。

6.トレーニング、テスト、バリデーションの3つのサンプルすべてにおいて、誤差がほぼ等しい場合、第7項を適用します。

7.その時系列で切れ目のない時系列である2番目の部分についてモデルを適用する。

8.この部分の誤差も前の3つとほぼ等しいとすると

  • この予測変数のセットでは、モデルの再トレーニングは行われません。
  • は、4つのセット(3つのランダムと1つのシーケンシャル)すべてで得られた誤差であり、モデルフィッティングによって減らすことが非常に難しい誤差である。
私のモデルのエラー性能は、ada、randomforest、SVMとその多くの種類のものである。nnetはもっとひどい。

お待たせしました。ありがとうございます。

他のサンプルよりも、トレーニングの方がずっといい結果が出るんです。また、クロスバリデーションでは、最終的なアウトオブサンプルに近い結果が得られています。

すべてのサンプルで誤差が等しいというテーゼは、アンダーフィットモデルを物語っていると思うのですが。つまり、どこも同じなのです。
 
アレクセイ・ブルナコフ
......つまり、どこもかしこも同じようにソコソコなのです。

まあまあというのは、頭脳と時間が足りないだけです。

ターゲット変数から始まって、それに対する予測変数の選択、そして数学とのダブルチェック、といった具合です。とにかく作業が遅いので、形式化できないんです。

 
サンサニッチ・フォメンコ

まあまあ - ただ、頭脳と時間が足りない。

対象となる変数から始めて、予測因子とマッチングさせ、いわば数学でダブルチェックする必要があるのです。いずれにせよ、このプロセスは私にとって苦痛であり、形式的なものではありません。

特に意味の面では拷問のようなものです。そういうことではありません。

どこでも同じように上手になれば、それはそれで達成感があります。しかし、多くの場合、同じように悪くなる。弱いモデルならそれが実現できるのです。
 
スレッドが死んでいるようです...。