トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2023.07.25 15:39 #31561

Maxim Dmitrievsky #:
ノー

パッケージも良いが、まず何をすべきか原理的に理解する必要がある。

kozuliメソッドについてのチャット回答

因果推論にはいくつかの方法があります。最も一般的な方法には次のようなものがあります：

ランダム化比較実験：これは複雑な環境における因果関係を特定するために使用される方法である。割り付けのメカニズムを完全に制御し、割り付けは ^{無作為である1}。
観察データ（Observational data）：この方法は、実験が不可能または実用的でない場合に用いられる。調査や行政 ^{記録などの} 自然な情報源から収集したデータを分析する ¹。
道具変数：この方法は、内因性や ^データ不足の問題がある場合に、因果関係を特定するために用いられる¹。
傾向マッチング：この方法は、^交絡の影響を除去するために、類似した特徴を持つグループを比較するために使用される1。
差分推定量: この方法は、経時的な変化や ^グループ間の変化を分析するために用いられる¹。

これらは、因果推論に使用される多くの手法のほんの一部である。それぞれの手法には長所と短所があり、手法の選択は特定の状況や利用可能なデータに依存する。

ポイント1について教えてください

無作為化対照試験（ RCT）としても知られる無作為化対照実験は、因果関係を発見するための強力な方法である。RCTでは、参加者は無作為に2つ以上のグループに分けられる。一方の群には介入（投薬など）を行い、もう一方の群にはプラセボまたは標準治療を行う。その後、研究者はグループ間の結果を比較し、結果に差があるかどうかを判断する。

RCTの主な利点は、参加者を無作為にグループに割り当てることで、バイアスと交絡を排除できることである。つまり、群間における転帰の違いは、他の要因ではなく曝露に起因するものである。

しかし、RCTが常に可能で実用的であるとは限らない。例えば、高価であったり、多くの時間と資源を必要としたり、倫理的に受け入れられなかったりする。このような場合、研究者は他の因果関係推論の方法を用いることができる。

======================================

あなたはこれをやっていますか？見たところフィケセレクタ・ボルタ ですね。

Aleksey Nikolayev 2023.07.25 15:40 #31562

Maxim Dmitrievsky #:

飽きないように、ちょっとコズルのテーマを展開したから、自分でチェックしてみてね。

明らかに、あなたは（プログラミング的な意味で）トリメントの概念を再解釈し、過負荷をかけている。本来はもっとシンプルで明確なものだ。このような拡張された概念は、過学習につながらないのだろうか？柔軟性が高まれば、必ず過学習につながるという意味で。

Maxim Dmitrievsky 2023.07.25 15:43 #31563

Aleksey Nikolayev #:

明らかに、あなたはトリメントという概念を（プログラミング的な意味で）再解釈し、オーバーロードしている。当初はもっと単純で明確なものだった。このような拡張された概念は過学習につながらないのでしょうか？柔軟性が高まれば、必ず過学習につながるという意味で。

私はマクドナルドを食べるのでわかりません。）おそらくね。私はあらゆる角度から、提供された資料をざっと読んだだけだ。

Maxim Dmitrievsky 2023.07.25 15:46 #31564

mytarmailS #:

パッケージもいいが、まずは自分が何をしているのかを知る必要がある。

kozuliメソッドについてのチャット回答

因果推論にはいくつかの方法があります。最も一般的な方法には次のようなものがあります：

ランダム化比較実験：これは複雑な環境における因果関係を明らかにするために用いられる方法である。割り付けのメカニズムを完全に制御し、割り付けは ^{無作為である1}。
観察データ（Observational data）：この方法は、実験が不可能または実用的でない場合に用いられる。調査や行政 ^{記録などの} 自然な情報源から収集したデータを分析する ¹。
道具変数：この方法は、内因性や ^データ不足の問題がある場合に、因果関係を特定するために用いられる¹。
傾向マッチング：この方法は、^交絡の影響を除去するために、類似した特徴を持つグループを比較するために使用される1。
差分推定量: この方法は、経時的な変化や ^グループ間の変化を分析するために用いられる¹。

これらは、因果推論に使用される多くの手法のほんの一部である。それぞれの手法には長所と短所があり、手法の選択は特定の状況や利用可能なデータに依存する。

ポイント1について教えてください

ランダム化比較実験（RCT）は、ランダム化比較試験（RCT）とも 呼ばれ、原因と結果の関係を明らかにするための強力な方法である。RCTでは、参加者を無作為に2つ以上のグループに分けます。一方のグループは介入（投薬など）を受け、もう一方のグループはプラセボまたは標準治療を受ける。その後、研究者はグループ間の結果を比較し、結果に差があるかどうかを判断する。

RCTの主な利点は、参加者を無作為にグループに割り当てることで、バイアスと交絡を排除できることである。つまり、群間における転帰の違いは、他の要因ではなく曝露に起因するものである。

しかし、RCTが常に可能で実用的であるとは限らない。例えば、高価であったり、多くの時間と資源を必要としたり、倫理的に受け入れられなかったりする。このような場合、研究者は他の因果関係推論の方法を用いることができる。

======================================

あなたはこれをやっていますか？見たところフィケセレクタ・ボルタ ですね。

メタ・ラーナーズ・アスクと直交学習については本に書いてあるけどね。クロスフィッティングも。

mytarmailS 2023.07.25 15:52 #31565

Maxim Dmitrievsky #:
メタ学習について、直交学習について聞いてみよう。

ーメタ^{学習とはーとはーとはーとはーとはーとはーとはーとはー} 線形回帰や決定木ブースト、ーニューラルネットワーク、ーガウシアン過程ーなどーなどーなどーなどのーすべてのーメタ 学習ーーとはー機械学習はーアプローチ。

従って、メタ学習の成否は、使用される予測モデルの品質と、それらが因果推論 ^タスクにどれだけ適合しているかに依存する ¹。

これはかなり新しく、活発に発展している研究分野であり、因果推論の文脈におけるメタ学習には多くの異なるアプローチがある。

========================

直交学習は、因果推論を改善するために使用される機械学習のアプローチである。直交学習の一例は、Chernozhukovらによって提案されたDoubleMachine Learningである。¹.この方法では、まず ^{Lasso2などの} 高度な機械学習アルゴリズムを用いて高次元の交絡因子の影響を直交化する2段階の推定量を用いる。

直交学習は、直交 ^{ランダムフォレスト}（ Orthogonal Random ^{Forest）1などの}他の因果推論手法でも使用されている。このアルゴリズムは、二重機械学習と一般化ランダムフォレストを組み合わせ、ランダムフォレストを用いて条件付きモーメントモデルを統計的に推定する。

In general, orthogonal learning improves the accuracy and robustness of causal inference by removing the influence of confounding factors and reducing the sensitivity to errors in parameter estimation.

СанСаныч Фоменко 2023.07.25 16:00 #31566

Aleksey Nikolayev #:

明らかに、あなたはトリメントという概念を（プログラミングの意味で）再解釈し、オーバーロードしている。当初はもっと単純で明確なものだった。 このような拡張された概念は過学習につながらないのでしょうか？ 柔軟性が高まれば、必ず過学習につながるという意味で。

マキシムは上でこう書いている。OOSでは機能しない。これはモデルの過学習の大きな兆候だ。

私が理解しているOOSの意味は、誤差を少なくするために、あるモデルを用いて、その結果を改良しようとすることです。

しかし、OOSのエラーの原因はデータそのものであり、同じ予測変数の値が異なる状況で異なるクラスを予測する場合 である。This flaw in predictors cannot be fixed by any mathematical exercise, you cannot fix rubbish, but on rubbish you can get a very small training error because the algorithm will find "convenient" data and show a good result.しかし、新しいデータでは、それ自体がゴミであるため、結果は嘆かわしいものとなる。

同時に、カジュアルを使うことの問題は次のように考えられる。

予測変数があり，その50%はクラスの1つを予測し，残りの50%は任意のクラスをランダムに予測するとする．

我々はモデルを適合させ，分類誤差を得る．

今問題なのは、この分類誤差は予測変数の値の分割と整合しているのか、そうでないのか、ということです。もしそれが改善できるのであれば、それはカジュアルであり、改善できないのであれば、決してカジュアルではありません。

Machine learning in trading: Errors, bugs, questions Searching for an arbitrary

mytarmailS 2023.07.25 16:04 #31567

Maxim Dmitrievsky #:
トリメント変数をリストから削除して、それなしでエンハンサーを作ることができます。それがないとできないんだ。そして、不偏の推定値を得るために、クロスフィットを行う。。

これらの定義は私も同じだったので、心配しないでください :)

用語の問題ではなく、それが何であり、どのように適用するかが問題なのです...

二重機械学習は、データの因果関係を評価するために使われる技術である。

1) 何を推定するか？

2) さて、推定して、それから？

Maxim Dmitrievsky 2023.07.25 16:16 #31568

mytarmailS #:

用語の問題ではなく、それが何であり、どのように適用されるかが問題なのだ。

二重機械学習は、データの因果関係を評価するために使用される技術である。

1) 何を評価するのか？

2) さて、推定して、それから？

次に、ターゲットを変換して重みを求める。それらは不偏になる。不偏推定に関するコズリの大半は、このようなものである。

Maxim Dmitrievsky 2023.07.25 16:20 #31569

象と賢者の話のようなものだ。本にはすべてが書かれているが、彼らはそれが象であることに気づくために、フォーラムで再話をするために指を必要とする。

Aleksey Vyazmikin 2023.07.25 16:27 #31570

Aleksey Nikolayev #:

その記事の10ページに、擬似コードによる実装がある。最後のページの付録には、Rでの実装と記事で使われたデータへの参照がある。

擬似コードは数式に言及している :)

Rのコードについては、ありがとう。関数のコードはあるが、ファイルからの読み込みなどのコード自体はコメントアウトされているのですね？

# --- Read in data --- 

# > arson = read.csv("arson.csv")
# > i = with(arson, day <= 731)
# > arson1 = arson[i,]
# > arson2 = arson[!i,]
# > arson2[,"day"] = arson2[,"day"] - 731

どうすれば動くのかまだわからないんだ。動くようになりましたか？

アレクセイニコライエフ#:

一般論として、mql5では決定木をどのように実装していますか？配列やテンプレートを通してですか？

Foresterの 方が経験があります。

しかし、私は配列に加えてベクトルや行列を使うと思います。また、私の理解では、完全な列挙が必要なので、OpenCLを使うことも可能だろう。

しかし、この文脈での "テンプレート "が何なのかは知らない :(

Rのコードがあるのだから、それがすべて意味があるのかないのかを最初に理解するのが合理的だ。

記事のサンプルは少数の予測因子を使用していますが、私は桁違いの数の予測因子を使用しています。

一般的に、私は2つのサンプルを比較するためだけでなく、データの異常を検出するために使うことに興味があります。

このアイデアは、たとえ類似していたとしても、葉のグループがあり、もしある予測因子の異常な振る舞いが見られたら、単純にそれを使っているすべての葉を無効にし、同時にグループの葉との相関をチェックするというものです。理想的には、時間内に検出されれば、信頼性は低くなるものの、モデルの実行を継続することができます。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 3157