トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1144

 
グレイル

まさにその通り」とまでは言いませんが、計算式自体は正しいのですが、トレードによるリターンではなく、日次(1時間ごとなど)のリターンで計算する必要があります。計算式自体は正しいのですが、ストラテジーの比較をトレードのリターンではなく、日次(時間足など)のリターンで、同じステップで、すべてのストラテジーについて行う必要があり、そうすれば、この係数値によってパフォーマンスで比較できます。さもなければ、この数値がトレードとその著しく異なる数値で計算されていれば、それは重要ではなく、例えばある戦略のシャープが 0.01 、別の戦略は 5、どちらが良いとか悪いとかは明らかではなく、符号(ゼロシャープ以上か以下)だけが重要なのです。

つまり、パントラは古典的なシャープレシオについてあまり語らなかったが、それでも彼はそれについて重要な問題を提起したのである。個人的にはシャープレシオを使うのは好きではありませんが、戦略のパフォーマンスを測る指標としては、最大ドローダウンに対する利益の比率を好んで使っています。

EAによるとしか言いようがないですね。もしそれが明確な取引の順序を生成する場合、すなわち、ポジションが開かれたり閉じられたりし、そのボリュームが開閉間で変化しない場合、取引でカウントする方がよいでしょう。もし、ポジション量が 時間とともに滑らかに変化するのであれば、取引の瞬間を特定することはあまり意味がなく、独自の方法で計算することができます。

パントラ方式は、TCの販売や 投資家を探すのに適している)だから、時間が経てば、そちらに切り替わっていくのだろう)

 
アレクセイ・ニコラエフ

Expert Advisorに依存すると言えるでしょう。もしそれが明確な取引のシーケンスを生成する場合、すなわち、ポジションが開かれ、閉じられ、その量は、オープンとクローズの間で変化しない場合 - それは取引によってカウントする方が良いです。もし、ポジション量が 時間とともに滑らかに変化するのであれば、取引の瞬間を特定することはあまり意味がなく、独自の方法で計算することができます。

TSの販売や 投資家を探すにはパンタラル方式の方が良いので)時間が経てば、そちらに切り替わっていくのでしょう)

いずれにせよ、panturalはすでに異議を唱える術を持たない :))

今更何をウダウダ言ってるんだ? MOの分野で普通に議論する気はないのか?:) 数式に詳しい人が必要なんです。話題が空回りして、議論する相手もいない。
 
マキシム・ドミトリエフスキー

今更、適当に徘徊してどうするんだ? MoDの現場で普通に議論する気はないのか?:) 数式をよく理解している人が必要です。話題は空振り、議論する相手もいない。

原則的に、どんなことでも意見を言う用意があります。ただし、私の発言に意味があるかどうかは保証できませんが......。)

 
マキシム・ドミトリエフスキー

山賊情報を投げたか? 非常に興味深いテーマだが、数式が多い。

ええ、そうだと思います。しかし、リンクを更新し、およそ興味のあることを書いてください。

 
アレクセイ・ニコラエフ

そうですね、昔はそういうのがあったような気がします。しかし、リンクを更新し、本質的に興味を持って、何を書きます。

上のリンクで、非定常過程に対する敵対的バンディット、組合せ的アルゴリズム(どうやらmguaのようなもの)に興味を持ちました。

それはまた後日

 
マキシム・ドミトリエフスキー

その本の中で、私はすぐにこんなことを思いつきました。

学習者が知っているのは、真の環境は環境クラスと呼ばれる集合Eにあるということだけである。

このEセットでの取引をどのように見ていますか?

 
アレクセイ・ニコラエフ

彼らの本の中で、私はすぐにそれに出会いました。

学習者が知っているのは、真の環境は環境クラスと呼ばれる集合Eにあるということだけである。

このEセットでの取引をどのように見ていますか?

まあバンディットのための任意の設定環境、例えばインジケータのセットです。

例:1つのrsiインジケータ、簡単のため、複数の価格増分のセット
 
マキシム・ドミトリエフスキー

まあ、賊軍の恣意的な環境であり、指標の集合のようなものです

例:1つのrsiインジケータ、簡単のため、いくつかの価格増分のセット

しかし、彼らのモデルがトレーディングとどのように関係しているのか、私には理解できない。彼らの戦略(ポリシー)の定義からすると、行動とその結果しか見ていないことになる。環境(あなたの意見では、一連の指標)については、彼らはそれを見ないか、見ることさえできません。

Atは履歴Ht-1 = (A1 , X1 , ... , At-1 , Xt-1 )にのみ依存するはずである。ポリシーとは、歴史から行動へのマッピングである。

さらに、彼らの環境は私たちの行動を追跡することさえできるようで、それゆえ報酬は行動そのものだけでなく、その前史全体にも依存することになるのです。

環境とは、行動で終わる履歴の系列から報酬へのマッピングである。

 
アレクセイ・ニコラエフ

しかし、彼らのモデルとトレーディングの関係がよくわからない。彼らの戦略(ポリシー)の定義からすると、行動とその結果しか見ていないことになる。彼らは環境(あなたの意見では、一連の指標)を見ていない、あるいは見ることさえできないのです。

Atは履歴Ht-1 = (A1 , X1 , ... , At-1 , Xt-1 )にのみ依存するはずである。ポリシーとは、歴史から行動へのマッピングである。

さらに、彼らの環境は私たちの行動を追跡することさえできるようで、それゆえ報酬は行動そのものだけでなく、その前史全体にも依存することになるのです。

環境とは、行動で終わる履歴の系列から報酬へのマッピングである。

もし政策が何らかのモデル(例えば線形)で近似されているなら、新しいデータで解を求め、それをモデルに代入すればよいだけである

あなたの言っていることは、最高の報酬を見つけるためのプロセスです。

非定常性の主な問題は、新しいデータで機能しなくなったときです。Unsteady banditsはそこに記述されていますが、私はまだ手をつけていません。確かに、私がまだ知らないことは何もないですね。)しかし、適切な報酬の与え方について、いくつかのアイデア(解決策)が必要です。

ちなみに、昨日、まさにリニアバンディットを実装してみたところ、結果はこんな感じです。

実は、この例は私の記事にも書かれているのですが、線形ではなくランダムフォレストを使用しているのです。リニアはオーバートレインが少ないこと

 
マキシム・ドミトリエフスキー


未来で教え、過去でテストするのは、このフォーラムでしか見られないことです)))

理由: