トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 2813

 
mytarmailS #:
不採算案件についてエージェントにペナルティを課すとしたら。
目標は "好きな取引をするが、負ける取引はしない、そして市場に参加する "ことだ。

それをタグで表現すると?
履歴に損得なしのマークが並ぶこと、でしょうか?
Rlは、最適なパスを見つけること、つまり最適化だ。自分でやってもいいし、彼を通してやってもいい。超ド級のパターンを見つけることではない。

サットンやバルトの「強化学習」を読んでくれ。原始的なものからそれ以外のものまで書いてある。そうすればDQNにたどり着けるだろう

私の記憶では、遺伝的最適化やプログラミングとの類似点が見つかるだろう。
 
Maxim Dmitrievsky #:
エージェントの状態、あるいは行動。エージェントの行動に対する環境の反応がなければ、最適化することはできません。

環境の状態、エージェントの状態、環境の変化を考慮したエージェントの状態から状態への遷移(方針)の行列があります。環境は静的で、エージェントの行動によって変化することはありません。つまり,静的な環境におけるエージェントのアクションの行列,つまりターゲットを定義するだけでよい.ターゲットのマークは一回で済む。
行の状態を手動で記述するのはまだおぼつかないのですが))))))
 
Valeriy Yastremskiy #:
手作業で列の状態を説明するのはまだ難しいんだ。)
無駄
 
Maxim Dmitrievsky #:
無駄だ。
議論の余地はないが、魅力的だ))))
 
Valeriy Yastremskiy #:
そこに議論はないが、魅力的だ))))
そこには2つの状態がある。
 
誰も私のセットデートを見てないの?
 
Valeriy Yastremskiy #:
手動でシリーズの状態を記述することに、私はまだつまずいている。)

最近、状態遷移に対するマルコフ的アプローチを説明するビデオに出会った。
これらの状態を使うべきだと言っているわけではない。
ただ、必要だと思う状態にはこの概念を適用できるように思えた。
もしかしたら、他のアイデアも得られるかもしれない。



マキシムはまたヒンズー教徒だからってバカにしないでね ))
他の人には会ったことないけど )

 
Roman #:


この特定の状態を使うべきだと言っているわけではない。
ただ、このコンセプトをどんな状態にも適用できるように思えた。
もしかしたら、他のアイデアも浮かぶかもしれない。



マキシムはまたヒンドゥー教徒であることをからかわないでね ))
私は他に出会っていない。)

時系列セグメンテーションの記事もあります。クラスタリングをクラスタリングに置き換えることができる。それぞれの状態について異なるモデルを訓練することは、おそらく意味がある。基本的に、それは平均の増分のシフトであり、その変化でモデルは分解する。
 
Maxim Dmitrievsky #:
セグメンテーションに使用できる。クラスタリングを置き換えることができる。
それはできない。

クラスタリングは、あなたがどのクラスタに属していたかを事後的に示します。
簡単に言えば
 
mytarmailS #:
それは違う。

うーん、あなたが今どのクラスターにいるのかを予測し、クラスタリングは、あなたが事後的にどのクラスターにいたのかを示す。
簡単に言えばね。
そして考えてみれば
理由: