トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2022.11.02 14:54 #28111

Maxim Dmitrievsky #:

1年以上前、私がRLアルゴリズムを執筆していた頃、ここで議論されたことがある。

私はまだ戻りたくないし、私も戻りたくない。

私はラベルの立場からではなく、例えばエージェントの行動に関する非常に複雑で詳細なポリシーの立場からです。

Maxim Dmitrievsky 2022.11.02 15:33 #28112

mytarmailS #:

私はラベルの立場からではなく、例えばエージェントの行動に関する非常に複雑な多段階のポリシーの立場から話しているのだ。

ある状態から別の状態への遷移の方向が表の中で最適化される。この表は後にニューラルネットワークに取って代わられた。これは、例えばゲームなど、エージェントの状態がたくさんある場合です。例えばゲームなどでは、エージェントの状態が2-3しかない。そして、これらの状態への遷移を報酬関数を通して最適化します。例えば、ある収益性の条件を持つ取引をサンプリングすることで、ポリシーはNSを通して最適化されます。ポリシーとは、環境と遷移したい状態の関係です。例えば、指標値とトレードの方向性の関係です。

NS がすでにすべてを概算し、自分の行動の誤りを示しているときに、テーブルを通じて 100500 回の遷移を何度も行うのは意味がありません。これは、まずジャンプし、次に射撃し、リロードし、戦利品を集め、反対側に走るなどの動作が必要な場合に必要です。たくさんのアクションをこなさなければならないのに、2～3回しかできないのだ。ボスはボスだけどね。）

付け加えるのを忘れたけど、そこではエージェントも環境に影響を与え、環境を変える。だから、すべての組み合わせを学ぶには、何千回も繰り返す必要があるんだ。私たちの場合はそうではなく、環境は変化しないので、1回でできるのです。このような設定では、強化学習は強化学習の意味を完全に失ってしまう。ゴールまでの最短経路を1回で見つけることができる。

peregrinus_vik 2022.11.03 05:13 #28113

解決方法は簡単で、データセットの前処理を行う。その標準的な解析が行われる。残りの部分から、各入力をターゲット変数とし、各MLでの出力をフィックとする。各入力の予測値が評価され、悪い「予測可能」なものは捨てられる。そして、そのフィルタを通過した入力は、MLでの出力予測によって作業モデルに組み込まれる。このように予測に影響しないチップは捨ててしまう。

mytarmailS 2022.11.03 08:15 #28114

Maxim Dmitrievsky #:
これは、ゲームなどでエージェントの状態がたくさんある場合です。売買の状態などは2-3しかない。

いや、とても原始的で、そうでなければこのような方向には全くならない。

stateはbuy/sellではなく、buy/sellはactionであり、stateは大雑把に言えば現在の環境のクラスタ番号であり、それぞれの state クラスタにはそれぞれのactionがある．

しかし、アクションは売り買いのような原始的なものである必要はなく、例えばエージェントが未来について推論することでもよいのです...。

例えば、今[i]で買い、ローソク足[i+1]で価格が下がるが、ある価格を下回らない場合、次のローソク足[i+2]を待つが、価格がさらに下がれば反転し、下がらなければ買い[i...20]を続ける。

これらは未来についての自明でない推論であり、意識的なポジーヤの発見につながる......。

しかし、このような推論オプションの組み合わせは無数にあるので、それらをすべて経験する必要がないように、Q関数を訓練する、つまり、エージェントは良いQ値を持つオプションだけを推論に取る、

Qニューロンや行列はあらかじめ訓練されている...

私はこう考えている。

mytarmailS 2022.11.03 08:16 #28115

peregrinus_vik #:
解決策は簡単だ。

)))ああ、確かに...。

"シンプルだ "と言う人が怖い。

Valeriy Yastremskiy 2022.11.03 08:20 #28116

mytarmailS #:

いや、とても原始的で、そうでなければこの方向性にはまったくならない......。

stateはbyselじゃなくて、byselはactionで、stateは大雑把に言うと現環境のクラスタ番号で、それぞれの state クラスタにそれぞれのactionがある・・・。

でも、そのアクションはバイトのような原始的なものである必要はなくて、例えば未来についてのエージェントの考えでもいいんだ......。

例えば、今[i]で買っていて、取引ローソク足[i+1]で価格が下がるが、ある価格を下回らない場合、次のローソク足[i+2]を待つが、価格がさらに下がれば反転し、下がらなければ買い[i...20]を続ける。

これらは将来についての自明でない推論であり、実現したポジションの発見につながる......。

しかし、このような推論オプションの組み合わせは無数にあるため、それらすべてを調べる必要がないように、Q関数を訓練する、つまり、エージェントは良いQ値を持つオプションだけを推論に取る、

Qニューロンや行列はあらかじめ訓練されている...

私はこう考えている。

そうですね、売り買いは状態ではないですね。状態はいくらでもある。）

mytarmailS 2022.11.03 08:37 #28117

Valeriy Yastremskiy #:

同意する。売買は州ではない。州はたくさんある。）

クラスタなら）状態は多くはない。

将来の行動を推論するための選択肢は山ほどある。

しかし、推論は、各状態で最も正しいアクションを見つけるために必要であり、さらに、それらは各ローソクで見直されるべきである。

Maxim Dmitrievsky 2022.11.03 08:53 #28118

mytarmailS #:

いや、とても原始的で、そうでなければこの方向性にはまったくならない......。

stateはbyselじゃなくて、byselはactionで、stateは大雑把に言うと現環境のクラスタ番号で、それぞれの state クラスタにそれぞれのactionがある・・・。

でも、そのアクションはバイトのような原始的なものである必要はなくて、例えば未来についてのエージェントの考えでもいいんだ......。

例えば、今[i]で買っていて、取引ローソク足[i+1]で価格が下がるが、ある価格を下回らない場合、次のローソク足[i+2]を待つが、価格がさらに下がれば反転し、下がらなければ買い[i...20]を続ける。

これらは将来についての自明でない推論であり、実現されたポジションの発見につながる......。

しかし、このような推論オプションの組み合わせは無数にあるため、それらすべてを調べる必要がないように、Q関数を訓練する、つまり、エージェントは良いQ値を持つオプションだけを推論に取る、

Qニューロンや行列はあらかじめ訓練されている...

私はこう考えている。

正しく見始めると、驚きの要素は消えてしまう。

あなたはエージェントの方針、多方面からのアプローチについて述べている。それについてはすべて書きました。オタクの言葉で筋道立てて書いているのに忘れてしまった。

その通り、とても原始的だ。

出入り禁止になる前に、エージェントについて口から泡を吹いていた人がここにいます（笑)。

Maxim Dmitrievsky 2022.11.03 09:04 #28119

Valeriy Yastremskiy #:

そうだね、売買は国家じゃない。状態にはいろいろある。）

エージェントの状態、あるいは行動の状態。エージェントの行動に対する環境の反応がなければ、最適化することはできません。

環境の状態、エージェントの状態、環境の変化を考慮したエージェントの状態から状態への遷移（方針）の行列があります。環境は静的で、エージェントの行動によって変化することはありません。つまり，静的な環境におけるエージェントのアクションの行列，つまりターゲットを定義するだけでよい．ターゲットのマークは一回で行われます。

mytarmailS 2022.11.03 10:38 #28120

Maxim Dmitrievsky #:
エージェントの状態、あるいは行動。エージェントの行動に対する環境の反応がなければ、最適化することはできません。

環境の状態、エージェントの状態、環境の変化を考慮したエージェントの状態から状態への遷移（方針）の行列があります。環境は静的で、エージェントの行動によって変化することはありません。つまり，静的な環境におけるエージェントのアクションの行列，つまりターゲットを定義するだけでよい．ターゲットのマークは一回で行われる。

エージェントに不利なトレードのペナルティを与えたい場合

ターゲットは "好きなトレードをするが、負けるトレードはしない、市場にいる "です。

それをマークアップでどう表現しますか？

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2812