トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Yuriy Asaulenko 2018.12.05 14:42 #11871

ドミトリー・スクーブ
由利さん、話がそれてしまいましたが、ここでのキーワードは「フォーク」です。MOとは関係ない)

確かにアウトオブタッチですね。でも、面白いテーマですよね。抽象的な表現です。

Evgeny Belyaev 2018.12.05 15:02 #11872

ユーリイ・アサウレンコ

自動化は、そこそこ簡単ではないと、イマドキは思います。私が理解する限り、典型的なソリューションでは難しいですね。

思いつくのは、何百とあるチームや選手に関するDB、両方です))。

異なるブックメーカー1チームは異なって呼び出されることがあります：オリンピック、マルセイユ+ラテン語で、少なくとも4つのバリアント。接頭辞が異なる FK - フットボールクラブ、PFC - プロフェッショナルフットボールクラブ。

フォークの自動化はめんどくさい。

Maxim Dmitrievsky 2018.12.05 15:31 #11873

mytarmailS:

RL to Rの例

http://dataaspirant.com/2018/02/05/reinforcement-learning-r/

というのは、ちょっと単純すぎますね。

実は、RLのポイントはパッケージですらなく、アプローチ、つまりオーバーシュートなのです。遺伝子の代わりにNS型近似器を通して使用する

主な問題は、正しい分布からサンプルを採取することです。

mytarmailS 2018.12.05 15:43 #11874

マキシム・ドミトリエフスキー

シンプルすぎるのです。

実は、RLのポイントはパッケージですらなく、アプローチ、つまりオーバーシュートなのです。遺伝子の代わりにNS型近似器を通して使用する

主な問題は、正しい分布からサンプルを採取することです。

まあ、シンプルな例は複雑である必要はないので、ある意味普通ですし、すでに既成のパッケージがあることも良いのですが...。その簡単な例さえも理解できない(( なぜ行列に確率が必要なのか、その確率はどのように計算されるのか、理解できない。

Maxim Dmitrievsky 2018.12.05 15:45 #11875

mytarmailS:

まあ、シンプルな例は複雑であってはいけないので、ある意味普通ですし、すでに既製のパッケージがあるのも良いのですが...。その簡単な例さえも理解できない(( なぜ行列に確率が必要なのか、そしてその確率はどのように計算されるのかが理解できない

状態遷移の確率、マルコフ連鎖

かかく

行列をすべての可能な状態で満たし、そこから現在の状態を選択して信号を見る...これはテーブル・プリミティブです :)

mytarmailS 2018.12.05 15:47 #11876

マキシム・ドミトリエフスキー

状態遷移の確率、マルコフ連鎖

まあ、それはわかったけど...。

コードにおける役割がわからない

Maxim Dmitrievsky 2018.12.05 15:48 #11877

mytarmailS:

了解です...。

コードの中での役割がわからない。

役割とは？状態遷移と確率の表です

mytarmailS 2018.12.05 15:55 #11878

マキシム・ドミトリエフスキー

役割ってなんだ？状態遷移と確率の表だ。

遷移の確率はどこから来るのか、左、右、上、下の4方向がありますね。アルゴリズムは、正しい方向の組み合わせで「どこか」への道を見つけなければならない。アルゴリズムが正しい確率の組み合わせを探し始める前から、遷移確率の行列を作成していたのですが、この確率はどこから得ていたのでしょうか？

私は非常に頭が悪いのでしょうが、それでも、差し支えなければ、説明していただけませんか？

Maxim Dmitrievsky 2018.12.05 16:12 #11879

mytarmailS:

遷移の確率がどこから来るのかがわからない、左、右、上、下の4方向がある。アルゴリズムは、正しい方向の組み合わせで「どこか」への道を見つけなければならない。アルゴリズムが正しい確率の組み合わせを探し始める前から、遷移確率の行列を作成していたのですが、この確率はどこから得ていたのでしょうか？

私が馬鹿なだけかもしれませんが、それでもよろしければご説明をお願いします。

Rではなく、ネットだけで基本を読む。

最初はランダムに確率が選ばれ、反復の間、主にTD-methodによって更新され、最終的に最適に収束する。そのために、状態の行列（値行列）と遷移の行列（方針行列）を指定する。すなわち、各状態（ある部屋にいる）に対して、他の部屋への遷移とその確率が複数存在することができる。各行動の後、数値報酬（良い・悪い）が返される。この方法の本質は報酬を最大化することであり、すなわちエージェントは間違った遷移にはペナルティを受け、正しい遷移には報酬を受けることになる

Aleksey Nikolayev 2018.12.06 16:19 #11880

マキシム・ドミトリエフスキー

情報量規準（ベイズ、赤池）については、このスレッドに何も書かれていませんでした。もしかしたら、（適用されたMoDパッケージで）デフォルトで使用されているのでは？

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1188