記事「ニューラルネットワークが簡単に(第52回):楽観論と分布補正の研究」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第52回):楽観論と分布補正の研究」はパブリッシュされました:

経験再現バッファに基づいてモデルが訓練されるにつれて、現在のActor方策は保存されている例からどんどん離れていき、モデル全体としての訓練効率が低下します。今回は、強化学習アルゴリズムにおけるサンプルの利用効率を向上させるアルゴリズムについて見ていきます。

いつものように、新しいデータに対するモデルの効率にはもっと興味があります。馴染みのないデータに対するモデルの一般化能力とパフォーマンスは、ストラテジーテスターで2023年6月の履歴データを用いてテストされました。ご覧の通り、テスト期間は訓練セットの直後にあります。これにより、訓練サンプルとテストサンプルの最大限の均質性が保証されます。テスト結果を以下に示します。

テスト結果

提示されたチャートは、月初めの10日間にドローダウンがあったことを示しています。しかし、その後は月末まで黒字の時期が続きます。その結果、EAは1か月間で7.7%の利益を獲得し、エクイティの最大ドローダウンは5.46%でした。残高に関しては、ドローダウンはさらに小さく、4.87%を超えることはありませんでした。

テスト結果


テスト結果の表は、テスト中にEAが両方向で取引をおこなったことを示しています。合計48のポジションが開かれました。そのうち54.17%は黒字決算でした。利益を生んだ取引の最大値は、負け取引最大値の3倍以上です。平均的な利益取引は、平均的な損失取引の半分です。定量的に言えば、平均して3つの利益を生む取引に対して2つの利益を生まない取引があります。この結果、プロフィットファクターは1.74、リカバリーファクターは1.41となりました。


作者: Dmitriy Gizlyk