記事「ニューラルネットワークが簡単に(第26部):強化学習」についてのディスカッション

 

新しい記事「ニューラルネットワークが簡単に(第26部):強化学習」はパブリッシュされました:

機械学習の手法の研究を続けます。今回からは、もう1つの大きなテーマである「強化学習」を始めます。この方法では、モデルは問題を解決するためのある種の戦略を設定することができます。この強化学習の特性は、取引戦略を構築する上で新たな地平を切り開くものと期待されます。

私たちは常に周りを見渡し、触って物を評価し、音を聞いています。私たちは感覚を通して、刻々と世界を評価しているのです。心の中ではその状態を固定してしまいます。

同様に、環境はそのエージェントによって評価される状態を生成します。

私たちが世界観に則って行動するのと同様に、エージェントはその政策(戦略)に従って行動を取ります。

その衝撃によって、環境はある確率で変化します。各行動に対してエージェント環境からいくつかの報酬を受け取ります。報酬はプラスの場合もマイナスの場合もあります。報酬をもとに、エージェントは取った行動の有用性を評価することができます。

強化学習

作者: Dmitriy Gizlyk

 
Thank you for the interesting article. I downloaded the ZIP file and compiled it, but it seems that CBufferFloat is not defined. In which file can I find this class? Thank you in advance.
理由: