Dmitriy Gizlyk
Dmitriy Gizlyk
  • 情報
11+ 年
経験
0
製品
0
デモバージョン
134
ジョブ
0
シグナル
0
購読者
Professional programming of any complexity for MT4, MT5, C#.
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第65回):Distance Weighted Supervised Learning (DWSL)
ニューラルネットワークが簡単に(第65回):Distance Weighted Supervised Learning (DWSL)

この記事では、教師あり学習法と強化学習法の交差点で構築された興味深いアルゴリズムに触れます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第64回):ConserWeightive Behavioral Cloning (CWBC)法
ニューラルネットワークが簡単に(第64回):ConserWeightive Behavioral Cloning (CWBC)法

以前の記事でおこなったテストの結果、訓練された戦略の最適性は、使用する訓練セットに大きく依存するという結論に達しました。この記事では、モデルを訓練するための軌道を選択するための、シンプルかつ効果的な手法を紹介します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第63回):Unsupervised Pretraining for Decision Transformer (PDT)
ニューラルネットワークが簡単に(第63回):Unsupervised Pretraining for Decision Transformer (PDT)

引き続き、Decision Transformer法のファミリーについて説明します。前回の記事から、これらの手法のアーキテクチャの基礎となるTransformerの訓練はかなり複雑なタスクであり、訓練のために大規模なラベル付きデータセットが必要であることにすでに気づきました。この記事では、ラベル付けされていない軌跡をモデルの予備訓練に使用するアルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第62回):階層モデルにおけるDecision Transformerの使用
ニューラルネットワークが簡単に(第62回):階層モデルにおけるDecision Transformerの使用

最近の記事で、Decision Transformerを使用するためのいくつかの選択肢を見てきました。この方法では、現在の状態だけでなく、以前の状態の軌跡や、その中でおこなわれた行動も分析することができます。この記事では、階層モデルにおけるこの方法の使用に焦点を当てます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第61回):オフライン強化学習における楽観論の問題
ニューラルネットワークが簡単に(第61回):オフライン強化学習における楽観論の問題

オフライン訓練では、訓練サンプルデータに基づいてエージェントの方策を最適化します。その結果、エージェントは自分の行動に自信を持つことができます。しかし、そのような楽観論は必ずしも正当化されるとは限らず、模型の操作中にリスクを増大させる可能性があります。今日は、こうしたリスクを軽減するための方法の1つを紹介しましょう。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第60回):Online Decision Transformer (ODT)
ニューラルネットワークが簡単に(第60回):Online Decision Transformer (ODT)

最後の2つの記事は、望ましい報酬の自己回帰モデルの文脈で行動シーケンスをモデル化するDecision Transformer法に費やされました。この記事では、この方法の別の最適化アルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第59回):コントロールの二分法(DoC)
ニューラルネットワークが簡単に(第59回):コントロールの二分法(DoC)

前回の記事では、Decision Transformerを紹介しました。しかし、外国為替市場の複雑な確率的環境は、提示した手法の可能性を完全に実現することを許しませんでした。今回は、確率的環境におけるアルゴリズムの性能向上を目的としたアルゴリズムを紹介します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第58回):Decision Transformer (DT)
ニューラルネットワークが簡単に(第58回):Decision Transformer (DT)

強化学習の手法を引き続き検討します。この記事では、一連の行動を構築するパラダイムでエージェントの方策を考慮する、少し異なるアルゴリズムに焦点を当てます。

Yao Wei Lai
Yao Wei Lai 2023.10.11
I greatly admire your article series "Neural Networks Make It Easy", but after reading it for a long time, I still don't understand how to generate models. Could you please send me the models used in each article? I would like to replicate your test to further learn relevant knowledge. Thank you!
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第57回):Stochastic Marginal Actor-Critic (SMAC)
ニューラルネットワークが簡単に(第57回):Stochastic Marginal Actor-Critic (SMAC)

今回は、かなり新しいStochastic Marginal Actor-Critic (SMAC)アルゴリズムを検討します。このアルゴリズムは、エントロピー最大化の枠組みの中で潜在変数方策を構築することができます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第56回):核型ノルムを研究の推進力に
ニューラルネットワークが簡単に(第56回):核型ノルムを研究の推進力に

強化学習における環境の研究は喫緊の課題です。いくつかのアプローチについてすでに見てきました。この記事では、核型ノルムの最大化に基づくもう一つの方法について見てみましょう。これにより、エージェントは新規性と多様性の高い環境状態を特定することができます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)
ニューラルネットワークが簡単に(第55回):対照的内発制御(Contrastive intrinsic control、CIC)

対照訓練は、教師なしで表現を訓練する方法です。その目標は、データセットの類似点と相違点を強調するためにモデルを訓練することです。この記事では、対照訓練アプローチを使用してさまざまなActorスキルを探究する方法について説明します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第54回):ランダムエンコーダを使った効率的な研究(RE3)
ニューラルネットワークが簡単に(第54回):ランダムエンコーダを使った効率的な研究(RE3)

強化学習手法を検討するときは常に、環境を効率的に探索するという問題に直面します。この問題を解決すると、多くの場合、アルゴリズムが複雑になり、追加モデルの訓練が必要になります。この記事では、この問題を解決するための別のアプローチを見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第53回):報酬の分解
ニューラルネットワークが簡単に(第53回):報酬の分解

報酬関数を正しく選択することの重要性については、すでに何度かお話ししました。報酬関数は、個々の行動に報酬またはペナルティを追加することでエージェントの望ましい行動を刺激するために使用されます。しかし、エージェントによる信号の解読については未解決のままです。この記事では、訓練されたエージェントに個々のシグナルを送信するという観点からの報酬分解について説明します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第52回):楽観論と分布補正の研究
ニューラルネットワークが簡単に(第52回):楽観論と分布補正の研究

経験再現バッファに基づいてモデルが訓練されるにつれて、現在のActor方策は保存されている例からどんどん離れていき、モデル全体としての訓練効率が低下します。今回は、強化学習アルゴリズムにおけるサンプルの利用効率を向上させるアルゴリズムについて見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第51回):Behavior-Guided Actor-Critic (BAC)
ニューラルネットワークが簡単に(第51回):Behavior-Guided Actor-Critic (BAC)

最後の2つの記事では、エントロピー正則化を報酬関数に組み込んだSoft Actor-Criticアルゴリズムについて検討しました。このアプローチは環境探索とモデル活用のバランスをとりますが、適用できるのは確率モデルのみです。今回の記事では、確率モデルと確定モデルの両方に適用できる代替アプローチを提案します。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第50回):Soft Actor-Critic(モデルの最適化)
ニューラルネットワークが簡単に(第50回):Soft Actor-Critic(モデルの最適化)

前回の記事では、Soft Actor-Criticアルゴリズムを実装しましたが、有益なモデルを訓練することはできませんでした。今回は、先に作成したモデルを最適化し、望ましい結果を得ます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第49回):Soft Actor-Critic
ニューラルネットワークが簡単に(第49回):Soft Actor-Critic

連続行動空間の問題を解決するための強化学習アルゴリズムについての議論を続けます。この記事では、Soft Actor-Critic (SAC)アルゴリズムについて説明します。SACの主な利点は、期待される報酬を最大化するだけでなく、行動のエントロピー(多様性)を最大化する最適な方策を見つけられることです。

JimReaper
JimReaper 2023.07.14
Enjoy!
Shah Yahya
Shah Yahya 2023.07.21
Thanks so much Dmitry! Really appreciate this.
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第48回):Q関数値の過大評価を減らす方法
ニューラルネットワークが簡単に(第48回):Q関数値の過大評価を減らす方法

前回は、連続的な行動空間でモデルを学習できるDDPG法を紹介しました。しかし、他のQ学習法と同様、DDPGはQ関数値を過大評価しやすくなります。この問題によって、しばしば最適でない戦略でエージェントを訓練することになります。この記事では、前述の問題を克服するためのいくつかのアプローチを見ていきます。

Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第47回):連続行動空間
ニューラルネットワークが簡単に(第47回):連続行動空間

この記事では、エージェントのタスクの範囲を拡大します。訓練の過程には、どのような取引戦略にも不可欠な資金管理とリスク管理の側面も含まれます。

Tanaka Black
Tanaka Black 2023.06.29
hie Dimitriy, i have a job for you please check your message inbox
Dmitriy Gizlyk
パブリッシュされた記事ニューラルネットワークが簡単に(第46回):目標条件付き強化学習(GCRL)
ニューラルネットワークが簡単に(第46回):目標条件付き強化学習(GCRL)

今回は、もうひとつの強化学習アプローチを見てみましょう。これはGCRL(goal-conditioned reinforcement learning、目標条件付き強化学習)と呼ばれます。このアプローチでは、エージェントは特定のシナリオでさまざまな目標を達成するように訓練されます。