トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Aleksey Vyazmikin 2020.10.24 18:49 #20361

ロールシャッハ：

最後の列はターゲット、残りはインプット

一般的には、サンプルを3つに分けて、60％がトレーニング、20％がコントロールトレーニング、そしてトレーニングに参加しなかったサンプルです。

メモリが18ギガバイトも食うとは......驚きです。メモリはどれくらいですか？

ほぼデフォルトの設定で学習を開始したのですが、学習サンプルはすぐに改善しているのに、コントロールサンプルは最初のツリー以降、改善が見られないんですね。

そこで質問ですが、本当にそこにパターンがあるのでしょうか？

クラスのバランスが全く取れていないとの指摘があり、10％前後の台数の割合のようですが？

Aleksey Nikolayev 2020.10.24 18:54 #20362

イゴール・マカヌ：

では、TCの概念を公式化することはできないのでしょうか？

TCがインスピレーションを与えているように見えますか？あるいは楽器を演奏しているように見えますか？

それを何とか形式化して言語で書くと、すぐに頭のいい人がその言語用のコンパイラを発明して、トレーダーは忘却の彼方へ消えていくのです)

イゴール・マカヌ：

あるいは、私たちに戻りましょう・・・。- TSは主に市場情報の分析と意思決定であることが判明した

もしあなたが上記の言葉の意味を理解しておらず、そのために同じ情報の分析結果が人によって異なる可能性があり、誰が正しいかは未来にしかわからないことを理解している場合)

Maxim Dmitrievsky 2020.10.24 18:59 #20363

dr.mr.mom：
。

なぜ、これほどまでに世界的に悲観的なのでしょうか。)))NeuroShell Day Proのすべてのモダンパッケージの前に、どのように訓練されるかを「見た」のです。それでも内部でどう動いているのか分からない堅牢な結果が得られ、MT4に追加することはほぼ不可能でした。

GPUをボルトで固定するのが望ましいというのは、私も同感です。

問題は、彼らがどのようなNSであるか、どのようなパラダイムで構築/学習してきたかであり、私の場合は進化しています。

はい、最初のロバストなバリアントは1日でもトレーニングできます（実際には古い家庭用ノートパソコンで8時間かかりますが）。しかし、その堅牢性を犠牲にしてまで第一変種をさらに進化させる必要性に立ち戻るのは、1ヵ月後のことである。つまり、あらかじめ現実の世界で10個の作業用具があっても、新たなバリエーションが存在することになるのです。

さて、アーキテクチャですが、NEATアルゴリズムをベースにして、独自の機能を追加しています。アウトプットでは、アーキテクチャも含めて進化していきます。

つまり、こんな感じです。

そして同時に、微生物学などの本・講義を読むことをお勧めします。

そして、残念ながら一方はバカ（知識のない議論）、他方は野郎（知識のある議論）である、という論争においては、議論・推論を交えた意見交換が望ましいと思います。

やはり、インパクトがあるのが一番！！クソくらえ！！レッツゴー)))

議論することは何もありません。なぜなら、通常のフレームワークでは、最小限のコードで、行い、示しました。

ここでは特に自作は取り上げず、キャットバストやニューラルネットワークのような成熟したモデルのみを取り上げます。

mqlのニューラルネットワークを使ったこのマウス騒ぎは、議論することすら面白くない。なぜなら、世界はずっと先に進んでいて、毎年その差を2倍にしているからだ。

例えば、「Tensorflowでこんなモデルがあるんだけど」と言われたら、「じゃあ、Torchで同じモデルを5分くらい作って確認してみるよ」と言います。そして、mqlで何かを作ったと言うことですね。その情報は何のために必要なのか、どうすれば再現できるのか？

Forester 2020.10.24 19:21 #20364

Aleksey Vyazmikin：

一般的には、サンプルを3つに分けて、60％がトレーニング、20％がコントロールトレーニング、そしてトレーニングに参加していないサンプルとしました。

18ギガバイトという大量のメモリを食うんですね、驚きです。メモリはどれくらいですか？

ほぼデフォルトの設定で学習を開始したのですが、学習サンプルはすぐに改善しているのに、コントロールサンプルは最初のツリー以降、改善が見られないんですね。

そこで質問ですが、本当にそこにパターンがあるのでしょうか？

クラスのバランスが全く取れていないとの指摘があり、10％前後の台数の割合のようですが？

ツリー系は、大きなサンプルではクラスバランスは必要ない。ニューラルネットワークはバランスが悪いと詰まってしまいますが、木は葉っぱの上にすべてをはっきりと広げます。
それが、私が木に切り替えた理由のひとつです。

https://www.mql5.com/ru/blogs/post/723619

Нужна ли деревьям и лесам балансировка по классам?

www.mql5.com

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015 там есть несколько страниц посвященных этой теме. Вот итоговая: Отмеченный

Igor Makanu 2020.10.24 19:21 #20365

アレクセイ・ニコラエフ

そうですね、ただ、これらの言葉の意味を明確かつ一義的に公式化することは不可能であること）、そのために同じ情報の分析結果が人によって大きく異なることがあり、誰が正しかったかは未来にしかわからないことを認識すること）です。

市場情報の分析では、一般的に問題はないのですが...。ただし、市場は自分にしか情報を与えないので、すべてのデータを処理する必要があると考える研究者の欲を除く。つまり、ここでは、タスクは繰り返しパターンを探すこととして形式化され、他のデータは捨てられる（使用されない）べきである。

決定が悲しいです - テストと前方に合格するTSを生成することは可能ですが、戦略テスターの統計情報とTSの永続性の時間や市場のコンテキストとTSのコンプライアンスを決定する可能性の間のリンクを見つけるために - それは問題だ。

後先考えず

一般に、問題の形式化は少し進んだと思います。

は、原理的にはテスト統計のアンロードを行い、PythonでNSの学習を試みることは難しいことではありません。

市場の状況を判断するのは、あなたが書いているように、トレーダーの判断だけで、形式化したり、アルゴリズム化したり、調査することは不可能だと思います。

Aleksey Vyazmikin 2020.10.24 19:31 #20366

elibrarius:
ツリーシステムにはクラスバランスは必要ないようです。ニューラルネットワークはバランスが悪いと詰まってしまいますが、木は明らかに葉っぱにすべてを分散させています。
それが、私が木に切り替えた理由のひとつです。

CatBoostが必要ですが、独自のバランサーを持っていますが、どうやら対応できないようです。

一般的に、強いアンバランスがあれば学習は進みますが、統計的に葉にゼロが多いとゼロばかりになります。つまり、小さなクラスを引っ張るための明確なルールがほとんどなければうまくいくかもしれませんが、そうでなければ葉全体に広がってしまうのです。

Forester 2020.10.24 19:38 #20367

Aleksey Vyazmikin：

CatBoostは必須だが、独自のバランサーを搭載しているが、どうやら失敗しているようだ。

一般に、強いアンバランスがあれば学習は進みますが、統計的に葉にゼロが多いとゼロばかりになります。つまり、少人数のクラスを引くための明確なルールがほとんどなければうまくいくかもしれませんが、そうでなければすべての葉に広がってしまうのです。

あるいは、相変わらずデータにはほとんどパターンがない。

Aleksey Vyazmikin：

一般的に、強いアンバランスがあれば学習は進みますが、統計的に葉にゼロが多いとゼロばかりになります。つまり、小さなクラスを引き出すための明確なルールがほとんどなければうまくいきますが、そうでなければすべての葉に広がってしまうのです。

葉が他のクラスの不純物から最もきれいになる分け目を取るというのが鉄則です。

私はブログへのリンクを追加しました、大規模なサンプルでは、小さなクラスと葉を形成するために何かがあるでしょう、プラスあなたはジニ指数ルートを使用することができます（しかし、私はその式を発見していない）。

Forester 2020.10.24 19:41 #20368

Aleksey Vyazmikin：

これだけのデータ量なら、木をもっと深くして、葉っぱをもっときれいにしたほうがいいと思います。
葉に1万例もあれば、もちろんしみじみしますが、100に分ければスッキリするのではないでしょうか。

アルグリブフォレストは1枚に1例まで、分離は100％です。葉っぱには0か1しか残らない。

Aleksey Vyazmikin 2020.10.24 19:47 #20369

elibrarius:
Aleksey Vyazmikin:

あるいは、相変わらずデータにはほとんどパターンがない。

葉が他のクラスの不純物から最もきれいになる分け目を選ぶのが鉄則です。

私はブログへのリンクを追加しました、大規模なサンプルでは、小さなクラスで葉を形成するために何かがあるでしょう、プラスあなたはジニ指数（唯一の私は式が見つかっていない）のルートを使用することができます。

そのため、予測変数が少なく、次元が小さいので、木の組み合わせの選択肢も少なくなります。

私は1％のサンプルを取りました - テストでそこに100％の学習です - 私はちょうど顕著なパターンがあるとは思わない。

また、CatBoostでは、予測変数がある程度ランダムに作成されるため、彼らの理解では、適合度が下がります。

elibrarius:

これだけのデータ量であれば、木を深くして、葉っぱをもっときれいにする必要があると思うんです。
リーフに10kの例が残っていると、もちろんしみじみしますが、分割を100まで持っていくと、もうスッキリすると思います。

ツリーは6つの深さがありますが、予測変数が多ければもっと深さが必要だと思います。

256のグリッドを作りました。

Forester 2020.10.24 19:52 #20370

Aleksey Vyazmikin：

ツリーは6つの深さがありますが、予測因子を増やして深さを出すことが必要だと思います。

グリッドは256です。

列が増えれば増えるほど、奥行きが必要になってきます。
ギガバイトもあれば、数百万行もあることになる。深さ6の場合、最終的なシートは全例/行数の64分の1、つまり数百万の入力がある場合は数万になります。

深さ15で試してみてください（これが最大のようです、最終的なワークシートは行の1/32768の部分を保持します）。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 2037