Авторы: Myoung-Jong Kim, Ingoo Han опубликовали статью под названием: «The discovery of experts decision rules from qualitative bankruptcy data using genetic algorithms». Судя по оригинальной авторской статье, выборка предназначалась для генетических алгоритмов, т. к. предполагалось, что для других алгоритмов она не по зубам. Однако, вынужден...
由利 ありがとうございます。考えてみます。
とにかく淘汰されない。それがVMRの仕事です。21世紀は16年以上前のことで、荒っぽい仕事は人間ではなく、すべて自動化されたシステムが行うべきものです。
ユーリー・レシェトフ
...具体的には、VMRは予測変数の一部を 削減することでハイパースペースを減少させる。
具体的には、VMRが予測変数の一つを自動的に減らすという例もある。倒産の予兆を 見る
また,このページでは,このアルゴリズムがどのように実行されるのか,簡単な古典的な例を試すこともできます:学習セットにおける非情報的予測変数と非サポート・ベクトル(サンプル)の削減 です。
一切、淘汰されない。それがVMRの仕事です。21世紀は16年以上前のことで、大変な仕事はすべて人間ではなく、自動化されたシステムが行うべきものです。
私の経験では、絶対的なものではありませんが、モデルに組み込まれた予測変数の選択 アルゴリズムは最も非効率的です。また、予測変数の選択に利用できる多くの別パッケージや関数もありません。
なぜそう言えるのか?
私にとっては、シンプルで取引の基本となるテストがあります。
モデルを学ぶ。学習用サンプルから時間差で外れたサンプルでテストし、誤差を比較する。まず、誤差が50%前後ではダメです。これでは、全くティーチングモデルとは言えません。40%以下の誤差を考慮しています。トレーニングサンプルとバリデーションサンプルでこれらの誤差がほぼ等しい場合、モデルは再トレーニングされません。これらの誤差が大きく異なり、特に学習誤差が10%以下であれば、モデルは過剰に学習されたことになります。再トレーニングを行う理由は、モデル学習アルゴリズムが再トレーニングを行わないノイズ予測変数が存在するからである。
今のところ、ノイズを含まない予測変数のセットには出会っていません。そして、予測器選択アルゴリズムも、モデルの粗密化(正則化)も、このノイズに対応することができなかったのです
だから、あなたの意見は間違っていて、過剰に訓練されたモデルを得ることは、常に「サンプル外」である現実の世界では危険なのです。
問題点その1を提案 します。後日、その解答を掲載します。SanSanychはすでに見ているので、答えは言わないでください。
はじめに:取引アルゴリズムを構築するためには、価格、あるいはトレンド、あるいは取引開始の方向を予測するための根拠となる要素を知る必要があります。その選定は容易ではなく、限りなく複雑である。
私が作成した人工的な csvデータセットのアーカイブを添付します。
データには input_ で始まる 20 個の変数と、右端の 1 個の変数 output が含まれる。
出力変数は入力変数のある部分集合に 依存する(その部分集合は 1〜20の入力を含むことがある)。
課題:何らかの方法(機械学習)で入力変数を選択し、その変数を使って、既存のデータから出力変数の状態を決定することができる。
その他、2値分類の問題点はありますか?なぜなら、結果もサンプリング生成方法も、すでに横並びになっているところにハラをくくって来たのですから。
参加すると同時に、私のバイナリ分類器の新バージョンをテストしたいと思います。
Yuriさん、プライベート メッセージの返信をお願いします。
スクリプトは添付ファイルにあります。
データセット:EURUSD H1
その他、2値分類の問題点はありますか?だって、すでに結果もサンプリング生成方法も掲載されているのに、ハラをくくって来たんだもの。
参加すると同時に、私のバイナリ分類器の新バージョンを試したいと思っています。
常にタスクがある :)
アーカイブにはtrain.csvとtest.csvという2つのファイルがあります。ファイルの最後の列は、バイナリ分類の必要な結果です。train.csvファイルを使ってモデルを学習させ、そのモデルをtest.csvに適用する必要があります。test.csvの既知のターゲット結果は事前に使用することはできず、最終チェックにのみ必要です。データはeurusd d1、class 0または1-次のバーでの価格下落または上昇から取得されます。test.csvの結果が10件中6件以上正しく予測されれば、そのモデルを使ってFXで取引してみることができます。もし、10件中7件(以上)で正しく予測できれば、これは聖杯への正しい道です。他の年や月でモデルをトレーニングしてテストしてみて、すべてが同じになれば、非常に良いことです。
過去の失敗を考慮し、現在は生の値ではなくバーのデルタをベースにしたファイルを作成しています。そして、全ては列単位ではなく、同じ種類の予測変数が与えられた行単位で正規化されています。
私自身は、予測変数の列挙に遺伝学を利用するようにしています。予測変数のセットに対して、2回のクロスバリデーションで主成分モデルを学習し、分類誤差を遺伝学のためのフィットネス値として返す。遺伝学が限界に達したとき、私は最終的な予測変数のセットを取り、2回のクロスバリデーションでニューロンを再度学習させます。テストデータでの最終的な予測誤差は約40%です。最終的な誤差は、ニューロンのパラメータ(内部重みの数、クロスバリデーション間の反復回数)に依存し、ランダムに30%~50%程度になります。30%しか取れないと喜んでいたこともありましたが、結果的にコントロールできず、平均40%しか取れませんでした。
論理的に考えると、なぜ真ん中に主成分モデルが必要なのか、ということになります。ただ、学習パラメータを持ち、データを送り、モデルを取得し、テストデータでクロスバリデーションエラーを計算する、ということはありません。遺伝子の適合度関数をニューラルネットワークで決めるとなると、学習時間が大幅に増える上に、ニューラルネットワーク自体の学習パラメータをどうすればいいのかがわからない。
また、付録でYuriのVMRモデルをRに移植した。私のデータをノイズ予測器を使って解析したところ、トレーニングデータでの誤差は30%、テストデータでの誤差は60%、つまり、奇跡は起きず、モデルは再トレーニングされました。しかし、コードの移行にバグがあった可能性もあるので、もし矛盾を発見したら教えてください。モデルの学習では、ラージコアマシンではメモリが足りず、ミディアム(kernelTrickMode パラメータ <- 2)を使用しました。1列100万回の繰り返しは待てないので、10000回にしました(iterPerColumn <- 10000)。
常にタスクがある :)
アーカイブにはtrain.csvとtest.csvという2つのファイルがあります。
残念ながら、私のRARアーカイブは解凍されないのです。IMHOでは、すべてをZIPにまとめたほうがいいと考えています。すべてのプラットフォームでZIPファイル用のアンパッカーがあります。また、RARを使用しないユーザーも多い。
また、YuriのVMRモデルをRに移植したのも、このアプリの中です。ノイズ予測器を使った私のデータを取ってみると、トレーニングデータでエラー30%、テストデータでエラー60%、つまり奇跡は起きず、モデルは再トレーニングされました。おそらく移植コードのバグだと思いますが、もし矛盾を発見したら教えてください。
ぜひ調べてみます。でも、Rのことはよく知らないんです。
移植は手動ですか、それとも何らかのオートマトンですか?
ノイズ除去のために主成分法を試す人がいるかもしれませんが、Dr.Traderの ように何千もの観測値を持つ予測因子では無理でしょう?
試してみてはいかがでしょうか。
ps.昔やってみたけど、何も面白くなかった。
私の研究の過程でいくつかのささやかな、しかし興味深い結果を得た、私は共有したいのですが、この "素晴らしい "フォーラムで私はどちらも添付する画像やファイルを追加することはできません、多分誰が何の問題を知っている?