トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 3311

 
Aleksey Vyazmikin #:

コンパクトネス・プロファイル」を試したことのある人は?

この手法の目的は、サンプルから一貫性のない例を排除することで、K最近傍学習法を使用する場合、学習を改善し、モデルサイズを小さくすることです。

pythonでの実装は見つけられませんでした。

同じリンクに "profile "をクロスバリデーションにリンクさせるという話もあります。
 
Aleksey Vyazmikin #:

コンパクトネス・プロファイル」を試したことのある人は?

この手法の目的は、サンプルから一貫性のない例を排除することで、K最近傍学習法を使用する場合、学習を改善し、モデルサイズを小さくすることです。

pythonでの実装は見つけられませんでした。

この研究は実験的なものである。以下はhttp://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf からの引用である。

この研究は、RFBRプロジェクト05-01-00877、05-07-90410、OMN RASプログラムの枠組みの中で行われた。

各実験がパッケージとして作成されたとは考えにくい。

そうであり、実験は人工的なものである。明確にクラス分けされたデータセットにノイズが加えられた。そしてその明確な分離は、Y軸という1つの特徴によってのみ行われている。ノイズ(0.2から0.8までのすべてのデータ)を取り除くと、他のクラスとの距離が0.6以下でない例だけが残ることがわかります。写真で一番難しい3番目のオプションについて話している:


実世界に行き、この1つの作業フィッシュにノイズとなる5000個の予測変数を追加します。クラスタリングでは、この5001次元空間の点間の距離の合計を計算します。このカオスでは、0.6の作業は決して見つかりません。

、どの分類器でももっとうまくいくと思います。同じツリーは、この単一の特徴を見つけて、まず0.5で分割し、次に0.2と0.8の分割に到達し、純度100%の葉が続きます。

 
Aleksey Vyazmikin #:

生まれ変わってもりてはむみて、りてりてり

この手法の目的は、サンプルから一貫性のない例を排除することで、K最近傍学習法を使用する場合、学習を改善し、モデルサイズを小さくすることです。

I couldn't find an implementation in python....

Vladimir Perervenkoの記事の1つに、そのような方法が書かれていて、もちろんコード付きの例もありました。
 
Forester #:

作品は実験的だ。以下はhttp://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf からの引用である。

すべての実験がパッケージとして作成されたとは考えにくい。

それと、この実験は人為的なものだ。クラスごとに明確に分けられたデータセットにノイズが加えられた。しかも、明確に分離されているのは1つの特徴(Y軸)だけである。ノイズ(0.2から0.8までのすべてのデータ)を取り除くと、他のクラスとの距離が0.6以下でない例だけが残ることがわかった。つまり、写真の中で最も複雑な3番目の変形です:


実世界に行き、この1つの作業フィッシュにノイズとなる5000の予測変数を追加します。クラスタリングでは、この5001次元空間におけるポイント間の距離の合計を計算します。このカオスでは、0.6の作業は決して見つかりません。

、どんな分類器でももっとうまくいくと思います。同じツリーがこの単一の特徴を見つけて 、まず0.5で分割し、次に0.2と0.8の分割に達し、純度100%の葉が続きます。

しかし、それは決してありません。ゴミはモデルをトレーニングする前に取り除くべきです。"Garbage in - rubbish out "は統計学の法則 です。

 
СанСаныч Фоменко #:

どんなIOでも見つけることはできない。モデルを訓練する前に、ゴミを取り除かなければならない。 ゴミを入れ、ゴミを出す」というのが統計の 法則だ。

私は、実験が行われた具体的な人工的な例について話しているのだ。ゴミが入ってゴミが出るのではない。その例に散らばっているものは簡単に切り捨てられる。

 
これこそが、オプティマイザーたちが理解できないことなのだ。大域的な最大値を求めるのではなく、単純化することによって安定性を向上させることができるのだ。
最も単純な例は、サポートベクトル間の距離が与えられたSVMである。クロスシャフトはさらに柔軟である。そしてそこで、ハーフシートのためにmatstatを入力することができます。
最初からkozulに入れない人は、まずこのレベルで考えてみるといい。

オフトピック:スターフィールドをプレイしたことがありますか?Besdazdは雰囲気の作り方を知っている。没入感がある。
 
Forester #:

ー具体的なー実験のー実験がー。ー "ゴミが入って "ー "ゴミ "ー "ゴミ "ー "ゴミ "ー "ゴミ"。のフびてフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフフ

私の言いたいことを明確にすると

Any MO algorithm tries to reduce the error.エラー削減はゴミに対してより効果的であり、それはエラー削減に「都合の良い」値を持つ可能性が高いからである。その結果、ゴミに対する予測変数の "重要度 "は、ゴミでない場合よりも高くなることは確かです。これが、モデル・フィッティング自体よりもはるかに労力を要する前処理がある理由です。

 
СанСаныч Фоменко #:

私の言いたいことをはっきりさせておこう。

どんなMOアルゴリズムもエラーを減らそうとする。誤差削減のための "都合の良い "値はゴミの方がはるかに多いので、誤差削減はゴミに対してより効果的である。その結果、ゴミに対する予測子の "重要度 "は、ゴミでない場合よりも高くなることは間違いない。そのために前処理があるのですが、これはモデル・フィッティング自体よりもはるかに労働集約的です。

何が "ゴミ "ではないのでしょうか?純粋な入力データについて話している人を見たことがありません。でも、フォーラムではいつもゴミの話を聞いています。

それは何ですか?もしあなたがゴミについて話しているのなら、あなたはゴミを食べたことがないのでしょう。

 
СанСаныч Фоменко #:

私の言いたいことをはっきりさせておこう。

どんなMOアルゴリズムもエラーを減らそうとする。誤差削減のための "都合の良い "値はゴミの方がはるかに多いので、誤差削減はゴミに対してより効果的である。その結果、ゴミに対する予測子の「重要度」は、ゴミでない場合よりも高くなることは間違いない。これが、実際のモデル・フィッティングよりもはるかに労力を要する前処理がある理由です。

前処理は正規化であり、ゴミではない。
ゴミは特徴選択であり、部分的には特徴エンジニアリングである。

Sanych、未熟な人々の入力にゴミを投入するのはやめなさい。
 
Ivan Butko #:

何がゴミではないのか教えてください。クリーンな入力データについて話している人を見たことがない。しかし、フォーラムではいつもゴミの話を聞いている。

それは何ですか?もし、あなたがゴミについて話しているのであれば、あなたはゴミを食べたことがないということだ。

何がゴミで何がゴミでないかは誰にもわからない。

何が何であるか正確に分かっていれば、3Kページのスレッドは存在しない。)

このような限界を超えることは「ゴミ」であるという仮定を立てただけであり、この限界もまた仮説である。ある研究者にとってはゴミでも、別の研究者にとってはゴミではないのだ。エリオットの波のようなものだ。