トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1911

 
マキシム・ドミトリエフスキー
お前が勝手に作ったんだろ(笑)。100列ではなく、24列。自分でファイルを要求したくせに。間違いがない(と説明した)。300と多くの行は、私があなたに1年を与えたので、あなたの '発電機'は、カウントにウンチクを言わなかった)))。でも、続けてください。時間がなくて見終えていませんが、期待できるスタートです。詳しいレビューは後ほど。ビデオ形式で返信しなければならないようだ。
はい、マキシムすみません、あなたのトレーニングファイルではなかったのですが、メッセージの意味は明確だと思います。24本のカラムでは、2000個のベクトルを説明することはできません。物理的に無理なんです...。
 
Mihail Marchukajtes:

私は24リーグを取る7700コラムの汚いファイルを持っているので、先に進まず、こちらをご覧ください。これがあなたのファイルです。

そして、これが私のものです。

何が違うんだ?もう、待たせませんよ。主成分分析では、各列が独自の座標系である場合、異なる列からの点を同じ座標系にプロットできるように、それらをクラスタリングできることが重要である。通訳は簡単です。縦と横のベクトルが多いほどカッコいい。あるのは、ぶっきらぼうに均一なスポットです。

少し考えてみると、基本的にはベクトル間の角度が相関を示す(90g=相関0)。インクリメンタルラグのフィード、そこには相関はないでしょう、ホワイトノイズのようなものです。

50個の学習用サンプル(50行)でやってしまうというのは驚きで、それだけグリッドを浅くしなければならないのです。データを記述できる不要な機能(理想は1つまで)を排除するためには、多くの例が必要です。

 
Mihail Marchukajtes:
はい、マキシムすみません、あなたのトレーニングファイルではありませんでしたが、メッセージは明確だと思います。24列では、繰り返しのない2000個のベクトルを説明することはできませんね。物理的に無理なんです...。


次回はダンスをやります。

 
マキシム・ドミトリエフスキー

次回は踊ります。

vtreetはrsaを使っていないので、全然関係ないんですけどね。私自身は、彼らが何をしているのか理解していません。

文字欠けなどの前処理をする、新しい機能を作るが機能誘導として位置づけない、機能としてカウントするが機能選択として位置づけないなど、何がどうなっているのか、どう動いているのかがわからない。



PCAはリニアだから、そこでプツッと切れたものはゴミ箱に 捨てればいい」ということについて。

新しいデータのPCA分解から、+-98%の精度で価格が分かるに違いない。

証明できるんだから、ここが間違ってる、たぶんリニアだと冷静に判断できる、そうでなければ回収しない。

 
マキシム・ドミトリエフスキー


今度こそ踊ろう

一般的には、列が入力(説明変数)、行が学習ベクトルまたは例であるという用語に同意します。ある種の学習アルゴリズムでは、行数が列数より少ない場合はこれが重要であるが、行数が列数より多い場合は、ほぼ同一の例が得られるため、モデルが過学習領域に引き込まれる可能性がある。350の例(行)を24の説明変数(列)で記述し、繰り返しを避けることは不可能である。

私はPCAを一般的に使うことは一切なく、あくまで他のユーザーの例として挙げただけです。出来上がったセットを分割可能な範囲で評価するのに利用できます。


P.S. ポッド...ファック・ウィズ・ザ・ソングがクレジットされています。よくぞ言ってくれました。

 
だから、理論的には、列と行の数が同じであれば、一番カッコいい行列は正方形の行列なんだけど......。ふむふむ...。ちなみに、これによって、前処理後に同じ数の列が残るような学習用の例をできるだけ多く取るようにしよう...というアイディアが生まれました。それは考えものだ...。そうなんです正方形の行列は100%リピートがない...。
 
Mihail Marchukajtes:

一般的には、列が入力(説明変数)、行が学習ベクトルまたは例であるという用語に同意します。ある種の学習アルゴリズムでは、行数が列数より少ない場合はこれが重要で あるが、行数が列数より多い場合は、ほぼ同一の例が得られるため、モデルが過学習の領域に入って しまう可能性がある。350の例(行)を24の説明変数(列)で記述し、繰り返しを避けることは不可能である。

私はPCAを一般的に使うことは一切なく、あくまで他のユーザーの例として挙げただけです。出来上がったセットを分割可能な範囲で評価するのに利用できます。


P.S. ポッド...ファック・ウィズ・ザ・ソングがクレジットされています。よくぞ言ってくれました。

クラスのラベルが大きく異なる場合のみ(クラスがバランスしていない場合)。

私はあなたを無駄に苦しめました 最も有名なマジシャンであり魔法使いです ))))

 
Mihail Marchukajtes:

同じ例題に近づくと、モデルは過学習の領域に引きずり込まれます。

この「類似の例」こそが、統計的に有意な構造を生み出すのです。統計学とは何か? 何かが繰り返され、そこから結論を導き出すことです。

Mihail Marchukajtes:

350の例(行)を24の説明変数(列)で記述し、繰り返しを避けることは不可能である。

繰り返しの何がいけないのか ?

 
mytarmailS:

この「同じ例」こそが、統計的に有意な構造を生み出すのです。統計学とは何か? 何かが繰り返され、そこから何らかの結論を導き出すことです。

繰り返しで何が悪い?

嘘には、「嘘」「見え透いた嘘」「統計」の3種類があります。- マーク・トウェイン

繰り返しは暗記学習につながるので、ネットワークを汎化する必要があります。つまり、新しいベクトルが現れたときに、ネットワークが期待通りの反応をするように、1つのユニークなベクトルを供給する必要があるのです。セットに近いベクトル群が含まれていると、ネットに記憶されない......。

言い換えれば、アルゴリズムは、この2つの近接したベクトルに不当に高い重み付け係数を割り当ててしまう......ということだ。

 
マキシム・ドミトリエフスキー

クラスラベルの数値が大きく異なる場合のみ(クラスがバランスしていない場合)

無駄に苦労してきた...最も有名な魔術師、魔法使い ))))

もともと2クラスで、それ以上はないという話です。3つ以上のクラスがある場合、行が列よりも多いユニークなベクトルのテーブルを作成 することは可能ですが、そのユニークさはターゲットによって排他的に定義されることになります。
理由: