トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Mihail Marchukajtes 2016.07.25 19:10 #571

ユーリに質問があります。三項モデルの結果を把握する際、データを手入力すると、結果にダッシュ記号が表示されることがある。すなわち、0、1、ダッシュを持っています。では、ダッシュは何を意味するのか。

Dr. Trader 2016.07.25 23:08 #572

ジグザグはそうですが、ピボットポイントではなく、ジグザグが示すトレンド全体を分類してみました。結果は、現在のジグザグのトレンドが下降している場合は0、上昇している場合は1です。zzのトレンドはかなりアンバランスに見えますが、それで見切りをつけたわけではありません。気に入らないのは、このモデルは非常に高い精度が要求されることです。モデルがトレンドの中で一度や二度、間違ったタイミングで取引を回すと、たとえ1本のバーであっても、通常は追加の損失に加えて、スプレッドで毎回手数料を支払うことになります。このモデルは、取引を開始し、トレンドの終わりを待って、反転した場合にのみ利益を得ることができます。各トレンドの中で1つの誤差もなく。

トレンドではなく、次のバーを予測するのであれば、1回のエラーで失われるお金は少なくなるはずです。

次のバーを予測する場合、クラスのばらつきは現状で最小なので、あるクラスの+-10%が結果に大きく影響するとは思えませんので、バランス調整はしていません。

この記事の中で、バランシングは正しいモデル推定（F-measureまたはR-Precision）で置き換えることができると書かれています。これは、先にSanSanychがリンクした記事のロシア語版である。

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

...

しかし、この指標[precision]には考慮しなければならない特殊性がある。これはすべての文書に同じ重みを与えるが、訓練セットの文書の分布が1つ以上のクラスにシフトしている場合は、不正確な場合がある。この場合、分類器はこれらのクラスに関するより多くの情報を持っており、その結果、これらのクラス内ではより適切な判断を行うことができます。実際には、例えば80％の精度があっても、あるクラスでは分類器が全く働かず、3分の1も正しく定義できないという事態が発生します。

この状況を打開する一つの方法は、特別に訓練されたバランスの取れた文書コーパスで分類器を訓練することである。この解決法の欠点は、文書の相対的な頻度に関する情報を分類器から取り上げてしまうことである。この情報は、他のすべての条件が同じであれば、正しい判断をするために非常に便利です。

もう一つの解決策は、正式な品質評価へのアプローチを変更することです。

正確性・完全性

PrecisionとRecallは、ほとんどの情報抽出アルゴリズムを評価する際に使用される指標である。それ自体で使用されることもあれば、F-measureやR-Precisionなどの派生メトリクスの基礎として使用されることもある。正確さと完全性の本質は、とてもシンプルです。

あるクラスにおけるシステムの精度は、システムがそのクラスに割り当てたすべての文書に対する、そのクラスに本当に属する文書の割合である。完全性とは、テストサンプル中の全文書に対して、分類器が発見したクラスに属する文書の割合のことである。

....

Fメジャー

精度や完成度が高ければ高いほど良いことは明らかです。しかし、現実には最大限の正確さと完全性を同時に達成することは不可能であり、バランスを取る必要があります。ですから、アルゴリズムの精度と網羅性の情報を組み合わせた指標を用意したいと思います。この場合、どの実装を本番で起動するかを決めるのが容易になります（より多く持っている方が有利です）。これはまさにそのような指標であるF-measure1である。

Fメジャーとは、正確性と完全性の調和平均である。正確性や完全性がゼロになるなら、それはゼロになる傾向がある。

などなど、記事内には素敵なグラフがいろいろと掲載されています。

Mihail Marchukajtes 2016.07.26 03:41 #573

Dr.トレーダー

ジグザグはそうですが、ピボットポイントではなく、ジグザグが示すトレンド全体を分類してみました。結果は、現在のジグザグのトレンドが下降している場合は0、上昇している場合は1です。zzのトレンドはかなりアンバランスに見えますが、それで見切りをつけたわけではありません。気に入らないのは、このモデルは非常に高い精度が要求されることです。もしモデルがトレンドの中で一度や二度ミスをして、たった1本でも間違ったタイミングで取引を取り消すと、通常は追加の損失に加え、その都度スプレッドに手数料を支払うことになります。このモデルは、取引を開始し、トレンドの終わりを待って、反転した場合にのみ利益を得ることができます。各トレンドの中で1つの誤差もなく。

トレンドではなく、次のバーを予測するのであれば、1回のエラーで失われるお金は少なくなるはずです。

バランス調整はしていません。次の小節の予測については、クラスの広がりは最小で、1クラスの+-10%はあまり結果に影響しないと思っています。

この記事の中で、バランシングは正しいモデル推定（F-measureまたはR-Precision）で置き換えることができると書かれています。これは、先にSanSanychがリンクした記事のロシア語版である。

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

などなど、記事中に様々な素敵なチャートがあります。

ちょっとアドバイス。どんなシステムでも、ひとつの現象につながる。信号です!!!すべての条件の総和が共犯関係を導き出し、それが決定打となる。つまり、どんなに複雑なシステムでも、買いか売りかのシグナルにつながるのです。そこで、分類することをお勧めします。ワゴンの交差点。交差が起きれば買いシグナル、反対方向に交差すれば売りシグナル、3つ目はない。このように、学習間隔を2倍にしても、汎化率を維持することができます。当初、私のモデルは一般化率が40〜50％を超えることはほとんどありませんでしたが、データをどうすればいいのかが分かってからは、そのようなことはなくなりました。分類後に得られたモデルのポイントは何でしょうか。同じデータでも、今は70％以下、平均80～90％のモデルができ、将来的には未知のデータでも10～12分の1程度の誤差になると思います。これだけで、かなり儲かる。しかし、私はトレーニング区間の30％を信頼区間としています。例えば、私は100の買いシグナルと100の売りシグナルを取り、30または50のシグナル内で、あなたはモデルを再トレーニングすることなく作業することができます。予測器の最初のバージョンでは、6つの入力を約40分で最適化していましたが、これはあまり便利なものではありませんでしたが、今では9つの入力を10分で作っています。そして、そのことがモデルの質を高めているのです。さて、問題はこれだけのインプットをどこで見つけるかだ。しかし、私たちは暗闇の中にいるわけではありません。予言者に提供するものはまだあります :-)

Yury Reshetov 2016.07.26 05:53 #574

ミハイル・マルキュカイツ
ユーリに質問があります。三項モデルの結果を把握する際、データを手入力すると、結果にダッシュ記号が表示されることがある。すなわち、0、1、ダッシュを持っています。ダッシュってそういう意味なんですか？

ソクラテスの有名な言葉「私は知らないことを知っている」と同じです。3値分類器では、学習セットには分類されるパターンに類似した例がなく、したがってどのクラスにも明確に帰属させることができない、つまり提示されたパターンに肯定的な答えを与えることができないと、マイナスで答えます。答えの分からない質問に対して、ドヤ顔で積極的に答えようとするのではなく、知識の面で力量不足があることを素直に認めているのです。

Mihail Marchukajtes 2016.07.26 05:56 #575

ユーリー・レシェトフ

ソクラテスの有名な言葉「I know what I don't know」と同じである。3値分類器がマイナスと答えた場合，学習サンプルの中に分類対象のパターンに類似した例がなく，一義的に分類できない，すなわち提示されたパターンに対して肯定応答を与えることができないことを意味します．

ふむ。3元モデルをファイルにアンロードして、後でMKULで使えるようにすることは、当面可能なのでしょうか？バイナリーもそうですが、手入力だと間違う可能性もあるし、いろいろと......。

Yury Reshetov 2016.07.26 06:03 #576

ミハイル・マルキュカイツ
ふむ。なるほど、なるほど...。教えてください、3元モデルをファイルにアップロードして、後でMKULで使えるようにする可能性は当面ないのでしょうか？バイナリもそうだし、手入力だと間違える可能性もあるし、いろいろと......。

今、取り組んでいるところです。つまり、コード生成器はまだ完成しておらず、現時点では2値分類器のうち1つだけのソースを出力し、3値分類器全体のソースは出力しません。

Dr. Trader 2016.07.26 06:37 #577

ユーリー・レシェトフ

ソクラテスの有名な言葉「我知らず知る」と同じ意味である。3値分類器は、学習サンプルの中に分類されるパターンに類似した例がなく、どのクラスにも明確に帰属できない、つまり、提示されたパターンに肯定応答を与えることができないと、マイナスで答えます。答えの分からない質問に対して、ドヤ顔で積極的に答えようとするのではなく、自分の知識のある分野での適切な能力の欠如を正直に認める。

添付の写真から判断して、ポイントは合っているかな？左は2値分類器、右は3値分類器（白い部分が "マイナス "です）

もしそうなら、アイデアはいいと思います。なぜか今まで見たことがないのですが、三元分類の記事をいくつかアドバイスしていただけませんでしょうか。

これは後で完成させました。

直感的には、この作業はとてもシンプルです。2つの予測変数（XとY）があるとすると、2次元空間（上の写真のように）で作業する必要があることになります。そこで、すべてのクラス「buy」を含むような2次元空間を囲む必要がある（青色で塗りつぶす）。次に、すべての「売り」クラス（赤色）を含む2つ目のスペースを囲みます。2つのフェンスで囲まれたスペースは重なってはいけません。新しいデータを分類するには、目的の点がどの柵の中に入るかを調べればよい。もし、どこにも到達しない場合（右の図の白い部分）、そのポイントについてモデルが何も言えないことは明らかであり、その時点で取引を実行すべきではありません。

3つの予測変数があると、クラスがいくつかの3次元の体積図形で囲まれた3次元空間となります。等々、予測因子が多いほど多次元的な形状になる。

そのようなモデルは存在するのでしょうか？通常、分類器はクラスを分離する空間上の超平面を見つける。しかし、ここでは2つの閉じた超図形が必要である。

Dr. Trader 2016.07.26 06:56 #578

ミハイル・マルキュカイツ

...

最初のバージョンの予測器では、6つの入力が約40分で最適化され、非常に不便でしたが、今では9つの入力が10分で最適化されるようになりました。そして、それがモデルの質を高めることになったのです。さて、問題はこれだけのインプットをどこで見つけるかだ。しかし、私たちは暗闇の中にいるわけではありません。私たちは、まだ予知能力者に提供できるものがあります :-)

そうですね、私も厳密に買い/売りを分類しようとしています。しかし、どうやってオリジナルの6つの入力を手に入れたのでしょうか？何か既知の戦略から取っただけなのでしょうか？十分なインプットは、最も重要なことの一つです。逆に、私は何千ものエントリー（100本以上の価格と指標）を持っていて、数十本を残してふるいにかける必要があります。なぜなら、これほど多くの入力では、どんなモデルも過剰訓練になるからです。

Yury Reshetov 2016.07.26 07:37 #579

Dr.トレーダー

添付の写真から判断して、ポイントは合っているかな？

左が2値分類器、右が3値分類器（白い部分が "マイナス "です）

ダミーのためのプリミティブなら、ビジュアルエイドとしてやっていけるでしょう。

Dr.トレーダー
もしそうなら、いいアイデアだと思うのですが、なぜか今まで出会わなかったので、三元分類の記事をいくつかアドバイスしていただけませんか？

googleが禁止されていなければ、「三項分類器機械学習」というフレーズで検索してみてください。

Dr. Trader 2016.07.26 07:53 #580

ユーリー・レシェトフ

googleで禁止されていなければ、「三元分級器機械学習」で検索してみるとよいでしょう。

つまり、「私のウェブサイトにつながる最初のグーグルリンクを調べる」のです :)

私はそれを見つけた、あなたは2つのモデルの委員会を持っている、それは私が理解し、上に書いたものではありません。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 58

正確性・完全性

Fメジャー