トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

Yury Reshetov 2016.10.17 15:24 #1611

サンサニッチ・フォメンコ

ありがとうございます、読ませていただきました。

著者は楽観的すぎると思う。

オーバートレーニングの問題は、原理的に解決できない。

...

理論的には普遍的なラプラス決定性の観点から、例えば必要な因子がすべて事前に分かっていて、それに対する情報アクセスが可能であれば、解決可能である。しかし、実際にはこの「決定可能性」には多くの問題がある（すべての要因がわかっているわけではなく、また入手できるわけでもなく、入手できたとしてもノイジーな場合が多い）。

サンサニッチ・フォメンコ

...

私の考えでは、入力予測変数がまずノイズのものからクリアされないと、つまりターゲット変数と「無関係」 でないと、「粗視化」法は機能せず、予測変数の「重要度」の概念を使った他の手法も機能しません。

それは、あなたの信念によれば、そして私のjPredictionの経験による確認に基づけば、まさにあるべき姿のように思えますが？

しかし、悲劇は、すべての経験が上記の言葉を裏付けるわけではないことです。どのような機械学習の手法を用いるかによって、すべてが決まります。

例えば、Viktor TsaregorodtsevがBackPropagationを用いたニューラルネットワークの研究を行い、その結果に基づいて「Reduction of neural network size does not lead to increased generalization ability」という論文で全く逆の結論を出しているので、それを引用する。

"これは、ノイズの多い情報量の少ない特徴や 冗長なニューロンを排除する ことが必須であり、実際に有用 であるという見解と矛盾しています。"

つまり、すべての機械学習手法に対して例外なく一般的な結論を出すこと（一律にすること）は、全く無意味であることがわかったのである。このような「結論」は、ある手法では正しいが、ある手法では意図的な欠陥があることが判明することもある。

sibirqk 2016.10.17 15:24 #1612

ユーリー・レシェトフ

jPredictionのモデルの複雑さを増すということは、予測変数の数を徐々に増やしていくということです。なぜなら、jPredictionでは隠れ層のニューロン数は2^(2*n+1)で、nは予測子の数だからです。そのため、予測変数の数が増えれば増えるほど、モデルの複雑さ（隠れ層のニューロン数）は増していきます。

もし100の予測変数があるとしたら、あなたの計算式では隠れ層のニューロンの数は宇宙の原子の数にほぼ等しくなります（200の予測変数については考えるのも怖いです）。計算機と時間という、神のようなリソースを持っているようですね。

Yury Reshetov 2016.10.17 15:30 #1613

アンドレイ・ディク

CCは無知を貫きながら、非常に残念な例を挙げただけだ...。

他力本願とはどういう意味ですか？ボールと綿毛には、重力（重さ）の力と、体の半分の面積に分散した風の流れの力という、同じ力が作用しているのです。

...

アンドリューこのスレッドは、物理の問題ではなく、機械学習についてのものであることをお忘れなく。

このスレッドでは歓迎されない、気の抜けた話題ではしゃがないよう、ご配慮をお願いします。

そんなに物理の知識を自慢したいのなら、それ専用のスレッドを別に立ち上げてください。

特にあなたは賢い顔で比喩に挑戦しようとしているので、わざと愚かな立場に自分を置いているのです。

Andrey Dik 2016.10.17 15:33 #1614

ユーリー・レシェトフ

アンドリューこのスレッドは、物理の問題ではなく、機械学習についてのものであることをお忘れなく。

このスレッドでは歓迎されない、気の抜けた話題ではしゃがないよう、ご配慮をお願いします。

物理の知識を自慢したいなら、物理の別スレを立ててください。

比喩に挑戦するために賢い顔をして、自分をわざと馬鹿な立場に置こうとすればなおさらだ。

まあ、間違った例に基づく比喩に価値があるとお考えなら、これ以上口出しはしませんが。

申し訳ございません。そして、CCエクスキューズミー。

Yury Reshetov 2016.10.17 15:34 #1615

sibirqk

予測変数が100個あるとすると、あなたの計算式では隠れ層のニューロンの数は宇宙の原子の数に近いものになります（あえて200個の予測変数を考える必要はありません）。計算機と時間という、神のようなリソースを持っているようですね。

予知能力者が1万人いようが、関係ない。そのすべてが有益であるかどうかは定かではありません。つまり、jPredictionはその中から最も情報量の多いものをいくつか見つけ出し、徐々にモデルを複雑にしていくのである。一般化可能性が低下し始めるとすぐに停止します。

神頼みにはならない。普通のパソコンで十分です。

Yury Reshetov 2016.10.17 15:39 #1616

アンドレイ・ディク

なるほど、間違った例に基づく比喩に価値があると考えるなら、これからは口出ししないことにしよう。

申し訳ございません。そして、CCエクスキューズミー。

メタファーには、レトリックの成功にかかわらず、レトリックの価値以外の価値はない。そして、彼らをいじめるのは、モーヴェ・トンです。

もちろん、謝罪は受け入れた。

Andrey Dik 2016.10.17 15:46 #1617

ユーリー・レシェトフ
メタファーには、レトリックの成功とは関係なく、レトリック以外の価値はない。そして、彼らをいじめるのは、モーヴェ・トンです。

言ったことに価値がなければ、ボラボラになる。CCはボラボラのつもりじゃなくて、やり方が悪いんだと思う。

そして、比喩は、比較によって、ある考えをわかりやすい言葉で伝えたいときに使われる。つまり、ある例は政治家にとって良いものであり、他の例は核物理学者にとって理解しやすいものであるため、政治家と核物理学者はお互いを理解し、比較、比喩を使うのです。つまり、メタファーには明確な目的があるのだ--対談者の理解を容易にするために。

気にしないで、忘れてください。

Yury Reshetov 2016.10.17 15:56 #1618

アンドレイ・ディク

言ったことに価値がなければ、それはボラボラになる。CCはボラボラのつもりではなく、そのように仕組んだだけだと思います。

悪い喩えしかしていない。それがどうした？そのために壁際に追いやるのか？

私たちは皆、人間であり、時には間違いを犯すこともあります。

もうひとつは、そのせいでフラウブが多く、過度に話題の情報価値を下げていることです。そして、それじゃダメなんです。

СанСаныч Фоменко 2016.10.17 16:09 #1619

ユーリー・レシェトフ

理論的には、必要な要素がすべて分かっていて、情報的なアクセスが可能であれば、例えばラプラス普遍決定論で解決可能である。しかし、実際にはこのような「決定可能性」には多くの問題がある（すべての要因がわかっているわけではなく、また入手できるわけでもなく、入手できたとしてもノイジーな場合が多い）。

これは、あなたの信念によれば、そしてjPredictionを使った私の実験による確認に基づけば、まさにあるべき姿のように思えますが......？

しかし、問題は、すべての体験が上記の言葉を裏付けるわけではないことです。どのような機械学習の手法を用いるかによって、すべてが決まります。

例えば、Victor Tsaregorodtsev氏がBackPropagationを用いたニューラルネットワークの研究を行い、その結果、全く逆の結論に達したという論文「Reduction of neural network size does not lead to higher generalization ability」がありますので、それを引用します。

"これは、ノイズの多い情報量の少ない特徴や 冗長なニューロンの除去が 必須であり、実際に有用 であるという見解と矛盾しています。"

つまり、すべての機械学習手法に対して例外なく一般的な結論を出すこと（一律にすること）は、全く無意味であることがわかったのである。このような「結論」は、ある手法では正しいが、ある手法では意図的に間違っている可能性がある。

randomforestアルゴリズムの著者の最初の出版物を見ると、著者は真面目にrfは全くオーバートレーニングになりにくいと主張し、たくさんの例を挙げています。ランダムフォレストのパッケージ自体が、オーバートレーニングの疑いを少しでも排除するように作られているのです。

同時に、最も過学習なアルゴリズムがrandomforestである。個人的に火傷したことがあります。

私は、以下の方法によって得られた数字だけを信じています。

時間的に隣り合う2つのファイルを取り上げる。

最初のファイルをランダムにティーチング、テスト、バリデーションの3つのパートに分けます。

我々は、順番にアルゴリズムを教えるために使用されるトレーニングの部分と、評価の部分 - サンプルAOB - に教えますアウトオブサンプルと呼ばれています。ラーニングエラーが出るんです。我々はクロスバリデーションアルゴリズムによってALEのスライスを得る、つまり常に異なるものである。
最初のファイルのテスト部分と検証部分で学習済みモデルを確認する。
の場合、以前に学習したモデルを適用した場合の誤差を得ることができる。3つの誤差は近いはずです。

時間的に1つ目のファイルより遅れている2つ目のファイルへ移動します。

この2つ目のファイルに学習済みモデルを適用します。結果としての誤差は、3つの誤差と大きく異なるものであってはならない。

この結果、4つの誤差の値は互いにあまり 変わらない。

私にとっては、これがオーバートレーニングでない唯一の証拠です。そして、テスターでこの4つに近いエラーも出れば、交換することができるのです。

それが私の信じるすべてです。

圧倒的な数の機械学習の出版物は、セカンドファイルのアナログでテストされていません。その理由は些細なことです。このアルゴリズムは、時系列には適用されません。そして、ファイル番号1のランダムな分割で十分であることが判明したのです。そしてこれは、例えば手書き文字認識などでは、確かにそうです。

СанСаныч Фоменко 2016.10.17 16:22 #1620

私の比喩や類型化について。

私は応用数学を専攻して卒業しました。そして、先生たちは、私も他のクラスメートと同じように、どんな数学の道具も使いこなすことができると信じていたのです。そして、私の先生は、私たちの将来の仕事において、特定の道具が特定の実用的な問題に適用できるかという問題を 解決することが主要な問題だと考えていたのです。これは私がずっとやってきたことなのですが、どんな道具でも使いこなす．Rでは何百、何千とありますが、それが何か？

私の住所が荒らされてる...

荒らしに反論することは、荒らしに餌を与えることになるだけです。

もちろん、スレッドをきれいにするのはいいことだと思います。

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 162