Alexander Ezhov,Sergey Shumsky"Neurocomputing")によると、汎化誤差Popt=w^2/d(dはNSの入力次元、wはNSの全ての調整可能パラメータ数)が最小となる最適な長さが存在するという。つまり、この観点から、P<Poptの場合、NSは学習サンプルを「記憶」しているため、過学習となる。P>Poptの場合、長さが長いとトレンドが反転する可能性が高くなり、サンプル間の相関が低下するため、あまり良いとは言えません。
Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.
ここは、私自身も完全に理解しているわけではありません。
Alexander Ezhov,Sergey Shumsky"Neurocomputing")によると、汎化誤差Popt=w^2/d(dはNSの入力次元、wはNSの全ての調整可能パラメータ数)が最小となる最適な長さが存在するという。つまり、この観点から、P<Poptの場合、NSは学習サンプルを「記憶」しているため、過学習となる。P>Poptの場合、長さが長いとトレンドが反転する可能性が高くなり、サンプル間の相関が低下するため、あまり良いとは言えません。
一方、学習エポック数が過剰になるとNSが「引きずられ」、その結果、汎化誤差が再び大きくなり始めたり、大きくならなかったりする...。一般に、統計のセットを使って数値実験を行う必要がありますが、それ自体が非常に再帰的なのですでも、やらなければならないのです。学習ベクトルの最適な長さについて、上記の式を証明することで、事態はより簡単になります。gpwr、いじってみるか?
グラフを見ると
となると、いくつかの疑問が生じます。私の理解では、丸で囲った赤い線は、ランダムな初期重みを変えた複数の統計実験から得られた平均的な学習誤差です。丸印の青線は、未学習データに対する平均予測誤差である。そうだろ?細線は散らばりの範囲を示す。さて、質問です。
1.下の細い青線は、下の細い赤線と対応しているのでしょうか?つまり、学習誤差が最も小さい統計実験では、標本外予測精度が向上するのでしょうか?
2.学習誤差の広がりが0にならないので、学習がグローバルミニマムに達していない。
学習していないサンプルの予測がより正確になることを期待して、グローバルミニマムに到達する学習アルゴリズムを探すべきでしょうか。自分のグリッドを動かしてみて、どこでトレーニングを止めるかによって、予測に一貫性がなくなることを確認しています。同じエポック数1000を設定しても、同じ学習サンプルで実行した場合、予測値が異なるのです。半分は価格が上がる、もう半分は下がるといった予測です。それが不満なんです。非常に長く訓練すると、ネットワークはグローバルミニマムに近づき、異なる実行でその予測は同じになる。
最適なサンプル数については、これから考えてみます。簡単なことではありません。市場の統計や流通の変化の速さを知らなければならない。サンプル数を増やすと、網で牛を仮検出し、その過程で牛から亀に変わったという事態が発生します。やがてネットでは、ひづめのある角のあるカメという結論になる。サンプルの数を減らすと、例えばネットで牛の角だけを触らせたとすると、牛、ヘラジカ、ヤギ、シカなど、たくさんのバリエーションが生まれます。
サンプル数を増やすと、網が触手を使って牛を識別し、その過程で牛を亀に変えてしまう。その結果、ネットでは「ひづめのある角のあるカメ」と結論づけられている。サンプル数を減らすために、例えば牛の角だけをネットで触らせるとしたら、牛、ヘラジカ、ヤギ、シカなど、たくさんのバリエーションが考えられます。
+5 全く同感です。
しかし、あなたは、JejovとShumskyをめくってみてください。もしかしたら、証明に関するアイデアが得られるかもしれません。
丸印の青線は、生データに対する平均予測誤差である。正しいですか?
正解です。
1.下の細い青線は、下の細い赤線と対応しているのでしょうか?つまり、学習誤差が最も小さい統計実験では、標本外予測精度が向上するのでしょうか?
リソース重視のため、フル稼働の実験はしていません。でも、必要なことだと思うので、自分でもやってみようと思います。
追伸:gpwr さん、5年前に2層非線形NSのための修正OROアルゴリズム(出力あたり1ニューロン)の存在を証明し実装した2人のアメリカ人の仕事へのリンクをネットで見つけました。つまり、特殊な活性化関数を用いることで、(その特殊性はネットワークの演算能力に影響しない)新しいアルゴリズムによる学習速度は、古典的なOROを2桁以上上回ったのですこんなの見たことある?
+5 全く同感です。
ジェヨフやシュムスキーはフリックしたほうがいいけどね。もしかしたら、根拠となるアイデアが浮かぶかもしれませんよ。
そうですね。
リソース重視のため、フル稼働の実験はしていません。でも、必要なことだと思うので、無理にでも実施しようと思っています。
追伸:gpwr さん、5年前に1つの出力ニューロンで2層非線形NSのための修正OROアルゴリズムの存在を証明し実現した2人のアメリカ人の仕事についてネット上で言及したことがあります。つまり、特殊な活性化関数を用いることで、(その特殊性はネットワークの演算能力に影響しない)新しいアルゴリズムによる学習速度は、古典的なOROを2桁以上上回ったのですこのようなことに遭遇したことはないのでしょうか?
RFOにはいくつかのバリエーションがありますね。
QuickProp - 1988年、収束を早めるために2次微分が追加されました。
RProp - Resilient back-Propagation - 1993, Riedmiller, Germany, アルゴリズムのポイントは、勾配をその符号に置き換えることです。
iRProp - Improved RProp - 2000, Igel, German, 同じRPropだが、直前のエポックの学習誤差が大きくなるとネットワークが一歩下がる
SARProp - Simulated Annealing back-Propagation - 1998, Treadgold, Australian, グローバルな収束のために、前のエポックからの誤差が増加した場合、特定の条件でランダムなステップサイズを追加した。
JRProp - Jacobi RProp, 2005, Anastasiadis, 英国出身のギリシャ人、同じiRPropだが、誤差が大きくなったときの戻り方が少し違う。
GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, 各エポックにおいて最小の重みステップを選択し、不思議な式で置き換える。
全部試しました。RProp、iRProp、JRPropはほとんど同じように動作します。グローバルSARPropメソッド、GRPropメソッドが動作しない。これらのアルゴリズムに関する記事は簡単に見つけることができます。
ロシア語でご覧ください。
http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm
www.iis.nsk.su/preprints/pdf/063.pdf
ありがとうございます。見てみるよ。
この2人のアメリカ人は、単一出力のNSのためだけに高速なアルゴリズムを考え出しました。
2001i Proを 手に入れました。
昨日掲載したアロケーショングラフについて、簡単にコメントをお願いします。
まあ、当然ですね。
その通りです。1番目と3番目の図は、最後の図の統計が小さく、1番目の図のHが 小さいため、興味がわかない。ただし、2番目の図は代表的なものです。
Kagi分布(左図)については、分割段差Hより 小さい肩の長さがないこと(paralocus さんは、分割段差をポイントではなくスプレッドで測定するなど、dnansの変わった表現については、もちろん素晴らしいオリジナルですが・・・)、長さの増加とともに肩の長さの頻度が指数関数的に 減少していることが分かります。多くの取引について、前置詞+/-Hの 長さの出現頻度がほぼ帯状に分布し、H 以上の長さへの移行時に同じように指数関数的に減衰することが確認できる(右図)。このようなNSの入力データの表現(Нで正規化)は、正規化やセンタリングといった「狡猾な」手続きを必要としないので、ほぼ理想的だと思います(MOはゼロと等しい)。しかし、Cagi-representationの最適性については、まだ疑問が残ります。ここでは、問題を総合的に解決する必要があり、リンクの2つ目の重要なブロックがMMです。再投資を行わないTCの場合、Kagi-partitioningは確かに最適である。
要するに、MTテスターは、いくつかの入力(MA、ストキャスティクス、その他のTA指標)を持つブラックボックスであり、数え切れないほどの調整可能なパラメータ(MAの期間、最適振幅など)と、それをすべて内部に混ぜるための「トリッキーな」アルゴリズムを持っています。出力では、売り/買いまたはストップトレードの注文があります。過去のデータでTSの利益が最大となる条件で、最適なパラメータを選択できる最適化手順がある。何か思い出すことはありますか?その通り、TA指標とその処理の狡猾な(非線形)アルゴリズムを合わせて考えると、本質は多層ペプトロン活性化の非線形関数であり、ここにいる私たちは皆、長年、同じことをやっていることになる--NSの構築と教育だ!(笑)。ただ、この事実は明らかではないので、ストラテジーテスターを使用する上で多くの問題(フィッティング、発見された最適値の不安定さなど)を引き起こしています。フォーラムでは、多くの立派な方々が、暇さえあれば同じことをしていて、他に何もないように見えるのに、NSには懐疑的であることが多いようです考えてみてください。
もし本当にそうだとしたら、当然、AI用語の言語に移行する必要があります。長年にわたって私たちを苦しめてきたものから、多くのことが明らかになるはずです。例えば、履歴にテスターを当てはめると、単純に十分な長さ(バーの数ではなく、TCイベントすなわちトランザクションで測定)ではなく、同様に、調整可能なパラメータの数が過剰になります。収益性の不足-価格の線形変換を行う指標を使用している(市場イベント間の非線形相関が利用されていない)、など。もうひとつ重要なのは、ネットワークの演算能力が特定の種類の非線形性に依存しないことが、NSの理論で証明されていることです。このことから、TSにスマートで自明でない指標や価格系列処理のアルゴリズムを詰め込んでもあまり意味はなく、TSの述語的性質に大きな影響を与えることはできないことがわかる。しかし、一般化誤差を(TCの観点から)最小にすることは非常に重要で、そのためには、最適なヒストリカルデータの長さと指標の数を選択すれば十分なのです
要するに、全員が同じことをするわけで、ストラテジーテスターを 磨こうが、自分のネットワークを書こうが関係ない。大切なのは、自分たちが何をしているのか、なぜそうするのか、きちんと理解することです。
追伸:合成樹脂でちょっと寂しいペルゼプトロンを走らせてみました。
これは、分散がゼロになること(細い線)で示され、初期化重みの値を変えた実験の学習過程を特徴づけています。一方、汎化誤差(予測能力の逆数)は学習過程のある時点で再び大きくなり始め、ニューロンが知識を汎化する能力を失っていることを示す。右の図は、同じデータをバンプ軸にしたものです。学習の最適化がよくわかる。
テスターを磨いている」ときも、同じような感覚を持っていたのですが、実現には至らず......。-:)
しかし、今では一見シンプルだが、より機能的なアイデアが出てきている。昨日策定したもの。
Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.
つまり、あなたが書いたように、takeはstopに等しいということが実際に判明したのですここでひとつ、微妙な点があります。
もし、受け取った一連の取引の分布が、連続する肩の50%以上が異なる色になるようなものであれば、なぜNSなのか(ただ、聞いただけなので蹴らないでください。-:))
追伸:誤字を修正しました。