ニューラルネットワーク - ページ 3

 
joo >> :

目標関数E(w1,w2)の最小化/最大化のポイントは、大域的な極限を見つけることである。そして、このような地球規模の極限状態が100万通りあるとしたら、NNがどれに該当するかは、私たちにとって何の違いもないのです。

ローカルミニマム/マキシマムのいずれかに引っかかると最悪です。しかし、それはもうNNの問題ではありません。最適化アルゴリズムの問題である。


gpwrによる記述-まさか。


すべてのローカルミニマムの深さが同じで、それゆえグローバルであれば、ネットワークの行き着く先はどれでもいいというのは、私も同意見です。しかし、ノイズの多い系列を含む単純化されたネットワークでは、表面E(w1,w2)の頂点にもローカルミニマムが存在します。そのため、谷に行き着くためには、初期値のバリエーションをいくつか変えた遺伝的最適化または勾配降下法が必要になります。私の例は、多数のローカルミニマムと複雑な(長い)学習過程をもたらす並列ニューラルネットワークの数学を説明することを意図したものです。この学習プロセスは、グローバル(遺伝的アルゴリズム、微分進化、粒子群最適化、アントコロニー最適化)およびローカル(勾配降下、共役勾配、Levenberg-Marquardt、BFGS)の異なる最適化技術を用いたいくつかのステップからなることが多く、長い時間を要します。

ニューラルネットワークの数学の基本はコルモゴロフの定理である。n個の変数の任意の連続関数x[1]...x[n]は、単位セグメントの連続単調マッピングの2n+1重ね合わせの和として表現することができる。


また、任意の連続関数は、無限テイラー級数として表現することができる。


べき級数は、テイラー級数の簡略版である。



未知の関数を冪級数で表現することは、ニューラルネットワークよりも数学的に単純である。以下、説明します。

1次の冪級数をとってみよう。


(1) y = f(x[1]...x[n]) = a[0] + sum(a[i]*x[i], i=1...n)である。


これは一次関数以外のものです。y,x[1],...,x[n] が同じ系列の項であれば、線形自己回帰(AR)モデルである。単層ニューラルネットワークも同じモデル(1)で記述される。

では、2次の冪級数をとってみましょう。


(2) y = f(x[1]..x[n]) = a[0] + sum(a[i]*x[i], i=1..n) + sum(b[i,j]*x[i]*x[j], i=1..n,j=1..n)


といった具合に。冪級数に基づくモデルの未知パラメータは、各入力 x[i] に対する関数 f(x[1]..x[n]) の偏導関数である係数 a[i],b[i,j],...である。モデルの出力はこれらの係数の線形関数である一方、出力はx[1]...x[n]の非線形関数である。モデル係数 a[i],b[i,j],... の発見は、ニューラルネットワークの学習と同様に、誤差の二乗和の最小化によって行われる。


E(a[i],b[i,j],...) = sum( (t[k]-y[k])^2, k=1...p)である。


しかし、ニューラルネットワークの場合は非線形最小二乗法、冪級数の場合は線形最小二乗法となり、それぞれの係数 a[i],b[i,j],... の微分 E(a[i],b[i,j],...)を求めてゼロと等化すればよい、という非常に単純な解法となります。未知数 a[i],b[i,j],... を持つ線形対称方程式系を求め、コレスキー法で解く。

コルモゴロフ法(ニューラルネットワーク)と比較した場合の冪級数法の利点は以下の通りです。

1.モデルの学習は、1回の繰り返しで済むので、より簡単で高速です。ニューラルネットワークは、さまざまな最適化手法を組み合わせて1000~10万回の繰り返しで学習させる。

2.つまり、局所的かつ大域的な最小値が1つだけ存在するのです。ニューラルネットワークの一貫した学習により、異なるローカル・ミニマム、したがって異なる重みの値が得られ、同じプロセス(時系列)の異なるモデルが得られる

以下は、「ノイズの多い」学習データ t[k] = cos(x[k]) + rnd を持つ冪級数 y = a*x + b*x^2 の表面 E(a,b) である。


ニューラルネットワークとは対照的に、ここでは最小値は1つしかないことに注意してください。

力級数に基づく非線形モデルの欠点は、力級数の次数の増加に伴い、その係数の数が急速に増加することである。nを入力数(x[1]..x[n])とする。係数の個数ncは数式で決定される。

順序 = 1, nc = n+1

order = 2, nc = (n+1)*(n+2)/2

order = 3, nc = (n+1)*(n+2)*(n+3)/6

order = 4, nc = (n+1)*(n+2)*(n+3)*(n+4)/24

...

例えば、12入力の3次プロセスモデルは、455の係数を持つ。その検索率は、重みの少ないニューラルネットワークの検索率よりもまだ高い。問題は冪級数の学習速度を遅くすることではなく、縮退を避けるためにモデルの係数の数を超えなければならない十分な数の学習セット x[1...n][k],t[k] を見つけることである。実際には、2次または3次の冪級数で十分な結果が得られる。

 
gpwr >> :

私はまだメッシュの経験が浅いので、権威あることは言えません。

が、掲示板のグリッドマニアは皆、線形ソルバー(連立方程式)を作ろうとしていると思います。

で、解に予測不可能性を持たせるために、入力と出力をループさせることで適合させるのです。


私は、反省し、他の人の行動を理解しようとすることで、あなたと同じ結論に達しました。

しかし、この方法で解くと、質問に答えられなくなります。

そして、これらの新しく届いたデータは、システムに根ざしたものではなく、これらはBUYかSELLなのです。

なぜなら、モデルを定義する機能がないからです。


は、塗られた部分にグリッドを教えてみてください。

この領域の座標を入力するとグリッドが1を生成し、塗られていない領域の座標を入力すると0を生成するようにTEを学習させたいと思います。

各ニューロンの出力には、訓練に応じた状態をとる分類器が必要です。

dより大きい場合はd、小さい場合はtrueとする(dはそれぞれ閾値)。(もし間違っていても、あまり厳しく判断しないでください)。

 
gpwr >> :

ニューラルネットワークを徹底的に研究し、勾配降下法から遺伝学まで、さまざまな学習アルゴリズムを使ってみた結果、ニューラルネットワークの数学的装置は完全ではないという結論に達しました。

理想を手にする必要はないのです。このことは、市場参入の信頼性を高めるために、どの程度の動きを省略してもよいかという問題と共鳴する。理想は100%、ジグザグに撮ることです;-)。実際には、多くの人にとって、各エッジで50%以上取ることは至難の業だろう。

情報量から判断すると、グリッドは有効です。曖昧さ問題は、設定、メッシュサイズ、その初期化を選択することで解決されます。原理的には、ローカルミニマムの問題も、アニーリングや同じ遺伝学的手法で解決される(そこで「悪い遺伝子」を受け入れる確率を選ぶのは、ローカルの谷から飛び出すのと同じではないか?)さらに、1つのネットだけでなく、ネットの委員会が仕事をしていることも忘れてはいけません。また、もっと広く見ると、教師支援学習によるフルバウンドの逆伝播グリッドにすべてが限定されるのではないのでしょうか?例えば、入力ベクトルに相場やシグナルを入れて、甲子園に送り込んでみるのはどうだろう。

 
gpwr писал(а)>>

安定した利益を生み出すネットワークをお持ちですか?

安定した利益」とはどういう意味だと思いますか?

 
marketeer >> :

完璧なものが手元になくても大丈夫です。これは、市場参入の信頼性を高めるために、何パーセントの動きを省略してもよいかという問題と呼応しています。理想は100%、ジグザグに撮ることです;-)。実際には、各エッジで少なくとも50%を取ることが、多くの人にとっての目標になるのでしょう。

入手可能な情報から判断すると、ネットは機能している。曖昧さを伴う問題は、構成、グリッドサイズ、その初期化の選択によって解決される。原理的には、ローカルミニマムの問題も、アニーリングや同じ遺伝学的手法で解決される(そこで「悪い遺伝子」を受け入れる確率を選ぶのは、ローカルの谷から飛び出すのと同じではないか?)さらに、1つのネットだけでなく、ネットの委員会が仕事をしていることも忘れてはいけません。さらに広く見ると、教師支援学習によるフルバウンドのバックプロパゲーショングリッドにすべてが限定されるわけではないのでしょうか?例えば、入力ベクトルに相場やシグナルを入れて、それを甲子園に供給してみるのはどうだろう。


あなたは私の推理の本質を誤解しています。私は、「学習不足」のネットワークと取引結果の相関性について話していたわけではありません。テスト対象のサンプルに対する誤差が減少しなくなるまでネットワークを学習させることが、いたるところに書かれています。それは私も同感で、議論する気はありません。私の推論の本質は、並列ネットワーク構造がいかにその最適化を困難にするか、そして、べき級数に基づく非線形モデルがいかにニューラルネットワークと同じ目的を達成することができるか、しかし、よりシンプルな数学装置と速い学習プロセスでユニークな結果を導き出すことができるかを示すことにあります。

ネットワークの委員会については、私の意見としては、「全部無駄だ」ということです。ここで、ネットワーク委員会を信じている人に質問です。あるネットワークが60%の確率で正しい信号を出すとする。別のネットワークでは、60%の確率で正しい信号が出ます。ここで、この2つのネットワークを組み合わせ、両方のネットワークで同時に受信した正しい信号を計算してみましょう。つまり、両方のネットワークが「買い」または「売り」を示していれば、それに対応する「買い」または「売り」シグナルが出されることになります。一方のネットワークが「買い」を示し、他方が「売り」を示した場合、シグナルは与えられない。これらの信号が正しい確率はどのくらいでしょうか?

同じ質問でも、違う言い方をすればいい。ある科学者の会合で、「火星に生命体がいるかどうか」を生物学的な観点からみんなで投票したとします。投票の60%が質問に正しく答える(ところで私は答えを知らない:)同じ質問に投票する他の科学者の会議を取るが、天文学的な観点から、それらの唯一の60%が正しいです。そして、2つの会議(生物学者と天文学者)を1つにまとめ、同じ質問をする。もし、奇跡的に正解率が60%以上に上がったというのであれば、統計学を勉強する必要がありますね。

 
gpwr писал(а)>>

あなたは私の推理の本質を誤解しています。私は、「鍛えられていない」ネットワークと取引結果の関係については話しませんでした。テスト対象サンプルの誤差が減少しなくなるまで、ネットワークを学習させなければならないと、いたるところに書かれています。それは私も同感で、議論する気はありません。私の推論の本質は、並列ネットワーク構造がいかにその最適化を困難にするか、そして、べき級数に基づく非線形モデルがいかにニューラルネットワークと同じ目的を達成することができるか、しかし、よりシンプルな数学装置と速い学習プロセスでユニークな結果を導き出すことができるかを示すことにあります。

ネットワークの委員会については、私の意見としては、「全部無駄だ」ということです。ここで、ネットワーク委員会を信じている人に質問です。あるネットワークが60%の確率で正しい信号を出すとする。別のネットワークでは、60%の確率で正しい信号が出ます。ここで、この2つのネットワークを組み合わせ、両方のネットワークで同時に受信した正しい信号を計算してみましょう。つまり、両方のネットワークが「買い」または「売り」を示していれば、それに対応する「買い」または「売り」シグナルが出されることになります。一方のネットワークが「買い」を示し、他方が「売り」を示した場合、シグナルは与えられない。それらの信号が正しい確率はどのくらいなのでしょうか?

同じ質問を別の方法で定式化することもできます。ある科学者の会合で、「火星に生命体がいるかどうか」を生物学的な観点からみんなで投票したとします。投票の60%が質問に正しく答える(ところで私は答えを知らない:)同じ質問に投票する他の科学者の会議を取るが、天文学的な観点から、それらの唯一の60%が正しいです。そして、2つの会議(生物学者と天文学者)を1つにまとめ、同じ質問をする。もし、奇跡的に正解率が60%以上に上がるというのであれば、統計学を勉強する必要があるのではないでしょうか。

これはあまり良い例ではありませんが...。

アルゴリズムによるコンポジション(委員会)を構築する方法はたくさんあります。あなたは投票を提案していますが、私の経験から言うと、ベストな方法とは程遠く、単純な重み付けが良い場合が多いようです。

自己相関 (FunkOsh[i]||FunkOsh[i+1]) は通常 0.8 以上で有意であり、基本アルゴリズムの誤差関数の相関は 1 となる傾向がある。委員会は、基本アルゴリズムが互いに補い合うと信じているが、どんな良いものでも誤差関数の間に相関がなかったことが必要である。

また、AdaBoostも忘れてはいけません。これは本当に効果があるのですが、それなりの落とし穴があるのです。

 
gpwr >> :

この掲示板のほとんどのニューロ作家が忘れているように、あなたも教師なしで学ぶことを忘れているのではないでしょうか(残されたコメントから判断して)。なぜ、トレーディングでNNを使う場合、NNに何かを教えなければならないのでしょうか?トレードのやり方は、自分では十分に教えられない。ネットワークの委員会というのは、それぞれのNNを独立して学習させるということでしょうか?また、なぜ互いに別々に信号を出すのでしょうか?NNを作るとき、さらに言えばNNの委員会を作るとき、唯一の正解は「先生がいなくても学べる」ことです。脳にはいくつかの部位があり、十数個の下位枝がある。それぞれが異なる機能を発揮し、外部の情報を処理している。そして、この「委員会」の主は、ある決断をする。なぜ、そんなことが可能なのか?ネットワークの委員会は、互いに関連して機能しなければならない、つまり複合体として機能しなければ、何も機能せず、「スプリットパーソナリティ」が発生してしまうからだ。

 
StatBars >> :

ちょっとだけ先だけどね :)

 
gpwr >> :

ネットワーク委員会について、私の意見は、「全部無駄だ」です。ここで、ネットワーク委員会を信じている人に質問です。例えば、あるネットワークが60%の確率で正しい信号を出すとします。別のネットワークでは、60%の確率で正しい信号が出ます。ここで、この2つのネットワークを組み合わせ、両方のネットワークで同時に受信した正しい信号を計算してみましょう。つまり、両方のネットワークが「買い」または「売り」を示していれば、それに対応する「買い」または「売り」シグナルが出されることになります。一方のネットワークが「買い」を示し、他方が「売り」を示した場合、シグナルは与えられない。それらの信号が正しい確率はどのくらいなのでしょうか?

同じ質問を別の方法で定式化することもできます。ある科学者の会合で、「火星に生命体がいるかどうか」を生物学的な観点からみんなで投票したとします。投票の60%が質問に正しく答える(ところで私は答えを知らない:)同じ質問に投票する他の科学者の会議を取るが、天文学的な観点から、それらの唯一の60%が正しいです。そして、2つの会議(生物学者と天文学者)を1つにまとめ、同じ質問をする。もし、奇跡的に正解率が60%以上に上がったというのであれば、統計学を勉強する必要がありますね。

正しい信号の確率 (0.6*0.6)/(0.6*0.6+0.4*0.4)=69.23%, これは理論上のものです)

科学者の集まりの例は誤り。確率から平均まで。

統計学も数学の楽しみの一つです :)

 
gpwr писал(а)>> テスト対象サンプルの誤差が減少しなくなるまで、ネットワークを学習させなければならないと、いたるところに書かれています。

実際はもっと複雑なんですけどね。テスト対象のサンプルで最小限の誤差になるように学習させると、過学習のネットワークになりやすい......。