Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
ディープ ニューラル ネットワークの事前トレーニングと微調整におけるこの進歩は、音声認識に大きな影響を与え、この分野の改善につながりました。 Microsoft Research を含む多くの研究者やグループは、音声認識タスクにディープ ニューラル ネットワークを採用し、このアプローチによって可能になった成功と進歩を挙げています。
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
講義 12.3 — 制限付きボルツマン マシン
講義 12.3 — 制限付きボルツマンマシン [機械学習のためのニューラルネットワーク]
ボルツマン マシンは、隠れユニット間に接続がない単純化されたアーキテクチャを備えているため、可視ユニットが固定されている場合の隠れユニットの平衡分布を簡単に計算できます。ボルツマン マシンの学習アルゴリズムは遅いですが、制限されたボルツマン マシン (RBM) の効率的な学習アルゴリズムにつながる近道が 1998 年に発見されました。 RBM の接続は制限されており、非表示ユニットが 1 層あり、非表示ユニットまたは表示ユニット間には接続がありません。 RBM アーキテクチャは、ユニットごとに独立した計算を行う 2 部グラフです。
ショートカットを使用すると、表示されているユニットと非表示のユニット間の接続の期待値を並行して迅速に計算できます。 2008 年に導入された RBM の学習アルゴリズムには、可視ユニットにデータ ベクトルをクランプし、接続の期待値を計算し、ミニバッチ内のデータ ベクトル全体で平均化することが含まれます。ネガティブ フェーズでは、ファンタジー パーティクル (グローバル構成) を使用して各パーティクルを数回更新し、接続の期待値がファンタジー パーティクル全体で平均化されます。このアルゴリズムは、バイナリ ベクトルの適切な密度モデルを構築します。
RBM 用の別の学習アルゴリズムは高速ですが、密度モデルの構築にはそれほど効果的ではありません。これには、表示ユニットと非表示ユニットの間で更新のチェーンを交互に実行することが含まれます。学習ルールは、チェーンの最初と最後の接続の期待値の差に基づいて重みを更新します。熱平衡に達するまでチェーンを長時間稼働させる必要はありません。短いチェーンでも効果的な学習が可能です。
マルコフ連鎖がデータから離れて平衡分布に向かうため、ショートカットが機能します。重みを変更して再構成の確率を下げ、完全な 1 ステップ後のデータの確率を上げることで、チェーンがデータから遠ざかるのを防ぎます。データと再構成が同じ分布を持つ場合、学習は停止します。グローバル コンフィギュレーションの空間内のエネルギー面は、学習中にデータ ポイントでのエネルギー最小値を作成するように変更されます。
ただし、データから遠い領域ではショートカットは失敗します。状態を記憶し、追加の更新を受ける永続パーティクルは、この問題の解決に役立ちます。速度と正確性の間の妥協策は、小さな重みから開始し、重みが大きくなるにつれていくつかのステップ (CD-1、CD-3、CD-5 など) でコントラスト発散 (CD) を使用することです。このアプローチでは、マルコフ連鎖の混合率が減少しても効果的な学習が維持されます。
このアプローチを使用すると、制限付きボルツマン マシン (RBM) の学習アルゴリズムは速度と精度のバランスが取れます。小さなウェイトから開始し、ウェイトが徐々に増加するにつれて、CD-1 などの少数のステップでコントラスト発散 (CD) を利用します。この戦略により、マルコフ連鎖の混合速度が遅くなった場合でも、学習プロセスが適切に機能し続けることが保証されます。
モデルが優先するが実際のデータ ポイントからは遠いデータ空間の領域を考慮することが重要です。低エネルギーホールとして知られるこれらの領域は、正規化項に問題を引き起こす可能性があります。これに対処するには、永続的パーティクルと呼ばれる手法を使用できます。永続パーティクルはその状態を保持し、ウェイトが更新されるたびに追加の更新を受けます。そうすることで、これらの低エネルギーの穴を探索し、最終的に埋めることができ、モデルのパフォーマンスが向上します。
ショートカットと、さまざまなステップ数の CD や永続粒子の使用などのさまざまなテクニックを使用した RBM 学習アルゴリズムにより、効率的な学習とバイナリ ベクトルのセットの実効密度モデルの構築が可能になります。このショートカットは最尤学習から逸脱し理論的な制限がありますが、実際にはうまく機能することが証明されており、ボルツマン機械学習への関心が再び高まっています。
講義 12.4 — RBM 学習の例
講義 12.4 — RBM 学習の例 [機械学習のためのニューラル ネットワーク]
このビデオでは、手書きの 2 のモデルを学習する制限付きボルツマン マシン (RBM) の簡単な例を示します。モデルがトレーニングされたら、2 を再構築する能力を評価し、再構築する別の桁が与えられたときの動作を観察します。さらに、すべての数字クラスでより大きな RBM をトレーニングすることによって得られる重みを調べます。これは、さまざまな数字クラスの再構成とモデル化に効果的な幅広い特徴を学習します。
この例で使用される RBM には、2 の 16x16 ピクセル画像と、特徴検出器として機能する 50 個のバイナリ隠れユニットがあります。データ ケースが提示されると、RBM は重みとピクセルから特徴検出器への接続を使用して特徴検出器をアクティブ化します。各バイナリ ニューロンは、1 または 0 の状態を採用する確率的決定を行います。次に、RBM はこれらのアクティベーションを使用して、各ピクセルに対してバイナリ決定を行うことでデータを再構築します。重みは、データ処理中にアクティブ ピクセルとアクティブな特徴検出器の間の重みを増分し、再構成中に重みを減分することによって更新されます。
最初は、重みはランダムであり、再構成のエネルギーはデータよりも低くなります。数百の桁の例でのトレーニングと重みの調整を通じて、重みは徐々にパターンを形成します。多くの特徴検出器はグローバル検出器として開始され、トレーニングが進むにつれてよりローカライズされます。最終的な重みは、各ニューロンが異なる特徴検出器になっており、ほとんどの検出器は本質的にローカルであることがわかります。たとえば、特徴検出器は、2 の頂点が存在する場合は白ピクセルをアクティブにし、何もない場合は黒ピクセルをアクティブにすることにより、2 の頂点を検出できます。
モデルを学習した後、その再構築能力を評価できます。 2 つのテスト例を与えると、わずかにぼやけていますが、再構成は一般に忠実です。ただし、3 などの別の数字クラスからのテスト例を提供すると、RBM は 3 ではなく 2 に似たイメージを再構築します。この動作は、RBM が主に 2 に固有の特徴検出器を学習しており、他の数字の特定の特性に対する検出器が欠けているために発生します。
さらに、10 桁のクラスすべてでトレーニングされた、より大きな RBM の最初の隠れ層で学習された特徴検出器を紹介します。これらの特徴検出器は、さまざまなパターンを示します。斜めの線などの特定の特徴を検出するものもあれば、データの正規化によって導入された長距離または空間的な規則性を捕捉するものもあります。全体として、RBM は、入力データ内の特徴を表現および検出する複雑な方法を学習する機能を実証しています。
さらに、このデモンストレーションで使用される RBM は 500 個の隠れユニットで構成されており、10 桁のクラスすべてをモデル化できることを指摘しておきます。このモデルは、コントラスト発散と呼ばれる手法を使用して広範なトレーニングを受けています。その結果、多様な特徴検出器のセットを取得しました。
隠れ層の特徴検出器を調べると、興味深いパターンが観察されます。たとえば、青いボックスで示されている特徴検出器は、斜線の存在を検出するのに適していると思われます。一方、赤枠内の特徴検出器は独特の特性を示します。画像の下部に非常に近いピクセルをアクティブにすることを好み、下部から 21 ピクセル上に位置する特定の行のピクセルを嫌います。この動作は、桁の高さが 20 ピクセルを超えることができないというデータの正規化に起因します。その結果、正の重み領域でアクティブ化されたピクセルは負の重み領域で同時にアクティブ化することができなくなり、この長距離規則性が学習されることになります。
さらに、緑色のボックスで強調表示されている別の特徴検出器は、興味深い特性を示しています。縦ストロークのボトム位置を検出し、中間位置を無視した複数位置での検出が可能です。この動作は 2 進数の最下位桁に似ており、数値の大きさが増加するにつれてアクティブと非アクティブが切り替わります。これは、空間関係と位置の複雑な表現を開発する RBM の能力を示しています。
これらの例は、入力データから意味のある特徴を学習して抽出する RBM の能力を示しています。 RBM は、学習プロセス中に重みを調整することで、データのエネルギーを低く抑えながら、再構成により高いエネルギーを維持することを目指しています。この学習メカニズムにより、RBM は数字の画像を効果的にモデル化して再構築し、学習した表現で数字のグローバルな特徴とローカルな特徴の両方をキャプチャできるようになります。
講義 12.5 — 協調フィルタリング用の RBM
講義 12.5 — 協調フィルタリングのための RBM [機械学習のためのニューラル ネットワーク]
このビデオでは、特に Netflix の競争に関連して、協調フィルタリングにおける制限付きボルツマン マシン (RBM) のアプリケーションについて説明します。協調フィルタリングには、他の製品に対するユーザーの好みや他のユーザーの好みに基づいて、ユーザーがその製品をどの程度欲しがるかを予測することが含まれます。 Netflix のコンテストでは、参加者は、他の映画の評価に基づいて、ユーザーがその映画をどれだけ好きになるかを予測することが求められます。
このコンテストのトレーニング データは、50 万人のユーザーによる 1 万 8,000 の映画に対する 1 億件の評価を含む大規模なデータセットで構成されています。ほとんどの映画で評価が欠落しているという課題に取り組むために、RBM を使用するときに重要なトリックが採用されています。このトリックを利用することで、モデルを効果的にトレーニングでき、コンテストの優勝作品が示すように、実際に役立つことが証明されます。
協調フィルタリングに RBM を使用するアプローチには、各ユーザーをトレーニング ケースとして扱うことが含まれ、各ユーザーは映画の評価のベクトルとして表されます。各ムービーでは、バイナリ単位の代わりに、5 つの代替値を持つ表示単位 (5 ウェイ ソフトマックス) が使用されます。 RBM アーキテクチャは、ムービーを表す可視ユニットとバイナリの隠れユニットで構成されます。 RBM は、同じ映画を評価したユーザー間で重みを共有するため、重みの共有とパラメータの数の削減が可能になります。 CD (対比発散) 学習は、最初は CD1 を使用して、その後 CD3、CD5、および CD9 を使用して RBM をトレーニングするために適用されます。
RBM モデルは、協調フィルタリングで一般的に使用される行列分解法と同等のパフォーマンスを発揮します。ただし、異なるエラーが発生します。 RBM の予測と行列分解モデルの予測を組み合わせると、大幅な改善が得られます。 Netflix コンテストの優勝グループは、アンサンブルで複数の RBM モデルと行列因数分解モデルを利用して、より優れた予測を達成しました。
要約すると、Netflix コンテストの協調フィルタリングにおける制限付きボルツマン マシン (RBM) の適用には、映画を表す可視ユニットとバイナリの隠れユニットを持つ RBM を使用して、各ユーザーをトレーニング ケースとして扱うことが含まれていました。同じ映画を評価したユーザー間の重み付け共有を活用することで、RBM は大規模なデータセットを効果的に処理できます。
RBM は、CD1、CD3、CD5、CD9 の反復による CD 学習を使用してトレーニングされ、協調フィルタリングで一般的に使用される行列因数分解モデルと同様に実行されました。ただし、RBM と行列分解モデルを組み合わせることで、予測が大幅に改善されました。 Netflix コンテストの優勝作品は、アンサンブルに複数の RBM モデルと行列因数分解モデルを採用し、このアプローチの有効性を示しました。
協調フィルタリングでの RBM の利用は、数百万の評価を持つ Netflix データセットなど、大規模でまばらなデータセットを処理する能力を示しています。 RBM は、ユーザーと映画の関係をモデル化することで、正確な予測を行い、推奨システムを改善するための強力なツールを提供します。
協調フィルタリングにおける RBM の適用の成功は、機械学習および推奨システムの分野における RBM の有用性を示しており、アンサンブル アプローチを利用して予測精度をさらに向上させる可能性を強調しています。
講義 13.1 — バックプロパゲーションの浮き沈み
講義 13.1 — 逆伝播の浮き沈み [機械学習のためのニューラル ネットワーク]
このビデオでは、バックプロパゲーションの歴史について説明し、1970 年代と 1980 年代のバックプロパゲーションの起源と、1990 年代に人気がなくなった理由を強調しています。これは、バックプロパゲーションが複数の層の非線形特徴を処理できないために失敗したという一般的な考えに異議を唱えます。むしろ、その放棄の主な理由は、当時利用可能な限られたコンピューティング能力と小規模なデータセットでした。
バックプロパゲーションは、1960 年代後半のブライソンとホー、1974 年のポール ウォレス、1981 年のラマ ハートとウィリアムズ、1985 年のデビッド パーカーとヤンゴカーなど、さまざまな研究者によって何度も独立して発明されました。当初、それは特定のタスクではうまく機能しませんでしたが、研究者がそれを放棄する原因となっています。しかし、1986 年に、非線形特徴検出器の複数層を学習できる可能性を示す論文が発表されました。
1990 年代後半までに、ほとんどの機械学習研究者はバックプロパゲーションを諦め、代わりにサポート ベクター マシン (SVM) を支持しました。一般的な説明は、バックプロパゲーションが複数の隠れ層とリカレント ネットワークで困難を伴うというものでした。しかし、歴史的な観点から見ると、その失敗の本当の理由は、限られたコンピューティング能力と小さなラベル付きデータセットであり、そのためバックプロパゲーションが視覚や音声などの複雑なタスクで効果を発揮することができなかったのです。
機械学習タスクの種類が異なれば、要件も異なります。統計学では、ノイズを含む低次元データでは、真の構造をノイズから分離する必要があります。ベイジアン ニューラル ネットワークはこれにうまく対処できますが、バックプロパゲーションのような非ベイジアン ニューラル ネットワークはそれほど効果的ではありません。このようなタスクには、サポート ベクター マシンとガウス プロセスがより適しています。人工知能では、複雑な構造を持つ高次元データには適切な表現を見つける必要がありますが、バックプロパゲーションは複数の層と十分な計算能力を活用することで学習できます。
サポート ベクター マシンの制限については、サポート ベクター マシンがカーネル トリックを使用したパーセプトロンの拡張とみなされていることに注意して説明します。これらは、非適応機能と適応重みの 1 つの層に依存しています。彼らはうまく機能しますが、複数のレイヤーの表現を学習することはできません。このビデオでは、1995 年の歴史的文書にも簡単に言及しています。これは、バックプロパゲーションで訓練された巨大なニューラル ネットワークの理論的理解と将来の使用に関する、ラリー ジャッケルとウラジミール ヴァプニクの間の賭けです。最終的に、制限は理論的ではなく実際的なものであったため、賭けの両側が間違っていたことが証明されました。
1990 年代のバックプロパゲーションの失敗は、バックプロパゲーション本来の機能ではなく、コンピューティング能力と小規模なデータセットの限界に起因している可能性があります。これには依然として複雑なタスクを実行できる可能性があり、より大規模なデータセットとより強力なコンピューターが利用可能になったときに最終的に成功しました。このビデオでは、適切なアルゴリズムを選択する際に、さまざまな機械学習タスクとその特定の要件を考慮することの重要性を強調しています。
講義 13.2 — 信念の網
講義 13.2 — 信念ネット [機械学習のためのニューラル ネットワーク]
私は 1990 年代にバックプロパゲーションを放棄しました。これは、当時は不足していた多数のラベルに依存していたためです。しかし、私は、明示的なラベルをほとんど付けずに学習することで成功したことにインスピレーションを受けました。大規模なラベルを必要とせずに勾配降下学習の利点を維持するために、代替の目的関数を検討しました。生成モデルは、ラベルを予測するのではなく入力データをモデル化することを目的としており、この追求とよく一致しています。グラフィカル モデルは、離散グラフ構造と実数値計算を組み合わせた概念であり、統計と人工知能における有望なアプローチとして浮上しました。ボルツマン マシンは無向グラフィック モデルの初期の例でしたが、1992 年にブラッドフォード ニールは、ボルツマン マシンと同様のユニットを採用したシグモイド ビリーフ ネットと呼ばれる有向グラフィック モデルを導入しました。課題は、これらのシグモイド信念ネットをどのように学習するかということでした。
シグモイド信念を学習する中で、ネッツは複数の問題に遭遇しました。複数の隠れ層を持つ深層ネットワークでは、学習速度が遅いという問題がありました。重みの初期化が不十分であることがこの問題の原因であることが判明しました。また、バックプロパゲーションは次善の局所最適化に陥る傾向があり、これはかなり良好ではありましたが、深いネットにとっては最適とは程遠いものでした。凸最適化を可能にする単純なモデルに後退する可能性もありましたが、現実世界のデータの複雑さには対処できませんでした。これらの制限を克服するために、教師なし学習が解決策として登場しました。教師なし学習を使用することで、勾配法と確率的ミニバッチ降下法の効率性とシンプルさを重み調整に活用できます。ただし、入力と出力の関係ではなく、感覚入力の構造のモデル化に焦点が移りました。重みは、観察された感覚入力を生成する生成モデルの確率を最大化するように調整されます。
推論問題と学習問題という 2 つの主な問題が生じました。推論問題には、観測されていない変数の状態を推論することが含まれており、これらの変数が互いに独立していないことを前提として、これらの変数の確率分布を導出することが目的でした。学習問題には、ネットワークがトレーニング データを生成しやすくするために変数間の相互作用を調整することが含まれていました。それには、どのノードが他のノードに影響を与えるか、そしてその影響の強さを決定する必要がありました。
グラフィカル モデルとニューラル ネットワークの融合には、独特のダイナミックさがありました。初期のグラフィカル モデルは、推論問題を解決することを目的として、専門家が定義したグラフ構造と条件付き確率に依存していました。一方、ニューラル ネットワークは学習を優先し、知識を手作業で配線することを避けました。ニューラル ネットワークには、推論を容易にするための解釈可能性と疎な接続性が欠けていましたが、トレーニング データから学習できるという利点がありました。ただし、信念ネットのニューラル ネットワーク バージョンが開発されました。理想化されたニューロンを使用して生成モデルを構築する場合、エネルギーベースのモデルと因果モデルの 2 つのタイプが現れました。エネルギーベースのモデルはバイナリ確率ニューロン間の対称接続を利用し、その結果ボルツマン マシンが誕生しました。ボルツマン マシンの学習は困難であることが判明しましたが、接続を制限することで、制限されたボルツマン マシンの学習が容易になりました。ただし、このアプローチでは、複数の隠れ層を備えたニューラル ネットワークの能力が制限されました。バイナリ確率ニューロンを使用した有向非巡回グラフを使用した因果モデルは、シグモイド ビリーフ ネットを生み出しました。 1992 年にニールは、シグモイド信念ネットがボルツマン マシンに比べて学習が若干容易であることを実証しました。シグモイド ビリーフ ネットでは、すべての変数はバイナリの確率的ニューロンであり、データ生成にはレイヤーごとに確率的決定を行うことが含まれ、最終的には目に見える値の不偏サンプルが生成されます。
因果モデルまたはハイブリッド アプローチを採用することで、バックプロパゲーションの限界を克服し、教師なし学習を活用して感覚入力の構造を効果的にモデル化することができます。
ニューロンで構成される因果関係の信念ネットについて詳しく説明する前に、人工知能 (AI) と確率の関係について背景を説明することが不可欠です。 1970 年代から 1980 年代初頭にかけて、AI コミュニティ内では確率に対して強い抵抗がありました。確率は不利であると考えられ、AI 研究者は確率的要素を組み込まずに離散的なシンボル処理を好みました。しかし、注目すべき例外はジョン・フォン・ノイマンであり、彼は形式論理と熱力学、特にボルツマンの研究との間の関連の可能性を認識した。残念ながら、フォン・ノイマンの考えは彼の生涯に支持を得ることができませんでした。
最終的に、グラフ理論と確率理論を組み合わせたグラフィカル モデルの開発を通じて、確率が AI に取り入れられるようになりました。 1980 年代、AI 研究者は医療診断や鉱物探査など、不確実性を伴う実際的な問題に取り組んでいました。確率に対する嫌悪感はありましたが、確率を使用する方がその場限りの方法より効果的であることが明らかになりました。 Perl Hackerman Lauritzen らによって導入されたグラフィカル モデルは、不確実性を表現し、グラフ構造に基づいて確率的計算を行うためのフレームワークを提供しました。
グラフィカル モデルにはさまざまなタイプのモデルが含まれており、そのサブセットの 1 つが信念ネットです。信念ネットは、確率変数で構成される有向非巡回グラフです。これらのグラフには疎に接続されたノードが含まれることが多く、観測されていないノードの確率を計算する効率的な推論アルゴリズムが可能になります。ただし、これらのアルゴリズムは、高密度に接続されたネットワークに適用すると、指数関数的に複雑になります。
信念ネットは生成モデルとして機能し、その推論問題には、観測されていない変数の状態を決定することが含まれており、その結果、これらの変数にわたる確率分布が得られます。学習問題は、観察されたトレーニング データを生成する可能性を高めるために変数間の相互作用を調整することに焦点を当てています。
ニューラル ネットワークのコンテキストでは、グラフィカル モデルとニューラル ネットワークの間にはつながりがあります。初期のグラフィカル モデルは、専門家が定義したグラフ構造と条件付き確率に依存し、主に推論問題に対処していました。一方、ニューラル ネットワークはトレーニング データからの学習を重視し、手作りの知識を避けました。ニューラル ネットワークには解釈可能性と疎な接続性が欠けていましたが、学習による適応性という利点がありました。
理想化されたニューロンを使用して生成モデルを構築するには、2 つの主なタイプを考慮できます。ボルツマン マシンなどのエネルギーベースのモデルは、バイナリ確率ニューロンを対称的に接続します。ただし、ボルツマン マシンを学習するのは困難です。もう 1 つのオプションは、バイナリ確率ニューロンで構成される有向非巡回グラフを利用する因果モデルです。 1992 年にニールは、ボルツマン マシンよりも学習が容易なシグモイド ビリーフ ネットを導入しました。シグモイド ビリーフ ネットは、すべての変数がバイナリ確率ニューロンである因果モデルです。
シグモイド信念ネットのような因果モデルからデータを生成するには、確率論的な決定が層ごとに行われ、最上層から開始して目に見える効果までカスケードダウンします。このプロセスにより、ニューラル ネットワークの信念に従って、可視値の偏りのないサンプルが得られます。
教師なし学習を採用し、因果モデルまたはハイブリッド アプローチを利用することで、バックプロパゲーションの制限を克服し、教師なし学習の力を活用して感覚入力の構造を効果的にモデル化することができます。これらの進歩は、ディープ ニューラル ネットワークによってもたらされる課題に対処するための有望な手段を提供し、より洗練された効率的な学習アルゴリズムへの道を開きます。
結論として、信念ネットとそのニューラル ネットワークへの接続の探求により、AI と確率的モデリングの新たな可能性が開かれました。 AI における確率に対する初期の抵抗は克服され、グラフィカル モデルは不確実性を表現し、確率的な計算を行うための強力なフレームワークとして登場しました。
信念ネット、特にシグモイド信念ネットは、ボルツマン マシンのようなエネルギーベースのモデルと比較して、生成モデリングへの代替アプローチを提供します。有向非巡回グラフとバイナリ確率ニューロンを利用することにより、シグモイド ビリーフ ネットはデータを生成し、トレーニング セットからより効果的に学習する手段を提供します。
教師なし学習と因果モデルまたはハイブリッド アプローチを統合すると、ディープ ニューラル ネットワークにおけるバックプロパゲーションの制限に対処できる可能性があります。これらのアプローチは、感覚入力の構造をモデル化し、観測データの確率を最大化することにより、現実世界のデータの複雑さを捉えながら、勾配法の効率性とシンプルさを活用する方法を提供します。
AI の進化と確率の採用によりこの分野が再形成され、研究者はより堅牢で適応性のあるモデルを開発できるようになりました。この旅が続くにつれて、確率モデリング、ニューラル ネットワーク、教師なし学習がさらに進歩し、より洗練されたインテリジェントな AI システムが実現される可能性があります。
グラフィカル モデルとニューラル ネットワークの長所を組み合わせることで、研究者は AI の限界を押し広げ、複雑で不確実な環境における理解、学習、意思決定の新たな可能性を解き放つことができます。
講義 13.3 — シグモイド ビリーフ ネットの学習
講義 13.3 — シグモイド ビリーフ ネットの学習 [機械学習のためのニューラル ネットワーク]
このビデオでは、シグモイド ビリーフ ネットを学習する際の課題について説明し、これらの課題に対処するための 2 つの異なる方法を紹介します。ボルツマン マシンとは異なり、シグモイド ビリーフ ネットでは学習に 2 つの異なるフェーズが必要ないため、プロセスが簡素化されます。これらはローカルに正規化されたモデルであるため、分割関数とその導関数を処理する必要がありません。
観測データが与えられた隠れユニットの事後分布から不偏サンプルを取得できれば、シグモイド ビリーフ ネットでの学習が容易になります。ただし、偏りのないサンプルを取得することは、事後分布に影響を与える「説明離れ」と呼ばれる現象により困難です。この現象は、観察された結果が発生するときの隠れた原因間の逆相関から発生します。
複数の隠れ変数層を含む深いシグモイド ビリーフ ネットでの学習はさらに困難になります。隠れ変数の最初の層の事後分布は説明が省略されているため階乗的ではなく、隠れ変数間の相関は事前分布と事後分布の両方に存在します。最初の層の事前項を計算するには、上位層で考えられるすべてのアクティビティのパターンを統合する必要があり、学習プロセスが複雑になります。
深い信念ネットを学習するための 2 つの方法、モンテカルロ法と変分法について説明します。モンテカルロ法では、マルコフ連鎖を実行して事後分布を近似し、サンプルを取得します。ただし、大規模で深い信念ネットの場合は遅くなる可能性があります。一方、変分法は、事後分布を近似する別の分布から近似サンプルを取得することを目的としています。不偏ではありませんが、これらのサンプルは最尤学習に使用でき、対数確率の下限を引き上げることにより、データのモデリングを改善できます。
シグモイド ビリーフ ネットでの学習は、特にディープ ネットワークで課題を引き起こしますが、モンテカルロ法と変分法は、これらの課題に対処し、学習を実行可能にするアプローチを提供します。
講義 13.4 — ウェイクスリープアルゴリズム
講義 13.4 — ウェイクスリープアルゴリズム [機械学習のためのニューラルネットワーク]
ウェイクスリープ アルゴリズムは、シグモイド ビリーフ ネットのような有向グラフィカル モデルに使用される学習方法です。これは、覚醒フェーズと睡眠フェーズの 2 つのフェーズで構成されます。無向グラフィカル モデルに使用されるボルツマン マシンとは異なり、ウェイクスリープ アルゴリズムはシグモイド ビリーフ ネット用に特別に設計されています。
このアルゴリズムは変分学習の一部であり、複雑なグラフィカル モデルを学習するために事後分布を近似する機械学習アプローチです。正確な事後分布を計算するのは困難な場合が多いですが、変分学習ではより安価な近似値を使用して事後分布を近似します。次に、この近似に基づいて最尤学習が適用されます。
驚くべきことに、学習プロセスは、観測データを生成するモデルの能力の向上と、実際の事後値への近似事後値のフィッティングという 2 つの要因によって依然として効果的に機能しています。この効果により、変分学習がシグモイド ビリーフ ネットに対して適切に機能することが可能になります。
ウェイクスリープ アルゴリズムは、生成重みと認識重みという 2 つの重みセットを利用します。ウェイクフェーズでは、データが可視レイヤーに供給され、認識重みを使用してフォワードパスが実行されます。確率的バイナリ決定は各隠れユニットに対して個別に行われ、確率的バイナリ状態が生成されます。これらの状態は真の事後分布からのサンプルとして扱われ、最尤学習が生成重みに適用されます。
睡眠段階では、このプロセスが逆になります。最上位の隠れ層のランダム ベクトルから開始して、生成重みを使用して各層のバイナリ状態が生成されます。目標は、データから隠れた状態を回復することです。認識重みはこれを達成するためにトレーニングされます。
ウェイクスリープ アルゴリズムには、認識重みが正しい勾配に従っていないことや、独立近似による不正確なモード平均化などの欠陥があります。こうした制限にもかかわらず、カール・フリストンのような一部の研究者は、これが脳の仕組みに似ていると信じています。しかし、将来的にはより優れたアルゴリズムが発見されるだろうと考える人もいます。
覚醒-睡眠アルゴリズムは事後分布を近似し、覚醒段階と睡眠段階を交互に切り替えて生成モデルを学習します。限界はあるものの、機械学習の分野では大きな影響力を持っています。
講義 14.1 — RBM を積み重ねることによる機能の層の学習
講義 14.1 — RBM を積み重ねることによる機能の層の学習 [機械学習のためのニューラル ネットワーク]
このビデオでは、講演者がシグモイド ビリーフ ネットを学習するための別のアプローチについて説明します。彼らは、シグモイド ビリーフ ネットに取り組んでいる間に、焦点をボルツマン マシンに移し、制限的なボルツマン マシンを効率的に学習できることを発見したと説明しています。彼らは、制限的ボルツマン マシンによって学習された特徴をデータとして扱うことで、別の制限的ボルツマン マシンを適用して、それらの特徴間の相関関係をモデル化できることに気づきました。これにより、複数のボルツマン マシンを積み重ねて複数層の非線形特徴を学習するというアイデアが生まれ、ディープ ニューラル ネットワークへの関心が再び高まりました。
次に講演者は、積み重ねられたボルツマン マシンを 1 つのモデルに組み合わせるという課題について検討します。多層ボルツマン マシンを期待する人もいるかもしれませんが、Yitay という名前の学生は、結果がシグモイド ビリーフ ネットワークにより似ていることを発見しました。この予期せぬ発見により、ボルツマン マシンのような無向モデルの学習に焦点を当てることにより、深いシグモイド ビリーフ ネットの学習の問題が解決されました。
講演者は、ピクセルから入力を直接受け取る特徴層をトレーニングし、それらの特徴の活性化パターンを使用して別の特徴層を学習するプロセスについて説明します。このプロセスを繰り返して複数のレイヤーを学習することができ、各レイヤーは下のレイヤーの相関するアクティビティをモデル化します。特徴の別の層を追加すると、データを生成する対数確率の変分下限が改善されることが証明されています。
ボルツマン マシンを 1 つのモデルに結合するために、スピーカーは各マシンを個別に学習し、それらを組み合わせて構成する手順を説明します。結果として得られる結合モデルはディープ ビリーフ ネットと呼ばれ、制限的ボルツマン マシンに似た最上位層とシグモイド ビリーフ ネットに似た最下層で構成されます。講演者は、ボルツマン マシンを積み重ねることの利点についても説明し、階乗分布の平均化の概念についても説明します。これらは、2 つの階乗分布を平均しても階乗分布が得られないことを示しています。このビデオでは、ボルツマン マシンをスタッキングし、ウェイクスリープ アルゴリズムのバリエーションを使用して複合モデルを微調整する学習プロセスをさらに詳しく説明しています。 3 つの学習段階には、生成重みと認識重みの調整、隠れたユニットと可視ユニットのサンプリング、およびコントラスト発散を使用した重みの更新が含まれます。
500 個のバイナリ隠れユニットを使用して、28x28 ピクセル画像内の 10 桁のクラスすべてを学習する例が示されています。 RBM をトレーニングした後、学習された特徴は認識タスクと生成タスクに使用されます。
このビデオでは、スタック型ボルツマン マシンを使用して深い信念ネットを学習するという予期せぬ発見に焦点を当て、関連する学習および微調整プロセスについての洞察を提供します。
講義 14.2 — DBN の識別学習
講義 14.2 — DBN の判別学習 [機械学習のためのニューラル ネットワーク]
このビデオでは、深い信念ネットワークを学習するプロセスを探ります。まず、制限的なボルツマン マシンを積み重ねて初期層を形成し、その後ディープ ニューラル ネットワークとして処理します。私たちは、クラス間の識別能力を向上させることを目的として、生成的な方法ではなく識別的な方法を使用してこのネットワークを微調整します。このアプローチは音声認識に大きな影響を与え、多くの主要グループがこの分野でのエラー率を減らすためにディープ ニューラル ネットワークを採用するようになりました。
ディープ ネットワークを微調整するには、スタックされた制限的なボルツマン マシンを使用して一度に 1 層の機能を学習する事前トレーニング フェーズに従います。この事前トレーニング フェーズでは、ディープ ニューラル ネットワークに適切な初期重みセットが提供されます。次に、ローカル検索手順であるバックプロパゲーションを使用して、識別のためにネットワークをさらに洗練し、最適化します。この事前トレーニングと微調整の組み合わせにより、従来のバックプロパゲーションの制限が克服され、ディープ ニューラル ネットワークの学習が容易になり、一般化機能が向上します。
事前トレーニングには、最適化と一般化の点で利点があります。特に各層が局所性を示す場合、大規模なネットワークに対して適切に拡張できます。広く離れた場所間の相互作用が少なくなるため、学習プロセスはより並列化されます。さらに、事前トレーニングにより、実用的な特徴検出器を使用してバックプロパゲーションを開始できるため、ランダムな重みと比較してより意味のある初期勾配が得られます。さらに、最終的な重みの情報の大部分は入力分布のモデル化から得られ、通常、ラベル自体よりも多くの情報が含まれるため、事前トレーニングされたネットワークは過学習が少なくなります。
事前トレーニングの使用は、目の前の識別タスクに無関係な特徴の学習につながる可能性があるという反対意見にも対処します。決して使用されない機能を学習することがあるのは事実ですが、現代のコンピューターの計算能力により、このような非効率性を許容できます。学習された機能の中には、生の入力を上回り、未使用の機能を補う非常に役立つものが常にあります。さらに、事前トレーニングにより、新しい特徴を発見するためのバックプロパゲーションの負担が軽減され、大量のラベル付きデータの必要性が軽減されます。ラベルのないデータは、トレーニング前の段階で優れた特徴を発見するために依然として価値があります。
事前トレーニングと微調整の有効性を説明するために、ビデオでは MNIST データセットのモデリングについて説明します。特徴の 3 つの隠れ層が完全に教師なしの方法で学習され、さまざまなクラスから現実的に見える数字が生成されます。識別におけるこれらの機能の有用性を評価するために、最終的な 10 ウェイ ソフトマックス層が追加され、微調整にバックプロパゲーションが使用されます。結果は、純粋な判別トレーニングと比較して、特に標準的なバックプロパゲーションが低いエラー率を達成するのに苦労している順列不変タスクにおいて、パフォーマンスが向上していることを示しています。
さまざまな実験により、事前トレーニングの利点が実証されています。事前トレーニングと微調整にボルツマン マシンのスタックを使用すると、順列不変 MNIST タスクのエラー率を 1.0% まで下げることができます。事前トレーニングされたボルツマン マシンの上に 10 ウェイ ソフトマックス レイヤーを直接追加することで、いくつかの調整を行うことでエラー率をさらに 1.15% まで改善できます。 Micro Yerin 氏と Yan Lecun 氏のグループの研究は、より多くのデータとより良い事前学習があれば、事前トレーニングが特に効果的であることを示しています。追加の歪んだ数字画像と畳み込みニューラル ネットワークを使用した彼らの実験では、エラー率が 0.39% という低さを達成し、音声認識の新記録を樹立しました。
ディープ ニューラル ネットワークの事前トレーニングと微調整におけるこの進歩は、音声認識に大きな影響を与え、この分野の改善につながりました。 Microsoft Research を含む多くの研究者やグループは、音声認識タスクにディープ ニューラル ネットワークを採用し、このアプローチによって可能になった成功と進歩を挙げています。
ディープ ニューラル ネットワークの事前トレーニングと微調整の成功により、音声認識を超えたさまざまなアプリケーションでニューラル ネットワークに対する新たな関心が高まっています。研究者たちは、コンピューター ビジョン、自然言語処理、その他の分野におけるディープ ニューラル ネットワークの可能性を探求し始めています。事前トレーニングと微調整の組み合わせは、階層表現を学習してニューラル ネットワークのパフォーマンスを向上させるための強力な手法であることが証明されています。
事前トレーニングが効果的である理由の 1 つは、特に深いネットワークを扱う場合に、従来のバックプロパゲーションの制限を克服するのに役立つことです。多くの層を持つ深いネットワークは、層間を伝播するにつれて勾配が減少する勾配消失問題に悩まされる可能性があり、ネットワークを効果的にトレーニングすることが困難になります。ネットワークを層ごとに事前トレーニングし、学習した特徴に基づいて重みを初期化することで、バックプロパゲーションの適切な開始点が提供され、より効率的な最適化につながります。
事前トレーニングのもう 1 つの利点は、入力データの意味のある階層表現をキャプチャするのに役立つことです。ネットワークの層は、ネットワークの奥深くに進むにつれて、ますます複雑で抽象的な機能を学習します。この階層表現により、ネットワークは識別に役立つ高レベルの特徴を抽出できます。入力ベクトルの分布をモデル化するためにネットワークを事前トレーニングすることで、学習された特徴がデータ内の重要なパターンと変動を確実に捕捉し、ネットワークの汎化パフォーマンスの向上に役立ちます。
生成的な事前トレーニングと識別的な微調整の組み合わせは、深層学習における一般的なパラダイムとなっています。教師なし学習の利点を活用して、有用な初期特徴を学習し、特定の識別タスク用のラベル付きデータを使用してそれらの特徴を微調整します。このアプローチはさまざまなアプリケーションで成功することが証明されており、パフォーマンスの画期的な進歩につながりました。
ディープラーニングの分野が進化し続ける中、研究者はディープ ニューラル ネットワークのトレーニングとパフォーマンスを向上させるための新しい技術とアーキテクチャを常に模索しています。事前トレーニングと微調整の成功により、事前トレーニングされたモデルが新しいタスクの開始点として使用される転移学習や、モデルが学習する自己教師あり学習など、他の分野の進歩への道が開かれました。データの特定の側面を予測することにより、ラベルのないデータを生成します。
結論として、事前トレーニングと微調整の組み合わせはディープラーニングの分野に革命をもたらしました。教師なし学習を利用して初期の特徴を学習し、次に教師あり学習を使用してそれらの特徴を改良することにより、ディープ ニューラル ネットワークはより優れたパフォーマンスと汎化機能を実現できます。このアプローチは、音声認識、コンピューター ビジョン、自然言語処理などのさまざまなアプリケーションに大きな影響を与え、ディープ ラーニングの分野の進歩を推進し続けています。
講義 14.3 — 識別微調整
講義 14.3 — 識別微調整 [機械学習のためのニューラル ネットワーク]
このビデオでは、ボルツマン マシンのスタックを使用してニューラル ネットワークを事前トレーニングした後の、識別微調整のプロセスを詳しく掘り下げます。微調整中、下位層の重みは最小限の変化しか受けませんが、これらの小さな調整は、決定境界を正確に配置することでネットワークの分類パフォーマンスに大きな影響を与えることがわかります。
また、事前トレーニングにより、浅いネットワークに比べて深いネットワークの有効性が高まります。事前トレーニングを行わないと、浅いネットワークは深いネットワークよりもパフォーマンスが高くなる傾向があります。ただし、事前トレーニングではこの傾向が逆転し、深いネットワークのパフォーマンスは向上しますが、事前トレーニングを行わない浅いネットワークのパフォーマンスは低下します。
さらに、弁別トレーニングを検討する前に生成トレーニングから始めるという説得力のある議論を提供します。一連のテスト ケースでネットワークの出力を比較し、t-SNE を使用して視覚化すると、2 つの異なるクラスが観察されます。上部の事前トレーニングなしのネットワークと下部の事前トレーニングのあるネットワークです。各クラス内のネットワークには類似点がありますが、2 つのクラス間に重複はありません。
事前トレーニングにより、ネットワークは小さなランダムな重みから開始する場合と比べて、質的に異なるソリューションを発見できます。生成的事前トレーニングを通じて見つかったソリューションは、関数空間内に個別の領域をもたらしますが、事前トレーニングを行わないネットワークはより大きなばらつきを示します。
最後に、なぜ事前トレーニングが正当化されるのかについて説明します。画像とラベルのペアを生成する場合、ラベルが画像内のピクセルだけではなく、現実世界のオブジェクトに依存する可能性が高くなります。ラベルに含まれる情報は限られているため、画像によって伝えられる情報はラベルの情報を上回ります。このような場合、まずワールドから画像への高帯域幅の経路を反転して根本的な原因を回復し、次に対応するラベルを決定することが合理的です。これにより、画像から原因へのマッピングを学習する事前トレーニング フェーズと、それに続く原因をラベルにマッピングするための識別フェーズが正当化され、画像から原因へのマッピングが微調整される可能性があります。
事前トレーニングの利点を説明するために、ヨッシー・バンジョーの研究室で行われた特定の実験を検討します。この実験は、生成的な事前トレーニング後の微調整に焦点を当てています。微調整する前、特徴検出器の最初の隠れ層の受容野は最小限の変化を示します。しかし、これらの微妙な変化は識別力の向上に大きく貢献します。
この実験には、歪んだ数字の大きなセット内の数字を区別することが含まれます。結果は、単一の隠れ層を持つネットワークを使用する場合でも、事前トレーニングを行ったネットワークは、事前トレーニングを行わないネットワークと比較して、一貫して低いテストエラーを達成することを示しています。事前トレーニングの利点は、より深いネットワークを使用する場合により顕著になります。事前トレーニングを行った深いネットワークは、浅いネットワークとの重複をほとんどまたはまったく示さず、ネットワークのパフォーマンスを向上させる事前トレーニングの有効性がさらに強調されます。
さらに、分類誤差に対する層の数の影響を調査します。事前トレーニングを行わない場合、レイヤー数をさらに増やすとパフォーマンスが大幅に低下するため、2 つのレイヤーが最適な選択であると思われます。対照的に、4 層のネットワークは 2 層のネットワークよりも優れているため、事前トレーニングではこの問題が軽減されます。誤差の変動が減少し、全体的なパフォーマンスが向上します。
トレーニング中のネットワークの重みの変化を視覚的に表現するために、t-SNE 視覚化が使用されます。事前トレーニングされたネットワークと事前トレーニングされていないネットワークの両方の重みが同じ空間にプロットされます。結果のプロットでは、2 つの異なるクラスが明らかになります。上部は事前トレーニングなしのネットワーク、下部は事前トレーニングありのネットワークです。各点は関数空間内のモデルを表し、軌跡はトレーニング中の類似性の進行を示します。事前トレーニングのないネットワークは、関数空間の異なる領域に配置されることになり、ソリューションがより広範囲に広がっていることを示しています。一方、事前トレーニングを行ったネットワークは特定の領域に集中し、ネットワーク間の類似性が高いことを示します。
重み設定が異なるネットワークでも同じ動作を示す可能性があるため、重みベクトルのみを比較するだけでは不十分です。代わりに、テスト ケースのネットワークの出力がベクトルに連結され、t-SNE が適用されてそれらの類似性が視覚化されます。 t-SNE プロットの色はさまざまなトレーニング段階を表し、類似性の進行をさらに示しています。
判別トレーニングの前に生成トレーニングを使用してニューラル ネットワークを事前トレーニングすると、いくつかの利点があります。決定境界を正確に配置することで分類パフォーマンスを向上させ、より深いネットワークの有効性を強化し、関数空間で明確なソリューションを提供します。ワールドから画像への高帯域幅のパスウェイと、ワールドからラベルへの低帯域幅のパスウェイを考慮することで、事前トレーニングにより、ラベルを決定する前に根本的な原因を回復できます。この 2 段階のアプローチにより、ニューラル ネットワーク トレーニングでの事前トレーニングの使用が正当化されます。