Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
PCA では、n 個未満の数値を使用して n 次元データを表現することを目指しています。主方向と呼ばれる、分散が最も大きい m 個の直交方向を特定することにより、変動がほとんどない方向を無視します。これらの m 個の主方向は低次元の部分空間を形成し、n 次元のデータ点を低次元空間のこれらの方向に投影することによって表します。直交方向のデータ ポイントの位置に関する情報は失われますが、分散が小さいため重要ではありません。
m 個の数値を使用した表現からデータ ポイントを再構成するには、表現されていない方向 (n - m) の平均値を使用します。再構成誤差は、表示されていない方向のデータ ポイントの値とそれらの方向の平均値の差の二乗として計算されます。
バックプロパゲーションを使用して PCA を実装するには、主成分を表す m 個の隠れユニットを持つボトルネック層を持つニューラル ネットワークを作成できます。ネットワークの目標は、入力と再構成された出力の間の二乗誤差を最小限に抑えることです。隠れユニットと出力ユニットが線形の場合、ネットワークは PCA と同様に、再構成エラーを最小限に抑えるコードを学習します。ただし、隠れた単位は主成分に正確に対応していない可能性があり、軸の回転や歪みが発生する可能性があります。それにもかかわらず、コードユニットの入力重みベクトルが広がる空間は、m 個の主成分が広がる空間と同じになります。
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
Lecture from the course Neural Networks for Machine Learning, as taught by Geoffrey Hinton (University of Toronto) on Coursera in 2012. Link to the course (l...
講義 14.4 — RBM を使用した実数値データのモデル化
講義 14.4 — RBM を使用した実数値データのモデリング [機械学習のためのニューラル ネットワーク]
制限付きボルツマン マシン (RBM) を使用して実数値データをモデル化する方法について説明します。このアプローチでは、可視単位がバイナリ確率単位からガウス ノイズを伴う線形単位に変換されます。学習の課題に対処するために、隠れ単位は修正された線形単位として設定されます。
実数値データの RBM を学習するのは比較的簡単です。当初、RBM は手書きの数字の画像とともに使用され、確率は部分的にインクが塗られたピクセルによって引き起こされる中間強度を表していました。 0 から 1 の範囲のこれらの確率は、兵站ユニットがアクティブ化される可能性をモデル化しました。この近似は、技術的には正しくありませんが、部分的にインクが塗られたピクセルに対してはうまく機能しました。
ただし、実際の画像を扱う場合、ピクセルの強度は通常、隣接するピクセルの平均強度に近くなります。ロジスティック単位はこの動作を正確に表現できません。中途半端な現場の兵站部隊は、強度のきめ細かい差異を把握するのに苦労しています。これに対処するために、ガウス ノイズを含む線形ユニットを使用してピクセル強度をガウス変数としてモデル化します。
対照発散学習で使用される交互ギブス サンプリングは、マルコフ連鎖の実行に引き続き適用できます。ただし、不安定性を防ぐためには、学習率を小さくする必要があります。 RBM 方程式で使用されるエネルギー関数は、爆発を防ぐ放物線状の閉じ込め項と、可視ユニットと隠れユニット間の相互作用項で構成されます。
インタラクティブ項は、エネルギー関数に対する隠れたユニットの寄与を表します。この項を微分すると一定の勾配が得られます。放物線封じ込め関数と隠れユニットからのトップダウンの寄与の組み合わせ効果により、平均が可視ユニットのバイアスからシフトした放物線関数が生成されます。
ただし、ガウス バイナリ RBM での学習には課題が伴います。目に見える単位の厳密な分散を学習するのは困難です。目に見える単位の標準偏差が小さい場合、ボトムアップの効果は誇張され、トップダウンの効果は減衰します。これにより、隠れたユニットが飽和してオンまたはオフになり、学習プロセスが中断されます。
これに対処するには、可視ユニットと比較してより多くの非表示ユニットを用意する必要があります。これにより、表示ユニットと非表示ユニットの間の小さな重みが、非表示ユニットが豊富に存在するため、重大なトップダウン効果を持つことが可能になります。さらに、可視ユニットの標準偏差が減少するにつれて、隠れユニットの数も変化するはずです。
これを達成するために、階段状シグモイド ユニットが導入されます。これらのユニットは、各確率的バイナリ隠れユニットの複数のコピーであり、それぞれ同じ重みとバイアスを持ちますが、バイアスに対する固定オフセットが付いています。このオフセットはシグモイド ユニットのメンバー間で異なり、その結果、総入力が増加するにつれて応答曲線が直線的に増加します。このアプローチは、小さな標準偏差で可視ユニットを駆動するためのよりトップダウン効果を提供します。
オフセット バイアスを持つバイナリ確率単位の大規模な母集団を使用すると、計算コストが高くなる可能性がありますが、同様の結果をもたらす高速近似を行うことができます。これらの近似には、オフセット バイアスを使用したシグモイド ユニットのアクティビティの合計を、1 の対数に合計入力の指数を加えたものとして近似することが含まれます。あるいは、調整された線形単位を使用することもできます。これにより、スケール等分散の計算と表示が高速になり、画像表現に適したものになります。
修正された線形ユニットにはスケール等分散の特性があります。つまり、画像内のピクセル強度がスカラーで乗算されると、隠れたユニットのアクティビティも同じ係数でスケールされます。この特性は、畳み込みニューラル ネットワーク (CNN) によって示される並進等分散に似ています。 CNN では、画像をシフトすると、ネットワーク全体の動作に大きな影響を与えることなく、各層の表現がシフトされます。
線形単位および修正線形単位を備えた RBM を利用することにより、実数値データを効果的にモデル化することが可能になります。
講義 14.5 — RBM は無限のシグモイド ビリーフ ネットです
講義 14.5 — RBM は無限のシグモイド信念ネットである [機械学習のためのニューラル ネットワーク]
このビデオでは、ディープ ラーニングの起源とディープ ニューラル ネットワークの数学的側面に関連する高度な内容について説明します。私たちは、制限されたボルツマン マシン (RBM) と、共有重みを持つ無限に深いシグモイド ビリーフ ネットとの関係を調査します。
RBM は、シグモイド ビリーフ ネットの特殊なケースとして見ることができ、RBM は共有重みを持つ無限に深いネットに対応します。 RBM と無限に深いネットの間の等価性を理解することで、レイヤーごとの学習とコントラストの発散の有効性についての洞察が得られます。
RBM からのサンプリングに使用されるマルコフ連鎖は、無限に深いネットの平衡分布からのサンプリングと同等です。無限に深いネットでの推論は、説明を省略することによって生じる相関を相殺する補完事前分布の実装により簡素化されます。これにより、ネットの各層での推論プロセスが簡素化されます。
シグモイド ビリーフ ネットの学習アルゴリズムは、RBM の学習アルゴリズムを導出するために使用できます。ネットの重みを結び付け、最下層の重みを凍結することで、残りの層を RBM として学習できます。対比発散学習として知られるこのプロセスは、データの対数確率に変分限界を与えます。
対照発散学習では、マルコフ連鎖混合が速く、上位層が平衡分布に近づくため、重みの上位導関数をカットします。重みが大きくなるにつれて、より多くのコントラスト発散の反復を実行することが必要になります。ただし、RBM のスタック内の複数の層の特徴を学習する場合は、CD 1 (ワンステップのコントラスト発散) で十分であり、最尤学習よりも優れている場合もあります。
RBM と無限に深いシグモイド ビリーフ ネットの関係を理解すると、ディープ ニューラル ネットワークの機能と、レイヤーごとの学習とコントラスト発散の有効性についての貴重な洞察が得られます。
講義 15.1 — PCA からオートエンコーダまで
講義 15.1 — PCA からオートエンコーダまで [機械学習のためのニューラル ネットワーク]
主成分分析 (PCA) は、低次元コードを使用して高次元データを表現することを目的とした信号処理で広く使用されている技術です。 PCA の背後にある重要なアイデアは、データが存在する高次元空間で線形多様体を見つけることです。データをこの多様体に投影することにより、損失を最小限に抑えながら多様体上のデータの位置を表すことができます。
PCA は標準的な方法を使用して効率的に実装できますが、非効率的には線形の隠れユニットと出力ユニットを備えたニューラル ネットワークを使用して実装できます。ニューラル ネットワークを使用する利点は、コードとデータの再構築が入力の非線形関数になるディープ ニューラル ネットワークにこの技術を一般化できることです。これにより、入力空間で湾曲した多様体を処理できるようになり、より強力な表現が可能になります。
PCA では、n 個未満の数値を使用して n 次元データを表現することを目指しています。主方向と呼ばれる、分散が最も大きい m 個の直交方向を特定することにより、変動がほとんどない方向を無視します。これらの m 個の主方向は低次元の部分空間を形成し、n 次元のデータ点を低次元空間のこれらの方向に投影することによって表します。直交方向のデータ ポイントの位置に関する情報は失われますが、分散が小さいため重要ではありません。
m 個の数値を使用した表現からデータ ポイントを再構成するには、表現されていない方向 (n - m) の平均値を使用します。再構成誤差は、表示されていない方向のデータ ポイントの値とそれらの方向の平均値の差の二乗として計算されます。
バックプロパゲーションを使用して PCA を実装するには、主成分を表す m 個の隠れユニットを持つボトルネック層を持つニューラル ネットワークを作成できます。ネットワークの目標は、入力と再構成された出力の間の二乗誤差を最小限に抑えることです。隠れユニットと出力ユニットが線形の場合、ネットワークは PCA と同様に、再構成エラーを最小限に抑えるコードを学習します。ただし、隠れた単位は主成分に正確に対応していない可能性があり、軸の回転や歪みが発生する可能性があります。それにもかかわらず、コードユニットの入力重みベクトルが広がる空間は、m 個の主成分が広がる空間と同じになります。
ニューラル ネットワークでバックプロパゲーションを使用すると、コード層の前後に非線形層を組み込むことで PCA を一般化できます。これにより、高次元空間の曲線多様体上にあるデータの表現が可能になり、アプローチの汎用性が高まります。ネットワークは、入力ベクトル、非線形隠れユニット、コード層 (線形の場合もある)、追加の非線形隠れユニット、および入力ベクトルに似るようにトレーニングされた出力ベクトルで構成されます。
主成分分析は、分散の大きい主方向を特定することにより、低次元のコードを使用して高次元のデータを表現する手法です。従来の方法を使用して効率的に実装することも、ニューラル ネットワークを使用して非効率的に実装することもできます。ニューラル ネットワーク バージョンでは、ディープ ニューラル ネットワークへの一般化と、曲面多様体でのデータ表現が可能になります。
講義 15.2 — ディープオートエンコーダー
講義 15.2 — ディープ オートエンコーダー [機械学習のためのニューラル ネットワーク]
ディープ オートエンコーダーは、主成分分析などの線形手法の能力を上回ることで、次元削減に革命をもたらしました。データ内の複雑な非線形関係を捉える能力により、さまざまな分野で貴重なツールとなっています。
Salakhutdinov と Hinton によって実装されたディープ オートエンコーダの場合、再構築された数値は、対応する線形主成分と比較して優れた品質を示します。この改善は、複数の隠れ層を通じてますます抽象化される表現の階層を学習するディープ オートエンコーダーの機能に由来します。各レイヤーは、入力データのより忠実な再構築に寄与する高レベルの特徴をキャプチャします。
ディープ オートエンコーダーの能力は、エンコード方向とデコード方向の両方で表現力の高いマッピングを学習できる能力にあります。エンコーダーは高次元の入力データを低次元のコード表現にマッピングし、最も顕著な特徴を効果的にキャプチャします。一方、デコーダは、この圧縮されたコード表現から元の入力を再構築します。この双方向マッピングにより、次元削減プロセス中に貴重な情報が確実に保持されます。
ディープ オートエンコーダーのトレーニングは、勾配消失の問題により、当初は困難でした。ただし、教師なし事前トレーニングや重み初期化戦略などの最適化技術の進歩により、トレーニング プロセスはより効率的かつ効果的になりました。これらの方法により、ディープ オートエンコーダーは次善の解決策に陥ることなく、意味のある表現を学習できるようになります。
さらに、ディープ オートエンコーダは、変分オートエンコーダや敵対的生成ネットワークなど、より高度なアーキテクチャの開発への道を開きました。これらのモデルは、確率的学習手法と敵対的学習手法を組み込むことでディープ オートエンコーダーの機能を拡張し、データ生成、異常検出、半教師あり学習などのタスクを可能にします。
結論として、ディープ オートエンコーダーは、従来の線形技術を上回る柔軟な非線形マッピングを提供することで、次元削減に革命をもたらしました。階層表現を学習し、高品質のデータを再構築する能力により、深層学習の分野で卓越した地位を確立しました。継続的な研究開発により、ディープオートエンコーダーは、さまざまなドメインの複雑なデータ構造を理解して操作するためのさらなる可能性を解き放つことが期待されています。
講義 15.3 — ドキュメント検索のためのディープオートエンコーダー
講義 15.3 — 文書検索のためのディープオートエンコーダー [機械学習のためのニューラルネットワーク]
このビデオでは、ドキュメント検索におけるディープ オートエンコーダーの応用について説明します。潜在意味分析と呼ばれる以前の方法では、文書から抽出された単語数ベクトルに対する主成分分析 (PCA) を利用して文書の類似性を判断し、検索を容易にしていました。ただし、このタスクではディープ オートエンコーダーが PCA を上回る可能性があるため、さらなる調査が行われました。
Russ Salakhutdinov が行った研究では、ディープ オートエンコーダが大規模なドキュメント データベースに適用された場合、潜在的な意味解析よりも実際に優れたパフォーマンスを発揮することが実証されました。データの次元をわずか 10 コンポーネントに削減した場合でも、ディープ オートエンコーダーは、潜在セマンティック分析などの線形手法から取得された 50 コンポーネントと比較して、優れた結果をもたらしました。
文書検索のプロセスには、各文書をバッグオブワード表現、つまり基本的に単語カウントのベクトルに変換することが含まれます。 「the」や「over」など、文書のトピックに関するほとんど情報を提供しないストップワードは無視されます。クエリ ドキュメントの単語数を他の何百万ものドキュメントの単語数と比較すると、計算コストが高くなる可能性があります。これに対処するために、ディープ オートエンコーダを使用してワード カウント ベクトルを 2,000 次元から 10 の実数に圧縮します。これにより、ドキュメントの比較をより効率的に行うことができます。
オートエンコーダをワードカウントに適応させるために、ノンストップワードの総数で除算が実行され、カウントベクトルが数値の合計が 1 になる確率ベクトルに変換されます。オートエンコーダの出力層は、ワード数ベクトルのサイズに一致する次元を持つソフトマックス関数を採用します。再構成中、単語数の確率が目標値として扱われます。ただし、最初の隠れ層をアクティブにするときは、確率分布からの複数の観測値を考慮して、すべての重みに「n」が乗算されます。これにより、入力ユニットが最初の隠れ層に十分な入力を提供することが保証されます。
このアプローチの有効性は、ロイター データセットからの 4,000 件の手作業でラベル付けされたビジネス文書のデータセットを使用して評価されました。制限されたボルツマン マシンのスタックが最初にトレーニングされ、続いて 2,000 ウェイのソフトマックス出力層で逆伝播を使用して微調整されました。テストでは、クエリとしてドキュメントを選択し、10 次元ベクトルの間の角度の余弦に基づいて残りのドキュメントをランク付けしました。検索精度は、検索されたドキュメントの数と、クエリドキュメントと同じ手動でラベル付けされたクラス内のドキュメントの割合を比較することによって測定されました。
その結果、オートエンコーダーは、コードとしてわずか 10 個の実数を使用した場合でも、50 個の実数を使用した潜在意味解析よりも優れたパフォーマンスを示しました。さらに、文書ベクトルを 2 つの実数に削減し、それらをマップ上で視覚化すると、PCA と比較して文書クラスがより明確に分離されることが明らかになりました。このような視覚的な表示は、データセットの構造に関する貴重な洞察を提供し、意思決定プロセスに役立ちます。
結論として、ディープ オートエンコーダーは、文書検索タスクにおいて PCA などの従来の線形手法に比べて有望な改善を提供します。重要な情報を取得しながら文書表現を効率的に圧縮および再構築できる機能により、文書検索システムの精度と効率が向上します。
講義 15.4 — セマンティックハッシュ
講義 15.4 — セマンティック ハッシュ [機械学習のためのニューラル ネットワーク]
このビデオでは、クエリ ドキュメントに類似したドキュメントを効率的に検索する手法であるセマンティック ハッシュについて説明します。この概念には、ドキュメントをメモリ アドレスに変換し、メモリを編成して類似のドキュメントをグループ化することが含まれます。これは、同じエリアに同様の製品が並ぶスーパーマーケットに似ています。
画像のバイナリ記述子は、画像を迅速に検索するのに役立ちますが、一連の直交バイナリ記述子を取得するのは困難です。機械学習はこの問題の解決に役立ちます。この手法をドキュメントに適用し、次に画像に適用する方法を検討します。
ドキュメントのバイナリ コードを取得するには、コード層にロジスティック ユニットを使用してディープ オートエンコーダーをトレーニングします。ただし、ロジスティック単位が単語数に関する情報を伝えるために中間範囲を使用するのを防ぐために、微調整段階で入力にノイズを追加します。このノイズにより、コード単位がオンまたはオフになり、結果としてバイナリ値が生成されます。テスト時にロジスティック単位のしきい値を設定すると、バイナリ コードが生成されます。
あるいは、ノイズを追加する代わりに確率的バイナリ単位を使用することもできます。順方向パス中に、ロジスティック単位の出力に基づいてバイナリ値が確率的に選択されます。逆方向パスでは、バックプロパゲーション中のスムーズな勾配計算に実数値の確率が使用されます。
取得した短いバイナリ コードを使用して、クエリ文書のコードと保存されている文書のコードを比較することで、逐次検索を実行できます。ただし、より効率的なアプローチは、コードをメモリ アドレスとして扱うことです。ディープ オートエンコーダーをハッシュ関数として使用することにより、ドキュメントを 30 ビットのアドレスに変換します。メモリ内の各アドレスは同じアドレスを持つドキュメントを指し、リストを形成します。アドレスのビットを反転することで、近くのアドレスにアクセスし、意味的に類似した文書を見つけることができます。これにより、ドキュメントの長いリストを検索する必要がなくなります。
このメモリベースの検索は、特に大規模なデータベースの場合、非常に効率的です。これは、スーパーマーケットで特定の場所に行って近くの商品を調べるのと同じです。ただし、30 次元のメモリ空間では、さまざまな理由で項目が互いに近くに配置される可能性があり、検索がより効率的になります。
セマンティック ハッシュは、クエリ用語に関連付けられた保存されたリストを横断する高速検索方法と連携します。コンピュータにはメモリ バスなどの特殊なハードウェアがあり、単一の命令で複数のリストを交差させることができます。セマンティック ハッシュでは、バイナリ コードの 32 ビットが意味のあるドキュメント プロパティに確実に対応するようにすることで、機械学習を利用して検索問題をリストの交差演算にマッピングし、従来の検索方法を使用せずに高速な類似性検索を可能にします。
セマンティック ハッシュは、機械学習を活用して、検索問題をコンピュータが得意とするリスト交差タスクに変換する強力な手法です。文書や画像をバイナリ コードとして表すことにより、従来の検索方法を必要とせずに、類似したアイテムを効率的に見つけることができます。
これを実現するために、ドキュメントをバイナリ コードにエンコードするようにディープ オートエンコーダーがトレーニングされます。最初に、オートエンコーダは制限されたボルツマン マシンのスタックとしてトレーニングされ、その後バックプロパゲーションを使用して展開され、微調整されます。微調整段階では、バイナリ特徴の学習を促進するためにコード ユニットの入力にノイズが追加されます。
オートエンコーダーがトレーニングされると、バイナリ コードをメモリ アドレスとして使用できるようになります。メモリ内の各アドレスは、同様の特徴を共有するドキュメントのセットに対応します。アドレスのいくつかのビットを反転すると、近くのアドレスにアクセスでき、ハミング ボールを形成します。このハミング ボール内で、意味的に類似した文書が見つかることが期待されます。
このアプローチにより、大規模な文書データベースを順次検索する必要がなくなります。代わりに、クエリ ドキュメントのメモリ アドレスを計算し、ビットを反転して近くのアドレスを探索し、類似のドキュメントを取得します。この手法の効率は、各項目の逐次検索を回避できるため、数十億の文書を含む大規模なデータベースを扱う場合に特に顕著になります。
このプロセスを説明するためによく使われる例えは、スーパーマーケットの検索の概念です。スーパーマーケットで店員に特定の商品の場所を尋ねるのと同じように、ここではクエリ文書をメモリアドレスに変換し、近くにある類似文書を探します。 30 次元のメモリ空間は複雑な関係を可能にし、同様の属性を持つアイテムを近くに配置するための十分なスペースを提供します。
従来の検索方法はクエリ用語に関連付けられた交差リストに依存しますが、セマンティック ハッシュでは機械学習を使用して、検索問題をコンピュータのリスト交差機能にマッピングします。バイナリ コードの 32 ビットがドキュメントや画像の意味のあるプロパティに対応していることを確認することで、明示的な検索操作を必要とせずに、類似したアイテムを効率的に見つけることができます。
セマンティック ハッシュは、類似したドキュメントや画像を検索するための非常に効率的な手法です。それらをバイナリ コードに変換し、そのコードをメモリ アドレスとして扱うことで、近くのアドレスを探索して意味的に類似したアイテムを迅速に取得できます。このアプローチは機械学習の強みを活かし、コンピューターのリスト交差機能を活用することで、従来の検索方法を必要とせずに高速かつ正確な検索を可能にします。
講義 15.5 — 画像検索のためのバイナリ コードの学習
講義 15.5 — 画像検索のためのバイナリ コードの学習 [機械学習のためのニューラル ネットワーク]
このビデオでは、画像検索におけるバイナリ コードの使用について説明し、キャプションに依存する従来の方法と比較しています。個々のピクセルからは画像の内容に関する情報があまり得られないため、内容に基づいて画像を取得することは困難です。ただし、画像のコンテンツを表す短いバイナリ ベクトルを抽出することにより、画像をより効率的に保存して照合することができます。
このビデオでは、画像検索の 2 段階の方法を提案しています。最初の段階では、セマンティック ハッシュを使用して、通常は約 30 ビットの短いバイナリ コードが抽出されます。このコードは、一致する可能性のある短いリストを迅速に生成するために使用されます。第 2 段階では、256 ビットなどのより長いバイナリ コードを使用して、候補画像間のより詳細かつ正確な検索を行います。
このビデオでは、画像を再構築して有益なバイナリ コードを抽出できるオートエンコーダ アーキテクチャの例を紹介します。オートエンコーダーは複数のレイヤーで構成されており、256 ビット コードに達するまでユニットの数が徐々に減っていきます。このオートエンコーダーを使用することにより、ビデオは、取得された画像がクエリ画像に類似しており、意味のある関係を示していることを示しています。
さらに、ビデオでは、画像コンテンツの表現としてアクティビティ ベクトルを抽出するための画像認識用の事前トレーニング済みニューラル ネットワークの使用についても説明しています。ユークリッド距離を使用してこれらのアクティビティ ベクトルを比較すると、検索結果は有望であり、このアプローチをバイナリ コードに拡張して、より効率的なマッチングを実現できることを示唆しています。
このビデオは、画像コンテンツとキャプションを組み合わせることで表現がさらに強化され、検索パフォーマンスが向上すると述べて締めくくられています。
このビデオでは、効率的な保存、高速なマッチング、意味のある画像コンテンツのキャプチャ機能など、画像検索にバイナリ コードを使用する利点を強調しています。これは、有益なバイナリ コードを抽出する際のオートエンコーダと事前トレーニングされたニューラル ネットワークの有効性を実証し、画像コンテンツとキャプションを組み合わせることでさらに優れた検索結果が得られることを示唆しています。
講義 15.6 — 事前トレーニング用の浅いオートエンコーダー
講義 15.6 — 事前トレーニング用の浅いオートエンコーダー [機械学習のためのニューラル ネットワーク]
このビデオでは、講演者がディープ ニューラル ネットワークを学習するための代替の事前トレーニング方法について説明します。当初、彼らは、対照的な発散で訓練された制限的ボルツマン マシン (RBM) を使用した事前訓練を導入しました。ただし、後に、機能のレイヤーを事前トレーニングする他の方法があることが判明しました。重みが正しく初期化されている場合、十分なラベル付きデータがあれば、事前トレーニングは必要ない可能性があります。講演者は、さまざまなアプリケーションにおけるディープ オートエンコーダーとそのコードの利点について言及します。
次に、浅いオートエンコーダ、特に最大尤度でトレーニングされた RBM に焦点を移します。オートエンコーダとしての RBM は、バイナリの隠れユニットにより強力な正則化があり、その容量が制限されます。ただし、RBM が最尤法でトレーニングされた場合、ノイズのあるピクセルは無視され、入力バイアスを使用してモデル化されます。講演者は、事前トレーニングに RBM の代わりにオートエンコーダーのスタックを使用することを提案していますが、このアプローチは、特に 2 乗重みにペナルティを与えるだけの浅瀬エンコーダーの場合、それほど効果的ではありません。
講演者は、モントリオール グループによって広範に研究されたノイズ除去オートエンコーダーを紹介します。これらのオートエンコーダは入力ベクトルにノイズを追加し、一部のコンポーネントをゼロに設定します (ドロップアウトに似ています)。これらは、単に入力をコピーすることを防ぐために、ゼロ化されたコンポーネントを使用して入力を再構築する必要があります。浅海エンコーダとは異なり、ノイズ除去オートエンコーダは入力間の相関を捕捉し、一部の入力値を利用してゼロ化された入力を再構築します。ノイズ除去オートエンコーダーをスタッキングすると、事前トレーニングに非常に効果的となり、ほとんどの場合 RBM を上回ります。
講演者は、目的関数が簡単に計算できるため、ノイズ除去オートエンコーダーを使用した事前トレーニングの評価がより簡単であると述べています。対照的に、対比発散を使用して RBM を評価しても、実際の目的関数は得られません。ただし、ノイズ除去オートエンコーダーには RBM が持つ変分限界がありませんが、この理論的関心は最大尤度でトレーニングされた RBM に限定されます。
議論されている別のタイプのエンコーダは、やはりモントリオール グループによって開発された収縮型オートエンコーダです。これらのオートエンコーダは、各入力に関して各隠れユニットの二乗勾配にペナルティを与えることにより、隠れたアクティビティを入力の影響を受けないようにすることを目的としています。収縮型オートエンコーダーは事前トレーニングに適しており、コードがまばらになる傾向があり、入力空間のさまざまな部分に敏感な隠れユニットの小さなサブセットのみが含まれます。
講演者は、事前トレーニングに関する現在の見解を要約して締めくくります。レイヤーごとの事前トレーニングは、ラベルに依存せずに優れた特徴を発見できるため、データセットのラベル付きデータが限られている場合に有益です。ただし、大規模なラベル付きデータセットの場合、ネットワークが十分に大きければ、教師なし事前トレーニングは必要ありません。それにもかかわらず、さらに大規模なネットワークの場合、過剰適合を防ぐために事前トレーニングが再び重要になります。講演者は、特に利用可能なデータと比較して大きなパラメータ空間を扱う場合には、ドロップアウトや事前トレーニングなどの正則化手法が重要であると主張します。
講義 16.1 — 画像とキャプションの結合モデルの学習
講義 16.1 — 画像とキャプションの結合モデルの学習 [機械学習のためのニューラル ネットワーク]
画像キャプションと特徴ベクトルの結合モデルの学習に関する最近の研究について説明します。前回の講義では、キャプションを利用せずに画像から意味のある特徴を抽出する方法を検討しました。ただし、キャプションは、関連する意味カテゴリを画像から抽出するための貴重な情報を提供することができ、逆に、画像はキャプション内の単語の意味を曖昧にするのに役立ちます。
提案されたアプローチには、画像から抽出された標準的なコンピューター ビジョンの特徴ベクトルとキャプションのバッグオブワード表現を入力として受け取る大規模なネットワークのトレーニングが含まれます。ネットワークは 2 つの入力表現間の関係を学習します。最終的なネットワークのムービーが表示されます。これは、単語を使用して画像の特徴ベクトルを作成し、データベース内で最も近い画像を検索することと、画像を使用して単語のバッグを作成することを示しています。
Nitish Srivastava と Ruslan Salakhutdinov は、キャプションと画像の結合密度モデルを構築するための研究を実施しました。ただし、生のピクセルを使用する代わりに、標準のコンピューター ビジョン機能を使用して画像を表現しました。これには、ラベルと数字イメージの結合密度モデルを構築する場合と比較して、より多くの計算が必要でした。彼らは、画像とキャプションからの単語数ベクトルに対して個別の多層モデルをトレーニングしました。これらの個々のモデルは、両方のモダリティを統合した新しい最上層に接続されました。各モダリティが他のモダリティの初期層を改善できるように、システム全体の共同トレーニングが実行されました。
深いボルツマン マシンの隠れ層を事前トレーニングするために、コースで以前に説明したものとは異なるアプローチに従いました。彼らは、制限されたボルツマン マシン (RBM) のスタックを使用して深い信念網を形成するのではなく、特定の方法で RBM のスタックを直接事前トレーニングしました。スタック内の上部と下部の RBM の重みは、スケール対称の特性でトレーニングされ、ボトムアップの重みはトップダウンの重みの 2 倍になります。中間 RBM は対称の重みを使用してトレーニングされました。この重み構成により、最終的なディープ ボルツマン マシンの各層の 2 つの異なるモデルの幾何平均が可能になりました。
この重み構成の正当性は、各層のユニットの状態を推論する 2 つの方法がディープ ボルツマン マシンでどのように組み合わされるかにあります。重みにより、レイヤーの状態を推論するときに証拠が二重にカウントされないことが保証されます。中間層は、ボトムアップ モデルとトップダウン モデルからの証拠の幾何平均を実行し、証拠の重複を回避します。より詳細な説明については、元の論文を参照してください。
ビデオで紹介されているアプローチは、画像キャプションと特徴ベクトルの結合モデルの学習に焦点を当てています。両方のモダリティからの情報を統合することで、このモデルは画像とキャプションの理解を向上させ、より正確な意味表現を可能にすることを目指しています。
共同トレーニングにディープ ビリーフ ネットの代わりにディープ ボルツマン マシンを使用することには利点があることは注目に値します。深い信念ネットは、対照的な覚醒-睡眠を使用した生成微調整とともに使用することもできましたが、深いボルツマン マシンの微調整アルゴリズムの方がより良い結果が得られると予想されます。したがって、ディープ ボルツマン マシンを使用するという決定により、各モダリティの初期層でのトレーニングと特徴検出器の強化が可能になります。
このビデオでは、ディープ ボルツマン マシンのトレーニング プロセスについても簡単に触れています。スタック内の RBM の重みはスケール対称の方法で調整され、証拠が二重にカウントされることなく適切に結合されることが保証されます。このアプローチにより、ボトムアップ入力とトップダウン入力の両方を考慮して、各層の 2 つの異なるモデルの幾何平均が可能になります。特定の重み設定により、レイヤー間の依存関係を考慮して、証拠が重複しないことが保証されます。
ビデオではプロセスの概要が説明されていますが、基礎となる数学と詳細な推論は付属の論文で確認できます。ビデオで紹介されたアプローチと、Nitish Srivastava 氏と Ruslan Salakhutdinov 氏によるその後の研究は、キャプションと特徴ベクトルの共同モデリングの進歩に貢献し、画像とそれに関連するキャプションの理解と表現の向上を促進します。
結論として、ビデオで説明されている作業は、画像キャプションと特徴ベクトルの結合モデルの学習に焦点を当てています。提案されたアプローチは、両方のモダリティに存在する情報を活用することで、画像からの意味カテゴリの抽出とキャプション内の単語の曖昧さの解消を強化することを目的としています。トレーニング中のディープ ボルツマン マシンと特定のウェイト構成の使用により、2 つのモダリティ間の効果的な統合と学習が可能になります。
講義 16.2 — 階層的な座標フレーム
講義 16.2 — 階層型座標フレーム [機械学習のためのニューラル ネットワーク]
このビデオでは、講演者がコンピューター ビジョンで物体認識アプローチを組み合わせる可能性について説明しています。ディープ畳み込みニューラル ネットワーク (CNN)、パーツベースのアプローチ、および広範な手動エンジニアリングを使用した手動エンジニアリング機能の 3 つの主なアプローチについて説明します。
CNN は物体認識に効果的であることが証明されていますが、講演者は、正確な特徴検出器の位置が失われることや、新しい視点やスケールへの外挿が困難であることなどの限界を指摘しています。これらの課題に対処するために、講演者は、座標フレームの階層を使用し、ニューロンのグループを使用して網膜に対する特徴の形状と姿勢の結合を表現することを提案しています。
網膜を基準としたオブジェクトのパーツのポーズを表すことにより、パーツのポーズの一貫性を利用して、より大きなオブジェクトを認識しやすくなります。講演者は、神経活動を使用して姿勢ベクトルを表現する方法と、空間関係を線形演算としてモデル化する方法について説明します。これにより、視覚的エンティティの階層を学習し、複数の視点にわたって一般化することが容易になります。
講演者は、形状を効果的に表現するために座標フレームを組み込むことの重要性を強調しました。これらは、視覚システムが形状を正しく認識するために座標フレームをどのように適用するかを示す例を提供します。形状の認識は、課された座標フレームに応じて変化する可能性があり、形状表現における座標フレームの役割が強調されます。
このビデオでは、座標フレームと階層表現を活用して、さまざまなオブジェクト認識アプローチを組み合わせるというアイデアを検討しています。このアプローチは、CNN の制限に対処し、空間関係とポーズの一貫性を組み込むことでオブジェクト認識を強化することを目的としています。形状認識における座標フレームの重要性も強調されています。