Lecture 3 - Intro to Deep Learning, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berke...
00:05:00 講義のこのセクションでは、著者は表現学習と浅い学習について説明します。浅い学習では、機械学習パイプラインは入力 X から始まり、特徴抽出器を使用してそこから特徴が抽出され、抽出された特徴が機械学習アルゴリズムに渡されて出力 Y が取得されます。ファシリテーターは、特徴抽出は依存していると説明します。データ上で、次のことができます 表形式のデータの場合は簡単ですが、テキスト、オーディオ、画像などのデータの場合は複雑です。ただし、画像の場合は、従来のコンピューター ビジョンで利用できる特殊な特徴抽出器があります。
Lecture 4 - Intro to Pretraining and AugmentationsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://...
00:40:00 このセクションでは、講演者は画像を RGB 形式で表現する概念と、アクティベーション マップが 3D 構造を持つ方法について説明します。このプロセスでは、さまざまな特徴を抽出し、それらを畳み込んで 3D 出力を取得します。この畳み込み演算は一般的であり、任意の 3D 入力に適用できます。これにより、畳み込み層を相互に積み重ねることができ、ディープ ニューラル ネットワークにつながります。さらに、講演者は、畳み込みニューラル ネットワークだけに限定されない受容野の概念に関する実装の詳細について説明します。
Lecture 5 - Intro to Computer VisionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.ed...
Lecture 6 - Advanced Computer Vision ArchitecturesCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://...
00:00:00 このセクションでは、講師がランドマーク検出のために単純な分類 CNN にローカリゼーションを追加するプロセスについて説明します。ネットワークに X と Y の出力を追加することで、ネットワークは動物の鼻など、画像内の特定の特徴の正確な位置を出力します。次に講師は、出力を追加して猫全体のバウンディング ボックスを作成し、このネットワークを拡張する方法を説明します。講師は、バウンディング ボックスを作成するためのネットワーク拡張のさまざまなアイデアと、この拡張されたタスクでネットワークをトレーニングするプロセスについても説明します。
00:05:00 このセクションでは、講師がオブジェクト検出の IOU (Intersection over Union) 法について説明します。このアプローチは、交差領域を計算し、それをユニオンの領域で割ることによって、予測された境界ボックスと実際の境界ボックスの間のオーバーラップを最大化することを目的としています。この値が1に近いほど検出が良いと講師は説明します。さらに、講師は同じ画像内の複数のオブジェクトを検出するという課題に触れ、網羅的な検索またはスライディング ウィンドウを使用する基本的なソリューションに言及します。ただし、このアプローチには、非効率性や過度の処理能力の必要性など、重大な問題があります。
Lecture 7 - Object DetectionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal/...
Lecture 8 - Semantic SegmentationCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/d...
Lecture 9 - Autoencoders, VAEs, Generative ModelingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https:/...
GAN の講義では、ゲーム理論風のセットアップで互いに競合する 2 つのネットワーク、ディスクリミネーターとジェネレーターの概念を紹介します。ジェネレーターの入力はランダム ノイズであり、本物そっくりの画像を生成する意味を割り当てます。弁別器の仕事は、画像が本物か偽物かを判断することです。 GAN は、負のクロスエントロピー損失に対応する損失関数を使用します。生成器は最小化し、弁別器はそれを最大化します。値関数は、ジェネレーターがどれだけうまく機能しているかを表し、偽のデータと実際のデータを正しく分類することによって、ディスクリミネーターによって最大化される必要があります。この講義では、GAN のトレーニングに関する問題と、ジェネレーターがより多くの変化を起こすことを可能にする非飽和損失についても説明します。
00:10:00 このセクションでは、講師が GAN がどのように機能するかを説明します。このネットワークには、実際のデータと偽のデータが与えられ、ジェネレーターをトレーニングして、画像をリアルに見せるパターンを見つけ出します。弁別器は、画像が本物か偽物かを判断するもので、学習するにつれて、パターンに気づき始め、判断を更新します。希望は、ジェネレーターが、シーンのコンテキストで意味をなすより多くの形状またはオブジェクトを作成することによって、それ自体を改善することを学習することです。 GAN の損失関数は、ディスクリミネーターからの分類損失のみで構成され、ジェネレーター スコアはその反対です。ジェネレーターをトレーニングするには、ジェネレーターにフィードバックを提供するために、ディスクリミネーターが画像を適切に判断する必要があります。
00:20:00 ビデオのこのセクションでは、プレゼンターが GAN の価値関数の概念を説明します。これは、従来の機械学習モデルで使用される損失関数の反対です。値関数は、ジェネレーターがどれだけうまく機能しているかを表し、偽のデータと実際のデータを正しく分類することによって、ディスクリミネーターによって最大化される必要があります。生成器の重みは最初のステップで凍結されるため、弁別器は実際のデータと偽のデータのバッチでトレーニングできます。 2 番目のステップでは、ディスクリミネーターが凍結され、ジェネレーターの重みが更新されて、わずかに優れた偽の画像が生成されます。このプロセスは、生成器が、弁別器でさえ偽物として分類できないリアルな画像を生成するまで繰り返されます。
00:25:00 このセクションでは、スピーカーは、生成されるクラスをより詳細に制御して画像を生成するためのソリューションを提供する条件付き GAN について説明します。現在の GAN セットアップでは、目的のオブジェクトまたは画像が生成されるまでジェネレーターにランダムにフィードを繰り返し供給する必要がありますが、より多くのクラスを含むデータ セットの場合、このアプローチは理想的ではありません。ワンホット ベクトルをランダム ノイズ ベクトルに追加することで、ジェネレーターは生成されるクラスをより詳細に制御できます。ワンホット ベクトルは目的のクラスに対応し、ジェネレーターはその特定のクラスで画像を生成するようにトレーニングされます。
00:30:00 講義のこのセクションでは、スピーカーは条件付き GAN モデルの特定の機能を使用するようジェネレーターにインセンティブを与えるというアイデアについて説明します。スピーカーは、ジェネレーターに特定の画像を生成するように指示するだけでは不十分であると説明します。これは、ジェネレーターが特定の情報を使用するインセンティブがないためです。解決策は、識別器にも同じラベルを付けて、生成された画像がそのラベルに対応するかどうかを識別するための戦略を作成することです。これにより、ジェネレーターはディスクリミネーターによる検出を回避したいため、ラベルに注意を払う必要があり、その結果、指定されたラベルに一致する出力が得られます。ジェネレータとディスクリミネータの両方のアーキテクチャについても説明します。
00:40:00 このセクションでは、講師が GAN に関する一般的な問題について説明します。これにより、GAN のトレーニングが難しくなる可能性があります。 1 つの問題は、ジェネレーターとディスクリミネーターの間に常にトレードオフがあり、ディスクリミネーターが実際の画像の特定の機能にオーバーフィットしようとすることであり、GAN のトレーニングがいつ完了したかを知る明確な方法はありません。次に、講師は、生成器の目的の単純な再定式化である非飽和損失について検討し、生成された画像が偽物であると弁別器が認識したときに、生成器がわずかな偏導関数しか得られないという問題に取り組みます。非飽和損失は、代替項を最大化し、ジェネレーターがより多くのエージェンシーを変更できるようにします。
00:45:00 このセクションでは、講師が GAN で使用されるクロスエントロピー損失の背後にある数学的トリックを説明します。負のクロスエントロピー損失をやみくもに最小化しようとする代わりに、ジェネレーターの目的は、バイナリ クラスのクロスエントロピーの種類の損失を使用して、1 として分類される確率を最大化することです。この非飽和損失により、ジェネレーターの勾配が大きくなり、ディスクリミネーターがジェネレーターをシャットダウンしているときに、より迅速にトレーニングできます。ただし、講師は、これはクイズや宿題のない高度な資料であると述べていますが、高度な GAN トレーニング手法について詳しく話すことができます。
Lecture 10 - GANsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal/modern-cv t...
高度な GAN に関するこの講義では、バイリニア アップサンプリング、転置畳み込み、条件付き GAN、StyleGAN、CycleGAN など、GAN モデルの安定性と品質を向上させるためのさまざまな手法について説明します。講義では、制御されたランダム ノイズの使用、アダプティブ インスタンスの正規化、および GAN でのビデオの処理についても説明します。より良い安定性と結果を得るために、講師は、ディスクリミネーターを過度に弱めないように注意しながら、より大きなバッチサイズを使用し、テスト中にランダムノイズの範囲を切り捨てることを推奨しています.さらに、さまざまなサイズの潜在空間の広範な分布から始めて、さまざまな画像を生成することをお勧めします。最後に、レクチャーでは、非常に大規模な GAN の生成に役立つ Big Gan に触れます。
00:00:00 このセクションでは、スピーカーはコンピューター ビジョンのコンテキストで GAN のトピックを紹介し、コンピューター ビジョン用の GAN アーキテクチャの構築について説明します。スピーカーは、分類 CNN であるディスクリミネーターと、潜在ベクトル画像をアップサンプリングする必要があるため、より困難なジェネレーターに焦点を当てています。講演者はまた、最近傍のアップサンプリングを含むダウンサンプリングとアップサンプリングの手法についても説明します。これは、既存の特徴マップ上のすべてのセルを複製する単純なアプローチであり、結果として画像がぼやけます。
00:05:00 このセクションでは、講師が GAN のジェネレーターの特徴マップをアップサンプリングする方法について説明します。彼は最初に双一次アップサンプリングについて説明します。この場合、新しい特徴マップは、より大きな空の特徴マップを取得し、その最近傍すべての平均で埋めることによって作成されます。次に、転置された畳み込みを導入します。これは、畳み込みウィンドウがその上をスライドするまでに、出力の特徴マップが入力よりも大きくなるように、非常に多くのパディングで特徴マップを埋めます。講師は、これらが特徴マップをアップサンプリングする最も一般的な方法であり、通常はジェネレーターを大きくするのに十分であると述べています。
00:10:00 講義のこのセクションでは、スピーカーは条件付き GAN とジェネレーターでそれらを処理する方法について説明します。ジェネレーターへの入力には、何を生成するかを伝える潜在ベクトルと条件ベクトルが含まれるようになりました。話者は、ベクトルを連結するか、連結する前に別々に処理することを提案しています。また、複数のものをディスクリミネータに渡すことについても簡単に触れています。その後、講義は StyleGAN に移行します。これは、畳み込み演算の前に芸術的な才能と潜在ベクトルの前処理を含むジェネレーターの新しいアーキテクチャです。
00:25:00 このセクションでは、講師は、制御されたランダム ノイズを各特徴マップに追加することについて説明します。これにより、ネットワークは、学習した B 値に基づいてノイズの量を増減できます。この制御されたランダム ノイズは、より良いテクスチャと不完全さを生成するのに役立ち、個々の毛やしわの生成を可能にします。制御されたノイズは、すべての畳み込みの後に追加され、ネットワークがノイズの大きさを制御できるようにします。この講義では、すべてのレイヤーに統合された潜在ベクトルや、スタイルをゆっくりと導入するためのアダプティブ インスタンス正規化の使用など、スタイル GAN の新しいイノベーションについても説明します。
00:35:00 このセクションでは、スピーカーは、ビデオを使用して弁別器をトレーニングし、本物のビデオと偽のビデオを識別することができると説明していますが、画像の処理に比べてかなりの計算が必要です。ビデオはフレームごとに処理する必要がありますが、プロセスをより効率的にするために一部のフレームをスキップできます。ディスクリミネータを使用して、フレーム間で生成されたビデオの一貫性を確保できます。さらに、講演者は、猿を馬に変換するなど、一部のデモンストレーションで GAN モデルを使用する場合は注意が必要であるとアドバイスしています。最後に、講演者は、より大きなバッチサイズとより多くのデータがより大きなモデルに投入されたときに GAN がどのようにスケールアップするかについて説明し、安定性、信頼性、多様性、および品質の間のいくつかのトレードオフについて説明します。
00:45:00 このセクションでは、ジェネレーターが類似の画像を繰り返し生成する可能性があり、さまざまな画像を生成するのが難しくなるため、スピーカーは潜在空間に狭い分布を使用しないように警告します。スピーカーは、さまざまなサイズの広範な分布から始めて、モデルに画像を生成する方法の優れた初期アイデアを与えることを提案しています。さらに、彼らは、単一の画像をランダムに生成する以外にも、識別機能がいくつかの異なる方法で有益である可能性があることを共有しています。最後に、非常に大規模な GAN の生成に役立つ Big Gan を紹介します。
Lecture 11 - Advanced GANsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal/mo...
拡散モデルに関するこの講義では、スピーカーは拡散モデルの背後にある直感について説明します。つまり、画像に追加されたノイズを予測し、ノイズを除去して元の画像を取得します。講義では、トレーニング プロセス、強化されたアーキテクチャ、および画像とビデオを生成する際の拡散モデルの例について説明します。さらに、講義では潜在拡散モデルについて深く掘り下げます。これは、モデルを潜在空間に圧縮して、画像のセマンティック部分で拡散を実行します。スピーカーは、Dolly Q、Google の Imagine モデル、Facebook の Make a Video などの関連モデルの概要と、テキストを使用して 3D モデルを生成する機能についても説明します。
00:10:00 ビデオのこのセクションでは、講師が拡散モデルにおける逆処理の概念について説明します。この処理では、ノイズ ステップのシーケンスを逆にすることで新しい画像を生成できます。課題は、正確な分布を使用して計算するのが難しい逆分布を見つけることにあるため、Q 関数と P 関数を使用して近似を行います。 P 関数はニューラル ネットワークによって表され、ガウス分布と見なされる逆分布の平均と分散を学習しようとします。このビデオでは、損失関数を最小化または最大化する必要がある拡散モデルのトレーニング プロセスについても説明します。
00:15:00 講義のこのセクションでは、スピーカーは拡散モデルへの変動変分下限の適用について説明します。これにより、より小さい損失関数の和に似た損失関数が得られます。彼らは、0 から T-1 の L までの項 L が損失に寄与し、1 から T-1 までで定義される T の L の分析に焦点を当てると説明しています。スピーカーは、T-1 の X の Q と、ニューラル ネットワークが予測しようとする分布との間の KL ダイバージェンスが、学習された平均と条件付き分布からの平均との間の L2 損失を測定する項でどのように生じるかを説明します。拡散論文の著者は、式を単純化し、赤いボックス内のすべてを予測する代わりに単一の項を予測できるようにするために、T-1 の X の Q と同様の形式で、学習した mu である theta の mu をパラメーター化することを提案しています。
00:20:00 このセクションでは、講師が拡散モデルの背後にある主な直感を説明します。これは、画像に追加されたノイズを予測し、ノイズを除去して元の画像を取得することです。目的は、元のノイズと予測されたノイズの間のノイズを最小限に抑えることです。トレーニング プロセスには、データセット内の画像にノイズを追加し、それらをモデルに渡し、ノイズを予測し、予測されたノイズと実際のノイズの間の距離を最小限に抑えることが含まれます。次に、モデルを使用して、ランダム ノイズから開始し、予測されたノイズを使用してノイズを除去することにより、新しい画像を合成できます。講師は、拡散される変数である T の X がイメージである必要はないことにも注意します。
00:40:00 このセクションでは、スピーカーは、データ分布のより優れた忠実度と多様性を捉える能力により、拡散モデルが画像モデリングで GAN モデルをどのように追い抜いたかについて説明します。これらは、GAN 画像が非常に似ているフラミンゴの画像を示していますが、拡散画像は出力の多様性を示しており、画像モデリング機能が優れていることを示しています。講演者はまた、研究者が分類子を使用しないガイダンスと呼ばれるプロセスを通じて拡散モデルを導くより良い方法を考え出したことにも言及しています。このプロセスでは、条件付き拡散モデルが訓練されて、品質の向上のために多様性を犠牲にすることを回避します。クラスのラベル。
00:50:00 このセクションでは、スピーカーは、Dolly Q、Google の Imagine モデルによる画像生成、Facebook の Make a Video によるビデオ生成など、拡散に関連するいくつかのモデルについて説明します。さらに、Google は Imagine モデルを拡張して動画も生成できるようにしました。今年初めに発表された論文によると、講演者は、テキストを使用して 3D モデルを生成する機能や、ビジョンを RL に適用する機能についても言及しています。これにより、オフライン RL で最先端の結果が得られます。講演者は、さらに学習するための論文やリソースへのリンクを提供します。
Lecture 12 - Diffusion ModelsCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
CS 198-126: 講義 3 - 深層学習入門、パート 2
CS 198-126: 講義 3 - 深層学習入門、パート 2
講義のこのセクションでは、逆伝播の概念について説明します。これは、冗長な操作を実行することなく、勾配降下アルゴリズムに必要なすべての偏導関数をより迅速に取得する方法です。講師は、深層学習の最適化のためにバニラ勾配降下法を改善する方法についても説明し、最適化手法としてモメンタム、RMSprop、Adam を紹介します。モデルのトレーニング履歴を追跡することの重要性、バッチ正規化の使用、およびモデルのパフォーマンスを向上させる手法としてのアンサンブルについても説明します。また、ドロップアウトやスキップ接続などのオーバーフィッティングを減らすためにディープ ラーニングで一般的に使用される手法についても説明します。最後に、講師は PyTorch の使いやすさに簡単に触れ、フロアを質問に開きます。
CS 198-126: 講義 4 - 事前トレーニングと増強の概要
CS 198-126: 講義 4 - 事前トレーニングと増強の概要
この講義では、講演者は、機械学習における特徴抽出の進化、深層学習の利点、転移学習を使用してモデルの精度と速度を向上させる方法について説明します。また、ニューラル ネットワークにおける層の凍結と微調整の概念、およびカテゴリ変数の次元を削減する際の埋め込みの重要性についても説明します。この講義では、ジグソーパズル、ローテーション、マスクされた単語予測タスクなど、自己教師あり学習とそのさまざまなタスクを紹介します。これらのタスクは、モデルを事前トレーニングし、学習した表現を下流のタスクに転送するために使用できます。最後に、コンピューター ビジョンにおける自己教師あり学習への新たな関心について説明し、講義では、学生が集中力の高いノートブックで宿題を完了することを奨励しています。
表形式のデータの場合は簡単ですが、テキスト、オーディオ、画像などのデータの場合は複雑です。ただし、画像の場合は、従来のコンピューター ビジョンで利用できる特殊な特徴抽出器があります。
CS 198-126: 講義 5 - コンピュータ ビジョンの概要
CS 198-126: 講義 5 - コンピュータ ビジョンの概要
コンピュータ ビジョンに関するこの講義では、コンピュータ ビジョンの歴史と長年にわたるその発展など、さまざまなトピックを取り上げます。インストラクターは、ディープ ラーニングと、ディープ ラーニングが従来のコンピューター ビジョン手法をどのように改善するかについても説明します。この講義では、畳み込みの概念と、それらがコンピューター ビジョンで特徴抽出器としてどのように使用され、畳み込みニューラル ネットワーク (CNN) が作成されるかについて詳しく説明します。さらに、講義では受容野の役割について説明し、CNN の受容野を増加させる方法としてプーリング層を紹介します。全体として、この講義では、分野としてのコンピューター ビジョンの概要と、画像から情報を抽出するために使用される手法について説明します。講義の後半では、パディングや同じパディングなど、畳み込み中に画像のサイズを維持するためのさまざまな手法について説明します。畳み込み層のストライドの概念についても説明し、プーリング層の効果をどのように模倣できるかを示します。 CNN の構造と、カーネル サイズ、ストライド、パディング、およびプーリング レイヤーを含むそのハイパー パラメーターについて説明し、畳み込みレイヤーが特徴の低次元ブロックを完全に接続されたネットワークに渡す特徴抽出器としてどのように機能するかに重点を置いて説明します。分類のためのネットワーク。講義では、手書き数字を分類するための LeNet ネットワーク アーキテクチャと、ニューラル ネットワークを通過する前に画像データを正規化することの重要性についても説明します。最後に、追加のトレーニング データを作成するための手法としてデータ拡張について説明し、トレーニング中のモデル チェックポイントの重要性を強調します。
CS 198-126: 講義 6 - 高度なコンピューター ビジョン アーキテクチャ
CS 198-126: 講義 6 - 高度なコンピューター ビジョン アーキテクチャ
高度なコンピューター ビジョン アーキテクチャに関するこの講義では、畳み込みニューラル ネットワーク (CNN) とそのさまざまな手法に焦点を当てます。講師は、AlexNet と VGG のアーキテクチャについて説明した後、残差などの高度な手法を掘り下げて、より高い精度とより単純なアーキテクチャのために後方残差値を維持します。ボトルネックと 1 対 1 の畳み込みの使用、およびコンピューター ビジョン アーキテクチャで ID を学習できることの重要性について説明します。この講義では、ニューラル ネットワークの勾配消失の問題と、バッチ正規化と残差ネットワークを使用してそれを軽減する方法についても説明します。グローバル平均プーリングや深さ方向の分離可能な畳み込みなどの手法について詳しく説明し、続いてモバイル ネット アーキテクチャとその利点について説明します。
また、講師は高度なコンピューター ビジョン アーキテクチャを調べ、ステップ ローカル畳み込みと 1 つずつ畳み込みを使用して畳み込みニューラル ネットワーク モデルを最適化することに焦点を当てています。彼は、これらの最適化を理解することの重要性と、将来のネットワークを効率的に構築する際に特定の最適化で発生する可能性のある問題を強調しています。講義は、効率的なネット モデルと他のネットワークとの比較によって強調される、精度、パフォーマンス、およびモデル サイズの間のトレードオフに関する議論で締めくくられます。生徒には、次の金曜日に予定されている小テストと宿題が通知されます。
CS 198-126: 講義 7 - オブジェクト検出
CS 198-126: 講義 7 - オブジェクト検出
この講義では、オブジェクト検出について説明します。具体的には、単純な分類 CNN にローカリゼーションを追加する方法、オブジェクト検出のための IOU メソッド、R-CNN システム、オブジェクト検出アルゴリズムを最適化して YOLO で処理時間を最小化する方法について説明します。このビデオでは、画像を切り刻むことで YOLO を説明し、あいまいさを排除するためにアンカー ボックスを使用するなど、YOLO オブジェクト検出の課題について説明しています。最後に、オブジェクト検出用の完全な畳み込みニューラル ネットワークである YOLO アーキテクチャが調査され、分類用の多数のクラスのストレージが進行中の研究課題として提示されます。スピーカーは、読めないという理由で RCNN に反対するようアドバイスしながら、「The Yellow Paper」を読むことを勧めています。
CS 198-126: 講義 8 - セマンティック セグメンテーション
CS 198-126: 講義 8 - セマンティック セグメンテーション
講義では、セマンティック セグメンテーションとインスタンス セグメンテーションを含む画像セグメンテーションについて説明します。セグメンテーションの主な目的は、画像内のすべてのオブジェクトを検出して分離することです。講師は、畳み込みニューラル ネットワーク (CNN) をセマンティック セグメンテーションに使用する方法と、ダウンサンプリングが計算コストの高いフル解像度画像でどのように役立つかを説明します。小さなボリュームを画像サイズに変換するためのさまざまなアプローチについても説明します。この講義では、これまでの改善とスキップ接続を組み合わせたセマンティック セグメンテーションのモデルである U-Net を紹介し、マスク R-CNN アプローチを使用してインスタンス セグメンテーションに拡張する方法について説明します。事前トレーニング済みのセマンティック セグメンテーション モデルが示され、スピーカーは事前トレーニングと今後のコース割り当てについて話します。
CS 198-126: 講義 9 - オートエンコーダー、VAE、ジェネレーティブ モデリング
CS 198-126: 講義 9 - オートエンコーダー、VAE、ジェネレーティブ モデリング
この講義では、機械学習を使用してデータセットに基づいて新しい画像を作成するジェネレーティブ モデリングの概念を紹介します。特徴学習に使用されるニューラル ネットワークの一種であるオートエンコーダーについて、その構造と、圧縮と再構成を通じて入力データの特徴を学習する方法に焦点を当てて説明します。この講義では、変分オートエンコーダーとその利点、およびオートエンコーダーで構造化された潜在空間を使用して画像間を補間する方法についても説明します。離散データを扱うためのベクトル量子化の重要性について説明し、変分オートエンコーダの損失関数について説明します。これには、入力データのハードコーディングを防ぐための再構成損失とコミットメント損失が含まれます。講義は、取り上げたトピックの要約で終わります。
CS 198-126: 講義 10 - GAN
CS 198-126: 講義 10 - GAN
GAN の講義では、ゲーム理論風のセットアップで互いに競合する 2 つのネットワーク、ディスクリミネーターとジェネレーターの概念を紹介します。ジェネレーターの入力はランダム ノイズであり、本物そっくりの画像を生成する意味を割り当てます。弁別器の仕事は、画像が本物か偽物かを判断することです。 GAN は、負のクロスエントロピー損失に対応する損失関数を使用します。生成器は最小化し、弁別器はそれを最大化します。値関数は、ジェネレーターがどれだけうまく機能しているかを表し、偽のデータと実際のデータを正しく分類することによって、ディスクリミネーターによって最大化される必要があります。この講義では、GAN のトレーニングに関する問題と、ジェネレーターがより多くの変化を起こすことを可能にする非飽和損失についても説明します。
CS 198-126: 講義 11 - 高度な GAN
CS 198-126: 講義 11 - 高度な GAN
高度な GAN に関するこの講義では、バイリニア アップサンプリング、転置畳み込み、条件付き GAN、StyleGAN、CycleGAN など、GAN モデルの安定性と品質を向上させるためのさまざまな手法について説明します。講義では、制御されたランダム ノイズの使用、アダプティブ インスタンスの正規化、および GAN でのビデオの処理についても説明します。より良い安定性と結果を得るために、講師は、ディスクリミネーターを過度に弱めないように注意しながら、より大きなバッチサイズを使用し、テスト中にランダムノイズの範囲を切り捨てることを推奨しています.さらに、さまざまなサイズの潜在空間の広範な分布から始めて、さまざまな画像を生成することをお勧めします。最後に、レクチャーでは、非常に大規模な GAN の生成に役立つ Big Gan に触れます。
CS 198-126: 講義 12 - 拡散モデル
CS 198-126: 講義 12 - 拡散モデル
拡散モデルに関するこの講義では、スピーカーは拡散モデルの背後にある直感について説明します。つまり、画像に追加されたノイズを予測し、ノイズを除去して元の画像を取得します。講義では、トレーニング プロセス、強化されたアーキテクチャ、および画像とビデオを生成する際の拡散モデルの例について説明します。さらに、講義では潜在拡散モデルについて深く掘り下げます。これは、モデルを潜在空間に圧縮して、画像のセマンティック部分で拡散を実行します。スピーカーは、Dolly Q、Google の Imagine モデル、Facebook の Make a Video などの関連モデルの概要と、テキストを使用して 3D モデルを生成する機能についても説明します。