機械学習とニューラルネットワーク - ページ 34

 

CS 198-126: 講義 13 - シーケンス モデリングの概要



CS 198-126: 講義 13 - シーケンス モデリングの概要

シーケンス モデリングに関するこの講義では、スピーカーは、シーケンス データを表現し、多くの情報を失うことなく適切な数のタイム ステップを達成することの重要性を紹介します。これらの課題を解決するための最初の試みとして、さまざまな長さの入力と出力を処理できるリカレント ニューラル ネットワーク (RNN) について説明します。ただし、RNN の問題により、最適なパフォーマンスが妨げられます。テキスト埋め込みは、高次元のワンホット ベクトルを使用するのではなく、テキスト データを表現するためのより効率的な方法として導入されました。さらに、位置エンコーディングの概念は、バイナリ値ではなく連続値を使用してシーケンス内の要素の順序を表す方法として説明されています。

  • 00:00:00 このセクションでは、スピーカーはシーケンス モデルを紹介し、それらが重要である理由を説明します。特に、時系列データ、音声、テキストなどのさまざまな種類のシーケンス データと、それらがコンピューター ビジョンや自然言語処理モデルでどのように一般的に使用されているかについて言及しています。また、スピーカーは、シーケンス データを表現し、多くの情報を失うことなく適切な数のタイム ステップを達成することの重要性についても説明します。最終的な目標は、インターネットからスクレイピングされた大量のテキスト データでトレーニングできる言語モデルを作成することです。これは、ワンホット ベクトルのトークン化されたシーケンスとして表されます。

  • 00:05:00 このセクションでは、インストラクターが、テキスト データをワンホット ベクトルとして表現することの課題と、辞書内のすべての単語に対して 1 つのベクトルを持つことの非効率性について説明します。シーケンス モデリングの目標は、任意の長さのデータとさまざまな長さの入力と出力を処理することです。インストラクターは、さまざまな長さの出力を処理する必要がある感情分析や翻訳など、さまざまなパラダイムの例を提供します。さらに、テキストデータを分析する際には、文中の単語間の遠距離関係を考慮する必要があります。

  • 00:10:00 このセクションのビデオでは、文のさまざまな部分のアイデアを結び付け、シーケンス間の遠距離関係を処理する必要があるシーケンス モデリングの課題について説明します。これらの課題を解決するための最初の試みとしてリカレント ニューラル ネットワーク (RNN) が導入されました。このビデオでは、RNN がすべてのシーケンス要素で共有されるセル値を使用し、各セルが入力シーケンスを処理するのとまったく同じ重みを持つことを説明しています。さらに、RNN によって生成された出力は、確率から翻訳まで、あらゆるものとして解釈できます。

  • 00:15:00 このセクションでは、同じ長さのシーケンス要素を取り込み、その上で線形レイヤーを実行し、前の時間ステップから出力を取得する、リカレント ニューラル ネットワーク (RNN) の基本的な形式について学びます行列乗算を行うためのこのタイム ステップでの入力。次に、それらを互いに積み重ねるか、一緒に追加して出力をスピンアウトします。 tahn 関数は、出力が範囲内にあることを確認し、順伝播または逆伝播中に値が大きくなりすぎたり小さくなりすぎたりするのを防ぐために使用されます。複数のレイヤーを積み重ねることで、より複雑な機能の学習を開始できます。

  • 00:20:00 講義のこのセクションでは、インストラクターがシーケンス モデルを作成する際の課題と解決策について説明します。各セルの出力で tanh 関数を使用することにより、値が -1 から 1 の間に保持され、行列の乗算を繰り返すときに問題を引き起こす可能性のある大きな値を回避できます。このモデルは、任意の入力サイズ、可変出力長、遠距離関係を処理できます。次に、インストラクターは、100,000 次元のワンホット ベクトルを使用するのではなく、テキスト データを表現するためのより効率的な方法として埋め込みを紹介します。可能な解決策として、バイナリおよびトライナリ エンコーディングなどのアイデアが検討されています。

  • 00:25:00 このセクションでは、スピーカーはテキスト埋め込みの概念と、それをシーケンス モデリングでどのように利用できるかを紹介します。辞書内の各単語にワンホット ベクトルを使用する代わりに、単語を表すより小さいベクトルが学習され、モデルに入力されます。この表現の圧縮により、次元の削減が可能になり、コード ブックに似た埋め込みベクトルが作成されます。これらの埋め込みにより、「猫」や「犬」などの類似した単語が比較的近くにある一方で、「猫」や「草」などの相関関係がほとんどない単語はさらに離れているなど、単語のインテリジェントな表現が可能になることが期待されています。この近接関係が存在するという保証はありませんが、感情分析やその他のモデルが特定の単語の選択によってどのように影響を受けるかをより簡単に理解するために利用できます。

  • 00:30:00 このセクションでは、講師が埋め込みベクトルのコードブックで勾配降下法を使用して、意味的に類似した単語をグループ化する方法について説明します。彼はまた、経過時間やシーケンス内の位置が特定のドメインにとって重要になる可能性がある位置エンコーディングの概念についても言及し、位置エンコーディングとして知られる適切に機能する方法に移る前に、1 つのホット ベクトルで位置を表現するいくつかの方法について説明します。

  • 00:35:00 講義のこのセクションでは、インストラクターがシーケンス モデリングでタイム スタンプを使用して、シーケンスのどこまで進んでいるかを示すアイデアについて説明します。ただし、バイナリ エンコーディングをタイム スタンプとして使用すると、限られた数の一意の時間ステップしか表現できないため、シーケンスの長さが大きくなると制限される可能性があります。この問題に対処するために、インストラクターは、バイナリ エンコーディングを異なる周波数の正弦波と余弦波に置き換えて、連続アナログを使用することを提案しています。このようにして、より小さなベクトルを使用して、より多くの一意の時間ステップを表すことができます。

  • 00:40:00 このセクションでは、バイナリ値ではなく連続値を使用してシーケンス内の要素の順序を表す方法である、位置エンコーディングの概念について説明します。このプロセスでは、シーケンス要素ごとに異なる周波数で正弦関数と余弦関数を評価し、それらをグラフ化してバイナリ位置エンコーディングの連続アナログを作成します。結果のグラフは、バイナリ バージョンと同様に高い値と低い値が交互に表示され、シーケンス内の各要素に追加できます。位置エンコーディングは少し混乱する可能性がありますが、講義では、スライド デッキを確認し、概念を試して理解を深めることを提案しています。
CS 198-126: Lecture 13 - Intro to Sequence Modeling
CS 198-126: Lecture 13 - Intro to Sequence Modeling
  • 2022.12.03
  • www.youtube.com
Lecture 13 - Intro to Sequence ModelingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
 

CS 198-126: 講義 14 - 変圧器と注意



CS 198-126: 講義 14 - 変圧器と注意

トランスフォーマーと注意に関するこのビデオ レクチャーでは、注意の背後にある概念と動機、トランスフォーマーとの関係、NLP とビジョンへの応用について説明します。講師は、ソフト アテンションとハード アテンション、セルフ アテンション、ローカル アテンション、マルチヘッド アテンション、およびそれらが Transformer アーキテクチャでどのように使用されているかについて説明します。また、key-value-query システム、残差結合と層の正規化の重要性、線形層を適用して入力埋め込みから kqv を取得するプロセスについても説明しています。最後に、シーケンスからベクターへの例での位置埋め込みと CLS トークンの使用について説明し、アテンション メカニズムの計算効率とスケーラビリティを強調します。

  • 00:00:00 ビデオ講義のこのセクションでは、注意の背後にある動機と、それが Transformer モデルとどのように関連しているかを説明することを目標としています。注意は現代のビジョン トランスフォーマーの基礎であり、特定の場所に努力と注意を集中させるために必要です。講師は、アテンションはクエリのキー値システムを使用して、注意を払うべきものについてより多くの情報に基づいた決定を下すと説明しています。現代の注意システムは、人間の読み方に基づいており、特定の一連の単語に焦点を合わせ、他のすべてをぼかす.

  • 00:05:00 このセクションでは、講師が機械学習モデルにおける注意の概念について、特に NLP と RNN のコンテキストで説明します。注意により、モデルは入力の重要な部分に焦点を当てることができ、すべてを全体として取り込むのではなく、データの特定のサブセットを使用して推論を行うことができます。アテンションには 2 つのタイプがあります。ハード アテンションは、特定の時間ステップに関連するインデックスを予測します。ソフト アテンションは、softmax 関数を使用してソフト ウェイトのセットを作成し、入力トークンに基づいて確率分布を作成します。重要性。ソフトアテンションは一般的に使用され、さまざまな機能の表現を組み合わせます。講義では、注意を使用する例として、フランス語から英語への翻訳プロセスについても説明します。

  • 00:10:00 このセクションでは、スピーカーは各単語をエンコードし、入力とデコード用のコンテキスト ベクトルの順次処理を含む従来のエンコーダー デコーダー ネットワークを使用して単語の潜在表現を作成するプロセスについて説明します。次に、各潜在表現から情報を取得するコンテキスト ベクトルを使用して、以前にデコードされた情報に基づいてデコードするソフト アテンションの概念を導入します。このプロセスでは、スコア関数を作成して前のデコードとエンコードの間の類似性を判断し、さまざまなメトリックを使用して相対的な重要性を見つけ出し、一連のキーとクエリの関連性を確率的に表現します。

  • 00:15:00 このセクションでは、講師がローカル アテンションの概念について説明します。これにより、アテンション モデルは、計算リソースを節約するために、入力トークンのすべてではなく、特定のウィンドウのみをクエリできます。この講義では、チャネルごとの注意と画像の空間的注意のためのスクイーズおよび励起ネットワークの使用を含む、ビジョンに対する注意の使用についても詳しく説明します。さらに、畳み込みを使用して重要な特徴を抽出したり、長期短期記憶ネットワークを使用して単語間の接続を維持したりするなど、注意を使用して画像を説明する文を生成することについても簡単に触れます。

  • 00:20:00 このセクションでは、講師は、空間的および自己注意を含む、さまざまなアーキテクチャにおける注意の使用について説明します。 Self-attention は、文中の単語間の関係に注意を払いながら、同じ入力からトークンを検索することを含み、前の単語に基づいて次の単語をより適切に予測できるようにします。講師はまた、トランスフォーマーの概念を紹介します。トランスフォーマーは、注目のキー値クエリ システムを使用して、カーネル機能を選択する際にさまざまな量の類似性を待機します。

  • 00:25:00 ビデオのこのセクションでは、講師がトランスフォーマー モデルで使用されている自己注意とソフト注意の概念を紹介します。アイデアは、特定の関係を予測するために、特定の機能に焦点を当て、他の機能を無視する確率分布を作成することです。次に講師は、Transformer モデルでクエリとキーを 1 対 1 で比較する代わりに、マトリックスを使用する方法を説明します。講義では、長いシーケンスを並列化してキャプチャすることができないなどの RNN の制限と、注意がこれらの問題の解決にどのように役立つかについても説明します。

  • 00:30:00 講義のこのセクションでは、プレゼンターが Transformer アーキテクチャと、それが自己注意を使用してトークンのシーケンスまたはグループをモデル化する方法について説明します。入力には一連のトークン埋め込みと位置埋め込みが含まれており、目標は Transformer モデルに渡すことができる表現を考え出すことです。マルチヘッドアテンションを使用して、クエリとキーに基づいて各トークンの重要度を計算し、フィードフォワードステップを並行して実行して、Transformer のメリットを引き出します。このアーキテクチャは、残差接続とレイヤー ノルムを組み合わせて、消失勾配を緩和し、正確な表現を提供します。最後に、線形レイヤーが最後に追加され、さまざまな表現のキュー、キー、および値に基づいて出力が計算されます。

  • 00:35:00 このセクションでは、スピーカーは線形レイヤーを適用して、テキスト内の各単語の入力埋め込みから kqv を取得するプロセスについて説明します。これには、行列の乗算によって結合されたキー、クエリ、および値に異なる重み付けを使用することが含まれます。この後、クエリと値の間に内積が見つかり、各トークンが他のすべてのトークンに直接対応するため、入力間の接続が無限にスケーラブルになります。内積値に基づいて SoftMax 分布が適用され、この分布に基づいて値が再重み付けされ、トークンごとに最終値が算出されます。 D の平方根を 1 で割って注意をスケーリングすることで標準化を行い、小さい勾配がないようにします。多頭注意を使用して、トークンに対応する各キー、クエリ、値を H 回射影します。最後に、過剰適合を防ぐためにドロップアウトが使用され、フィードフォワード ニューラル ネットワークに送信される前に、結果のベクトルに変換が適用されます。

  • 00:40:00 ビデオのこのセクションでは、講師が変換器のアテンション メカニズムと、深いネットワークで消失勾配を処理するために残差結合を追加することの重要性について説明します。また、バッチ正規化とレイヤー正規化の違いについても説明しています。レイヤー正規化はアテンション メカニズムで使用され、各フィーチャ ディメンションを正規化します。講師は、値の加重合計がどのように複数のベクトルを生成するかについても説明します。次に、加重行列を通過して、フィード フォワード ネットワークに渡される特異値を取得します。全体として、この講義では、変圧器の注意メカニズムとそのさまざまなコンポーネントについて詳細に説明します。

  • 00:45:00 トランスフォーマーとアテンションに関するレクチャーのこのセクションでは、スピーカーはニューラル ネットワークのトランスフォーマー アーキテクチャの実装について説明します。これは、残差と層のノルム操作、および 1 つずつ畳み込みで構成されます。各多層パーセプトロンは並列化され、入力位置埋め込みを使用して、位置情報に基づいて特定のウィンドウに焦点を当てます。ダミー トークンは、シーケンスをベクトル測定値に変換するために、特定の NLP タスクでも使用されます。

  • 00:50:00 このセクションでは、シーケンスからベクターへの例と CLS トークンの使用について説明します。この講義では、アテンション メカニズムの背後にある数学について説明します。これには、クエリ、キー、および値の入力間の行列乗算が含まれます。結果は、注意を表す加重合計です。この方法は計算効率が高く、GPU での並列化に適しており、大きな入力に対してもスケーラブルです。講義の締めくくりとして、変圧器のアーキテクチャ、位置の埋め込み、およびシーケンシャル モデルとは異なる誘導性バイアスの導入について説明します。
CS 198-126: Lecture 14 - Transformers and Attention
CS 198-126: Lecture 14 - Transformers and Attention
  • 2022.12.03
  • www.youtube.com
Lecture 14 - Transformers and AttentionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
 

CS 198-126: 講義 15 - ビジョン トランスフォーマー



CS 198-126: 講義 15 - ビジョン トランスフォーマー

この講義では、講演者は画像処理タスクでのビジョン トランスフォーマー (ViT) の使用について説明します。 ViT アーキテクチャでは、画像を個別のパッチにダウンサンプリングし、Transformer を通過する前にリニア レイヤー出力を使用して入力埋め込みに投影します。モデルは、実際のデータセットを微調整する前に、大規模なラベル付きデータセットで事前トレーニングされるため、以前の最先端の方法よりも少ない計算で優れたパフォーマンスが得られます。 ViT と畳み込みニューラル ネットワーク (CNN) の違いについて説明します。ViT はグローバルな受容野を持ち、CNN よりも柔軟性があります。ビジョン タスクのための Transformers による自己教師あり学習と教師なし学習の使用も強調されています。

  • 00:00:00 このセクションでは、講演者がビジョン トランスフォーマーの使用方法と、それらを画像に適用する方法について説明します。トークン、埋め込み、およびトランスフォーマーの概念を説明し、自然言語処理タスクにどのように使用できるかの具体的な例を提供します。次に、イメージを一連のトークンとして前処理し、Transformer のスケーラビリティ、計算効率、グローバル受容野を使用して効果的に処理することにより、同じアーキテクチャをコンピューター ビジョン タスクに適用する方法を説明します。スピーカーは、トークン化と各単語の語彙へのマッピングによるテキストの前処理にも触れます。

  • 00:05:00 講義のこのセクションでは、講師は、自然言語処理 (NLP) で使用されるトークン化と埋め込み方法を画像処理に変換する方法について説明します。トークン化には、単語またはフレーズを数値形式に変換することが含まれます。これは、埋め込みベクトルの生成に使用されます。ただし、色の値が連続しているため、このプロセスは画像の場合は簡単ではなく、それらを参照するためのテーブルを作成するのが難しくなります。この課題は、各ピクセルをトークンとして扱うことができるようになるため、値を離散化することで対処できます。さらに、時間の複雑さの問題は、より小さな画像を使用し、言語モデルと同様にトレーニングすることで対処されます。

  • 00:10:00 このセクションでは、限られたラベル付きサンプル セットを使用した半教師あり分類によるビジョン トランスフォーマー モデルの成功の測定について説明します。モデルは、ラベル付けされていないサンプルで事前トレーニングされ、出力画像表現を入力として線形分類器に渡されます。出力埋め込みは、分類器が適切に機能するために十分である必要があります。この手法により、ラベルを使用せずに競合する精度が得られ、画像生成にも使用されました。モデルは成功していますが、かなりの量の計算が必要であり、解像度が 64 x 64 の画像でしか機能しません。 Transformer モデルの魅力は計算に対するスケーラビリティですが、ダウンストリーム アプリケーションにはより効率的な実装手段が必要になります。

  • 00:15:00 このセクションでは、スピーカーは、画像分類に対するより効率的で一般的なアプローチであるビジョン トランスフォーマーのアーキテクチャについて説明します。ピクセルを量子化する代わりに、画像はパッチにダウンサンプリングされ、線形レイヤー出力を使用して入力埋め込みに直接投影されます。位置埋め込みと CLS トークンが Transformer の上に追加されます。実際のデータセットを微調整する前に、大規模なラベル付きデータセットに対して事前トレーニングが行われるため、以前の最先端技術よりもはるかに少ない計算で優れたパフォーマンスが得られます。このアプローチは、誘導バイアスが少ないため、より一般的です。

  • 00:20:00 このセクションでは、畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) の違いについて説明します。 CNN と ViT の 2 つの主な違いは、局所性と 2 次元の近傍構造です。 CNN は、ピクセル間の相互作用に使用されるカーネル サイズの制限により、互いに近くにある特徴に偏る傾向があります。一方、ViT はすべてのピクセルを埋め込みに投影し、画像内の位置に関係なく、すべてのトークンが他のすべてのトークンに対応できるようにするため、局所的な特徴への偏りが少なくなります。 ViT には、各トークンと位置埋め込みの一意の表現もあり、結果の表現に影響を与えるため、より柔軟になり、微調整中に補間できます。

  • 00:25:00 このセクションでは、従来の畳み込みニューラル ネットワーク (CNN) に対するビジョン トランスフォーマー (ViT) のいくつかの利点について学びます。 ViT は、CNN で設計されたバイアスとは異なり、最初に画像を処理することに偏りがないため、より大きなデータセットでより良い画像表現を学習できます。つまり、データのモードを想定していません。これは、ViT がデータとトレードオフを持ち、データが少ないとパフォーマンスが低下し、データが多いとパフォーマンスが向上する理由でもあります。さらに、ViT にはグローバルな受容野があり、CNN では不可能な画像全体での相互作用が可能です。位置の埋め込みや注意の表現などの一部の ViT 機能により、いくつかの点でより解釈しやすくなります。

  • 00:30:00 このセクションでは、畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマーの違いについて説明します。 CNN は 1 つまたは 2 つの畳み込み層を使用して、小さな領域を超えて情報を処理する能力を制限します。したがって、CNN 内のトークン間の相互作用は最後にのみ発生します。対照的に、ビジョントランスフォーマーは、各トークンが最初から他のすべてのトークンと相互作用するグローバル受容フィールドを使用して、すべてに注意を向けることができます.ただし、ビジョン トランスフォーマーには、パッチを使用するために出力の粒度が低くなり、細粒度の画像分類とセグメンテーションに問題が生じるなどの短所があります。より一般的なモデルを持つという目標が強調されており、モデルは特定のドメイン用に手動で設計するのではなくデータから学習し、ドメインの組み合わせを容易にします。

  • 00:35:00 このセクションでは、スピーカーは、特に視覚タスクのコンテキストで、Transformers で自己教師あり学習と教師なし学習を使用する利点について説明します。インターネットから大量のラベル付けされていないデータにアクセスできるため、自己教師ありおよび教師なしの目標により、注釈を必要とせずに効率的なトレーニングが可能になります。結果として得られるモデルは、シーン レイアウトとオブジェクト境界情報を保持する表現を生成でき、画像分類とビデオ セグメンテーション タスクに使用できます。講演者は、さまざまな画像分類タスクでのビジョン トランスフォーマーの使用の成功についても強調し、大量のデータを適切にスケーリングする能力を実証します。

  • 00:40:00 このセクションでは、講師が Transformer モデルの初期アーキテクチャからリーダーボードのトップ アーキテクチャに到達する方法について説明します。彼らは、計算時間、モデル サイズ、およびデータ セット サイズに応じてより適切な表現がスケーリングされ、大規模なモデルはよりサンプル効率が高いことを発見しました。つまり、同じパフォーマンスを得るために必要なトレーニング サンプルが少なくて済みます。講師は、2 つのハイブリッド アーキテクチャである Vision Transformers と CNN についても話します。彼らは、十分なデータがない場合に、トランスフォーマーで欠落している並進等分散に対処するために、相対的な位置に依存する重み値を使用してビジュアル トランスフォーマーに誘導バイアスを追加します。

  • 00:45:00 このセクションでは、講師が画像の Transformer モデルでの学習済み重みベクトルの使用について説明します。この学習された重みベクトルにより、絶対位置ではなく相対位置のみに依存する機能のエンコードが容易になります。さらに、講師は、畳み込みブロックと Transformer ブロックのプーリングや結合など、Transformer の空間サイズに関する二次時間の問題に対する解決策を提示します。自己管理トレーニング スキームを備えたビジョン トランスフォーマー モデルは、手作業で設計された機能からより一般的なモデルへの移行における次のステップと見なされており、トランスフォーマーが行う傾向があるように、大量のデータを必要とします。 BTS モデルはスケーラブルで、コンピューティング ハードウェア上で優れたパフォーマンスを発揮します。講師は、教師あり学習アルゴリズムであることを確認します。
CS 198-126: Lecture 15 - Vision Transformers
CS 198-126: Lecture 15 - Vision Transformers
  • 2022.12.03
  • www.youtube.com
Lecture 15 - Vision TransformersCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/de...
 

CS 198-126: 講義 16 - 高度なオブジェクト検出とセマンティック セグメンテーション



CS 198-126: 講義 16 - 高度なオブジェクト検出とセマンティック セグメンテーション

この高度なオブジェクト検出とセマンティック セグメンテーションの講義では、講師は畳み込みニューラル ネットワーク (CNN) とトランスフォーマーの長所と短所、特に自然言語処理 (NLP) とコンピューター ビジョンについて説明します。 CNN はテクスチャ バイアスに優れていますが、トランスフォーマーは自己注意レイヤーを使用して重要な概念を結び付け、特定の入力に集中することで、NLP とコンピューター ビジョンの両方のタスクを効率的に処理します。次に、テクスチャよりも形状を優先し、歪みに対する耐性を高めるビジョン トランスフォーマーについて詳しく説明します。彼はさらに、画像分類、セマンティック セグメンテーション、オブジェクト検出に優れた Vision Transformer の改良版である Swin Transformer の利点と制限について説明します。講義では、あらゆる種類のデータを処理できるモデルにおける一般化可能性の重要性と、自動運転車などの分野での潜在的なアプリケーションが強調されています。

  • 00:00:00 このセクションでは、講師がその日の講義の計画の概要を説明します。これには、CNN とトランスフォーマーのレビューと、それらの長所と短所が含まれます。この講義では、BERT などの NLP コンテキストと、埋め込みがどのように生成されるかについても説明し、その後、ビジョン トランスフォーマーに移り、それらを CNN と比較します。 Swing Transformer は、コンピューター ビジョン アプリケーション向けの Vision Transformers の改良版であり、ウィンドウ アテンション パッチのマージや位置埋め込みによるシフト ウィンドウ アテンションなどについて説明します。講義では、時間の許す限り、高度なセグメンテーション方法についても取り上げます。

  • 00:05:00 講義のこのセクションでは、講演者は CNN の概念とその並進等価性について説明します。つまり、CNN は 2 次元の近傍構造に準拠し、歩幅に応じて異なるポイントで情報を取得します。講演者はまた、cnn は形状よりもテクスチャに偏りがある傾向を示しており、テクスチャの増強がパフォーマンスに影響を与える可能性があることも指摘しています。次にスピーカーは、NLP タスクのトランスフォーマーのコンテキストに移行し、注意によって文内の重要な事柄を結び付け、入力の特定の部分に集中する方法について説明します。トランスフォーマーの自己注意により、文の中でこれを行うことができ、以前に遭遇した単語の重要性が強調されます。

  • 00:10:00 このセクションのビデオでは、セルフアテンション レイヤーがクエリ、キー、および値を使用して、類似性または相違点に基づいてアテンションおよび重み情報を計算する方法について説明します。このセクションでは、Transformer モデルを使用して、画像を 16x16 パッチにフラット化し、線形レイヤーに渡して埋め込みを生成することで、NLP とコンピューター ビジョンの両方のタスクを処理する Vision Transformers についても紹介します。位置情報はモデルによって学習され、多層パーセプトロンを使用して出力を分類します。このセクションでは、ビジョン トランスフォーマーを CNNS と比較し、MLP のみが隣接するピクセルを比較する一方で、自己注意層はグローバルであることを指摘します。 Vision Transformer の Transformer モデルは、画像入力と単語入力を区別せず、さまざまなタスクに対して一般化できます。

  • 00:15:00 講義のこのセクションでは、機械学習モデルにおける帰納的バイアスの概念について説明します。帰納的バイアスとは、モデルがトレーニングされたデータについて行う仮定を指し、このバイアスを減らすと、モデルをより一般化できるようになります。事前知識を前提とせずに複数のタスクに適用できるモデルを持つことが重要です。 CNN は小規模なデータ セットではトランスフォーマーよりも優れたパフォーマンスを発揮しますが、ビジョン トランスフォーマー モデル (ViT) は、テクスチャよりも形状を優先することで人間の視力をより適切にモデル化するため、大規模で複雑なデータ セットでより優れたパフォーマンスを発揮します。敵対的ロバスト性は、ノイズを導入することによって画像が歪められ、特定の分類器がそれらを分類できなくなるメトリックとしても導入されています。

  • 00:20:00 このセクションでは、画像の復元とセマンティック セグメンテーションにおけるビジョン トランスフォーマーの制限について説明します。パッチが渡されて一度に 1 つずつ処理されると、境界情報が失われる可能性があり、1 つのパッチに属する情報が同じものとして扱われるため、パッチ内のきめ細かなピクセル分析が弱くなります。ただし、形状よりもテクスチャを優先する CNN とは異なり、ビジョン トランスフォーマーはテクスチャよりも形状を優先するため、対象となるノイズが画像に追加された場合でも、視覚的な歪みに対して自然に堅牢になります。パッチの抽出は画像特有の問題であり、画像が大きくなると、生成される画像トークンの数が急激に増加します。

  • 00:25:00 このセクションでは、講師は、オブジェクトの検出とセグメンテーションに一般的なビジョン トランスフォーマーを使用する際の問題について説明します。特に、大きな画像を処理するには多くの処理能力が必要なためです。ただし、シフト ウィンドウ トランスフォーマーを使用したソリューションが導入されました。これは、重複しないウィンドウを使用してグループ内で自己注意を実行し、それらを組み合わせて相互注意を実行します。これにより、クロスウィンドウのアテンション接続が可能になり、パッチが結合されている間もパッチのサイズが同じままであるため、N 2 乗ではなく線形の計算複雑さが生じます。この画像セグメンテーションの方法は、自動運転技術で一般的に使用されています。

  • 00:30:00 このセクションでは、画像分類、オブジェクト検出、セマンティック セグメンテーションに優れたモデルである Swin Transformer の概念を紹介します。 Swin ラージ パッチ モデルは、パッチ サイズ 4、容量 192、ウィンドウ サイズ 7 で、ImageNet 22k でトレーニングされ、ImageNet 1k で微調整されています。このモデルは、ウィンドウ マルチアテンション レイヤーとシフト ウィンドウ アテンション レイヤー、および GELU アクティベーション関数を使用する隠れレイヤーを含む MLP を使用します。ウィンドウ MSA の出力は、レイヤ ノルムを通過して、MLP に入る前に中間レイヤの分布を正規化します。

  • 00:35:00 このセクションでは、スピーカーはオブジェクト検出とセマンティック セグメンテーションのトレーニング モデルでレイヤー ノルムを使用する利点について説明します。 Layer Norm は勾配表面に平滑化操作を適用するため、トレーニングが高速になり、一般化の精度が向上します。講演者は、Layer Norm を Batch Norm などの他のスムージング手法と比較し、プロセスの中間層にどのように焦点を当てているかを説明します。次に、画像の各ウィンドウ内で自己注意を実行する Windowed Multi-Head Self-Attention (WMSA) ブロックに議論を移します。各ウィンドウ内のパッチ ベクトルの数は保証されているため、Vit の 2 次複雑度 (競合する手法) とは異なり、画像サイズは線形複雑度になります。 WMSA の第 2 段階では、隣接するピクセル ブロックが小さなウィンドウに連結され、新しいパッチの境界線と再作成されたウィンドウが作成されるパッチ マージ プロセスが含まれます。
     
  • 00:40:00 講義のこのセクションでは、発表者は、パッチを進めた後に生成されるウィンドウの数の増加を処理するために、Swin Transformer によるソリューションを説明します。 Swin Transformer は、ブロックを再配置して 4 つのウィンドウのみを持つようにすることで、これらのウィンドウを巧みに組み合わせ、要素の総数を 64 から 16 に減らし、情報量の一貫性を維持します。最適化手法には巡回シフトが含まれ、線形レイヤーを使用して、パッチの内訳を減らした後、埋め込みサイズの深さまたは「C」次元を増やします。この手法により、計算能力が節約され、注意を実行する前にゼロ パディングという単純な解決策が回避されます。

  • 00:45:00 このセクションでは、スピーカーは、画像処理の効率を改善するために著者によって提案された 2 つの最適化について説明します。最初の最適化では、注意を計算する前に画像を特定の部分に移動し、その後、計算済みであることをマークしながら元に戻します。これにより、目的の値を取得するためにまったく新しい操作を実行する必要がなくなり、計算能力が最適化されます。 2 番目の最適化は、パッチの位置情報を明示的に提供する代わりに学習する位置埋め込みによるもので、計算する必要がある注意の範囲を制限します。これらの最適化は、バイアス ベクトルとチャネル サイズ操作の使用と共に、画像処理における自己注意計算のパフォーマンスに役立ちます。

  • 00:50:00 このセクションでは、Swin Transformer モデルのステージ 2、3、および 4 でパッチをマージするプロセスについて説明します。パッチの次元を減らすことで、パッチは 4 分の 1 に縮小されて 3136 個のパッチに達し、エンコーディング サイズは 2 倍になり 384 個のエンコーディングが得られます。このプロセスはステージ 3 と 4 で繰り返され、プロセスの最後のコンポーネントは平均プーリング層であり、その後に分類ヘッドが続きます。この講義では、CNN と同様のアプローチを使用することで帰納的バイアスが再導入されるのではないかという懸念が生じますが、研究によると、Swin モデルは破損の堅牢性の点でうまく機能し、Vision Transformers よりも形状バイアスが低いことが示されています。 Transformer アーキテクチャの汎用性により、データ型やドメインに関係なくパターンを正確にキャプチャでき、データが多いほどパフォーマンスが向上します。

  • 00:55:00 このセクションでは、講師は、一般化可能性として知られる、あらゆる種類のデータを取り込んで処理し、パターンを抽出できるモデルを持つことの利点と欠点について説明します。あらゆる入力/出力を処理できる一般的な人工知能モデルのアイデアが議論され、自動運転車などの分野での潜在的なアプリケーションが調査されます。講師はまた、敵対的ロバスト性の分野はまだ発展途上であり、より高度な敵対的攻撃に対する Swin などのモデルの有効性を判断するには、さらなるテストが必要であると述べています。
CS 198-126: Lecture 16 - Advanced Object Detection and Semantic Segmentation
CS 198-126: Lecture 16 - Advanced Object Detection and Semantic Segmentation
  • 2022.12.03
  • www.youtube.com
Lecture 16 - Advanced Object Detection and Semantic SegmentationCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease ...
 

CS 198-126: 講義 17 - 3-D ビジョン調査、パート 1



CS 198-126: 講義 17 - 3-D ビジョン調査、パート 1

このビデオでは、点群、メッシュ、ボクセル、放射輝度フィールドなど、さまざまな 3D 視覚表現とその長所と短所について説明しています。この講義では、前方および後方へのレイキャスティング、および相互に交差するオブジェクトの画像の色付けとレンダリングについても説明し、ソリッドと透明度に対するさまざまなアプローチを使用します。講師は、微分可能なレンダリングの限界と、ラディアンス フィールドがどのように密度と物理的色を使用して各 XYZ ポイントの関数を作成し、より学習しやすくすることができるかについて触れます。

  • 00:00:00 このセクションでは、現実世界は 3 次元であるため、講師はコンピューター ビジョンを 3D に拡張する必要性について説明します。自動運転、形状の最適化、仮想環境、アバターの生成など、3D の用途は無限にあります。次に、2.5D、点群、メッシュ、ボクセル グリッド、および領域フィールドを含む、3D 表現のさまざまな方法が提示されます。次に、ピンホール カメラ モデルについて詳しく説明します。これは、イメージングがどのように機能するかを理解するために重要であり、その後、シミュレーションのために空間で 3D オブジェクトをレンダリングする方法についても説明します。

  • 00:05:00 レクチャーのこのセクションでは、シーン内のカメラの位置を決定する手段として、フォワード トレースとバック トレースの概念を紹介します。講師は、RGB-D (2.5D) 画像についても説明し、ポイント クラウドの生成に使用できる深さ情報がどのように含まれているかについても説明します。この情報は、サーフェスのメッシュの作成に使用できます。点群を使用してメッシュを作成する利点と制限についても説明します。

  • 00:10:00 このセクションでは、講師が 3D オブジェクトのさまざまな表現について説明します。彼らは、メッシュ構造と、グラフを操作するための技術が不足しているため、機械学習の設定でそれらを操作することがいかに難しいかについて議論することから始めます.次に、ボクセルを小さな立方体または「レゴ」で構成された個別の 3D 空間構造として紹介します。これはオブジェクトをバイナリまたは半透明の方法で表すことができます。ただし、高解像度でのボクセルの使用は、計算の複雑さのために法外な場合があります。講義の最後に、3D オブジェクトで高周波の詳細を表現するためのソリューションとして、特定の XYZ 座標で RGB の色と密度を出力する機能である放射輝度場を紹介します。

  • 00:15:00 このセクションでは、講師が点群、メッシュ、ボクセル、放射輝度フィールドなど、さまざまな 3D 表現について説明します。各タイプには長所と短所があり、特定のタスクに適した表現を選択することが不可欠です。 3D 表現について説明した後、レイキャスティングと、フォワードとバックワードの 2 種類のレイキャスティングについて説明します。フォワード レイキャスティングは、シーン内のすべての点を見ることができるため、点群のレンダリングに役立ちます。逆に、バックワード レイキャスティングは、最初にレイと交差するサーフェスを確認できるため、メッシュまたはボクセル グリッドのレンダリングに適しています。

  • 00:20:00 ビデオのこのセクションでは、話し手は、互いに交差するさまざまなオブジェクトの画像に色を付けてレンダリングするプロセスについて説明します。これは、すべての配列に対して 3 つの三角形の交点を計算することによって行われますが、これは効率的です。オブジェクトが半透明の場合、プロセスでは、交差する最初のポイントの色だけでなく、最初と 2 番目のポイントの密度も考慮する必要があります。煙などの表面のない領域では、レイ サンプリングを使用して直線上のさまざまなポイントをサンプリングし、Radiance フィールドを使用して各ポイントの RGB と D を出力する関数を作成します。これらの色と密度のセットは、ボリューム レンダリングを使用して集約され、1 つのピクセル ボリュームが作成されます。

  • 00:25:00 このセクションでは、講師が微分可能なレンダリングとその制限について説明します。レンダリングで説明されていることはすべて微分可能ですが、レンダリングされたイメージに表示される可視面についてのみ微分可能です。放射輝度フィールドは、サンプリングされるすべての単一ポイントが最終的な色に影響を与えるため、出力グラデーションを持つため、この問題を解決します。講師はまた、Radiance Fields がしばらく前から存在し、密度と物理的な色を持つすべての XYZ ポイントの関数を作成する方法として機能していると述べています。次に、講師は f をニューラル ネットワークとしてモデリングして、Radiance Fields を学習可能にすることについて説明します。

  • 00:30:00 このセクションでは、スピーカーはトランスフォーマーの宿題が 1 週間遅れていることについて簡単に言及していますが、文脈や説明は一切提供していません。
CS 198-126: Lecture 17 - 3-D Vision Survey, Part 1
CS 198-126: Lecture 17 - 3-D Vision Survey, Part 1
  • 2022.12.03
  • www.youtube.com
Lecture 17 - 3-D Vision Survey, Part 1CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
 

CS 198-126: 講義 18 - 3-D ビジョン調査、パート 2



CS 198-126: 講義 18 - 3-D ビジョン調査、パート 2

3D ビジョンに関するこの講義では、インストラクターは、空間内の位置を取り、色と密度を出力する放射輝度フィールド、特にニューラル放射輝度フィールド (NeRF) について説明します。スピーカーは、カメラの視点からクエリを実行し、ブラック ボックス関数を使用して画像がどのように見えるかを把握するレンダリングのプロセスを説明します。講義では、3D ビジョンでオブジェクトの一貫した視点を表現する際の課題と、MLP を使用してオブジェクトの XYZ データを取り込み、方向を表示して密度と RGB 情報を出力する方法について説明します。この講義では、ボリューメトリック レンダリングの課題と、Nerf 派生物を使用してコンピューター ビジョンを改善することについても説明します。インストラクターは最後に、ニューラル ネットワークを使用してリアルな 3D 画像を生成するために空間収縮を使用する方法を示します。

  • 00:00:00 レクチャーのこのセクションでは、インストラクターは、空間内の位置を取り、色と密度を出力する放射フィールド、特に NeRF (Neural Radiance Fields) について説明します。レンダリングのプロセスには、カメラの視点からのクエリと、ブラック ボックス関数を使用してイメージがどのように見えるかを把握することが含まれます。色はすべてのサンプルの加重平均であり、可視性は密度に比例し、カメラの前にあるオブジェクトの量に反比例します。インストラクターは、カメラに最も近いオブジェクトがどのように色に最も貢献するか、密度が重量に与える影響など、放射輝度フィールドの背後にある直感を説明する例を示します。

  • 00:05:00 このセクションでは、スピーカーはニューラル放射輝度フィールドを作成して、オブジェクトの複数の画像に基づいてオブジェクトの新しいビューを生成する方法を説明します。目標は、シーン内のポイントでクエリを実行して新しい画像を作成できるニューラル ラディアンス フィールドを考え出すことです。ただし、これに必要な地上部隊の位置と方向を取得することは、困難で時間のかかる作業になる可能性があります。このプロセスに役立つプログラムが利用可能ですが、スピーカーは、これらのツールのみに依存することは不正行為と見なされる可能性があることに注意しています.

  • 00:10:00 このセクションでは、講師がシーンの新しいビューを生成するための 3D ビジョンの使用について説明します。彼らは、ニューラル ラディアンス フィールドを学習することで、さまざまなビュー間で形状の一貫性が可能になると説明しています。これは、ディープ ラーニングを使用してオブジェクトの新しいビューをレンダリングするために重要です。このボトルネックがなければ、異なるビュー間で一貫性のない形状を生成した StyleGAN の例に示されているように、一貫性を確保することは困難です。講師は、一貫した形状を持つオブジェクトの新しいビューを生成するには、オブジェクトの 3D 表現を学習する必要があると主張しています。

  • 00:15:00 このセクションでは、スピーカーは、3D ビジョンでオブジェクトの一貫した視点を表現する際の課題について説明します。 Radiance Fields の使用は、別の方法ではキャプチャするのが難しい、さまざまな角度からのまぶしさや反射など、オブジェクトの外観の細部を表現する方法として説明されています。講演者は、このプロセスで位置データと表示方向データを取得して、観測対象のより正確な表現を作成する方法について詳しく説明します。密度と色の MLP を使用してオブジェクトのさまざまな側面を表現する概念についても説明します。

  • 00:20:00 このセクションでは、スピーカーは、MLP (高密度ニューラル ネットワーク) を使用してオブジェクトの XYZ データとそのビュー方向を取り込み、密度と RGB 情報を出力する方法について説明します。ネットワークは位置エンコーディングを使用して明確な決定境界を作成し、再作成される画像の鮮明さを向上させます。バイナリ表現と論理ゲートを使用することで、再作成された画像で急激な変化と高周波の詳細が可能になります。講演者は、必要に応じて、位置エンコーディングについてより詳細な説明を提供できることを指摘しています。

  • 00:25:00 このセクションでは、3D ビジョン用の Nerf (ニューラル ラジアンス フィールド) モデルを実装するさまざまな側面について、スピーカーが詳しく説明します。これには、鋭い境界の位置エンコーディングの使用や、グレアや反射などの効果のビュー依存が含まれます。スピーカーは、2 つのラウンドでサンプリング プロセスを最適化し、別の MLP を使用してエッジの詳細を学習することについても説明します。さらに、スピーカーは、ネットワークのトレーニングに使用される損失関数について説明します。これには、グラウンド トゥルース イメージの RGB 値の比較と、GPU の制限による限られた数のレイのレンダリングが含まれます。密度に直接的な損失はありませんが、ネットワークは密度と色の正確さの間の間接的な関係を通じて正しい密度を学習します。

  • 00:30:00 レクチャーのこのセクションでは、スピーカーはボリューム レンダリングのプロセスと、正確な予測を生成するために正しい色と密度がどのように必要かについて話します。講演者は、十分な数のカメラを利用することでオブジェクト上のさまざまなポイントの三角測量が可能になり、ネットワークが低損失を生成する最も簡単な方法は、交点の正しい色と高密度を出力することであると説明しています。スピーカーは、前処理スクリプトとリアルタイム レンダリング トレーニング用の nerfacto と呼ばれるライブラリを使用する彼らが取り組んでいるプロジェクトも紹介します。スピーカーは、前処理が難しく、間違った方向に進む場合があることに注意します。

  • 00:35:00 このセクションでは、スピーカーが 3D ビジョンと、あらゆる方向から画像をキャプチャすることに関連する課題について説明します。このビデオでは、Nerf 派生物を使用してコンピューター ビジョンを改善する方法と、この手法を使用してシーンの周囲の空間を縮小し、ネットワークが適切な値を学習しやすくする方法に焦点を当てています。講演者は、画像の周囲の境界ボックスが空間を制約するのに役立つため、ネットワークは -1 から 1 の間の値のみを受け取ると説明しています。ビデオは、空間内の点を取り、それを単位球であり、ネットワークが学習しやすいポイントとシーンの値を作成します。

  • 00:40:00 ビデオのこのセクションでは、スピーカーは空間収縮を使用して、ニューラル ネットワークを使用してリアルな 3D 画像を生成する方法を示しています。彼はカンパニラの画像を紹介し、トレーニング データの端に到達するとネットワークが徐々に悪化することを説明します。スピーカーは、数日ではなく数秒で 3D 画像を生成するいくつかの進歩についても言及しています。密度関数が学習可能である理由について議論する十分な時間はありませんでしたが、講演後に聴衆との議論を提案しました。
CS 198-126: Lecture 18 - 3-D Vision Survey, Part 2
CS 198-126: Lecture 18 - 3-D Vision Survey, Part 2
  • 2022.12.03
  • www.youtube.com
Lecture 18 - 3-D Vision Survey, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
 

CS 198-126: 講義 19 - 高度なビジョンの事前トレーニング



CS 198-126: 講義 19 - 高度なビジョンの事前トレーニング

このビデオでは、対照学習、ノイズ除去オートエンコーダー、コンテキスト エンコーダー、Mae ネットワークなど、高度なビジョンの自己教師あり事前トレーニングに使用されるさまざまな手法について説明します。講演者は、各方法の概要を説明し、その長所と短所について説明し、BYOL 方法で対照的損失と再構成損失を組み合わせることの利点を強調します。このビデオは、自己教師あり学習の最新の研究動向と、コンピューター ビジョン モデルのパフォーマンスを向上させる可能性について有益な洞察を提供します。

  • 00:00:00 このセクションでは、インストラクターは自己教師あり学習 (SSL) の概念を紹介します。これは教師なし学習の一分野であり、ラベルが関連付けられていないデータセットからラベルを作成します。このアプローチは、小さなデータセットを操作する場合や、大規模で多様なデータセットでモデルを事前トレーニングして、下流のタスクに転送できる表現を抽出する場合に役立ちます。また、インストラクターは John McCune による類推を提供して、SSL が教師なし学習よりも多くの監督を提供し、教師あり学習よりも少ないことを説明しています。

  • 00:05:00 このセクションでは、知能の基盤としての教師なし学習の概念が、コンピュータ ビジョンのコンテキストで紹介されました。教師あり学習と強化学習はプロセスのほんの一部に過ぎませんでしたが、自己教師あり学習は学習の主な形式としてゼロからラベルを作成する方法として議論されました。対照学習の概念は、最適化の目標として類似性に焦点を当てた一般的な教師なしアプローチとして導入され、損失関数の目的は、ポジティブ サンプルの埋め込みを入力の埋め込みにできるだけ近づけることであると説明されました。同時に、負のサンプルの埋め込みを入力埋め込みから遠ざけます。

  • 00:10:00 このセクションのビデオでは、顔認識ネットワークのトレーニングに使用されるトリプレット損失の概念と、対照損失関数を使用してそれを改善する方法について説明しています。対照的な損失関数は、多数の負のサンプルが原因で実現不可能な、考えられるすべての負のサンプルから入力を遠ざけるという問題に取り組みます。この損失関数の実装は、正のサンプルが正しいラベルとして機能し、すべての負のサンプルが正しくないラベルとして機能する分類問題に似ています。ビデオでは、MOCO アルゴリズムを紹介します。これは、対照学習を微分可能な辞書収入として定義し、すべての期間とクエリを 1 か所に収集できるようにします。

  • 00:15:00 このセクションでは、プレゼンターが対照学習のプロセスと、ニューラル ネットワークを介して類似性を定義する方法について説明します。著者は、インスタンス識別として知られている、同じネットワークを使用して同じサンプルを通過していることを意味し、強調しています。ダウンストリーム タスクの適切な表現を作成するには、キーとクエリが同じネットワークから取得されるため、複数のネットワークを使用することはあまり役に立ちません。代わりに、より適切な表現を促進するには、ネガの巨大なプールが必要です。ただし、膨大なネガのプールから 1 つのポジティブを選択することは、計算が困難で非現実的であり、バッチ サイズが制限されます。次に、プレゼンターは、単一のモデルからすべてのキーとクエリを事前計算するというアイデアについて説明します。

  • 00:20:00 講義のこのセクションでは、スピーカーは、時間の経過とともに更新される単一のネットワークでモデルをトレーニングしながら、埋め込みを事前に計算してキューに保存するというアイデアについて説明します。このアプローチは、時間の経過とともに一貫性を維持し、トレーニング プロセスのはるか昔からの埋め込みの保存を防ぐのに役立ちます。ただし、この方法は、後方パスではなく、前方パスでの埋め込みの計算の問題のみを解決します。スピーカーは、一貫性を維持しながらキー エンコーダーの重みを急激に変更しないように、クエリとキー エンコーダーのレートの移動平均でキー エンコーダーを更新することを提案しています。

  • 00:25:00 ビデオのこのセクションでは、プレゼンターが Moco モデルと SimCLR モデルについて説明します。これらはどちらも、ラベルなしで優れた画像表現を生成するための対照的な学習方法です。 Moco モデルには、トレーニングが進行するにつれて更新される主要なエンコーダーが含まれており、下流のタスクに使用できる適切な表現が生成されます。 SimCLR モデルは、単一のエンコーダーを使用し、小さな MLP を介して埋め込みを渡すことで、このプロセスを簡素化し、さらに優れた結果をもたらします。この方法は、移動平均や異なるネットワークを維持する必要がなく、深層学習の研究で人気のある対照学習方法になっています。

  • 00:30:00 このセクションでは、画像表現をトレーニングするための自己教師あり方法である SimCLR モデルについて学習します。このモデルは、コントラスト損失と温度スケーリングを使用して埋め込みを計算し、同じ画像は似ていて別の画像は似ていないという類似性の概念を導入します。モデルで使用されるデータ拡張技術が示され、驚くべきことに、色ベースの拡張が最良の結果を生み出します。より長いトレーニング セッションとより大きなバッチも、より良い結果を示します。 SimCLR は、画像分類の完全に監視されたベースラインを打ち破った最初のモデル手法であり、ImageNet ラベルのわずか 1% と 10% で微調整した場合に最良の結果を達成します。

  • 00:35:00 このセクションでは、高度な視覚を事前にトレーニングするための byol メソッドについて説明します。この方法では、入力画像にさまざまなデータ拡張を適用し、さまざまなビューを生成し、それらをエンコーダ ネットワークに渡し、それらから表現を取得します。次に、それらを小さなネットワークに投影して投影 C および C 素数を取得します。この方法は厳密には simclr のような対照的な学習方法ではなく、simclr と moco の要素を単一の目的関数に組み合わせたものです。このアプローチでは、ブートストラップを利用し、2 つの異なるネットワークを維持し、データ セットからの真のメトリックを使用する代わりに、別のモデルから推定されたメトリックに基づいて 1 つのモデルを適合させます。

  • 00:40:00 このセクションでは、ディープ フリー ラーニングで起こることと同じ、ヘビーでのディープ キー ラーニングについて学びます。このアプローチは、2 番目のネットワークが最初のネットワークの監視を駆動し、その逆も同様である BYOL のインスピレーションでした。このブートストラップ プロセスを使用して、ネットワークはより多くの表現を学習して表現を構築します。これは対照的な学習ではないため、バッチ サイズと組織タイプの変化に対してロバストです。 BYOL はバッチ サイズが小さい場合でも適切に機能し、同じベンチマークで MCLR より優れています。次に、入力が破棄され、元の画像を再構築する必要がある 2 番目のクラスのメソッドに進みます。これらのメソッドは、オートエンコーダー ベースの構造でうまく機能します。プレゼンテーションでは、画像にノイズが追加される Denoising Model Encoder を紹介します。目標は、ノイズが除去された画像を予測することです。 Stack Denoising Model Encoder は非常によく機能するため非常に人気があり、ネットワークは破壊された画像でも意味のあることを学習します。

  • 00:45:00 このセクションでは、過去のニューラル ネットワークのトレーニングの難しさと、回避策としてノイズ除去オートエンコーダー (DAE) がどのように使用されたかについて説明します。次に、コンテキスト エンコーダーと呼ばれる、画像の一部をマスクして隠れ領域を予測するという概念に進みます。 2016 年にバークレーの研究室で導入されたこの方法は、検出とセグメンテーションで良好な結果を得ることができましたが、分類では得られませんでした。スピーカーは、コンテキスト エンコーダーの実装と、目的関数にディスクリミネーターを追加することでどのように表現が改善されたかを確認します。

  • 00:50:00 このセクションでは、他の方法で使用される CNN バックボーンとは対照的に、Transformer バックボーンを使用する Mae ネットワークについて説明します。ネットワークは vit に置き換えられ、画像からパッチをマスクし、マスクされていない領域をエンコーダーに渡すことによって、コンテキスト デコーダーと同じ目的を使用します。エンコードされた埋め込みは、元の画像を再構築する目的でデコーダーに渡されます。このプロセスは、その形式で意味のある機能を学習し、ネットワークは Mae 論文のいくつかの例で示されています。シーケンス全体に関する情報を取得するクラス トークンは、分類に使用できます。

  • 00:55:00 は、対照学習とオートエンコーダー ベースの再構成を組み合わせて使用する自己教師あり事前トレーニングに焦点を当てており、両方の戦略を個別に上回っています。彼らは、対照的な損失と再構成損失のバランスをとる新しい損失関数を使用して、これらの方法を組み合わせています。これは、自己管理型手法のパフォーマンスを改善する可能性を示す有望なアプローチであり、これらの結果の根本的な理由を理解することが現在の研究分野です。

  • 01:00:00 このセクションでは、スピーカーは新しくリリースされた MassS について説明します。MasS は、単一のモデルを通じて画像再構成と対照学習を同時に組み合わせたモデルです。 MassS は、同じイメージの 2 つのビューを生成し、2 つの異なるビューをマスクして、それらにノイズを追加することで、ノイズ除去の目的を組み合わせます。 Mass が使用する損失関数は、エンドポイント、再構成損失、およびノイズ除去損失のより適切な組み合わせであり、以前のモデルよりも優れたパフォーマンスをもたらします。講演者は、表現学習の分野には他にも多くのうまく機能するモデルがあり、この分野は現在研究が盛んに行われていることを指摘しました。
CS 198-126: Lecture 19 - Advanced Vision Pretraining
CS 198-126: Lecture 19 - Advanced Vision Pretraining
  • 2022.12.03
  • www.youtube.com
Lecture 19 - Advanced Vision PretrainingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkele...
 

CS 198-126: 講義 20 - 画像のスタイル設定



CS 198-126: 講義 20 - 画像のスタイル設定

このビデオでは、ニューラル スタイル トランスファー、GAN、ペア データを必要とする Pix2Pix、および画像から画像への変換にペアになっていないデータを使用する CycleGAN など、画像様式化のさまざまな手法について説明します。 CycleGAN の制限は、StarGAN によって対処できます。StarGAN は、複数のドメインから情報を取得して、マルチドメインの画像遷移タスクのジェネレーターをトレーニングできます。スピーカーはまた、ドメイン情報と低次元潜在コードを使用して多様な出力を生成するマルチモーダルな教師なし画像から画像への変換についても説明します。これは、BicycleGAN モデルに例示されています。最後に、ビジョン トランスフォーマーと GAN を画像変換タスクに使用する潜在的な利点について言及し、楽しい画像の例と質問とディスカッションの機会で講義を締めくくります。

  • 00:00:00 このセクションでは、スピーカーは画像から画像への変換、特にニューラル スタイルの転送について説明します。このタスクには、元のイメージのコンテンツを保持しながら、ソース ドメインのイメージをターゲット ドメインの対応するイメージに変換することが含まれます。ニューラル スタイル トランスファーは、1 つの画像の内容と別の画像のスタイル参照に一致するように出力画像を最適化することにより、2 つの画像をブレンドするために使用される手法です。畳み込みネットを使用して、両方の画像から関連情報を抽出し、目的のスタイルで新しい画像を作成します。スピーカーは、必要な入力と、この手法に使用されるアーキテクチャについて詳しく説明します。

  • 00:05:00 このセクションでは、ディープ CNN を使用して画像のコンテンツとスタイルを表す概念について説明します。 CNN は、エッジやテクスチャなどの低レベルの機能から始めて、オブジェクト表現を生成する前に高レベルの機能を抽象化します。次に、グラム行列計算を使用して、さまざまな特徴マップ間でスタイルの類似性を測定する方法について説明します。講義では、CNN からコンテンツとスタイルを取得する方法と、モデルを調整して目的の出力を生成するためのそれぞれの損失計算方法について説明します。

  • 00:10:00 講義のこのセクションでは、スピーカーは画像処理のいくつかの異なる手法について説明します。最初に、オプティマイザーでコンテンツとスタイルの損失の両方を追加して出力画像を生成するプロセスについて説明します。これらは、コンテンツ イメージとスタイル イメージを組み合わせて最終的なイメージを作成する例を示しており、コンテンツ イメージの下位レベルの機能とスタイル イメージの上位レベルの機能を使用しています。次に、ディスクリミネーターとジェネレーターの部分に焦点を当てて、GAN を簡単に確認します。また、StyleGAN と、画像内の高レベルと低レベルの属性を分離するその機能についても言及しています。最後に、条件付き GAN を使用して、ユーザーが提供する追加情報に基づいて出力画像を生成する Pix2Pix と呼ばれるモデルについて説明します。

  • 00:15:00 このセクションでは、対になったデータを必要とする GAN や pix2pix、画像から画像への変換に対になっていないデータを使用する CycleGAN など、画像の様式化に関するさまざまな手法について説明します。ただし、CycleGAN には制限があり、複数のドメインから情報を取得してジェネレーターをトレーニングできるモデルである StarGAN によって対処できるため、マルチドメインの画像遷移タスクが可能になります。 StarGAN の背後にある重要なアイデアは、画像とドメイン情報の両方を入力として使用する柔軟な変換方法を学習することです。

  • 00:20:00 講義のこのセクションでは、スピーカーはマルチモーダルな教師なし画像から画像への変換の概念と、それを使用して入力画像から複数の現実的で多様な出力を生成する方法について説明します。議論されている論文は、ドメイン情報と低次元潜在コードを組み込んで、より正確で忠実な出力を生成します。 BicycleGAN モデルは、このアプローチがモードの崩壊を最小限に抑え、多様な出力を達成する方法の例として提示されました。さらに、この論文では、出力を潜在空間にマッピングして戻すエンコーダーを学習し、2 つの異なるコードが同じスタイルまたは出力を生成する可能性を最小限に抑えようとしています。

  • 00:25:00 講義のこのセクションでは、講演者は、画像から画像への変換などのタスクにビジョン トランスフォーマーを使用する際の課題と、それらを GAN と組み合わせて使用することの潜在的な利点について説明します。彼らは、ビジョン トランスフォーマーと GAN の利点を活用して画像変換タスクに取り組む最近の手法について言及していますが、これらのタスクに GAN を単独で使用するほど簡単ではありません。講演者は、これらの技術の能力を紹介するいくつかの楽しい画像を共有し、質問や議論のためにフロアを開放することで締めくくります.
CS 198-126: Lecture 20 - Stylizing Images
CS 198-126: Lecture 20 - Stylizing Images
  • 2022.12.03
  • www.youtube.com
Lecture 20 - Stylizing ImagesCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
 

CS 198-126: 講義 21 - ジェネレーティブ オーディオ



CS 198-126: 講義 21 - ジェネレーティブ オーディオ

ジェネレーティブ オーディオに関するこの講義では、プレゼンターは、量子化、エイリアシング、信号処理、プロジェクション、ディープ ラーニング、トランスフォーマーなどのさまざまなトピックを取り上げます。講師は、連続信号をサンプリングして量子化する方法と、ビット深度の精度と計算能力の間のトレードオフについて説明します。シャノン・ネクイストのサンプリング定理とその信号再構築への影響、および投影の重要性と信号再構築への使用についても説明します。オーディオの再構築のためのディープ ラーニングについて説明し、プレゼンターはジェネレーティブ オーディオと、紛失または損傷した録音から音楽を再構築する方法を紹介します。音声生成のためのトランスフォーマーの使用について説明し、一連のトークンとして音楽を表現するプロセスについて説明します。講演者はまた、大規模で多様なデータセットを持つことの重要性を強調し、音楽予測のためのトランスフォーマー モデルの操作について説明します。講義は生成された音楽のデモで締めくくられ、将来の音符を正確に予測するモデルの能力を示します。

  • 00:00:00 講義のこのセクションでは、ジェネレーティブ オーディオと、コンピューターがオーディオを処理するために必要な連続信号を離散化する方法に焦点を当てます。連続信号をサンプリングして量子化するプロセスは、デジタル信号を生成するために使用されます。この講義では、アナログ デジタル コンバーターがサンプル アンド ホールド回路を使用する方法と、必要な精度のレベルに応じて出力を離散化する方法について説明します。この講義では、デジタルからアナログへのコンバーターについても説明し、ローパス フィルターを使用して信号の通過帯域を維持し、特定のカットオフ周波数によって信号の勾配を決定する方法についても説明します。これらの概念はジェネレーティブ オーディオに不可欠であり、講義の後半の内容を理解するための重要な基礎を築きます。

  • 00:05:00 このセクションでは、量子化レベルと、量子化される信号のダイナミック レンジとの相関関係について説明します。ビット深度が高いほど、より正確な信号近似が得られ、16 ビット深度でほぼ完全な近似に達するまで、エラーが大幅に減少します。ただし、計算能力に関してはトレードオフがあり、リスナーの耳にとって、損失のないピッチまたははるかに高速な損失のあるピッチで十分かどうかが問われる可能性があります。シャノン・ネクイストのサンプリング定理は、元の信号の周波数がサンプリング周波数の半分を下回る場合にのみ、情報を失うことなくサンプルから信号を再構築できると主張しています。この基準を満たさないとエイリアシングが発生し、信号の近似に問題が生じます。

  • 00:10:00 このセクションでは、エイリアシングとその信号処理への影響、特に元の入力と比較して出力信号が変更される貧弱なサンプリングの観点から学習します。この例は、波形の視覚化と画像のサンプリングで確認できます。さらに、幾何学的信号理論、特に信号再構成のための射影の使用、および画像セグメンテーションでのデコンボリューションの使用について耳にします。最後に、発表者は 1 行の C コードを使用して 8 ビット音楽を生成する楽しいデモを共有します。

  • 00:15:00 このセクションでは、講師がプロジェクションと、それらを再構成に使用する方法について説明します。射影式は 2 つのベクトルの内積であり、この類似度の尺度を使用して、別のベクトル セットへの射影の線形結合を使用して信号を再構成できます。ただし、基底が必要であり、得られる情報量を最大にするために、使用されるベクトルのセットは互いに直交している必要があります。互いに直交する異なる基底に射影することで、射影されるベクトルに関する情報を取得し、最終的に信号を再構築できます。

  • 00:20:00 このセクションでは、講師がオーディオ再構築にディープラーニングを使用する方法と、低品質の波形を再構築することで高解像度のオーディオを生成する方法を紹介します。モデル アーキテクチャは、サブピクセル畳み込みの 1 次元表現をアップサンプリングに利用するユニットのアーキテクチャに似ています。ダウンサンプリングされた波形は、ストライド 2 の畳み込み層を使用して 8 つのダウンサンプリング ブロックを通過し、ReLU 活性化関数を使用してバッチ正規化が適用されます。ダウンサンプリング ブロックと同じように構築されたボトルネック層で、波形は 8 つのアップサンプリング ブロックに接続します。これらのブロックには、ダウンサンプリング ブロックへの残差接続があり、サブピクセル畳み込みを使用して特定の次元に沿って情報を並べ替えて情報ゲインを拡大し、低解像度波形の特徴を維持しながら波形の解像度を上げます。最後の畳み込み層には、サブピクセルのデコンボリューション後に情報を並べ替えるリスタッキング操作があり、平均二乗誤差損失関数を使用して出力波形のアップサンプリングが生成されます。

  • 00:25:00 このセクションでは、講師がジェネレーティブ オーディオの使用方法と、それを使用して 1900 年代半ばから後半に録音されたバンドから音楽を再構築する方法について説明します。彼女は、ダウンサンプリングされたスペクトルと、それに明瞭さと色を追加することによって実際の波形に一致するように改善する方法について話します.その後、講師は音声生成用の Transformer に移行し、Transformer アーキテクチャを使用してメロディーの音符を予測する方法について説明します。これには、音楽ファイルであるデータをトークン シーケンスに変換する必要があります。これは、音楽の署名、キー、ビートなどの時系列をキャプチャする必要があるため、広く考慮する必要がある固有の問題です。

  • 00:30:00 このセクションでは、生成オーディオの変換モデルに供給できる一連のトークンとして音楽を表現するプロセスについてスピーカーが説明します。彼らは、ピッチ、長さ、およびその他の属性を使用して音符に関する情報を取得する方法を説明していますが、2D のピアノロール データを 1 つの次元にトークン化するという課題についても言及しています。 1 対多のメモや多くのメモを 1 つのトークンにマッピングするなどのさまざまなアプローチが比較され、セパレータ トークンの使用とボキャブラリ サイズの削減が導入されています。最後に、生成オーディオ モデルのトレーニング データの多様性を高める方法として、データ拡張について触れます。

  • 00:35:00 このセクションでは、ジェネレーティブ オーディオ モデルを使用する際に、大規模で多様なデータセットを持つことの重要性についてスピーカーが説明します。彼らは、1 つの曲を異なるキーの 12 曲に変換する方法と、モデルのデータと一般化可能性が多ければ多いほどパフォーマンスが向上することを説明しています。講演者はまた、メタデータをモデルに提供して音楽のタイミングをより正確に把握する方法として、位置ビート エンコーディングの使用についても説明します。彼らは、自然言語処理で使用される位置構造の方法が音楽にも適用できることに注目しています。このセクションは、アテンション マスクを適用してモデルが一度にすべての情報にアクセスし、次に予測するはずのトークンに関する情報を漏らさないようにする方法であるティーチャー フォーシングについて説明することで締めくくります。

  • 00:40:00 このセクションでは、スピーカーはジェネレーティブ オーディオで使用されるトランスフォーマー モデルがどのように動作するかについて説明します。実装で使用されるトランスフォーマー XL は、相対位置エンコーディングと隠れ状態メモリを備えており、音楽予測の高速かつ正確な推論を可能にします。音楽では位置が重要であるため、モデルは絶対位置のみではなく相対位置を使用します。このモデルは、各音の 2 つの属性 (ピッチと長さ) もキャプチャして、メモリに保存し、将来の音を正確に予測します。次にスピーカーは、モデルを使用して生成されたパッヘルベルのカノンのニ長調のデモを提示します。これは、生成された音符が元の構成から逸脱しているものの、それでも良好に聞こえることを示しています。
CS 198-126: Lecture 21 - Generative Audio
CS 198-126: Lecture 21 - Generative Audio
  • 2022.12.03
  • www.youtube.com
Lecture 21 - Generative AudioCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
 

深層学習研究のための Tensorflow - 講義 1



深層学習研究のための Tensorflow - 講義 1

ビデオ「Tensorflow for Deep Learning Research - Lecture 1」では、TensorFlow のチュートリアルを紹介し、深いレベルのチュートリアルの必要性をカバーし、ライブラリの基本と実用的なアプリケーションを説明しています。この講義では、深層学習の観点から TensorFlow を使用してモデルを構築および構造化する方法について説明します。このチュートリアルでは、計算グラフ モデルを視覚化するために TensorBoard で使用されるツールについても説明します。これには、サブグラフを実行することで効率的な計算オプションを提供するノード、エッジ、およびセッションを操作する方法が含まれます。講師は、モデルをデプロイする機能を提供しながら、CPU、GPU、Android、または iOS で実行する機能を使用して、カスタム モデルを構築し、リソースを効率的に処理するために、TensorFlow をゼロから学習することを推奨しています。

  • 00:00:00 このセクションでは、講演者は TensorFlow に関するチュートリアルを紹介し、浅すぎず、他のチュートリアルでは見落とされているポイントに対処するビデオ チュートリアルが必要であることを説明します。彼は、講義が CS 20 のスタンフォード大学の内容に従い、Chip Huyen が個人的な考えで作成したスライドを使用すると発表しました。さらに、TensorFlow は Google が開発した数値計算用のライブラリであり、グラフと数値計算が可能であり、ロジスティック回帰から深層学習モデルに至るまで、さまざまな機械学習モデルの構築に適していると指摘しています。 TensorFlow は、CPU、GPU、Android、または iOS にモデルをデプロイする機能も提供します。

  • 00:05:00 このセクションでは、スピーカーは、中断の場合に同じポイントからの継続を可能にするモデルのチェックポイント保存状態の概念について説明します。深層学習フレームワークにおける差別化の重要性が強調され、講演者は、Tensorflow がプロセスにもたらす容易さを理解するために逆伝播層を手動で記述してみることを提案しています。 Tensorflow の人気は、大規模なコミュニティによる使用に起因しており、画像スタイルの転送、手書きの生成、StackGANs などのさまざまなプロジェクトが議論されています。講義の目的は、Tensorflow の計算グラフ モデル、関数の構築、モデルの構造化について、ディープ ラーニングの観点から説明することです。最後に、講演者は Tensorflow Web サイトを最新の API とライブラリのソースとして使用することを勧めています。

  • 00:10:00 このセクションでは、スピーカーは TensorFlow をゼロから学習することの重要性について説明します。高レベルの抽象化はより複雑なタスクを処理できますが、カスタム モデルを作成するには、コードの背後にある仕組みを理解することが重要です。スピーカーは、TensorFlow が計算の定義をその実行から分離し、計算グラフを組み立て、セッションを使用して操作を実行すると説明します。このセクションでは、TensorFlow で演算を定義して、組み込みツール TensorBoard を使用して視覚化できるグラフを作成する方法について説明します。使用されるサンプル コードは、エッジ値がテンソル値を表す演算子とテンソルのノードを示しています。

  • 00:15:00 このセクションでは、講師が TensorFlow グラフのノードとエッジ、およびセッションを使用してグラフ内で計算を実行する方法について説明します。ノードは演算子、変数、または定数であり、エッジはテンソルです。セッションは、グラフをインスタンス化し、計算を実行するために使用され、セッションは必要なリソースを処理します。セッションでグラフ内の特定のノードを実行すると、グラフが計算され、ノードの値が返されます。講師は、加算を使用した例でこれを示します。セッション オブジェクトは、オペレーターとテンソル オブジェクトが実行されるリソース環境をカプセル化します。講師はまた、セッションを明示的に閉じる代わりに "with" ステートメントを使用することについても言及しています。

  • 00:20:00 このセクションの動画では、Tensorflow での遅延評価の概念について説明しています。グラフが Tensorflow で作成されると、事前に計算されたり、どこかにキャッシュされたりすることはありませんが、計算は必要に応じて遅延して行われます。遅延評価の威力は、すべてを計算する必要がないという事実に由来するため、モデルを深く掘り下げる際に大量の計算を節約できます。セッション ドット ラン メソッドを呼び出すとき、最初の引数は、計算する必要があるフェッチ リスト内のノードのリストであり、Tensorflow はこれらすべての異なるノードを計算し、結果をリストとして返します。

  • 00:25:00 このセクションでは、複数の CPU または GPU でサブグラフを並列に実行する機能など、TensorFlow で計算をグラフとしてモデル化する利点について講師が説明します。コマンド TF device GPU を使用して特定の GPU で実行する特定のグラフを指定する方法と、TensorFlow で複数のグラフを作成する方法を説明しています。これは、異なるモデルを並行して実行する可能性のあるアンサンブル学習などの場合に役立ちます。また講師は、TensorFlow のセッションはリソースの使用量に関して貪欲になる可能性があるため、複数のグラフを使用する場合はリソースを慎重に管理する必要があるかもしれないと述べています。

  • 00:30:00 このセクションでは、講師が TensorFlow でグラフを作成および操作する方法について説明します。彼らは、複数のセッションを作成できると説明していますが、それらの間でデータを渡すのは複雑になる可能性があります.簡単にするために、1 つのセッションのみを使用することをお勧めします。グラフにノードを追加するには、インスタンス化されたグラフをデフォルトとして設定できる TF dot Graph API が使用されます。セッションがインスタンス化されると、グラフを引数として渡すことができ、実行環境全体がその周りに作成されます。 2 つのグラフを混在させないようにすることが重要です。デフォルト グラフのハンドルを取得するには、API TF dot get underscore default が使用されます。

  • 00:35:00 このセクションでは、スピーカーは TensorFlow でグラフを使用する利点について説明します。利点の 1 つは、グラフ全体を実行するのではなく、サブグラフと単一の演算を実行できることであり、計算がより効率的になります。 TensorFlow には分散モードもあり、計算がサブグラフを使用して記述されている場合、さまざまなデバイスやマシンで計算を実行できます。このセクションのポイントは、計算のグラフを設定し、セッション内でサブグラフを実行することの重要性です。
Tensorflow for Deep Learning Research - Lecture 1
Tensorflow for Deep Learning Research - Lecture 1
  • 2017.01.29
  • www.youtube.com
These series of tutorials on tensorflow are based on the publicly available slides from the Stanford University class - CS20SI -being offered in the winter o...