Lecture 13 - Intro to Sequence ModelingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
Lecture 14 - Transformers and AttentionCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley...
Lecture 15 - Vision TransformersCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/de...
Lecture 16 - Advanced Object Detection and Semantic SegmentationCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease ...
Lecture 17 - 3-D Vision Survey, Part 1CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
00:35:00 このセクションでは、スピーカーが 3D ビジョンと、あらゆる方向から画像をキャプチャすることに関連する課題について説明します。このビデオでは、Nerf 派生物を使用してコンピューター ビジョンを改善する方法と、この手法を使用してシーンの周囲の空間を縮小し、ネットワークが適切な値を学習しやすくする方法に焦点を当てています。講演者は、画像の周囲の境界ボックスが空間を制約するのに役立つため、ネットワークは -1 から 1 の間の値のみを受け取ると説明しています。ビデオは、空間内の点を取り、それを単位球であり、ネットワークが学習しやすいポイントとシーンの値を作成します。
00:40:00 ビデオのこのセクションでは、スピーカーは空間収縮を使用して、ニューラル ネットワークを使用してリアルな 3D 画像を生成する方法を示しています。彼はカンパニラの画像を紹介し、トレーニング データの端に到達するとネットワークが徐々に悪化することを説明します。スピーカーは、数日ではなく数秒で 3D 画像を生成するいくつかの進歩についても言及しています。密度関数が学習可能である理由について議論する十分な時間はありませんでしたが、講演後に聴衆との議論を提案しました。
Lecture 18 - 3-D Vision Survey, Part 2CS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley....
00:50:00 このセクションでは、他の方法で使用される CNN バックボーンとは対照的に、Transformer バックボーンを使用する Mae ネットワークについて説明します。ネットワークは vit に置き換えられ、画像からパッチをマスクし、マスクされていない領域をエンコーダーに渡すことによって、コンテキスト デコーダーと同じ目的を使用します。エンコードされた埋め込みは、元の画像を再構築する目的でデコーダーに渡されます。このプロセスは、その形式で意味のある機能を学習し、ネットワークは Mae 論文のいくつかの例で示されています。シーケンス全体に関する情報を取得するクラス トークンは、分類に使用できます。
Lecture 19 - Advanced Vision PretrainingCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkele...
00:25:00 講義のこのセクションでは、講演者は、画像から画像への変換などのタスクにビジョン トランスフォーマーを使用する際の課題と、それらを GAN と組み合わせて使用することの潜在的な利点について説明します。彼らは、ビジョン トランスフォーマーと GAN の利点を活用して画像変換タスクに取り組む最近の手法について言及していますが、これらのタスクに GAN を単独で使用するほど簡単ではありません。講演者は、これらの技術の能力を紹介するいくつかの楽しい画像を共有し、質問や議論のためにフロアを開放することで締めくくります.
Lecture 20 - Stylizing ImagesCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
Lecture 21 - Generative AudioCS 198-126: Modern Computer Vision and Deep LearningUniversity of California, BerkeleyPlease visit https://ml.berkeley.edu/decal...
These series of tutorials on tensorflow are based on the publicly available slides from the Stanford University class - CS20SI -being offered in the winter o...
CS 198-126: 講義 13 - シーケンス モデリングの概要
CS 198-126: 講義 13 - シーケンス モデリングの概要
シーケンス モデリングに関するこの講義では、スピーカーは、シーケンス データを表現し、多くの情報を失うことなく適切な数のタイム ステップを達成することの重要性を紹介します。これらの課題を解決するための最初の試みとして、さまざまな長さの入力と出力を処理できるリカレント ニューラル ネットワーク (RNN) について説明します。ただし、RNN の問題により、最適なパフォーマンスが妨げられます。テキスト埋め込みは、高次元のワンホット ベクトルを使用するのではなく、テキスト データを表現するためのより効率的な方法として導入されました。さらに、位置エンコーディングの概念は、バイナリ値ではなく連続値を使用してシーケンス内の要素の順序を表す方法として説明されています。
CS 198-126: 講義 14 - 変圧器と注意
CS 198-126: 講義 14 - 変圧器と注意
トランスフォーマーと注意に関するこのビデオ レクチャーでは、注意の背後にある概念と動機、トランスフォーマーとの関係、NLP とビジョンへの応用について説明します。講師は、ソフト アテンションとハード アテンション、セルフ アテンション、ローカル アテンション、マルチヘッド アテンション、およびそれらが Transformer アーキテクチャでどのように使用されているかについて説明します。また、key-value-query システム、残差結合と層の正規化の重要性、線形層を適用して入力埋め込みから kqv を取得するプロセスについても説明しています。最後に、シーケンスからベクターへの例での位置埋め込みと CLS トークンの使用について説明し、アテンション メカニズムの計算効率とスケーラビリティを強調します。
CS 198-126: 講義 15 - ビジョン トランスフォーマー
CS 198-126: 講義 15 - ビジョン トランスフォーマー
この講義では、講演者は画像処理タスクでのビジョン トランスフォーマー (ViT) の使用について説明します。 ViT アーキテクチャでは、画像を個別のパッチにダウンサンプリングし、Transformer を通過する前にリニア レイヤー出力を使用して入力埋め込みに投影します。モデルは、実際のデータセットを微調整する前に、大規模なラベル付きデータセットで事前トレーニングされるため、以前の最先端の方法よりも少ない計算で優れたパフォーマンスが得られます。 ViT と畳み込みニューラル ネットワーク (CNN) の違いについて説明します。ViT はグローバルな受容野を持ち、CNN よりも柔軟性があります。ビジョン タスクのための Transformers による自己教師あり学習と教師なし学習の使用も強調されています。
CS 198-126: 講義 16 - 高度なオブジェクト検出とセマンティック セグメンテーション
CS 198-126: 講義 16 - 高度なオブジェクト検出とセマンティック セグメンテーション
この高度なオブジェクト検出とセマンティック セグメンテーションの講義では、講師は畳み込みニューラル ネットワーク (CNN) とトランスフォーマーの長所と短所、特に自然言語処理 (NLP) とコンピューター ビジョンについて説明します。 CNN はテクスチャ バイアスに優れていますが、トランスフォーマーは自己注意レイヤーを使用して重要な概念を結び付け、特定の入力に集中することで、NLP とコンピューター ビジョンの両方のタスクを効率的に処理します。次に、テクスチャよりも形状を優先し、歪みに対する耐性を高めるビジョン トランスフォーマーについて詳しく説明します。彼はさらに、画像分類、セマンティック セグメンテーション、オブジェクト検出に優れた Vision Transformer の改良版である Swin Transformer の利点と制限について説明します。講義では、あらゆる種類のデータを処理できるモデルにおける一般化可能性の重要性と、自動運転車などの分野での潜在的なアプリケーションが強調されています。
CS 198-126: 講義 17 - 3-D ビジョン調査、パート 1
CS 198-126: 講義 17 - 3-D ビジョン調査、パート 1
このビデオでは、点群、メッシュ、ボクセル、放射輝度フィールドなど、さまざまな 3D 視覚表現とその長所と短所について説明しています。この講義では、前方および後方へのレイキャスティング、および相互に交差するオブジェクトの画像の色付けとレンダリングについても説明し、ソリッドと透明度に対するさまざまなアプローチを使用します。講師は、微分可能なレンダリングの限界と、ラディアンス フィールドがどのように密度と物理的色を使用して各 XYZ ポイントの関数を作成し、より学習しやすくすることができるかについて触れます。
CS 198-126: 講義 18 - 3-D ビジョン調査、パート 2
CS 198-126: 講義 18 - 3-D ビジョン調査、パート 2
3D ビジョンに関するこの講義では、インストラクターは、空間内の位置を取り、色と密度を出力する放射輝度フィールド、特にニューラル放射輝度フィールド (NeRF) について説明します。スピーカーは、カメラの視点からクエリを実行し、ブラック ボックス関数を使用して画像がどのように見えるかを把握するレンダリングのプロセスを説明します。講義では、3D ビジョンでオブジェクトの一貫した視点を表現する際の課題と、MLP を使用してオブジェクトの XYZ データを取り込み、方向を表示して密度と RGB 情報を出力する方法について説明します。この講義では、ボリューメトリック レンダリングの課題と、Nerf 派生物を使用してコンピューター ビジョンを改善することについても説明します。インストラクターは最後に、ニューラル ネットワークを使用してリアルな 3D 画像を生成するために空間収縮を使用する方法を示します。
CS 198-126: 講義 19 - 高度なビジョンの事前トレーニング
CS 198-126: 講義 19 - 高度なビジョンの事前トレーニング
このビデオでは、対照学習、ノイズ除去オートエンコーダー、コンテキスト エンコーダー、Mae ネットワークなど、高度なビジョンの自己教師あり事前トレーニングに使用されるさまざまな手法について説明します。講演者は、各方法の概要を説明し、その長所と短所について説明し、BYOL 方法で対照的損失と再構成損失を組み合わせることの利点を強調します。このビデオは、自己教師あり学習の最新の研究動向と、コンピューター ビジョン モデルのパフォーマンスを向上させる可能性について有益な洞察を提供します。
CS 198-126: 講義 20 - 画像のスタイル設定
CS 198-126: 講義 20 - 画像のスタイル設定
このビデオでは、ニューラル スタイル トランスファー、GAN、ペア データを必要とする Pix2Pix、および画像から画像への変換にペアになっていないデータを使用する CycleGAN など、画像様式化のさまざまな手法について説明します。 CycleGAN の制限は、StarGAN によって対処できます。StarGAN は、複数のドメインから情報を取得して、マルチドメインの画像遷移タスクのジェネレーターをトレーニングできます。スピーカーはまた、ドメイン情報と低次元潜在コードを使用して多様な出力を生成するマルチモーダルな教師なし画像から画像への変換についても説明します。これは、BicycleGAN モデルに例示されています。最後に、ビジョン トランスフォーマーと GAN を画像変換タスクに使用する潜在的な利点について言及し、楽しい画像の例と質問とディスカッションの機会で講義を締めくくります。
CS 198-126: 講義 21 - ジェネレーティブ オーディオ
CS 198-126: 講義 21 - ジェネレーティブ オーディオ
ジェネレーティブ オーディオに関するこの講義では、プレゼンターは、量子化、エイリアシング、信号処理、プロジェクション、ディープ ラーニング、トランスフォーマーなどのさまざまなトピックを取り上げます。講師は、連続信号をサンプリングして量子化する方法と、ビット深度の精度と計算能力の間のトレードオフについて説明します。シャノン・ネクイストのサンプリング定理とその信号再構築への影響、および投影の重要性と信号再構築への使用についても説明します。オーディオの再構築のためのディープ ラーニングについて説明し、プレゼンターはジェネレーティブ オーディオと、紛失または損傷した録音から音楽を再構築する方法を紹介します。音声生成のためのトランスフォーマーの使用について説明し、一連のトークンとして音楽を表現するプロセスについて説明します。講演者はまた、大規模で多様なデータセットを持つことの重要性を強調し、音楽予測のためのトランスフォーマー モデルの操作について説明します。講義は生成された音楽のデモで締めくくられ、将来の音符を正確に予測するモデルの能力を示します。
深層学習研究のための Tensorflow - 講義 1
深層学習研究のための Tensorflow - 講義 1
ビデオ「Tensorflow for Deep Learning Research - Lecture 1」では、TensorFlow のチュートリアルを紹介し、深いレベルのチュートリアルの必要性をカバーし、ライブラリの基本と実用的なアプリケーションを説明しています。この講義では、深層学習の観点から TensorFlow を使用してモデルを構築および構造化する方法について説明します。このチュートリアルでは、計算グラフ モデルを視覚化するために TensorBoard で使用されるツールについても説明します。これには、サブグラフを実行することで効率的な計算オプションを提供するノード、エッジ、およびセッションを操作する方法が含まれます。講師は、モデルをデプロイする機能を提供しながら、CPU、GPU、Android、または iOS で実行する機能を使用して、カスタム モデルを構築し、リソースを効率的に処理するために、TensorFlow をゼロから学習することを推奨しています。