機械学習とニューラルネットワーク - ページ 25

 

MIT 6.S192 - 講義 20: 拡散を使用したジェネレーティブ アート、Prafulla Dhariwal



MIT 6.S192 - 講義 20: 拡散を使用したジェネレーティブ アート、Prafulla Dhariwal

このレクチャーでは、OpenAI の Prafulla Dhariwal が、ハード クリエイティブ タスク、特に拡散モデルのジェネレーティブ モデリングの進歩について説明します。このプロセスでは、画像から開始し、それにガウス ノイズをゆっくりと追加します。次に、ノイズのある損傷を取り、ノイズを除去してノイズの少ない画像を作成することでプロセスを逆にします。生成モデルは、このようにノイズを反転するようにモデルをトレーニングし、モデルを段階的に逆方向に実行することで、テスト時に純粋なノイズから画像を生成することによって取得されます。プロセスの逆予測も、モデルの平均と分散を予測するために使用されるノイズの量が非常に小さい場合、ガウス分布のように見えます。 Dhariwal は、インペインティングに拡散モデルを使用する方法と、AI によって生成されたコンテンツの潜在的な危険性に対処する方法についても説明します。

  • 00:00:00 ビデオのこのセクションでは、 OpenAIの Prafulla Dhariwal が、AI 研究を実施するための彼の背景と動機について説明しています。彼はまた、いくつかの例から詩と音楽をそれぞれ生成できる GPT-3 や JukeBox など、強力なクリエイティブ ML モデルの例も紹介しています。このビデオには、音楽と歌詞が相互に依存しているため、一緒に生成された JukeBox からのサンプル出力も含まれています。視聴者は、プレゼンテーション中いつでも質問をすることができます。

  • 00:05:00 このセクションでは、Prafulla Dhariwal がハード クリエイティブ タスクのジェネレーティブ モデリングの進歩について説明します。話者は、モデルが本当に何かを学習しているかどうかを理解する 1 つの方法は、モデルが複雑で理解しにくいものを作成できるかどうかを確認することであると説明しています。画像、オーディオ、およびビデオを作成するためのモデルのトレーニングは、これらの分野で最も困難なタスクの 1 つですが、モデルまたはジェネレーティブ モデリングから何かを作成する試みにおいては多くの進歩がありました。 Dhariwal は、生成モデルがどのように機能するか、それらが必要とする入力、およびそれらがどのように評価されるかについて説明します。講演者は、リアルな顔やさまざまなカテゴリの画像を生成できる拡散モデルの最近の進歩についても話します。 Dhariwal は、これらのモデルが画像の生成において GAN よりも優れていることを示しています。

  • 00:10:00 講義のこのセクションでは、Prafulla Dhariwal が拡散モデルを使用したジェネレーティブ アートについて説明します。モデルは、画像から始めてゆっくりとガウス ノイズを追加することで機能し、ノイズの多いダメージを取り、ノイズを除去してノイズの少ない画像を作成することでプロセスを逆にしようとします。生成モデルは、このようにノイズを反転するようにモデルをトレーニングし、モデルを段階的に逆方向に実行することで、テスト時に純粋なノイズから画像を生成することによって取得されます。プロセスの逆予測も、モデルの平均と分散を予測するために使用されるノイズの量が非常に小さい場合、ガウス分布のように見えます。

  • 00:15:00 このセクションでは、Prafulla Dhariwal が、拡散を使用して画像に追加されたノイズを反転させるプロセスについて説明します。このプロセスには、ガウス分布を逆方向に予測し、トレーニング トリックを使用してプロセスを簡素化することが含まれます。モデルは、画像 x0、ランダム ノイズ、および 2 つの組み合わせを取り込んで、ノイズを含む x_t を生成します。ネットワークは、L2 損失を使用して画像に追加されたノイズを予測するようにトレーニングされます。このタスクに使用されるモデルは通常、畳み込み UNet スタイルのモデルであり、画像をダウンサンプリングし、さまざまなレベルの粒度で特徴を学習してから、アップサンプリングしてノイズの予測に戻します。このプロセスを使用して、逆プロセスの平均を予測することにより、生成モデルを取得できます。

  • 00:20:00 このセクションでは、トレーニング時にモデルにラベルを提供することによって、拡散モデルクラスを条件付きにする方法について学習します。これにより、モデルは、ラベルによって表される画像の分布である y を指定して、x の p から画像を生成できます。さらに、モデルを低解像度の画像で調整し、それらを高解像度の画像にアップサンプリングすることもできます。ただし、このタイプのモデルでは一貫性のないサンプルが生成されるため、ガイダンスのトリックが導入されています。これには、ノイズの多い画像で分類器をトレーニングし、分類器の勾配を取得して、拡散モデルを誘導して、目的のラベルとして分類される可能性が高い画像を生成することが含まれます。

  • 00:25:00 このセクションでは、勾配が分類器から直接使用されるため、Dhariwal は、サンプリング プロセスで分類器を維持する必要性について説明します。修正されたリバース プロセスは、追加のパラメーター s からのスケーリングを使用して、プロセスのステップ サイズ コントロールである追加の分散を伴う項を使用します。 s パラメーターは、モデルが分布のモードとより狭い結果に焦点を当てるのに役立ちます。 s の値が小さい場合は分類器にあまり影響しませんが、値が大きい場合は大きく影響します。スケール係数は、分類子から受け取るガイダンスを制御し、崩壊する分布に影響を与えます。

  • 00:30:00 このセクションでは、Prafulla Dhariwal が拡散モデルを使用して、テキストの説明に基づいてアートを生成する方法について説明します。テキストの説明に基づいて拡散モデルを調整することで、モデルをテキストに沿った画像の生成に向けて調整できます。 CLIP を使用して、画像とテキストがどの程度一致しているかを測定できます。グラデーションを使用して、モデルの生成プロセスをテキストの説明に向けることができます。または、分類器を使用しないガイダンスを使用して、ラベルの有無にかかわらず拡散モデルをトレーニングし、2 つの予測の差をテスト時間中のナッジ方向として使用できます。スケール パラメーターは、ラベル ベースの分布に向けて微調整する量を制御するために使用されます。

  • 00:35:00 このセクションでは、スピーカーは、分類子を使用しないガイダンスと呼ばれるテキスト条件付きモデルのガイダンスの形式について説明します。この方法では、生成された画像が正しいクラスからのものである可能性を高めるために、モデルにどの方向に進むべきかを予測するように依頼することにより、拡散モデル自体をガイダンスとして使用します。スピーカーはまた、画像に要素を徐々に追加することについての質問に取り組み、これを達成するための 2 つの可能な方法を提案します。そのうちの 1 つは、ノイズを使用して生成された画像を繰り返し変更し、新しいプロンプトでプロセスを再実行することです。講演者は、CLIP ガイダンスと分類器を使用しないガイダンスの有効性を比較するサンプルを提示し、後者が最良の結果を生み出しています。

  • 00:40:00 このセクションでは、Prafulla Dhariwal が、拡散手法を使用して画像を生成するための新しいモデル クラスについて説明します。彼は、このモデルは自己回帰的に物事を行うのではなく、インペインティングなどのより複雑なタスクを可能にするイメージ全体を生成していると説明しています。インペインティングでは、画像の一部をマスクしてから、モデルを使用してその部分を塗りつぶします。これは、モデルに領域のインペイント方法を伝えるテキスト ラベルが提供されるテキスト条件のインペインティングでも実現できます。反復的なインペインティングを使用して、ソファの上の壁にコーギーの絵を追加するなど、画像に 1 つずつ追加することができます。このモデルは、DALL・E などの古いモデルよりも現実的なサンプルを生成し、使用するパラメーターを減らしました。

  • 00:45:00 講義のこのセクションでは、Prafulla Dhariwal が、 インペインティングを使用して画像からオブジェクトを削除したり、不足している情報を埋めたりする方法について説明します。彼はまた、長方形を画像の外側に移動し、モデルにその領域を塗りつぶすように求めるアウトペインティングについても説明しています。さらに、Dhariwal 氏は、元のノートブックでは問題のある画像が生成される可能性があるため、リリースされたノートブックではフィルター処理された GLIDE モデルを使用していると述べています。パフォーマンスのギャップにもかかわらず、小さいモデルでもリアルな画像を生成できます。彼は、クールなプロンプトを見つけてそれをアウトペインティング技法で拡張することによって、Twitter でユーザーによって生成されたアートワークの例を示しています。最後に、元の GLIDE モデルによって作成された危険性に関する質問があり、Dhariwal は詳細について論文を読むことを勧めています。

  • 00:50:00 このセクションでは、スピーカーは、モデルの有用性と生成されたコンテンツの潜在的な危険性との間のトレードオフについて説明します。講演者は、モデルが誤解を招くデータや暴力的なデータを簡単に作成できる強力なツールであることを考えると、モデルが安全なコンテンツのみを生成することを保証することの難しさを強調しています。モデルの安全でない部分を除外するために、チームは分類子をトレーニングして、潜在的に問題のあるデータ ポイントを特定する必要があります。スピーカーは、拡散プロセスのスケールと時間ステップの選択、カスタム マスクを画像ファイルに追加して特定の領域をインペイントする方法など、モデルを展開する際の実際的な懸念事項について説明します。

  • 00:55:00 このセクションでは、ジェネラティブ アートで使用されるモデルの背後にある理論に興味がある人のために、Prafulla Dhariwal がさらに読むことをお勧めします。彼は、CLIP ガイダンスと分類器を使用しないガイダンスの詳細について、Jonathan Ho による「De-Noising Diffusion Probabilistic Models Paper」と、「Diffusion Models Beat GANs on Image Synthesis」に関する独自の論文を読むことを提案しています。さらに、Dhariwal は、Yang Song による論文「Generative Modeling by Estimating Gradients of the Data Distribution」を推奨しています。これは、拡散モデルを理解するための別のレンズであるスコア マッチングの別の視点から問題にアプローチしています。質疑応答の中で、Dhariwal は、使用される 2 次元ノイズとモデルの出力との間には関係があるが、それは間接的なものであると述べています。彼は、この関係をより明確にする方法として、ノイズを最初に 1 回サンプリングしてから、決定論的な逆プロセスを実行してモデルからサンプリングすることを提案しています。

  • 01:00:00 このセクションでは、スピーカーはノイズ除去のプロセスと、CLIP を使用せずに画像を生成する際のテキスト調整の役割について説明します。彼らは、テキスト ラベルなしでモデルをトレーニングすると、特定のテキスト分布のサンプルを生成することが困難になると説明していますが、拡散モデルはテキスト条件付きになるようにトレーニングされています。ガイダンスは無条件モデルと条件付きモデルの両方で使用できますが、元のモデルはガイダンスを使用して、テキストを指定して画像を生成する能力を向上させることもできます。講演者は、視聴者がブログを読んだり、他の Colab ノートブックで詳細を調べたりすることを奨励しています。
MIT 6.S192 - Lecture 20: Generative art using diffusion, Prafulla Dhariwal
MIT 6.S192 - Lecture 20: Generative art using diffusion, Prafulla Dhariwal
  • 2022.04.19
  • www.youtube.com
Prafulla DhariwalResearch Scientist, OpenAIhttps://prafulladhariwal.com/More about the course: http://deepcreativity.csail.mit.edu/Information about accessib...
 

MIT 6.S192 - 講義 21: アート、マインド、マシンの間で、サラ・シュウェットマン



MIT 6.S192 - 講義 21: アート、マインド、マシンの間で、サラ・シュウェットマン

このレクチャーでは、Sarah Schwettmann がアート、心、機械の交差点について説明します。彼女は、視覚認識と、2D キャンバスを通して豊かな 3D 世界を体験するという課題を掘り下げます。これには、脳が逆問題を解決し、入ってくる情報の最良の説明を構築する必要があります。 Schwettmann はまた、GAN 反転を使用して Met コレクションの画像を基盤モデルの特徴空間に埋め込んで人間の創造性の構造を理解したり、任意の視覚的概念の語彙を作成したりするなど、アートワークでトレーニングされた深い生成モデルを含むプロジェクトについても語っています。顕著なまたは可能な変換の空間をサンプリングし、それらのサンプル方向を画面として使用して人間の知覚的判断を投影することによるGAN潜在空間。このプロセスでは人間の相互作用とラベル付けが重要であり、結果として得られる語彙を他のモデルに適用したり、さまざまな方法で画像を操作するために使用したりできます。さまざまな単語の選択によるデータのノイズにもかかわらず、任意のサイズの注釈ライブラリを使用して語彙を抽出する方法はスケールアップでき、自動的に方向にラベルを付けるようキャプション作成者をトレーニングする必要がある場合があります。

Sarah Schwettmann は、人間の創造物で訓練されたモデル内の方向を探索し、意味を割り当てるためのさまざまな方法についても説明します。彼女は、言語を使わずに視覚的な方向を捉えて学習する実験を紹介しています。これにより、人間は、潜在空間または特徴空間からサンプリングされた画像の小さなバッチとやり取りすることで、純粋に視覚的に必要な変換を定義できます。この方法は、微妙で説明が難しい特徴を持つ画像にラベルを付けて理解するのに役立ちます。さらに、潜在空間は、人間の経験を投影できるスクリーンになる可能性があり、そうでなければ形式化することが難しい人間の知覚の側面を研究者がよりよく理解できるようになります。

  • 00:00:00 このセクションでは、Sarah Schwettmann が神経科学のバックグラウンドと、特に視覚芸術と認知のより高いレベルの側面が交差する領域で、自己と世界の間の出会いにどのように興味を持つようになったかについて説明します。彼女は、視覚は根本的に建設的であり、不適切な逆問題を解決するには少しの創造性が必要であると説明し、人間の目の奥は、2D キャンバスを構成する細胞の階層で構成された 2D の平らなキャンバスであると述べています。入ってくる画像データであり、細胞のモザイクを介した活性化のパターンの観点から画像を表します。

  • 00:05:00 講義のこのセクションでは、Sarah Schwettmann が 2D キャンバスを通して見ながら豊かな 3D 世界を体験するという課題について説明します。従来のコンピューター ビジョンの問題は、オブジェクトの 3D 構造を認識できますが、関連する意味や関連性を伝えることはできません。私たちの脳は、低い 2 次元情報から豊かな 3D 情報を得るために逆問題を解かなければなりません。これは、同じ 2D 投影を引き起こす可能性のある構成が無数にあるため、不適切な問題です。知覚は基本的に建設的なものであり、脳が入ってくる情報を最善の形で説明することを必要とし、それを創造行為としています。この推論の問題を解決する一般的な方法の 1 つは、ベイジアンやディープ ラーニングのアプローチなどの世界のモデルを使用することです。 Schwettmann は次に、視覚情報が赤いレーザー光の 1 本の線に制限されているライブ デモの例を提供し、聴衆に黒いベルベットで覆われたテーブルに何が座っているかを推測させます。

  • 00:10:00 ビデオのこのセクションでは、Sarah Schwettmann が、形や形に関する私たちのメンタル モデルが私たちの知覚にどのように役立つかについて説明します。彼女は、レーザー光の 1 本の線がいくつかの異なる形状の表面上を移動する例と、光が表面の周りでどのように曲がるかに基づいてそれらの形状を推測する方法を示しています。これは、直感的な物理学と、脳が質量などの物理的特性をどのように表現するかについての議論につながります。これは、物理シミュレーション用の抽象的な一般化エンジンへの入力として使用できます。 Schwettmann は芸術におけるモデルの話題にも触れており、根底にある次元が不明確な特定の芸術作品の計算形式を開発することがいかに難しいかを説明しています。

  • 00:15:00 このセクションでは、Dr. Sarah Schwettmann が、MIT が提供する Vision in Art and Neuroscience コースについて説明します。これは、神経科学の文献、計算、および芸術の実践を通じて、ビジョンの根底にある原則を掘り下げる詳細なセミナーです。 Schwettmann は、Minor White の写真の例を紹介し、さまざまな要因が真実の知覚にどのように影響するかについて説明します。このコースには、学生が芸術的な文脈で視覚の原則を外部化して視覚化する方法を探求するスタジオセクションも含まれています。さらに、コースワークは美術展の作品を開発することで最高潮に達し、学生に自分の作品を展示するユニークな機会を提供します。

  • 00:20:00 このセクションでは、Sarah Schwettmann が、人間の創造性の構造を理解するために深い生成モデルを使用する方法に焦点を当てたプロジェクトについて説明します。メトロポリタン美術館は、コレクション内の作品の数十万点のデジタル画像のデータ セットを提供しました。研究者たちは、作成された作品を文化的文脈に埋め込むこれらのアーカイブに関連する深い生成モデルを構築できるかどうかを尋ねました。彼らは GAN (敵対的生成ネットワーク) 反転を使用して、データセット内の各画像を基盤モデルの特徴空間に埋め込みました。これにより、データセットでモデルを再トレーニングするのではなく、相互作用できるこれらの大きなモデルの部分空間を定義することができました。このプロジェクトは、現在の急速な進化を可能にするタイムラインで文化史を実験することを目的としていました。

  • 00:25:00 このセクションでは、Schwettmann が Met コレクションと BigGAN ImageNet を含む彼女が取り組んだプロジェクトについて説明します。彼らは、2 つの間で共有されるカテゴリを選択し、Met 画像と BigGAN 画像の間の類似性をピクセルおよびセマンティック レベルで最大化するために、2 つの部分の損失を作成しました。彼らは、個々の埋め込みを視覚化し、グラフ上の既存の画像間を補間して、コレクション内の既存の作品の空間間に存在する架空または夢のような画像を作成することができました.このプロジェクトは Met に展示され、Web アプリ版が利用可能になりました。このプロジェクトは、StyleGAN2-ADA を使用して小規模なデータセットをトレーニングすることで進化を続けています。

  • 00:30:00 このセクションでは、Schwettmann が、ロボット油絵師を使用して潜在空間での短い散歩から層状の油絵を作成し、コースでカバーされる操縦性の作業を視覚的に表現するプロジェクトについて話します。このプロジェクトは、ノース テキサス大学の現代アート ギャラリーで展示されています。彼女はまた、ユニークな潜在的な歩みから構築された芸術の代替的で架空の歴史を作成することを目標に、美術館のデジタル コレクションからの芸術作品の本体で訓練された生成モデルの根底にある次元を理解し、解釈することの重要性についても議論しています。目的は、非常に異なるジャンルの芸術に存在する可能性のある絵の言語の共通の側面を理解することです.

  • 00:35:00 このセクションでは、Schwettmann が、モデリングの創造性と機械学習の交差について、特に個々のアート制作のテクニックとスタイルのモデリングに関して説明します。彼女はまた、アートワークでトレーニングされた生成モデルは、創造性の根底にある構造への洞察を提供し、コラボレーションのツールとして使用できると述べています。その後、Schwettmann は、潜在的な歩行の視覚化と相互作用を可能にする実験を設計するなど、人間の視覚についてさらに学び、共有語彙を構築するために、人間が生成モデルと対話できる方法を探求します。このプロセスにおける人間の相互作用には、データセットをトレーニングするための代表的な画像の選択と、潜在空間を介した任意の歩行の選択が含まれます。次のステップは、さまざまな歩行のためのより体系的な言語を作成することです。

  • 00:40:00 このセクションでは、Sarah Schwettmann が、芸術の発展に微妙な変化を生み出すために、潜在空間を通るさまざまなウォークのラベル付けと選択における人間の相互作用の使用について説明します。彼女は、中間のキャプション作成者に依存するのではなく、モデルに直接関与することの重要性を強調し、さまざまな種類の人間をループに引き込んで、彼らの知識を使用して生成モデルとの独自の統合を作成します。次に、Schwettmann は、任意の GAN 潜在空間の視覚的概念語彙の構築に焦点を当てたプロジェクトについて説明します。これには、顕著なまたは可能な変換の空間をサンプリングし、それらのサンプルの方向を画面として使用して人間の知覚的判断を投影することが含まれます。目標は、概念を解きほぐし、自由な構成の視覚的概念の語彙にし、モデルの表現の深い特徴と、視覚的シーンの理解において人間にとって意味のある概念との間の共有語彙を定義することです。

  • 00:45:00 講義のこのセクションでは、Sarah Schwettmann が、多様で具体的な語彙のデータセットにラベルを付けるために人間をどのように使用できるかについて説明します。 Schwettmann 氏は、BigGAN のあるレイヤーで特徴表現の変化を最小限に抑える、相互に直交するレイヤー選択方向を定義することで、焦点を絞った変更と、さまざまな抽象化レベルでの変更を捉えることができます。これらの最小限の意味のある変換は、人間の視聴者によってラベル付けされ、Schwettmann は、単一の単語でラベル付けされた単一の方向からなる視覚的な概念語彙に分解します。 2000 を超える概念がさまざまな種類の視覚的変化に対応していることがわかっており、ズーム、回転、色、さらには気分の変化などの操作が可能です。このプロセスを通じて、Schwettmann は、キッチンをよりモダンに見せたり、これらの変換を他の画像に適用したりするなど、視聴者がラベル付けした概念に対応する変換を解きほぐすことができます。

  • 00:50:00 このセクションでは、Sarah Schwettmann が、現実世界の画像でトレーニングされたモデルの潜在空間で人間にとって意味のある視覚的関心の次元を見つけるために提案された方法の構成可能で一般化可能な性質について説明します。彼らは一連の行動実験を実施して、彼らの方法の成功を評価し、あるカテゴリーで学んだ概念を別のカテゴリーに追加することが可能であることを発見しました。この方法はモデルにとらわれず、アート画像のアーカイブでトレーニングされたモデルを含む、他のモデルに適用できます。潜在空間をサンプリングするために使用できるさまざまな方法もありますが、特定の変更を分離するには、レイヤー選択方法が最も効果的であることがわかりました。注釈にはまだ人間の介入が必要ですが、将来の作業には、専門家が特殊なモデルに注釈を付ける機会を維持しながら、より大きなラベル付きデータセットでキャプション作成者をトレーニングするか、自動注釈に CLIP のようなものを使用することが含まれる可能性があります。

  • 00:55:00 ビデオのこのセクションでは、Sarah Schwettmann が、プロジェクトの注釈プロセスと、視覚化する方向を選択する際の意思決定について説明しています。チームは、被験者間の合意を測定するために方向ごとに少なくとも 2 つの注釈を収集し、注釈者間の合意に BLEU および BERTScore を使用しました。彼らは、カテゴリごとに 64 の z と、それらのさまざまな最小限の意味のある方向を視覚化しました。この決定はいくぶん場当たり的でしたが、彼らが使用した方法では、任意のサイズの注釈ライブラリを使用して語彙を抽出できます。彼らは現在、方向を自動的にラベル付けするようにキャプション作成者をトレーニングするために、スケールアップしてより多くの注釈を収集するかどうかを決定しています。ラベル付けに関しては、アノテーターが単語を選択する基準がなかったため、データに多少のノイズが発生しました。彼らはアノテーションの前に練習を行い、例を見ましたが、アノテーター間の合意は、言葉の選択が提供した認識への生の窓のみに基づいていました.

  • 01:00:00 このセクションでは、スピーカーは、空の変化を説明するために使用される語彙の評価に関する研究について説明します。彼らは、BERTScores を使用して注釈の意味的類似性を評価することは、単語ベースの対応を見るよりも効果的であることを発見しました。彼らはまた、同様の注釈を 1 つの傘の下に折りたたんでパワーを高めるというアイデアについても議論していますが、変更を説明するために使用されるさまざまな言葉の美しさに注目しています。次に、スピーカーと聴衆は、潜在空間の部分空間を通る非線形ウォークと、形容詞に対応する視覚的意味の正規化の欠如について話し合います。スピーカーは、人間とモデルの間で共有される語彙を構築するためのベータ版の方法で締めくくります。

  • 01:05:00 このセクションでは、Sarah Schwettmann が、言葉を使わずに視覚的な方向を捉えて学習する実験について説明します。この方法は「操縦性作業」に着想を得ており、潜在空間または特徴空間からサンプリングされた画像の小さなバッチと対話することで、人間が純粋に視覚的に必要な変換を定義できるようにします。ユーザーは、定義したい特定の視覚的特徴の方向に画像を並べ替えることができます。その方法は、操縦性作業と単純です。彼らは、異なるクラスの画像とサンプル画像を潜在空間から分離する超平面を学習することによって、純粋に変換を定義しました。これらの方向は、各カテゴリのいくつかの画像を使用してある程度の信頼性で識別することができるため、ユーザーはそのようなシステムと簡単にやり取りできます。この方法は、微妙で説明が難しい特徴を持つ画像にラベルを付けて理解するのに便利です。

  • 01:10:00 講義のこのセクションでは、Sarah Schwettmann が潜在空間と、人間の創造について訓練されたモデル内で見つかった方向を探索し、意味を割り当てるためにそれを使用する方法について説明します。モデルがカテゴリ間の視覚的な違いをどのように学習するかを調べることで、研究者は、モデルがトレーニングされたものを超えたシーンに適用できる、充満感などの意味のある次元を学習できます。このプロセスを通じて、潜在空間は人間の経験を投影できるスクリーンになり、研究者は、他の方法では形式化することが難しい人間の知覚の側面をよりよく理解できるようになります。その結果、絶妙な出力を生み出すことができる人間と機械のコラボレーションが実現します。

  • 01:15:00 このセクションでは、Sarah Schwettmann が潜在空間のアイデアと、私たちの想像力と私たちが作成するモデルとの関係について説明します。彼女はこの関係に感謝の意を表し、視聴者からの残りの質問を許可してビデオを終了します。
MIT 6.S192 - Lecture 21: Between Art, Mind, & Machines, Sarah Schwettmann
MIT 6.S192 - Lecture 21: Between Art, Mind, & Machines, Sarah Schwettmann
  • 2022.04.19
  • www.youtube.com
Sarah SchwettmannPostDoc in MIT CSAILhttps://www.cogconfluence.com/More about the course: http://deepcreativity.csail.mit.edu/Information about accessibility...
 

GenRep: ICLR2022 におけるマルチビュー表現学習のデータ ソースとしての生成モデル

コード: https://github.com/ali-design/GenRep



GenRep: ICLR2022 におけるマルチビュー表現学習のデータ ソースとしての生成モデル

プレゼンターは、基礎となるデータにアクセスすることなく、事前にトレーニングされた生成モデルにアクセスできるモデル ズーの概念について説明します。対照学習を利用することで、研究者は同じオブジェクトの異なるビューを作成できます。これは、表現空間内の同じ近傍に分類されます。彼らは、潜在空間での単純なガウス変換が効果的であり、IGM からより多くのサンプルを生成すると、より良い表現が得られることを発見しました。特定のドメインの StyleGAN Car などのエキスパート IGM は、実際のデータから学習した表現よりも優れています。プロジェクトの Web サイトと Github コードは、さらに調査するために利用できます。

  • 00:00:00 このセクションでは、プレゼンターがモデル ズーの概念について説明します。モデル ズーでは、事前にトレーニングされた生成モデルが、基になるデータにアクセスせずにアクセスできるようになっています。彼らは、暗黙的な生成モデルを操作して、生成された画像の多くの変換を提供する方法を説明しています。対照学習を利用することで、研究者は同じオブジェクトの異なるビューを作成できます。これは、表現空間内の同じ近傍に分類されます。潜在空間をシフトし、アンカーのさまざまなビューを作成し、変換を組み合わせることで、研究者はこれらの IGM から表現を学習できます。この調査では、IGM が提供する両方の変換を適用すると、実際のデータのパフォーマンスに近づき、匹敵することができることが示されました。 StyleGAN Carの場合、結果は実際のデータよりも驚くほど高かった.

  • 00:05:00 このセクションでは、スピーカーは、表現学習のさまざまなビューを作成する際の対照学習と操縦可能性の使用について説明します。彼らは、潜在空間での単純なガウス変換が効果的であり、IGM からより多くのサンプルを生成すると、より良い表現が得られることを発見しました。彼らはまた、特定のドメインの StyleGAN Car などのエキスパート IGM が、実際のデータから学習した表現よりも優れていることも発見しました。プロジェクトの Web サイトと Github コードは、さらに調査するために利用できます。
GitHub - ali-design/GenRep
GitHub - ali-design/GenRep
  • ali-design
  • github.com
Table of Contents: Setup Visualizations - plotting image panels, videos, and distributions Training - pipeline for training your encoder Testing - pipeline for testing/transfer learning your encoder Notebooks - some jupyter notebooks, good place to start for trying your own dataset generations Colab Demo - a colab notebook to demo how the...
 

MIT 6.S192 - 講義 22: 拡散確率モデル、Jascha Sohl-Dickstein



MIT 6.S192 - 講義 22: 拡散確率モデル、Jascha Sohl-Dickstein

この講義では、Jascha Sohl-Dickstein が、トレーニング データとは別のタスクを学習するために使用される拡散モデルについて説明します。モデルは確率論的であり、データのエンコードまたはデコードに使用できます。順拡散過程は一定の過程であり、逆過程もまた真である。

この講義では、拡散確率モデルについて説明し、潜在空間と画像空間の間には 1 対 1 の対応がありますが、同じモデル内で複数のクラスを操作できることを説明します。次に、これらのモデルを使用して新しい画像を生成する方法について説明します。

  • 00:00:00 このトークでは、Jascha Sohl-Dickstein が、アートを含むさまざまな分野で画像を生成するために使用される拡散モデルについて説明します。彼はまた、より良い画像を生成するために拡散モデルをテキストと組み合わせて使用する方法の例を共有しています。

  • 00:05:00 この講義では、Jascha Sohl-Dickstein が拡散モデルの背後にある物理的直感について説明し、それらを使用してデータ分布からサンプルを生成する方法を示します。次に、拡散モデルとニューラル ODE の間の接続について説明します。

  • 00:10:00 このビデオでは、マサチューセッツ工科大学電気工学科の Jascha Sohl-Dickstein 教授が、時間の経過に伴うシステムの動作を研究するために使用される拡散モデルについて説明しています。拡散モデルの主な利点の 1 つは、システムの基礎となる構造に関する情報を失うことなく、時間の経過とともに進化するシステムを表すデータ サンプルを生成するために使用できることです。

  • 00:15:00 このレクチャーでは、Jascha Sohl-Dickstein が拡散モデルの仕組みについて説明します。最初に、彼は 1D の例が 300 万次元でどのように示されるかを示します。次に、拡散モデルが 2D と 3D でどのように機能するかを説明します。最後に、拡散モデルを使用して、一連のガウス分布の平均と共分散を表す関数を学習する方法を示します。

  • 00:20:00 この講義では、Jascha Sohl-Dickstein が拡散モデルの数学的基礎をカバーし、変分境界を使用してそれらをトレーニングする方法を説明します。また、Jensen の不等式と、モデルの対数尤度の下限についても説明しています。軌道上の順分布と逆分布が正確に重複する場合、対数尤度は、両方の分布がガウス分布である KL 発散の合計として書き留めることができます。

  • 00:25:00 この講義では、Dr. Sohl-Dickstein は、2 つの確率分布間の KL 発散について議論し、教師あり学習におけるその重要性を説明しています。彼は続けて、一般に、KL はデータからモデルへと計算され、データの対数尤度に関連付けられていると述べています。彼はまた、逆方向の KL ダイバージェンスを計算するのが難しい場合があることにも言及しています。

  • 00:30:00 この講義では、Jascha Sohl-Dickstein が、確率微分方程式 (SDE) を使用してデータ分布へのノイズの拡散をモデル化する方法について説明します。彼は、拡散プロセスを確率微分方程式に変換する方法と、対数尤度スコア関数の勾配を使用して、スコア関数に対するシータの近似をトレーニングする方法を説明しています。

  • 00:35:00 このレクチャーでは、拡散モデリング アルゴリズムと、他のモデリング手法に対するその利点について説明します。アルゴリズムは離散時間 SDE とスコア関数で記述され、サンプリング プロセスはニューラル ネットワークで記述されます。講義は、いくつかのサンプル生成手法のデモンストレーションで終了します。

  • 00:40:00 このレクチャーでは、確率モデルと決定論モデルの違いと、2 つのモデルを変換する方法について説明します。この講義では、モデリングに SDE を使用する場合と ODE を使用する場合の利点と欠点についても説明します。
     
  • 00:45:00 この講義では、Jascha Sohl-Dickstein が拡散モデルの背後にある理論について説明し、拡散モデルが通常の線形モデルとどのように異なるか、および制御された条件下でノイズ サンプルの生成を制御するなど、さまざまな目的にどのように使用できるかを説明します。彼はまた、条件付き分布の事前知識を必要とせずに拡散モデルの第 2 項をトレーニングするために使用できるベイズの規則についても言及しています。

  • 00:50:00 このレクチャーでは、Jascha Sohl-Dickstein が、拡散モデルを使用して、もっともらしいインペインティングやイメージ内の色を生成する方法について説明します。彼はまた、モデルのエンコーディングは一意に識別可能であると述べています。これは、見方によってポジティブまたはネガティブになります。最後に、モデルを再トレーニングすることなく、モデルを使用して新しい芸術作品を生成する方法を示します。

  • 00:55:00 このレクチャーでは、トレーニング データとは別のタスクを学習するために使用される拡散モデルについて説明します。モデルは確率論的であり、データのエンコードまたはデコードに使用できます。順拡散過程は一定の過程であり、逆過程もまた真である。

  • 01:00:00 このレクチャーでは、拡散確率モデルについて説明し、潜在空間と画像空間の間に 1 対 1 の対応がある一方で、同じモデル内で複数のクラスを操作できることを説明します。
MIT 6.S192 - Lecture 22: Diffusion Probabilistic Models, Jascha Sohl-Dickstein
MIT 6.S192 - Lecture 22: Diffusion Probabilistic Models, Jascha Sohl-Dickstein
  • 2022.04.19
  • www.youtube.com
Jascha Sohl-DicksteinSenior Staff Research Scientist in the Brain Group at Googlehttp://www.sohldickstein.com/More about the course: http://deepcreativity.cs...
 

データ分析、信号処理、および機械学習におけるマトリックス法を教えるギルバート・ストラングへのインタビュー



データ分析、信号処理、および機械学習におけるマトリックス法を教えるギルバート・ストラングへのインタビュー

有名な数学者である Gilbert Strang は、線形代数に大きく依存する機械学習の重要な部分である深層学習を教える上で、試験よりもプロジェクトの重要性を強調しています。彼は、プロジェクトによって、学生はディープ ラーニングを現実の世界に適用する方法を理解できるようになり、より効果的な学習方法になると考えています。 Strang はまた、教えるということは、単に生徒を採点するのではなく、生徒と一緒に学び、共に働くことだと強調しています。彼は、新しい教授に大きなチョークを使用し、授業で成功するために時間をかけてクラスにとどまるようにアドバイスしています.

  • 00:00:00 このセクションでは、Gilbert Strang が、線形代数に大きく依存する機械学習の重要な部分であるディープ ラーニングの教育にどのように関わったかについて説明します。彼はまた、プロジェクトは実際の状況でディープ ラーニングを使用する方法のアイデアを学生に与え、より効果的な学習方法であるため、試験よりもはるかに優れていることを強調しています。生徒に自分で質問をさせたり、自分でプログラムを作成させたりすることで、興味深く記憶に残るプロジェクトを作成できます。しかし、Strang 氏は、このような方法でコースを教え始めた当初は何を期待すればよいかまったくわからなかったことを認めており、プロジェクトを促進するためのロジスティクスを理解するのに時間がかかりました。

  • 00:05:00 ビデオのこのセクションでは、Gilbert Strang が生徒の作品の採点に関する彼の哲学について説明しています。彼は、教師としての主な仕事は、生徒を採点することではなく、生徒と一緒に教えたり学んだりすることだと信じています。彼は格付けが重要であることを認めていますが、それは彼の主な関心事ではありません.彼は新しい教授に大きなチョークを使用し、急ぐのではなく、クラスにとどまるようにアドバイスしています。彼は、教えることが可能な限り最高の仕事であると信じています。
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
An Interview with Gilbert Strang on Teaching Matrix Methods in Data Analysis, Signal Processing,...
  • 2019.08.19
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert Strang, Sarah HansenView the complete cou...
 

MIT 18.065。データ分析、信号処理、および機械学習における行列法



Strang教授によるコース紹介

Strang 教授は、線形代数、深層学習、最適化、統計の 4 つの重要なトピックをカバーする新しいコース 18.065 を紹介します。このコースでは、最良の行列、対称および直交行列、および線形代数との関係に焦点を当てます。また、線形代数の基礎であり、数日または数週間にわたって GPU の使用を必要とする複雑な計算を伴うディープ ラーニングについても説明します。このコースでは、学習関数の数値を適切な範囲内に維持する役割を果たす統計学、学習アルゴリズムで重要な最適化と確率論、および科学と工学のアプリケーションで重要な役割を果たす微分方程式に触れます。 .このコースには、主題の完全なプレゼンテーションを提供するための演習、問題、およびディスカッションが含まれています。

  • 00:00:00 このセクションでは、Strang 教授が彼の新しいコース 18.065 と、線形代数とデータからの学習に関する新しい教科書を紹介します。彼は、このコースは 2 つの必須科目と 2 つの補足的ではあるが重要な数学科目をカバーしていると説明しています。最初の大きな主題は線形代数であり、これは実践においてますます重要になってきており、Strang 教授は最良の行列、対称行列と直交行列、およびそれらの関係に焦点を当てています。 2 番目の重要なトピックは、行列乗算と非常に単純な非線形関数を使用して、入力のパターンを認識して出力を生成する学習関数の作成を扱うディープ ラーニングです。このコースでは、アルゴリズムの学習に重要な最適化と確率論、および科学と工学のアプリケーションで重要な役割を果たす微分方程式についても説明します。

  • 00:05:00 このセクションでは、Strang 教授が、このコースで取り上げる 4 つの重要なトピックを紹介します。それは、線形代数、深層学習、最適化、および統計です。線形代数は、ディープ ラーニングを理解するための基礎となります。ディープ ラーニングには、数日または数週間にわたって GPU を使用する必要がある複雑な計算が含まれます。このコースでは、学習機能の数値を適切な範囲内に維持する役割を果たしている統計についても触れます。このコースは統計に焦点を当てていませんが、深層学習のコンテキスト内で使用されます。このコースでは、ビデオだけでなく、主題の完全なプレゼンテーションを提供するための演習、問題、ディスカッションなど、幅広い資料をカバーしています。
Course Introduction of 18.065 by Professor Strang
Course Introduction of 18.065 by Professor Strang
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 1: A の列空間にはすべてのベクトルが含まれる Ax



講義 1: A の列空間にはすべてのベクトルが含まれる Ax

この講義では、行列の列空間の概念に焦点を当てます。これは、行列に可能なすべてのベクトルを乗算することによって取得できるすべてのベクトルの集まりです。講師は、列のスペースは行列に依存し、R3 の全スペースまたはそのサブセットである可能性があると説明しています。教授はさらに、行スペース、列ランク、行ランクの概念、およびこれらのランク間の関係について説明します。この講義では、行列の列のランクが行列の行のランクに等しいという線形代数の最初の偉大な定理にも簡単に触れます。さらに、教授は、行列乗算の方法と、プロセスに必要な乗算の数について説明します。全体として、この講義では、線形代数の概要と、データから学習する上でのその重要性について説明します。

  • 00:00:00 このセクションでは、教授が自己紹介と、データからの学習に焦点を当て、多くの線形代数を含むコースについて紹介します。彼は、次の本の目次がある公開サイトについて言及し、クイズはなく、線形代数の質問と、手書きの認識や画像のつなぎ合わせなどの実用的なアプリケーションの両方をカバーする宿題のみがあるという事実に言及しています.次に教授は、線形代数の基礎から始めて、行列をベクトルで乗算する正しい方法を実演し、後で行列と行列の乗算について説明します。

  • 00:05:00 このセクションでは、講師は、ベクトルを乗算して別のベクトルを与えるオブジェクト全体として行列を考える重要性を説明します。彼は、行列の列空間の概念を導入しました。これは、行列に可能なすべてのベクトルを乗算することによって取得できるすべてのベクトルの集合です。彼は、列スペースは行列に依存し、R3 の全スペースまたはその小さなサブセットである可能性があると説明しています。最終的に、講師は、行列の列空間など、ベクトルの集合に関する質問に答える方法を線形代数が提供することを強調します。

  • 00:10:00 このセクションでは、講師はランダムな 3x3 行列の列空間が必ずしも 3 つすべてであるとは限らず、代わりに平面または線でさえある可能性があると説明しています。彼は、列スペースが単なる線であるマトリックスの例と、3 番目の列が最初の 2 つの列の組み合わせであり、その列スペースがスペース全体ではなく平面になっているマトリックスの別の例を示しています。次に、線形代数とデータ サイエンスの構成要素であるランク 1 行列を紹介し、それらが列と行の乗算の積としてどのように考えられるかを示します。

  • 00:15:00 このセクションでは、講師が行列の列空間について説明します。これは、列のすべての可能な組み合わせのセットです。彼は、独立した列の概念と、行列に含まれる独立した列の数 (ランクと呼ばれる) について説明しています。ランクは、スペースを埋める独立した列の数であり、基底は独立した列で構成されます。講師は、既に選択されたものの組み合わせではないベクトルを探すことによって、列空間の基礎を作成する自然な方法を見つける方法を実演します。彼は 3 つの列を持つ行列を紹介します。そのうちの 2 つは独立しており、列空間の基礎を形成しますが、3 つ目は独立しておらず、基礎の一部にすることはできません。

  • 00:20:00 講義のこのセクションでは、インストラクターが行列因数分解のプロセスを説明し、代数学に近い教育で有名な最初の行列因数分解を紹介します。このプロセスには、ある行列の列を別の行列の列から取得する方法をユーザーに伝える行列 R の作成が含まれます。 R の形状は元の行列によって決定され、インストラクターは正しい行列因数分解を得るために正しい数値を入れる方法を説明します。この講義では、行列の列のランクが行列の行のランクに等しいという線形代数の最初の偉大な定理にも簡単に触れます。

  • 00:25:00 このセクションでは、講師が行スペースの概念と列スペースとの関係を紹介します。彼は、マトリックスの行スペースはその行の組み合わせであり、マトリックスの列スペースはその列の組み合わせであると説明しています。彼はさらに、行空間の次元は行列の行ランクであり、行空間の基底を見つけることで決定できると説明しています。講師はこの事実の重要性を指摘し、行列の行がその行空間の基礎を形成できることを示す証明を提供します。

  • 00:30:00 講義のこのセクションでは、教授は、2 つのベクトルが独立しているかどうか、およびそれらの組み合わせがすべての行を生成するかどうかを検証することによって、行空間の基礎であるかどうかを確認する方法を説明します。彼は、行列の乗算を含む例を通してこれを示し、因数分解 a = CR が行スペースを見つける上で重要なアイデアであることを示しています。範囲とも呼ばれる列空間についても、さまざまな言語や基本的な数学的概念を表現するさまざまな方法に重点を置いて説明されています。

  • 00:35:00 このセクションでは、講師は列ランクと行ランクの概念について説明します。列ランクと行ランクは、それぞれ線形独立な行列の列と行の数であり、これら 2 つのランクの関係についても説明します。彼は、大規模な行列の場合、すべてのエントリを調べることは実際的ではなく、ランダム サンプリングを使用する必要があると説明しています。講師はまた、行列の列または行を取得するなどの因数分解、および行列の行削減エシュロン形式にも触れます。

  • 00:40:00 ビデオのこのセクションでは、Gilbert Strang 教授が、線形代数の問題がコースの宿題の一部になると説明しています。ただし、このコースを特別なものにしているのは、MATLAB、Python、または Julia を使用して行うことができるその他のオンラインの宿題です。彼は、このコースの概念がミシガン大学のラオ教授の功績によるものであると述べています。ラオ教授は以前、ミシガン大学で EE のコースを成功させるためにオンラインの宿題問題を作成していました。このコースの一部であるジョンソン教授は、学生が参加できる学期ごとにジュリアに関するチュートリアルを行います。 MATLAB は深層学習への入り口を示しましたが、Julia はその使いやすさから深層学習の人気のある言語になりつつあります。

  • 00:45:00 講義のこのセクションでは、インストラクターが行列とベクトルの乗算について説明します。これは多くの人にとって単純に思えるかもしれませんが、インストラクターは行列の乗算を理解するためのより深い方法を探求し、列と行の組み合わせになります。このアプローチは、AB が外積の合計である AX= B の考え方を一般化したものです。この講義では、M x N の行列に N x P の行列を乗算するために必要な個々の乗算の数について簡単に触れています。

  • 00:50:00 このセクションでは、講師が行列の乗算に必要な乗算の回数を、古い方法と新しい方法の例を使用して説明します。古い方法では、ドット積を行うために n 回の乗算が必要であり、答えには m と p のドット積があるため、全体として m と p の乗算になります。ただし、新しい方法では、列と行の乗算ごとに mp 回の乗算が必要であり、これらが n 回あるため、mp 回 n 回の乗算になります。方法論は異なりますが、どちらの方法でも同じ答えが得られ、講師は金曜日にこれについてさらに議論することを示唆しています.
 

講義 2: 行列の乗算と因数分解



講義 2: 行列の乗算と因数分解

この講義では、行列の乗算と因数分解の基本について説明します。著者は、行列が行空間と列空間の両方に次元を持つ方法と、行空間が次元 R を持ち、ヌル空間が次元 M から R を差し引いた次元を持つ方法を説明します。講義では、行と方程式の解の関係についても説明します。二次元空間におけるベクトルの直交性。最後に、著者は線形代数の基本定理を説明します。この定理は、幾何学が解決されると、空間の次元が正しく現れることを示しています。

  • 00:00:00 この講義では、Gilbert Strang が列時間行をメソッドとして使用して行列を乗算する方法を説明します。彼女はまた、行列の 5 つの主要な因数分解と、それらが数学においていかに重要であるかについても説明します。最後に、行列の作成方法を示し、線形代数における行列の重要性について説明します。

  • 00:05:00 この講義では、著者は直交行列の概念とその重要性について説明します。彼は続けて行列の乗算のルールを説明し、それを 2 つの簡単な例に適用する方法を示します。次に、行列のランクと、それが行列の列と行にどのように関連しているかについて説明します。最後に、著者は行列にその対角行列を掛ける方法を示します。

  • 00:10:00 この講義では、Gilbert Strang 教授が対称固有値問題とそのさまざまな応用について簡単に説明します。次に、行列をランク 1 の断片に分割して正しい固有ベクトルと固有値を得る方法を示します。

  • 00:15:00 この講義では、Gilbert Strang 教授が、特異値分解 (SVD) を含む行列の基本的な因数分解について説明します。彼は消去法についても議論し、それが L かける U でどのように表現されるかを説明します。

  • 00:20:00 この講義では、Gilbert Strang 教授が、消去の概念と、それが方程式を解く際にどのように使用されるかについて説明します。彼は、消去法が 2 行 2 列の行列にどのように適用されるかを示し、プロセスを説明する例を提供します。

  • 00:25:00 線形代数の基本定理は、行列の 4 つの部分空間があり、それぞれが異なる次元を持つと述べています。部分空間は、行空間、列空間、行列上のすべての線形変換のベクトル空間、およびすべての行列の空間です。

  • 00:30:00 行列のヌル空間は、単語「ヌル」(すべてのコンポーネントがゼロに等しいベクトル) に対する解のセットです。この空間は閉じています。つまり、"e" の解ではない "ax がゼロに等しい" の解は含まれていません。さらに、転置のヌル空間は、「x 転置 y」の解でもある単語「ヌル」の解の集合です。

  • 00:35:00 線形代数の基本定理は、関係する 2 つの空間の次元が等しい場合、通常、システム内の方程式には独立した解があると述べています。この定理は、連立方程式の次元を決定するためによく使用されます。

  • 00:40:00 行列の乗算と因数分解の講義では、行列の乗算と因数分解の基礎について説明します。この講義では、行列が行空間と列空間の両方に次元を持ち、行空間には次元 R があり、ヌル空間には次元 M から R を差し引いた次元があることを説明します。講義の最後のセクションでは、行列空間の幾何学について説明し、その方法を実演します。行列内の特定の方程式を解くベクトルを見つけます。

  • 00:45:00 この講義では、方程式の行と解の関係、および 2 次元空間におけるベクトルの直交性について説明します。彼はまた、線形代数の基本定理についても説明しています。この定理は、幾何学が解決されると、空間の次元が正しく現れることを示しています。
Lecture 2: Multiplying and Factoring Matrices
Lecture 2: Multiplying and Factoring Matrices
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 3. Q の直交列 Q'Q = I を与える



3. Q の直交列 Q'Q = I を与える

ビデオのこのセクションでは、数値線形代数における直交行列の概念とその重要性について説明します。話者は、Q 転置 Q が単位に等しいという事実を使用して、QX の長さの 2 乗が X 転置 QX と同じでなければならないことを証明します。このビデオでは、Gordan 行列や Householder 行列などのさまざまな方法を使用して直交行列を作成する方法についても説明しています。信号処理で直交固有ベクトルを使用する概念とともに、ウェーブレットの重要性と構成についても説明します。最後に、講演者は、直交ベクトルを複素数でテストする方法について話し、直交行列には異なる固有値を持つ直交固有ベクトルがあることに言及します。

  • 00:00:00 このセクションのトピックは行列 Q です。行列 Q は正規直交列にちなんで名付けられています。行列 Q の重要な事実は、正規直交列が Q 転置 Q が恒等行列に等しいという単純な事実に変換されることです。これの説明は、行列の法線部分の各ベクトルの長さの 2 乗が 1 であるため、恒等行列では 1 になるということです。行列の直交部分にはゼロがあり、単純な恒等式が生成されます。正方行列 Q の場合、Q 転置は単位行列に等しく、Q は直交行列になります。 Q が長方形の場合、2 行 2 列の直交行列を取得する 1 つの例は、cos および sin theta を使用することです。行列は回転を表します。

  • 00:05:00 ビデオのこのセクションでは、スピーカーは、ベクトルの長さを変更しないという直交行列の重要な特性について説明します。このプロパティは、直交行列で乗算するときにアンダーフローやオーバーフローが発生しないため、数値アルゴリズムで人気があります。話者は、Q 転置 Q が単位に等しいという事実を使用して、QX の長さの 2 乗が X 転置 QX と同じでなければならないことを証明します。講演者はまた、直交行列は正規直交行列とも呼ばれることに言及し、2 行 2 列の直交行列の例をいくつか示します。

  • 00:10:00 このセクションでは、スピーカーは回転行列に小さな変更を加えた後に得られる反射行列の概念について説明します。結果の行列は対称で、行列式は -1 です。単位ベクトル (1,0) と (0,1) に適用されると、行列はそれらをそれぞれ線を横切って最初の列に垂直に反映します。講演者はまた、このような大きな行列はハウスホルダー反射と呼ばれることにも言及しています。

  • 00:15:00 このセクションでは、トランスクリプトは直交行列の概念と数値線形代数におけるそれらの重要性について説明します。ハウスホルダー行列は、重要な直交行列として導入されています。ハウスホルダー行列は、単位ベクトルから始めて、単位ベクトルとその転置の積の 2 倍を減算することによって作成され、結果として対称直交行列になります。トランスクリプトは、これらの行列が物事を直交させるのに役立つことを説明し、グラム-シュミット法よりも優れていることを示しています。ハウスホルダー行列が直交しているかどうかをチェックするプロセスも示され、対称直交行列の信頼できるファミリであると結論付けられます。

  • 00:20:00 このセクションでは、スピーカーは、1 と負の 1 のみで構成される行列である Gordan 行列の概念を使用して直交行列を作成する方法について説明します。彼は、各列が互いに直交するゴルダン行列の挑戦的な例を構築します。講演者は、この概念が符号化理論に役立つ可能性があることを指摘し、1 と負の 1 で構成される直交 12x12 行列が存在することを示唆し、すべての行列サイズ (1x1 と 3x3 を除く) がこの方法で構築できるという推測につながります。

  • 00:25:00 このセクションでは、スピーカーは、すべてのサイズ n の直交列を持つ可能な 1 とマイナス 1 の直交行列があるかどうかについての推測について説明します。これを証明する体系的な方法は見つかっていませんが、4 の倍数ごとに可能性があることが示唆されています。講演者は、ウェーブレットの重要性と構成についても説明します。ウェーブレットは、特に対称行列の直交ベクトルを生成するのに役立つ単純ですが重要な構成です。スピーカーは、4 つの象限の 4 行 4 列のケース マトリックスを描くことによって、この概念を説明します。各象限は、1 とマイナス 1 のパターンに従う直交ベクトルで構成されます。

  • 00:30:00 このセクションでは、スピーカーはウェーブレットと、「ウェーブレット」という用語が発明される何年も前に開発されたハール ウェーブレット行列の構築について説明します。 Haar 行列には、使いやすくするための非常に単純な関数があり、1 とマイナス 1 の後に 0 が続きます。マトリックスには疎であるという利点があり、さまざまなスケールでの値の平均と差の取得に関与しています。ウェーブレットは、優れた特性を持つ直交行列のファミリを発見した Ingrid Dobashi によってさらに開発されました。この議論は、固有値、固有ベクトル、および正定値行列に関する次の講義につながります。

  • 00:35:00 このセクションでは、スピーカーは直交固有ベクトルの重要性について話します。対称行列と直交行列の固有ベクトルは自動的に直交し、直交ベクトルの検索が簡素化されます。最も重要な固有ベクトルは離散フーリエ変換で、高速フーリエ変換に入ります。講演者は、Q の固有ベクトルがどのように直交するかを実演し、ベクトルを周波数に分割するのに役立つため、離散フーリエ変換が信号処理に非常に役立つことを繰り返します。順列行列は恒等行列の並べ替えであり、それらの列は直交しているため、勝者になります。スピーカーは、水曜日の議論がキューの固有ベクトルと固有値にどのように焦点を当てるかについて話すことで締めくくります。

  • 00:40:00 このセクションでは、スピーカーは直交行列、回転、反射、および固有ベクトルについて説明します。このビデオでは、順列行列の固有ベクトルがどのように機能するか、および最初の列が 2 番目の列と直交していること (または、周波数の用語では、0 番目の列が最初の列と直交していること) について説明しています。このビデオでは、4 つの列のすべてが順列の固有ベクトルであり、それらが互いに直交していることを示しています。最後に、ビデオはこれが離散フーリエのものに似ていると述べていますが、e から I、II から IX の代わりに、ベクトルがあります。

  • 00:45:00 ビデオのこのセクションでは、スピーカーは複素数で直交ベクトルをテストする方法について話します。彼は、複素共役なしで内積をとることは正確ではないかもしれないが、複素共役を使用すると直交性を示すことができると述べています。スピーカーはまた、固有値が異なる直交行列の固有ベクトルは直交する必要があることにも言及しています。
3. Orthonormal Columns in Q Give Q'Q = I
3. Orthonormal Columns in Q Give Q'Q = I
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
 

講義 4. 固有値と固有ベクトル



4. 固有値と固有ベクトル

このビデオでは、固有値と固有ベクトルの概念と、それらを使用して線形変換を計算する方法について説明します。また、固有ベクトルを使用してシステム内の線形方程式を見つける方法も示します。

  • 00:00:00 このビデオでは、著者が正方行列の固有ベクトルと固有値の概念を説明しています。また、特定の問題に対する固有ベクトルと固有値の有用性についても説明しています。最後に、正定対称行列とその重要性について説明します。

  • 00:05:00 ビデオでは、固有値と固有ベクトルの概念と、それらを使用して線形変換を計算する方法について説明しています。また、固有ベクトルを使用してシステム内の線形方程式を見つける方法も示します。

  • 00:10:00 このビデオでは、固有値と固有ベクトルを使用して差分方程式をすばやく解く方法を説明しています。固有ベクトルの最初の用途は、固有ベクトルが発明された主な用途を解くことができるようにすることです。これは、ベクトル方程式の差を解くことができるようにすることです。さらに、このビデオでは、類似した行列が同じ固有値を持つ方法について説明しています。

  • 00:15:00 ビデオでは、固有値の計算方法と固有ベクトルとの関係について説明しています。また、行列が乗算されたときに固有値がどのように保持されるかについても説明します。

  • 00:20:00 このビデオでは、プレゼンターが固有値と固有ベクトルの概念について説明し、それらが同一ではない理由を説明しています。次に、同じ固有値を持つ 2 つの行列が固有ベクトルに関してどのように異なっている可能性があるかについて説明します。

  • 00:25:00 このビデオでは、著者は対称行列を専門とし、固有値と固有ベクトルの特別な点について説明しています。彼は、反対称行列には虚数の固有値があると主張しています。

  • 00:30:00 このビデオでは、行列の固有値と固有ベクトルが説明されています。計算が正しく行われたことを確認するために 2 つの簡単なチェックが実行され、行列のトレースが表示されます。最後に、対称行列と正定値行列について説明します。

  • 00:35:00 ビデオでは、対称行列の固有値と固有ベクトルについて説明しています。固有値と固有ベクトルは行列の構造を理解するために重要であり、固有値が同じままであることを確認することができます。さらに、このビデオでは、対角行列を取得する方法について説明しています。

  • 00:40:00 このビデオでは、作成者は行列を対角化し、固有値を見つけ、固有ベクトルが類似するように M を見つけます。次に、この情報をマトリックス形式で書き、それが正しいことを確認します。

  • 00:45:00 このビデオでは、固有値と固有ベクトルの概念と、それらがどのように関連しているかについて説明しています。対称行列が異なる固有ベクトルと固有値の表現を持つ方法と、スペクトル定理を使用してこれらの表現を計算する方法について説明します。
4. Eigenvalues and Eigenvectors
4. Eigenvalues and Eigenvectors
  • 2019.05.16
  • www.youtube.com
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...