機械学習とニューラルネットワーク - ページ 41

 

テュービンゲン大学での 2022/23 冬学期の機械学習の数値。講義 1 - はじめに -- Philipp Hennig



ML 1 の数値 -- はじめに -- Philipp Hennig

このビデオでは、Philipp Hennig が機械学習における数値アルゴリズムを理解することの重要性について説明し、その用語のコース内容を紹介しています。対象となる最初の数値アルゴリズムは線形代数で、Gaussian Process Regression に適用されます。 Hennig は、機械学習におけるシミュレーション、微分方程式、統合、および最適化の役割についても説明しています。彼は、アルゴリズム スパイン、オブザーバブル、確率的数値アルゴリズムなど、数値アルゴリズムの新しい展開を紹介しています。 Hennig はビデオ全体を通して、機械学習で使用される従来のアルゴリズムを更新して複雑な問題を解決することの重要性を強調し、このコンピューター サイエンス クラスでコードを記述する役割を強調しています。

Philipp Hennig は、機械学習の数値に関する彼のコースを紹介しています。このコースは、機械学習アルゴリズムがボックス内でどのように機能するか、および学習機械を改善するためにそれらをどのように適応または変更できるかを探求することを目的としています。数値アルゴリズムと機械学習アルゴリズムの高度な専門知識は、研究者や業界の専門家から非常に求められています。このコースは、理論とコーディング作業で構成され、課題はバイナリ システムで採点されます。 Hennig は、機械学習における数値アルゴリズムの重要性を強調し、9 人のインストラクターによるこのユニークな教育実験に学生を招待しています。

  • 00:00:00 このセクションでは、Philipp Hennig が、機械学習における数値アルゴリズムを理解することの重要性を紹介します。機械学習アルゴリズムはデータを入力として受け取り、世界で予測または行動するモデルを生成しますが、実際の学習プロセスには数値計算が含まれます。従来の AI アルゴリズムとは異なり、最新の機械学習アルゴリズムは、これらの計算のプリミティブとして、線形代数、シミュレーション、統合、最適化手法などの数値アルゴリズムを使用します。 Philipp は、数値アルゴリズムを、閉じた形式の解を持たず、常に機能する原子操作とは異なり、うまくいかない数学的量を推定する方法として定義しています。数値アルゴリズムは機械学習の中心であるため、正しく機能するように理解することが重要です。

  • 00:05:00 このセクションでは、スピーカーは通常の関数と数値アルゴリズムの違いについて説明し、後者には独自のライブラリと選択可能ないくつかのサブルーチンがある傾向があることに注意します。次に、1993 年に Forth 言語で書かれたプロトタイプの数値アルゴリズムの例を示し、1975 年に 2 人の数学者によって発明されたアルゴリズムを実装しています。機械学習エンジニアは頻繁に数値タスクに遭遇し、他の分野で開発されたこれらの古いアルゴリズムを利用することができましたが、目の前のタスクがメソッドの機能と正確に一致しない場合、これは問題になる可能性があります.講演者は、既存の数値手法では不十分な問題を解決しようとする場合、これが機械学習の問題になる可能性があることを示唆しています。

  • 00:10:00 このセクションでは、Philipp Hennig が数値アルゴリズムのトピックとその用語のコース内容を紹介します。機械学習の基本層である線形代数は、彼らがカバーする最初の数値アルゴリズムです。その適用例は、ガウス過程回帰で、推論に 2 つの関数 (事後平均と事後共分散関数) が使用されます。これらの関数はカーネル メソッドを使用して定義され、その実装には逆行列を計算するのではなく、コレスキー分解法が含まれます。 Hennig はまた、Python コード スニペットを紹介し、逆行列を計算する代わりにコレスキー分解を使用する必要がある理由を説明しています。

  • 00:15:00 ビデオのこのセクションでは、スピーカーの Philipp Hennig がカーネル マシンの問題、特に大量のデータにうまくスケーリングできないことについて説明しています。彼は、カーネル マシンに必要な高価な計算が、現代の機械学習での使用を困難にしていると説明しています。しかし、Hennig は、データセットの構造と近似を利用して計算を高速化するために使用できる他の線形代数アルゴリズムがあり、最終的には大規模なデータセットにスケーリングするガウス過程回帰を使用したソリューションにつながることも示唆しています。

  • 00:20:00 このセクションでは、Philipp Hennig がシミュレーション アルゴリズムと機械学習におけるその役割を紹介します。シミュレーション手法は、時間の経過に伴う動的システムの軌跡をシミュレートし、X を推定することができます。自動運転車などのエージェントを構築するとき、または科学などの物理的洞察を利用する機械学習アルゴリズムを作成するときに、機械学習に現れます。機械学習。シュレディンガーの方程式などの微分方程式は、通常、自然の知識をエンコードするために使用されます。さらに Hennig は、ドイツでの COVID-19 症例の 1 年半にわたる単純な予測問題の例を提供し、この問題の解決にディープ ニューラル ネットワークとガウス過程が機能しない理由を説明しています。

  • 00:25:00 このセクションでは、Philipp Hennig がモデリング システムでの微分方程式の使用、特にシミュレーションで一般的に使用される SIR モデルと、ロックダウンなどの実世界のダイナミクスをこれらのモデルに組み込む課題について説明します。彼は、ニューラル ネットワークを使用して係数ベータを時間依存にすることを提案していますが、コードに導関数がないためにそうするのが難しいと指摘しています。ただし、彼は、この問題を解決する Jax のアルゴリズムの最近の開発を強調しています。

  • 00:30:00 このセクションでは、複雑な問題を解決する現在の方法である、シミュレーションベースの推論と呼ばれるアルゴリズムについて Philipp Hennig が説明します。このアルゴリズムには、関数 f を複数回評価して勾配を返し、勾配降下ステップを実行するネストされた for ループが含まれます。 Hennig は、このプリミティブ コードよりも柔軟で高速なアルゴリズムを作成するために、フォトン コード内で手続き型の方法で数値のリストを構築し、それらを適応させる独自のメソッドを構築できると説明しています。この方法には、未知の要因についてアルゴリズムに通知するために、確率分布や情報演算子などの演算子をそれに掛けることができるマルコフ連鎖のスパインが含まれます。これにより、時間のかかる外側のループで for ループを何度も呼び出すことなく、これらの問題を解決できます。

  • 00:35:00 このセクションでは、Philipp Hennig が、機械学習で使用される 100 年以上前の古典的なアルゴリズムを更新することの重要性について説明します。彼は、さまざまな情報演算子で動作し、新しい機能を作成できるアルゴリズム スパインのアイデアを紹介します。その後 Hennig は、機械学習における統合の役割について議論します。これは、患者の推論の基本操作です。確率的機械学習の基本的な操作は、結合分布を取り、それを周辺分布で割ることによって事後分布を計算することです。これには積分が含まれます。最後に、Hennig は、損失関数を最小化する値の計算を含む、機械学習の基本操作である最適化の重要性について説明します。これらのアルゴリズムは、関数の勾配を自動的に計算できる微分可能なプログラムの基礎を形成します。

  • 00:40:00 このセクションでは、Philipp Hennig が最適化アルゴリズムと機械学習におけるその重要性について説明します。 BFGS や最小化などの従来のメソッドは scipy.optimize に格納されていますが、SGD や Adam などの新しいメソッドは現在、機械学習の標準となっています。ただし、これらの方法は、最小限に収束して微分可能な問題に対処できる古い方法とは異なり、多くの場合、学習率と多くの監督を必要とします。数百万のデータ ポイントを持つ大規模なデータセットに対するこれらの新しい方法の制限に対処するために、バッチ勾配降下法を使用して、はるかに小さい合計を計算します。これは、関心のあるものの偏りのない推定量です。これらの新しい方法はより効率的で効果的ですが、古いアルゴリズムと同じ原則に基づいているため、特定のアプリケーションで問題が発生する可能性があります。

  • 00:45:00 ビデオのこのセクションでは、講演者はディープ ラーニング アルゴリズムで勾配に加えて分散を計算する可能性について説明します。彼は、最適化プロセスから分散計算が省略されているのは、最適化が依然として確率変数を使用して適切に一般化する点を見つける問題ではなく、勾配計算の問題と見なされているためだと主張しています。しかし、彼は、ランダム性から生じる不確実性を計算に含めることの重要性を強調し、ディープ ニューラル ネットワークのより良いトレーニング設定を構築するために不可欠であると指摘しています。彼は、このトピックをより深く掘り下げる今後の講義について言及することで締めくくります。

  • 00:50:00 このセクションでは、Philipp Hennig がオブザーバブルを使用して、不確実性などの新しい機能をディープ ニューラル ネットワークに追加したり、高価なマルコフ連鎖モンテカルロ アルゴリズムを使用せずにベイジアン ディープ ニューラル ネットワークにしたりする方法について説明します。彼はまた、機械学習アルゴリズムのトレーニングに使用される数値アルゴリズムが、実際には機械学習アルゴリズムそのものであり、扱いやすく観測可能なデータを観察しながら未知の量または潜在変数を推定する方法についても説明しています。これは、潜在量が計算からの観測結果に基づいて推定される推論のプロセスに似ています。

  • 00:55:00 このセクションでは、Philipp Hennig が学習機械としての数値アルゴリズムの概念を紹介し、確率数値アルゴリズムとしてゼロから数値アルゴリズムを構築する背後にあるアイデアについて説明します。これらは、タスクを説明する確率分布を取得し、CPU または GPU をデータ ソースとして使用して、数値タスクの解の推定値を改善するアルゴリズムです。 Hennig 氏は、このクラスは典型的な数値解析クラスではないことを強調しています。学習マシンとして内部のマシンを理解し、機械学習の言語で新しいアルゴリズムを構築することに重点が置かれているからです。学生は、このコンピューター サイエンスのクラスで多くのコードを書くことが期待できます。

  • 01:00:00 このセクションでは、Philipp Hennig が機械学習の数値に関する彼のコースを紹介します。これは、この種の専門コースとしては世界初であると彼は主張しています。このコースは、機械学習アルゴリズムの仕組み、特にボックス内でどのように機能するか、学習機械を改善するためにどのように変更または適応できるかを掘り下げることを目的としています。数値アルゴリズムと機械学習アルゴリズムの高度に技術的な性質は、この分野の知識が研究者と業界の専門家の両方から非常に求められていることを意味します。講義は、これらのアルゴリズムの内部動作について何年にもわたって研究し、考えてきた、経験豊富な博士課程の学生の彼のチームによって教えられます。

  • 01:05:00 このセクションでは、Philipp Hennig がコースの構造とコースの要件について説明します。このコースには、学生が Python または Julia コードを使用して数値問題を解決することが期待されるため、理論とコーディングの両方の作業が含まれます。演習は PDF として提出され、ソリューションは 2 進法で採点されます。良いソリューションにはチェック マークが付けられ、不十分なソリューションにはバツが付けられます。学生は各目盛りごとにボーナス ポイントを獲得し、最終試験の結果にカウントされます。試験は来年の 2 月 13 日または 3 月 31 日に行われます。リセットが利用できない場合があるため、最初の試験に合格することをお勧めします。最後に、機械学習またはデータ中心の計算における数値アルゴリズムでより高度な学位を取得することに関心のある学生は、さまざまな分野での応用研究に十分な機会が提供されるため、このコースを受講することをお勧めします。

  • 01:10:00 このセクションでは、Philipp Hennig が機械学習における数値アルゴリズムの重要性を強調し、数値アルゴリズムは学習機械を駆動するエンジンであると述べています。彼は、これらのアルゴリズムとそのベイジアン推論言語を理解することで、より高速で信頼性が高く、使いやすい機械学習ソリューションを実現する方法について説明しています。 Hennig は、古典的な数値アルゴリズムは重要ですが、機械学習のレンズを通して見る必要があることを強調し、シミュレーションと深層学習をより全体的な方法で統合する手段として機械学習の観点を採用します。彼は学生に、9 人の異なるインストラクターのユニークなセットアップで機械学習を教えるこのエキサイティングな実験に参加するように勧めています。
Numerics of ML 1 -- Introduction -- Philipp Hennig
Numerics of ML 1 -- Introduction -- Philipp Hennig
  • 2023.01.16
  • www.youtube.com
The first lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

講義 2 -- 数値線形代数 -- Marvin Pförtner



ML 2 の数値 -- 数値線形代数 -- Marvin Pförtner

数値線形代数は、機械学習、ガウス過程、およびその他のノンパラメトリック回帰手法の基本です。講義では、数値線形代数のさまざまな側面について説明します。これには、より効率的な乗算のための行列の構造を理解することの重要性、ハイパーパラメーター選択問題の解決とカーネル行列の計算による機械学習アルゴリズムの最適化、およびLU 分解など。また、数学演算に使用されるアルゴリズムは、パフォーマンス、安定性、およびメモリ消費に大きな影響を与えるため、アルゴリズムを適切に実装することの重要性も強調しています。

ビデオの後半では、Marvin Pförtner が機械学習アルゴリズムにおける数値線形代数の重要性について説明しています。彼は、LU 分解、コレスキー分解、逆行列補題、ガウス過程回帰など、さまざまなトピックを扱っています。 Pförtner は、構造を利用してアルゴリズムをより効率的にすることの重要性を強調し、ガウス過程回帰で大規模な連立方程式を解く際の数値安定性の重要性を強調しています。また、大規模なデータセットを処理するためのアクティブ ラーニングや低ランク近似などの手法や、カーネル マトリックスの潜在的なメモリ制限についても説明しています。全体として、このビデオは、数値線形代数が機械学習の多くの側面で果たす重要な役割を紹介しています。

  • 00:00:00 このセクションでは、博士課程の学生が、機械学習とガウス プロセスにおける数値線形代数の重要性について説明します。数値線形代数は機械学習の基礎であり、アルゴリズムの実装に必要な一連のツールです。講義では、機械学習にとって重要な数値線形代数の基本的なタスク、数値線形代数アルゴリズムを高速かつ信頼性の高いものにするための構造の探索、ガウス過程回帰の適切な実装について説明します。講義では、基本的な確率論、一般的な線形モデル、主成分分析、次元削減を行う行列ベクトル積などの数値線形代数の応用例も挙げています。

  • 00:05:00 このセクションでは、スピーカーは機械学習のコンテキストで数値線形代数について説明します。彼は、機械学習のノンパラメトリック回帰手法であるガウス過程が、対称で正定値のカーネル グラム行列を生成するガウス過程である事前確率測定にどのように依存しているかを説明しています。このマトリックスの生成情報により、効率的で信頼性の高いアルゴリズムが可能になります。講演者はまた、カーネル法やリッジ回帰など、より大きなクラスのモデルに同様の方程式がどのように適用されるかについても言及しています。また、数値線形代数を使用して線形偏微分方程式を解く方法や、損失関数の局所最適化の最適化方法についても簡単に説明しています。

  • 00:10:00 このセクションでは、スピーカーは機械学習における線形代数の重要性について説明し、この重要性を示す例を示します。行列ベクトル乗算、線形システム ソリューション、行列分解などの線形代数操作は、多くの機械学習モデルの基本です。さらに、多くの機械学習モデルは、線形システムを解く目的で行列のノイズの多い推定値を使用するため、実際にはノイズが多いことに注目しています。最後に、ガウス密度の場合と GP 回帰では、最大事後推定値を得るために対数行列式が不可欠であることを強調しています。

  • 00:15:00 このセクションでは、スピーカーは数値線形代数と機械学習における効率的な行列ベクトル乗算の重要性を強調しています。彼らは、数式が適切にアルゴリズムに変換されない場合、単純なタスクでさえ計算上実行不可能になる例を示しています。講演者はまた、より効率的な乗算のために行列の構造を特定することの重要性を強調しています。彼らは、数学演算を実装するアルゴリズムがパフォーマンス、安定性、およびメモリ消費に大きな影響を与えると述べて結論付けています。

  • 00:20:00 このセクションでは、スピーカーは、機械学習アルゴリズムを最適化するためのマトリックスの構造を理解することの重要性を強調しています。彼は、行列内に下位構造があることがわかっている場合は、完全な行列を乗算するのではなく、下位行列に特化した方法を使用してそれを因数分解する必要があると説明しています。ローワーリングは構造の 1 つのタイプにすぎず、スパース行列やカーネル行列などのさまざまな行列構造があり、ゼロ以外のエントリやリグレッサーの入力次元にも依存していると彼は説明しています。講演者は、メモリを節約するためにカーネル行列を格納する方法についても触れています。

  • 00:25:00 このセクションでは、講演者は、ガウス プロセスのカーネル行列を効率的に保存および評価する方法について説明します。データ ポイントが特定の制限を超えると、メモリの問題により、それらを保存する単純な方法は実行できなくなります。非常に効率的な CUDA カーネルを記述し、GPU を使用してラップトップで数十万のデータ ポイントを使用してガウス過程を計算するライブラリが利用可能です。講演者は、同じ時間とスペースの要件を必要とする、自動差分グラフのような一般的な関数形式の行列についても話します。最後に、講演者は、ベイジアン回帰をガウス過程に適用する具体的なアルゴリズムを掘り下げます。ここで、ガウス測度の核は、未知の関数の共分散です。スピーカーは、観測されたデータおよび不確実性の定量化がどのようにうまく機能するかと共に、関数に対する事後測定のプロットを提示します。ただし、逆数を計算するときに問題が発生します。これは非常に法外なスケーリングを行うため、n 個のデータ ポイントからカーネル グラム行列を計算する単純なアプローチは、n が大きい場合には実行不可能になります。

  • 00:30:00 このセクションでは、講演者はガウス プロセスでカーネル行列を計算する際の数値的な複雑さについて説明します。さらに、観察されたデータセットを説明する前に最適化するために、出力スケールや長さスケールなど、カーネルに合わせて調整する必要があるハイパーパラメーターがあります。講演者は、対数周辺尤度を計算し、モデルの適合性とガウス分布の正規化係数によって表される複雑さの間のトレードオフからなる損失関数を最小化することによって、このモデル選択の問題を解決するためのベイジアン アプローチについて説明します。講演者は、深刻なアンダーフィッティングとオーバーフィッティングの例を示し、これら 2 つの項の間のトレードオフを見つけて最高のモデル パフォーマンスを達成する方法を説明します。

  • 00:35:00 このセクションでは、Marvin Pförtner が線形システムのソリューションについて説明します。この解には、M プラス 1 の解が必要です。ここで、M はリグレッサーを評価するデータ ポイントの数です。ほとんどの場合、システムは対称で正定値ですが、システムは通常巨大であるため、利用する追加の構造が存在する可能性があり、通常、非常に大きなデータセットではこれを解決できません。非常に重要な行列分解の 1 つは、Lu 分解です。下三角システムを解くために使用されるアルゴリズムは前方置換であり、行列を 4 つの部分に分解します。右下隅のスカラー、その上の列はゼロ、左側の行ベクトル、および L マイナス li と呼ばれる別の三角形部分です。その上に 1 を引いたもので、これも下三角です。

  • 00:40:00 このセクションでは、Marvin Pförtner が、システム マトリックスが n から 1 を引いた次元の下三角行列であるシステムを解く方法について説明します。最後の行を分割することにより、システムは単純なアルゴリズムを使用して解決できます。次に、再帰的な方法を使用して、特定の次元のシステムを解きます。 Pförtner は、彼が Lu 分解と呼んでいるものを使用して行列を下三角部分と上三角部分に分割する方法も説明しています。これは、分割と征服の手法を使用した再帰的な定義です。この手法は、行列を反転し、線形システムの解法を低コストにするのに役立ちます。プロセスは O(N^3) ではなく O(N^2) です。

  • 00:45:00 このセクションでは、連立方程式を解くための Lu 分解法について説明します。このメソッドは、行列を下三角行列と上三角行列に分解し、線形システムの解をより高速に計算できるようにします。このプロセスでは、下三角行列の左部分の対角要素を 1 に設定し、部分ピボットを使用して安定性とロバスト性を確保します。メソッドの効率性にもかかわらず、O(n^3) の計算コストを考慮する必要があります。

  • 00:50:00 このセクションでは、Marvin Pförtner が UD 分解の計算時間について説明し、それを適切に実装する方法を示します。彼は、各再帰ステップの最大の部分は外積と減算の計算であり、2 倍 (n-1) の 2 乗の合計になると説明しています。このアルゴリズムは、ガウス消去法として知られる戦略を使用して、上三角行列を効率的に計算します。 Pförtner は、小さな行列を使用して計算例を実行する方法を示し、L の自明でない部分が対角線の下の 3 つのエントリに含まれ、上三角部分に U の非ゼロ部分が含まれることを示しています。メモリ内で、Pförtner は、L と U を同じ行列に巧みに格納する実装を提示します。

  • 00:55:00 このセクションでは、スピーカーは数値線形代数における LU 分解のプロセスを説明します。彼は、アルゴリズムを段階的に計算する方法と、それを使用して線形システムを解く方法を示しています。行列の LU 分解を取得したら、それを適用して、複数の右辺を持つ複数の線形システムを効率的に解くことができます。コストは、1 回の前方置換と後方置換でわずか 2N 2 乗です。順列行列の逆行列は単にその転置であり、計算コストが低く、ガウス過程回帰で同じシステム行列を使用して K 回の解を実行できます。

  • 01:00:00 このセクションでは、講演者は、計算効率の高い LU 分解を使用して、同じ行列で複数の線形システムを効率的に解く方法について説明します。さらに、LU 分解を使用して対数行列式を計算する方法が提示されます。これにより、線形システムを効率的に表現し、それを使用してさまざまな線形代数タスクを実行できます。講演者は、アルゴリズムをより効率的にするために構造を利用することの重要性を強調し、コレスキー分解は、カーネル グラム行列の対称性と正定値の性質を利用する LU 分解の特殊なバージョンであることに注意します。

  • 01:05:00 このセクションでは、スピーカーはガウス過程における事後平均と共分散の計算について説明します。事後平均を取得するには、1 つのシステムを前方代入で、別のシステムを後方代入で解く必要があります。講演者は、共分散行列のコレスキー因子の構造により、行列の適切な低下近似を得ることができることに注意します。さらに、彼は潜在的に大きなカーネル行列をメモリに収めることができないという問題について話し、この問題を解決するための 2 つのアプローチを提示します。採用されたカーネルの構造を使用するか、スパース近似を使用します。

  • 01:10:00 このセクションでは、講演者は、機械学習アルゴリズムで行列を効率的に反転する方法について説明します。彼は、正弦関数から生成されたデータセットを例として使用し、データセットの生成構造を知ることによって、その知識を反映し、計算効率の高いカーネルを選択できることを示しています。 Matrix Inversion Lemma は、行列を少数の部分空間で摂動することによって行列を効率的に反転するために使用できるツールです。この補題を使用すると、式を非常に効率的に計算でき、メモリ内で行列全体を作成する必要さえありません。スピーカーは、機械学習アルゴリズムで構造を使用するためのさまざまなアプローチがあることを強調しています。

  • 01:15:00 このセクションでは、講師は機械学習におけるガウス推論とハイパーパラメーター最適化で使用される数値線形代数法について説明します。 GP (ガウス過程) 回帰を大規模なデータセットにスケーリングする方法の 1 つは近似反転です。これには、カーネル行列で表されるシステム行列に対する低ランク近似の反復構築が含まれます。講師は、例としてコレスキー アルゴリズムを使用してこの方法を実演し、コレスキー分解全体を計算せずに、行列の低ランク近似値をオンザフライで取得する方法を示します。近似の品質は、カーネル行列と、データ ポイントが処理される順序によって異なります。全体として、このセクションでは、機械学習のさまざまな側面における数値線形代数の重要性を強調しています。

  • 01:20:00 このセクションでは、Marvin Pförtner が、コレスキーがデータ ポイントを処理してカーネル マトリックスを近似するデータ ポイントの順序を選択する方法について説明します。彼は、完全なピボット化またはピボットされたコレスキー分解とも呼ばれる順列行列をグラム行列に事前に乗算すると、より少ない反復で近似値を下げることができると説明しています。 Todeschini の 1 回の反復後にデータ ポイントの予測子を観察し、収集した情報を使用して、次の反復で観察するデータ ポイントを選択するという考え方です。この手法は能動学習の問題と見なされており、行と列を同時に処理する巧妙な方法を生み出すことができるため、マトリックスの生成構造をオンラインで調べることができます。

  • 01:25:00 このセクションでは、スピーカーは、特異値分解 (SVD) と、それが最適化問題を解決して行列近似に最適な因子を取得する方法について説明します。ただし、SVD の切り捨ては勝手に悪い場合があるため、ヒューリスティックなアプローチを使用して SVD を近似し、固有分解を計算します。行列の平方根も必要です。これは、コレスキー分解によって実現できます。実際に数値線形代数アルゴリズムを実装するときは、構造を考慮することが重要です。これにより、プロセスが大幅に高速化される可能性があります。

  • 01:30:00 このセクションでは、Marvin Pförtner が、数値線形代数の構造がガウス過程回帰にどのように影響するかについて説明します。ガウス過程回帰は計算量が多く、大規模な連立方程式を解く必要がありますが、これは数値線形代数手法を使用して行うことができます。講演者は、これらの連立方程式を解く際の数値安定性の重要性を強調し、最終結果の精度が失われないようにします。
Numerics of ML 2 -- Numerical Linear Algebra -- Marvin Pförtner
Numerics of ML 2 -- Numerical Linear Algebra -- Marvin Pförtner
  • 2023.01.16
  • www.youtube.com
The second lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both...
 

講義 3 -- ガウス過程のスケーリング -- ジョナサン ウェンガー



Numerics of ML 3 -- ガウス過程のスケーリング -- Jonathan Wenger

Jonathan Wenger が、「Numerics of ML 3」ビデオで、大規模なデータセットのガウス過程をスケーリングする手法について説明しています。彼は、一般化、単純性/解釈可能性、不確実性の推定、および速度を達成することを主な目標として、線形システムを解き、逆行列を学習するための反復法を探求しています。 Wenger は、反復コレスキー分解、部分コレスキー、共役勾配法などの低ランク近似をカーネル行列に導入します。また、大規模なデータセットを処理する際の収束を加速し、安定性を向上させるための前処理についても説明しています。最後に、彼は直交行列 Z を使用して行列のトレースを書き換えることを提案しています。これは、ガウス過程をスケーリングするための二次時間につながる可能性があります。

講義の第 2 部では、Jonathan Wenger がこのビデオで大規模なデータセットのガウス過程 (GP) のスケーリングについて説明しています。彼は、GP 回帰のモンテカルロ推定値の収束率を改善するためのさまざまな戦略を提示しています。これには、線形システム ソルブに既存の前提条件を使用してカーネル行列とその逆行列を推定することも含まれます。彼はまた、変分近似による線形時間 GP のアイデアを紹介し、誘導点法を使用した不確実性の定量化に対処しています。これらの戦略を使用することで、GPU を使用して最大 100 万のデータ ポイントを含むデータセットにスケールアップできるため、ハイパーパラメーターを迅速に最適化することが容易になります。

  • 00:00:00 ビデオのこのセクションでは、Jonathan Wenger が、線形システムを解くために反復法を使用して大規模なデータセットのガウス過程をスケーリングする方法について説明します。彼は、これらの方法は逆行列の学習アルゴリズムと見なすことができると説明しています。逆行列は、GP 事後を計算するために必要な主要なオブジェクトです。 Wenger はまた、一般化、単純化/解釈可能性、不確実性の推定、速度など、回帰の主な目標についても概説しています。彼は、GP はこれらすべての目標を達成できるモデルの代表的な例ですが、トレーニングと推論に費用がかかると述べています。ただし、カーネル行列を使用して線形システムを解くための最新の方法を開発することにより、GPS の 2 次時間推定を 3 次時間よりも高速に行うことができます。 Wenger はまた、線形時間でこれをさらに高速化する方法があることをほのめかしていますが、次の講義でさらに議論するいくつかの欠点があることを認めています。

  • 00:05:00 このセクションでは、時間と空間の複雑さの点で法外になるため、大規模なデータセットを扱う場合のガウス過程のスコールスキー分解の制限についてスピーカーが説明します。彼は、複雑さをデータ ポイント数の 2 乗に減らす反復法を提案し、カーネル行列の低ランク近似に反復コレスキー法がどのように使用されるかを示しています。ただし、GP 回帰はカーネル行列または精度行列の逆数の近似を必要とするため、問題はカーネル行列自体を近似することではありません。線形ソルブの行列。

  • 00:10:00 このセクションでは、スピーカーはコレスキー分解の反復形式を調べます。これは、カーネル行列の低ランク近似に使用できます。追加の量を追跡することにより、行列の逆近似を得ることができます。これもコレスキーと同様に低ランクです。講演者は、コレスキー因子と残差に関して、この逆近似を再帰的に計算する方法を実演します。この反復法は、カーネル行列などの正定値行列の近似行列反転アルゴリズムとして使用でき、ガウス過程をスケーリングするための便利なツールです。

  • 00:15:00 このセクションでは、スピーカーは、ガウス過程をスケーリングするための部分コレスキー法の使用について説明します。この方法では、コレスキー分解を係数で変更し、ベクトルで乗算します。これにより、ベクトルの外積を追加して逆近似を生成する反復プロセスが発生します。複雑さの分析は、行列自体を近似するのと同じくらいコストがかかることを示しています。講演者はまた、部分コレスキー法と GP 回帰を比較し、学習プロセスを改善するために正しいデータ ポイントまたは単位ベクトルを選択することの重要性を強調します。

  • 00:20:00 このセクションでは、Jonathan Wenger がガウス過程 (GP) のカーネル行列を近似する際に適切なデータ ポイントを選択することの重要性について説明します。彼は、条件付けするデータポイントをランダムに選択すると、学習プロセスが遅くなる可能性があることを示しています。彼は、もともと GP 回帰で線形システムを解くために設計された「共役勾配法」を紹介しています。この方法は、a がカーネル行列で、B がサイズ n のベクトルである ax=B の問題を、線形システム ax=B を解くことと等価な二次最適化問題として言い換えます。二次関数の勾配を取り、それをゼロに設定することにより、ax への列は B に等しくなり、残差は B から ax を引いたものとして定義できます。これを使用して、高速化するデータ ポイントを選択するためのより適切で効率的な方法を見つけることができます。学習プロセスをアップします。

  • 00:25:00 このセクションでは、Jonathan Wenger がガウス過程における最適化のための共役方向の使用について説明します。彼は、共役方向を使用する場合、歩く方向を変更することで、最大 n ステップで収束できると説明しています。まず、最急降下方向への最初のステップとして負の勾配を使用し、共役条件を満たすようにステップを変更します。彼はアルゴリズムを提示し、勾配ノルムに基づく停止基準を含む、その高レベルの部分について説明します。

  • 00:30:00 このセクションでは、Jonathan Wenger が共役勾配の方法について説明します。これは、事後共分散について複数の線形システムを解くときに逆行列を近似する方法です。共役勾配法は、部分スワロフスキーと同じように低ランクの逆関数の近似を構築します。解推定の更新には共役方向 di が含まれ、行列 CI は、以前のすべての検索方向を列に積み重ねた形で逆行列を近似します。この方法により、シナリオ システムを迅速に解くことができ、その低ランク構造により、ガウス過程をスケーリングするための効率的な方法になります。

  • 00:35:00 このセクションでは、スピーカーはガウス過程の推論について部分スコラスティック法と共役勾配法を比較します。共役勾配法ははるかに速く収束し、スピーカーは、共役勾配法で使用される「アクション」が別の方法で行列をプローブすることで、より良い収束が可能になると説明します。ただし、スピーカーは、方法が収束する速さを分析することが重要であり、数値、特に機械の精度と条件数の理解が必要であると述べています。条件数は、最大固有値を最小固有値で割った絶対値であり、反転アルゴリズムを実装するときに避けられないエラー増幅を測定します。

  • 00:40:00 このセクションでは、Jonathan Wenger が、共役勾配法やコレスキー分解など、カーネル行列を使用して線形システムを解く方法の安定性と収束動作について説明します。安定性は行列の固有値に依存する条件数によって決まり、条件数が大きいほどメソッドは不安定になります。収束動作は、行列の条件数と最大値を最小固有値で割った値によって決まります。条件数が 1 に近づくほど、収束は遅くなります。 1,000 個のデータ点を持つカーネル行列の条件数が適度に大きいにもかかわらず、Wenger は、問題のサイズに比べて数百回の反復で共役勾配法が依然として迅速に収束することを示しています。

  • 00:45:00 このセクションでは、Jonathan Wenger がガウス過程のスケーリングと収束に対する観測ノイズの影響について説明します。観測ノイズが減少すると、カーネル行列の条件数の爆発により CG の収束が遅くなります。条件数は、最大の固有値を最小の固有値で割った値であり、データ ポイントが互いに近づくにつれて、条件数は膨らみます。この問題を解決するために、前処理を使用してカーネル行列を近似することができます。これは、行列の格納が実際の行列の格納に比べてかなり安価であると仮定した場合です。近似の逆数を効率的に評価することにより、前処理は元の問題をより解決しやすい問題に置き換えることができ、その結果、CG の収束が速くなります。

  • 00:50:00 このセクションでは、Jonathan Wenger がより効率的に線形システムを解くためのガウス過程のスケーリングにおける前処理の概念について説明します。彼は確率学習法の例を使用して、問題の事前知識がどのように解決を容易にするかを説明しています。前提条件を使用することで、システムの条件数が下がり、CG が加速され、より安定します。 Wenger は、低ランク プラス対角前提条件と部分 SVD を使用して、100,000 データ ポイントを持つ大規模な線形システムを 7 分で解くことにより、前処理の効率性を示しています。

  • 00:55:00 このセクションでは、コレスキーのハイパーパラメーター最適化中に線形システムを解くための前処理付き共役勾配 (CG) の使用について説明します。損失を評価してその勾配を計算するには、線形システムを解いてトレースを計算する必要があります。ただし、トレースの計算には n 個の行列とベクトルの乗算が含まれ、大規模なデータセットにはコストがかかりすぎます。これを解決するために、話し手は、cx Z(転置) = 恒等行列となるような直交行列 Z を使用することを提案し、a のトレースを Z(転置) xax Z のトレースとして書き換えることを可能にします。ガウス過程をスケーリングする時間。

  • 01:00:00 このセクションでは、プレゼンターは、いくつかの行列とベクトルの乗算を実行することを含む、カーネル行列のトレースの計算をスケールアップするという課題について説明します。考えられる解決策の 1 つは、ランダムなベクトルを描画し、次元の平方根でスケーリングして、恒等共分散を計算することにより、計算をランダム化することです。ランダムベクトルの共分散を近似すると、トレースを計算できます。これは、ランダムベクトルなしで元の問題を解くのと同じです。ただし、この方法でモンテカルロ推定量を使用すると、数万のランダムベクトルが必要になり、ハイパーパラメーターの最適化が遅くなるため、大規模なデータセットには不十分です。

  • 01:05:00 このセクションでは、Jonathan Wenger が大規模なデータセットのガウス過程 (GP) のスケーリングについて説明します。彼は、線形システム ソルブの既存の前提条件を使用してカーネル行列を推定し、その逆を使用してデータ スケーリングの問題に対処できると説明しています。部分コレスキーまたは確率的トレース推定を伴う前処理を使用すると、トレース バックを推定するのに役立ちます。同じ情報を使用して、対数行列式の勾配も推定できます。これらの戦略を使用することで、GPU で最大 100 万のデータ ポイントを含むデータセットにスケールアップできます。 Wenger は、事前トレーニングには小さなデータセットを踏み台として使用してハイブリッド パラメーターを最適化することが含まれることに注意しています。

  • 01:10:00 このセクションでは、スピーカーは、ガウス過程回帰のモンテカルロ推定値の収束率を改善するためのさまざまな戦略について説明します。前処理の収束率を継承することで、指数関数的または多項式的に真の値により速く収束することができます。行列ベクトル乗算によってカーネル行列を観察するためのアクションの選択も、達成できる収束の速さに影響を与える可能性があります。したがって、ガウス過程の高速数値アルゴリズムを開発するには、ドメインの専門知識が必要です。これは、前提条件または迅速に収束するためのアクションの選択を通じて提供できます。さらに、変分近似による線形時間 GP の考え方が導入されています。これには、高次元データをより小さなトレーニング データセットに圧縮して、より効果的な方法で要約することが含まれます。

  • 01:15:00 このセクションでは、Wenger がガウス過程の使用と、それらを効果的にスケーリングする方法について説明します。アイデアは、トレーニング データを要約して事後分布の直接近似を提供することです。これは、I の 2 乗 n だけを使用します。ここで、I は誘導入力の数で、n はトレーニング データのサイズです。ただし、反復法にはハイパーパラメーターの最適化が必要であり、これも考慮する必要があります。この場合、バッチ最適化や sdd などの確率的手法を使用できます。これは、優先オプティマイザーを使用してすばやく最適化できます。最もコストのかかる操作であるカーネル行列の評価を除いて、すべての重要な操作は I 3 乗または I 2 乗 n です。

  • 01:20:00 このセクションでは、スピーカーは、誘導点法を使用してガウス過程をスケーリングすることによる不確実性の定量化の問題について説明します。オプティマイザーがより適切な要約データ ポイントを検索すると、結果として得られる不確実性の定量化は、真のガウス過程とは大きく異なります。反復法では時間がなくなるまで近似の精度を制御できますが、誘導点法では最適化の前に近似の忠実度を制御する必要があります。スピーカーは、計算時間に関係なく、不確実性の定量化が近似のどの時点でも信頼できる方法を設計できるかどうかという問題を提起します。
Numerics of ML 3 -- Scaling Gaussian Processes -- Jonathan Wenger
Numerics of ML 3 -- Scaling Gaussian Processes -- Jonathan Wenger
  • 2023.01.17
  • www.youtube.com
The third lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

講義 4 -- 計算を意識したガウス過程 -- Jonathan Wenger



Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger

Numerics of ML に関するこのビデオでは、Jonathan Wenger が、計算を意識したガウス過程と、予測における近似誤差と不確実性を定量化する能力について説明しています。彼は、正しいアクションを選択することの重要性と、共役勾配がどのように不確実性を大幅に減らし、学習をスピードアップできるかを探っています。 Wenger は、誘導点に基づく線形時間 GP 近似の使用についても話していますが、そのような近似から生じる問題を強調しています。最後に、代表的な重みに関する信念を更新し、確率学習アルゴリズムを使用して代表的な重みの誤差を解決する方法について説明します。全体として、このビデオは、計算の不確実性を考慮して予測の精度を向上させる上で、計算を意識したガウス過程の有効性を示しています。

Jonathan Wenger も、このビデオで、計算を意識したガウス過程とその複雑さについて説明しています。彼は、カーネル行列の上部象限を計算して格納するだけでよく、アルゴリズムの計算コストはこの象限のサイズに比例すると説明しています。ガウス過程は、計算が特定のデータ ポイントのみを対象とし、データと計算の境界線が曖昧である限り、任意のサイズのデータセットで使用できます。 Wenger は、予測されたデータを条件付けすることで、この状況を説明するために GP をモデル化できると主張しています。彼は、近似モデルによる正確な不確実性の定量化を可能にする新しい定理を紹介します。最後に、物理法則が学習される関数を部分的に支配する場合に GP モデルを拡張することに関する来週の講義を予告します。

  • 00:00:00 このセクションでは、Jonathan Wenger がガウス過程の講義の最終的な集大成について語り、任意の時間で正確な不確実性の定量化を行う方法を示します。彼は、このアプローチにより、ユーザーは、計算量や予算に関係なく、学習しようとしている機能からどれだけ離れているかを常に定量化できると説明しています。以前の講義のアルゴリズムを学習エージェントとして再解釈することで、事後予測に導入される近似誤差を定量化することができます。さらに、コンピューターを介してデータを観察することの意味と、それを取り巻く哲学的議論についても話し合います。

  • 00:05:00 このセクションでは、Jonathan Wenger が、計算を認識するガウス過程を扱う際に正しいアクションを選択することの重要性について説明します。彼は、行動の選択が不確実性を大幅に減らし、予測される現象について学習するプロセスをスピードアップできることを示しています。さらに、線形システムを解くときや二次関数を最小化するときのより良いアクションを見つける方法として、共役勾配の方法を探求しています。問題の幾何学を考慮に入れることで、共役勾配は少数のステップで解に収束できます。

  • 00:10:00 ビデオのこのセクションでは、Jonathan Wenger が、計算を意識したガウス過程と、他の近似法との違いについて説明しています。彼は、部分共役勾配法と部分空逆近似法の両方で最もコストのかかる演算が行列とベクトルの乗算であると話しています。次に、ポイントを要約データ ポイントとして誘導することに基づく線形時間 GP 近似のアイデアを紹介し、線形時間近似から生じる問題について説明します。次に Wenger は、計算を意識した GP 推論を紹介します。これは、正確な不確実性の定量化の問題に対処し、今年後半に NURBS で発表される最先端の研究であると述べています。

  • 00:15:00 このセクションでは、Jonathan Wenger が、計算を意識したガウス過程と、反復法を使用して代表的な重みの線形システムを解くことから生じる近似誤差を定量化する方法について説明します。彼は、GP モデルのカーネル関数が真の関数がどのように見えるかについての仮定をエンコードし、反復ソルバーがこれらの重みを近似して事後平均予測を構築すると説明しています。この近似誤差を確率論的に定量化することで、予測に不確実性を追加することができ、モデルの精度を向上させることができます。 Wenger はまた、ガウス分布の線形代数の簡単な要約と、それらが確率論でどのように計算を行うか、特に条件付けと観測に関して簡単に説明します。

  • 00:20:00 このセクションでは、Jonathan Wenger がガウス分布の特性と、観測値 Y が与えられた変数 X の事後分布を決定するためにガウス分布を使用する方法について説明します。スケーリングと周辺化の特性を組み合わせることで、ガウス過程を使用できます。代表的な重みの推定における近似誤差を定量化します。 Wenger は、以前のガウス分布を更新して、直接観測できない真の代表的な重みを学習するために使用する方法を説明しています。ガウス ベル カーブの広がりと向きを使用して、真の代表的な重みを探す方向を決定できます。

  • 00:25:00 このセクションでは、Jonathan Wenger が、残差とベクトル変換を使用して、計算を意識したガウス プロセスで黒い点を間接的に観察する方法を説明します。彼は、アフィン ガウス推論定理を適用して、表現と推定された重みの間の距離を計算する方法を示しています。このプロセスでは、信念を直交線に折り畳み、表現された重みを見つけるために使用される 1 次元の確率信念を作成します。 Wenger はまた、より正確な解決策に到達するために、以前の信念と一致する、より有益な赤い線を選択する方法についても説明しています。

  • 00:30:00 このセクションでは、Jonathan Wenger が、計算を意識したガウス プロセスの代表的な重みに関する信念を、アクションと残差を掛けたものによって行われる観測を通じて更新するアルゴリズムについて説明します。彼は、更新にはアフィン ガウス推論が含まれていると説明し、更新プロセスの重要な要素を指摘しています。アルゴリズムは CG や部分コレスキーに似ていますが、適切な誤差推定値を得るには、真の代表的な重みがどこにあるかに関連する必要があるため、事前確率の選択は依然として対処する必要がある問題であると彼は指摘しています。 Wenger は、GP 事前確率と仮定が代表的な重みに関連していることを提案しています。これは、それらがカーネル行列の逆行列に関与しているため、GP 事前確率でそれらを有意にするためです。

  • 00:35:00 このセクションでは、Jonathan Wenger が、ガウス過程 (GP) で観測を行う前に、どの分布データが生成されたかを理解する方法について説明します。 f 上の分布を仮定すると、Wenger は、ゼロ平均ガウス事前分布を使用する場合、ラベルはゼロ平均に従って分布し、観測モデルの一部であるカーネル行列と独立ノイズに従って変化すると説明しています。次に Wenger は、アクションに射影することで事前確率を更新する確率学習アルゴリズムを使用して代表を見つけることについて説明します。最後に、Wenger は、V スターの線形関数である、データ ポイントで評価されたミュー スターの分布を計算することによって、キャリブレーションされた事前の K ハット逆数が必要であるという問題を解決する方法を説明します。

  • 00:40:00 このセクションでは、Jonathan Wenger が、計算を意識したガウス過程と、計算の不確実性を説明する方法について説明します。彼は、確率変数の複数のオプションが考慮され、考えられるすべての代表的な重み推定値を考慮に入れた事後平均予測が計算される、周縁化の考え方について説明しています。彼は、線形周辺化がどのように機能し、それがどのように共分散に不確実性を追加するかを説明しています。次に Wenger は、GP の不確実性を平均誤差推定値として解釈する方法と、計算上の不確実性を誤差推定値と見なす方法について説明します。全体として、このセクションでは、真の関数に対する誤差と代表的な重みの誤差を 1 つの推定値に含む複合不確かさの計算について説明します。

  • 00:45:00 このセクションでは、スピーカーは、十分な観測データがないことから生じる誤差と、予測を学習するのに十分な計算を実行しなかったことによる誤差を組み合わせた、計算を意識したガウス過程について説明します。講演者は、このプロセスの 2 つの例を Ed Cholesky と CG アクションで実演します。 GP と呼ばれる提案された方法は、事後を計算し、代表的な信念を初期化と組み合わせて、不確実性を追跡することにより、より正確な予測を取得します。この方法は、計算上の不確実性が減少し、プロットされたグラフで真の事後平均に近づいていることに見られるように、簡単で効果的です。

  • 00:50:00 このセクションでは、スピーカーは、計算を意識したガウス過程と、カーネル行列を逆にする必要のない信念の使用について説明します。特定の方向のアクションを選択し、選択した部分空間で表された 2 つの重みにどれだけ近いかを観察します。これは、表された重みに収束する速度に影響します。代表的な重みの推定値を更新するために、予測された残差を観察し、歩く方向を計算します。また、低ランクの近似を計算し、代表値と精度行列の推定値を更新します。部分的なアラスカと CG を使用して同じ量を適用し、単位ベクトル アクションを選択して特定のアクションを回復し、誘導点を中心とするカーネル関数に従ってデータ ポイントを重み付けする線形時間法のような方法を設計します。

  • 00:55:00 このセクションでは、Jonathan Wenger が計算を意識したガウス過程 (GP) について説明し、それらを完全に独立したトレーニング条件付き GP (FITC-GP) と比較します。彼は、カーネル ベクトル アクションを紹介します。これは FITC-GP の問題の一部を解決しますが、密度が高く、N の 2 乗の複雑さをもたらすため、費用対効果が高くありません。 Wenger は、データ ポイントの一部のみを対象とする特定のアクションを実行することで、カーネル マトリックスの計算に必要な複雑さを軽減できることを示しています。最終的に、計算 GP の方がパフォーマンスが優れており、そのようなアクションは、高精度でスケーラブルな計算に役立つアプローチであることが証明されています。

  • 01:00:00 このセクションでは、Jonathan Wenger が、計算を意識したガウス過程とその複雑さについて説明します。彼は、カーネル行列の上部象限を計算して格納するだけでよく、その結果、アルゴリズムの計算コストはこの象限のサイズにのみ比例することを示しています。さらに、計算で特定のデータポイントのみを対象とするために、下象限にゼロがあるアクションが選択されている限り、アルゴリズムは任意のサイズのデータセットで使用できることを強調しています。 Wenger は、計算の対象となる観測のみがデータと見なされるため、データと計算の区別が曖昧になると主張しています。最後に、彼は、投影されたデータを条件付けすることで、この状況を説明するためにガウス過程をモデル化できることに注目しています。

  • 01:05:00 このセクションでは、Jonathan Wenger が、ガウス過程 (GP) を 2 つの方法で考えることができると説明しています。それは、起こっていることのより正確なモデルとして、または近似によって導入された誤差を定量化し、それを考慮して予測します。次に、二乗誤差の確率的尺度としての解釈と、結合された事後を予測ツールとして使用する方法について説明します。 Wenger はまた、近似モデルを使用した正確な不確実性の定量化を可能にする新しい定理を導入し、ユーザーがガウス過程を信頼するのと同じように不確実性の定量化を信頼できるようにします。

  • 01:10:00 このセクションでは、Jonathan Wenger が、学習アルゴリズムを考案することでガウス過程 (GP) を近似できることを説明しています。学習アルゴリズムは、アルゴリズムの誤差を確率論的に定量化し、予測を行うために使用される GP 事後分布に誤差をプッシュすることができます。使用される計算能力に関係なく、正確な不確実性を定量化します。 Wenger はまた、この方法にはさまざまなバリエーションが存在しますが、アクションが線形に独立している限り、正確な不確実性の定量化を提供すると述べています。最後に、Wenger は来週の講義のプレビューを行います。この講義では、物理法則が学習される機能を部分的に支配する場合に GP モデルを拡張することについて議論します。
Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger
Numerics of ML 4 -- Computation-Aware Gaussian Processes -- Jonathan Wenger
  • 2023.01.17
  • www.youtube.com
The fourth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both...
 

講義 5 -- 状態空間モデル -- ジョナサン シュミット



ML 5 の数値 -- 状態空間モデル -- ジョナサン シュミット

このセクションでは、Jonathan Schmidt が状態空間モデルとその機械学習への応用を紹介します。彼は、状態空間モデルは複雑な動的システムをモデル化するために使用されると説明していますが、これは部分的にしか観測できず、高度に非線形な相互作用を伴います。講義では、状態空間モデルのグラフィカルな表現と、マルコフ特性の重要な特性と条件付き独立測定について説明します。 Schmidt は、さまざまな時点で取得された測定値を使用して、システムの状態を推定するために使用される、予測、フィルター処理、平滑化分布などのさまざまな分布を計算するためのさまざまなアルゴリズムを提示しています。この講義では、Julia でのカルマン フィルター アルゴリズムの実装と、線形ガウス状態空間モデルでの平滑化推定の計算についても説明します。最後に、Schmidt は、非線形ダイナミクスの推定と状態空間モデルでの測定を可能にする拡張カルマン フィルターについて説明します。

Jonathan Schmidt は、状態空間モデルとそのコードを使用した実装についても説明しています。特に、非線形ダイナミクスと拡張カルマン フィルターに焦点を当てています。彼はまた、スムージング アルゴリズムと代替のベイジアン フィルター処理方法を実演し、それらの長所と短所を強調しています。講義は、ナサニエルが動的システムをシミュレートするための確率的数値を紹介する次の講義へのさらなる学習と期待への推奨事項で締めくくられます。

  • 00:00:00 このセクションでは、Jonathan Schmidt が、機械学習講義コースの数値に関する新しい焦点として、状態空間モデルと動的システムを紹介します。彼は、動的システムは時間とともに進化し、部分的にしか観察できないため、モデル化が難しいと説明しています。 Schmidt は、COVID-19 の症例数やスマートフォンの向きの推定などの例を提供して、動的システムの時間構造と隠れたコンポーネントを説明しています。最終的な目標は、確率論的方法を使用してこれらのシステムをシミュレートすることですが、最初に、観測可能なデータから潜在的なコンポーネントを発見するための言語とアルゴリズムのフレームワークを確立する必要があります。

  • 00:05:00 このセクションでは、スピーカーは状態空間モデルについて説明します。これには、新しいデータが入ってくると、複雑な動的システムの推定値を迅速に更新することを目標とするオンライン推定タスクが含まれます。これらのモデルは、多くの場合、部分的にしか観測できません。高度に非線形な機能と相互作用を伴います。これを達成するには、それに応じて信念を更新するためのアルゴリズム フレームワークが必要です。スピーカーは、状態空間モデルで使用されるモデリング言語のグラフィック表現について説明します。ここで、一連の白いノードはシステム状態をモデル化する確率変数を表し、赤いボックスは観測データを表します。動的システムの状態は、システムの進化を決定する一連の物理量であり、追跡され、相互に作用します。観測データ y は現在の状態に依存し、多くの場合、軌跡の一部の状態でのみ使用でき、他の状態では使用できません。

  • 00:10:00 このセクションでは、Jonathan Schmidt が動的システムをモデル化するための確率論的フレームワークとして状態空間モデルを紹介します。彼は、状態空間モデルの 2 つの重要な特性、つまりマルコフ特性と条件付き独立測定を強調しています。これらのプロパティを使用して、彼は状態空間モデルを、最初の状態の初期分布、後続の状態のダイナミクス モデル、観測の測定モデルを含むベイジアン モデルとして定義します。シュミットは、これらの抽出された成分が、残りの講義シリーズの基礎を形成すると述べています。

  • 00:15:00 このセクションでは、スピーカーは状態空間モデルを使用してシステムを分析する方法を説明し、4 つの異なる条件付き確率分布を計算します。これらには、進行中のシーケンスのすべてのステップで計算される予測分布、フィルタリング分布、データ尤度、および平滑化分布が含まれます。導出には、計算される量を導入し、既知のものに基づいて共同分布を構築することが含まれます。チャップマン コルモゴロフ方程式を使用して、過去の測定値から将来を予測し、ベイズの定理を使用した補正ステップを使用して、新しいデータを推定値に統合します。

  • 00:20:00 このセクションでは、スピーカーは状態空間モデルの概念と、そこで使用される予測と更新のスキームについて説明します。 Chapman-Homograph 方程式によって予測された分布を計算することにより、モデルはベイズの定理によって予測を更新します。次にスピーカーは、アルゴリズムの疑似コードを提示します。このアルゴリズムは、逆戻りせずに線形時間ループで動作します。スピーカーは、以前のすべての測定値を考慮して、現在の状態の一連の分布を生成することの重要性を強調しています。最後に、スピーカーは、線形ガウス状態空間モデルと、それがどのように分布を生成するかを紹介します。

  • 00:25:00 このセクションでは、スピーカーはプロセス ノイズ共分散行列 Q を持つ線形ガウス システムの状態空間モデルと、測定行列 H と測定共分散行列 R を持つ測定モデルを紹介します。また、モデルのフィルタリング モーメントは、ガウス推論を使用して計算できます。事後分布は項の複雑な集合です。次にスピーカーは、ハンガリーの科学者ルドルフ カルマンにちなんで名付けられたカルマン フィルターを紹介します。カルマン フィルターの予測式と補正式が提示されます。カルマン ゲインは、測定空間で得られた情報を状態空間に変換してフィルター処理平均を更新する重要な量です。

  • 00:30:00 ビデオのこのセクションでは、Jonathan Schmidt が状態空間モデルを紹介し、ノイズの多い測定値に基づいて軌道をフィルタリングするためにそれらを使用する方法を説明します。彼は、GPS 測定を使用して 2D 平面で車を追跡する例を提供し、Julia でコードを記述します。 Schmidt は、ダイナミクス モデルは線形ガウス モデルであり、プロセス ノイズの共分散にはタイム ステップの多項式項が含まれると説明しています。彼はまた、フィルタリングの軌跡は以前と現在のデータ ポイントのみを使用し、未来によって通知されないことを強調しています。

  • 00:35:00 このセクションでは、スピーカーは、Julia コードを使用した状態空間モデルのカルマン フィルターの実装について説明します。彼は、遷移モデルと測定モデルを設定し、平均と共分散を予測し、測定モデルを使用して推定値を修正する方法を説明しています。次にスピーカーは、カルマン フィルターの実行方法を実演し、結果の推定値と対応する不確実性を視覚化します。

  • 00:40:00 このセクションでは、ジョナサン シュミットが、状態空間モデルを使用して動的システムを記述する方法と、線形代数を使用して興味深い量の計算を可能にする線形ガウス モデルを使用してそれらを構築する方法について説明します。彼はまた、利用可能なすべてのデータ ポイントが与えられた場合に軌跡の最良の推定値を提供する平滑化事後分布の概念を導入し、後方再帰アルゴリズムで分布を計算するために分布をフィルタリングすることに依存しています。平滑化方程式の導出には確率論とマルコフ プロパティが含まれますが、結果として得られるガウス確率変数のコレクションにより、各タイム ステップでの平滑化分布の計算が容易になります。

  • 00:45:00 このセクションでは、スピーカーは線形ガウス状態空間モデルで平滑化推定を計算するプロセスを説明します。これには、行列ベクトルの積演算を利用し、次のタイム ステップで周辺化する一方で、フィルタリング事後分布から事後分布を計算するために周辺化することが含まれます。推定を平滑化するためのアルゴリズムは、考慮すべきデータ セットまたはタイム ステップの固定部分がある場合にのみ機能するため、for ループを介して計算されます。このプロセスでは、平滑化ゲインを計算し、それを使用して平滑化モーメントを計算することにより、時系列の最後から開始して最初まで遡ります。講演者はまた、時系列の最後で、フィルタリングの推定値が平滑化の推定値と一致することにも言及しています。平滑化アルゴリズムは、最終的に平滑化事後としてガウス過程事後を提供します。

  • 00:50:00 このセクションでは、スピーカーは、線形遷移、線形測定、ダイナミクスと測定の両方に対する加法的ガウス ノイズ、およびマルコフ プロパティを含む仮定を作成することにより、線形時間でガウス過程事後を計算する方法を説明します。ただし、すべてのガウス過程事後分布をガウス フィルター処理と平滑化を使用して計算できるわけではありません。スピーカーは、ガウスの仮定を破棄する可能性についても説明しますが、これにはまったく新しいクラスのアルゴリズムが必要になります。次のステップでは、最初にテイラー近似を使用して非線形モデルを調べ、関数を線形化し、次に共通のフィルター処理を使用します。

  • 00:55:00 このセクションでは、Jonathan Schmidt が状態空間モデルと、非線形ダイナミクスと測定のためのカルマン フィルターの拡張である拡張カルマン フィルターについて説明します。非線形ダイナミクスと測定モデルの線形化は、ヤコビ行列を使用して実現され、いくつかの修正を加えた標準のカルマン フィルター方程式を使用できます。予測平均は前のフィルタリング平均で評価されるため、予測共分散行列を簡単に計算できます。測定モデルも同様に線形化され、拡張カルマン フィルター方程式が導出されます。 Schmidt は、拡張カルマン フィルターは、非線形関数を微分することが不可能な場合、または微分することが望ましくない場合に役立つと述べています。

  • 01:00:00 このセクションでは、Jonathan Schmidt が、関数を区別できない場合に何が起こるか、およびその回避方法について説明します。考えられる解決策の 1 つは、スキームで有限差分を使用することです。この場合、標準の有限差分のように差分を構築し、同じことを行います。シュミットはまた、平滑化された方程式を見て、転置された遷移行列として、フィルタリング平均で評価された非線形関数のヤコビ行列を挿入することによって、拡張ルート スムーザーを構築します。 Schmidt は、状態次元が 2 で測定値がスカラーである振り子の非線形状態空間モデルを使用したコード例を提供しています。彼は、非線形変換を使用してダイナミクス モデルを設定し、プロセス ノイズの共分散について説明します。

  • 01:05:00 このセクションでは、Jonathan Schmidt が状態空間モデルと、コードを使用してそれらを実装する方法について説明します。彼は、システムの非線形ダイナミクスと、測定に使用される単純な線形測定モデルについて説明しています。また、拡張カルマン フィルターを実装して振り子の軌道を推定する方法も示しています。フィルターは自動微分を使用して、非線形ダイナミクス関数のヤコビ行列と測定関数の勾配を計算します。結果のアニメーションは、予測された軌道とノイズの多い測定値を示しています。

  • 01:10:00 このセクションでは、Jonathan Schmidt が、状態空間モデルにおけるフィルタリング推定と拡張平滑化について説明します。フィルタリング推定は、影付きの領域に不確実性の推定を示します。一方、平滑化アルゴリズムは、自動微分を使用してフィルタリング推定を調整し、平滑化ゲイン、平滑平均、および平滑共分散を計算します。スムーザーはガウス過程の後方限界を返します。 Schmidt は、分布を近似するアンセンテッド カルマン フィルターや、実際の真の事後分布を近似する粒子フィルターなど、ベイジアン フィルター処理の代替方法についても言及しています。これらの方法には長所と短所があり、実装が難しい場合がありますが、非線形モデルまたは非ガウス モデルには効果的です。 Schmidt は、これらの手法について学びたい人には、Simo Särkkä の本「Bayesian Filtering and Smoothing」をお勧めします。

  • 01:15:00 このセクションでは、スピーカーは、状態空間モデル、その線形ガウス モデル、および非線形ダイナミクスと測定を処理するために使用されるカルマン フィルターと拡張カルマン フィルターについて学んだことをまとめます。次の講義をお勧めします。Nathaniel は、自然の法則を捉えるための強力な言語を紹介し、1 週間で講義と組み合わせて、ベイジアン フィルタリングと平滑化による確率的数値を使用してこれらの動的システムをシミュレートする方法を学びます。スピーカーは、フィードバックを求め、時間を割いてくれたことに感謝の意を表して締めくくります。
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
Numerics of ML 5 -- State-Space Models -- Jonathan Schmidt
  • 2023.01.24
  • www.youtube.com
The fifth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

講義 6 -- 常微分方程式の解法 -- ナサニエル ボッシュ



ML 6 の数値 -- 常微分方程式の解法 -- ナサニエル ボッシュ

Nathanel Bosch は、機械学習における ODE の概念をカバーしています。ODE は、入力が与えられた関数の導関数と、時間の経過とともに進化するモデル システムを記述します。彼は、ODE を解く際の課題について説明し、前進オイラーや後退オイラーなどの数値的手法とそれらの安定性を紹介します。 Bosch は、明示的な中点法や古典的な 4 次法など、さまざまな数値法とその精度と複雑さのトレードオフを調査しています。彼は、ライブラリを使用して ODE を解く際の問題を回避するために、ローカル エラー、順序、および理解の安定性の重要性を強調しています。

ビデオのこの 2 番目の部分では、機械学習手法を使用して常微分方程式 (ODE) のベクトル場と初期値を推定する問題について説明します。スピーカーは、推論問題を解決するために ODE の状態の生成モデルと観測モデルを書き留めることの重要性を説明します。尤度関数は、負の対数尤度を最小化することによって最大化され、パラメーター推定値が得られます。講演者は、SIR-D モデルを使用してこのアプローチを実演し、ニューラル ネットワークを使用して接触率の推定を改善する方法について説明します。機械学習研究における ODE の重要性と、実世界の問題を解決する上での ODE の役割も強調されています。

  • 00:00:00 講義のこのセクションでは、ナサニエル ボッシュが常微分方程式 (ODE) の概念と、それらが機械学習でどのように使用されるかを紹介します。彼は、入力が与えられた関数の導関数を記述する方法として ODE を定義し、機械学習では、時間の経過とともに進化するシステムをモデル化するために ODE がよく使用されると説明しています。彼は、拡散モデルや最適化問題など、機械学習で ODE が現れる場所の例を示しています。 Bosch はまた、ODE を解く際の課題についても説明します。ODE では、完全に解くことは現実的ではないため、複雑な数値ソルバーが必要になります。

  • 00:05:00このセクションでは、ODE を使用してノイズをデータに変換し、複雑な分布をモデル化する方法について説明します。これは、フローの正規化によって行われます。彼はまた、多くの研究を引き起こしたニューラル ODE の概念についても説明し、残差ニューラル ネットワークをより連続的なものの離散化として再解釈します。さらに、講演者は ODE を最適化、特に勾配フローに関連付けます。これは、離散勾配降下法よりも定理を書くのが簡単です。最後に、スピーカーはパラメーター推定が ODE を使用して未知のものを学習する例であると説明し、次の講義では数値 ODE 解を機械学習アルゴリズムとして解釈します。スピーカーは、ODE の解を書き留めることはできますが、積分の問題と未知の変数のために役に立たないと結論付けています。

  • 00:10:00 このセクションでは、ナレーターが常微分方程式 (ODE) と初期値の問題を紹介します。これらは、機械学習の多くのアルゴリズムを理解する上で重要です。 ODE は時間の経過に伴うシステムの変化率を表し、問題を解決するには初期値が必要です。 ODE の解は初期値に依存する関数によって与えられ、ODE の数値解は段階的に外挿する必要があります。ナレーターは、人口増加に関するロジスティック ODE 問題を提示し、その解を示します。ナレーターは、初期値問題を解く目的は、ODE のベクトル場が与えられた特定の開始点の解を見つけることであると強調しています。 ODE を解く際の難しさは、積分を解くことと微分項を処理することの両方です。ナレーターは、真の解を正確に近似するために、ODE の数値解の小さなステップ サイズを提案します。

  • 00:15:00 このセクションでは、ナサニエル ボッシュが、常微分方程式を解くためのさまざまな数値手法について説明します。彼が提示する最初の方法はゼロ次テイラー級数近似であり、現在の時間ステップでの関数値のみが近似で考慮されます。これは、次の時点を計算するための単純で明示的な式であるフォワード オイラー法につながります。 Bosch は、この方法は近似としては不適切ですが、ソフトウェアや動的シミュレーションでは依然として広く使用されていると述べています。

  • 00:20:00 このセクションのビデオでは、常微分方程式 (ODE) を解くための 2 つの方法、順方向オイラー法と逆方向オイラー法について説明します。フォワード オイラー法は、現在のポイントの勾配を使用して次のポイントの値を近似しますが、バックワード オイラー法は、t に h を加えた値に等しいタウの周りのテイラー級数近似を使用します。このビデオでは、ロジスティック ODE を使用した両方の方法のコード例を示しており、合理的な解を生成します。ただし、このビデオでは、より複雑な微分方程式では、数値ソルバーを選択する際に追加の考慮が必要になる可能性があることを警告しています。さらに、このビデオでは、数値手法の複雑さと、数値パッケージを使用する際に基礎となるアルゴリズムを認識することの重要性について触れています。

  • 00:25:00 このセクションでは、スピーカーは、常微分方程式 (ODE) を解く際の陽解法と陰解法の違いと、適切なアルゴリズムを選択する際の安定性の重要性について説明します。話者は、単純なスカラー ODE x' = λx (λ はゼロ未満) の順方向オイラー法と逆方向オイラー法を比較します。前方オイラー法は、1 + hλ が 1 未満のステップ サイズでのみ安定しますが、後方オイラー法はすべてのステップ サイズで安定します。スピーカーは、不適切なステップ サイズを選択すると発散動作が発生する可能性があることを示し、ODE を解くための適切な方法を選択する際の安定性の重要性を強調します。

  • 00:30:00 このセクションでは、Nathanel Bosch が、常微分方程式 (ODE) を解くための順方向オイラー法と逆方向オイラー法の違いについて説明します。どちらの方法も同様の計算を使用しますが、逆方向オイラーでは収束に必要な要件が小さく、順方向オイラーでは処理できない ODE のスティッフな領域を処理できます。数値求積が必要であり、それを行うには多くの方法があります。さらに、与えられた時間での関数の近似である X ハットの構築は、別の方法で異なる答えが得られる別の問題です。全体として、方法の選択は、計算時間や予想される ODE の勾配などの要因によって異なります。

  • 00:35:00 このセクションでは、ナサニエル ボッシュが常微分方程式 (ODE) を解くための数値法の一般的な定式化について説明します。これには、bi、Qi、および X ハットの 3 つの変数が含まれます。彼はまた、さまざまな方法についてよりコンパクトで読みやすいものにする方法として肉屋の表を紹介し、bi と Qi を計算するさまざまな方法、および X 帽子を構築する方法が、各方法を独自のものにしている理由であると指摘しています。 .ボッシュは、一般方程式を満たし、ゼロを含むブッチャー タブローを持つ最も単純なフォワード オイラーを含む、さまざまな数値法の例を挙げていますが、それでも十分に有用な方法です。彼はまた、ゼロを欠き、前方オイラーとはわずかに異なる方法で計算される暗黙的な方法として、後方オイラーを導入しています。

  • 00:40:00 このセクションのビデオでは、常微分方程式 (ODE) を解くために使用できるさまざまな戦略について説明します。リスナーからの 1 つの提案は、積分を異なる項に分割し、各項の間でステップを踏むことでしたが、プレゼンターは、これは異なる特性を持つ異なるアルゴリズムになると説明しています。このビデオは、2 つのオイラー ステップを実行することに近いが、まったく同じではない、明示的な中点規則を示しています。発表者は、中点規則は点から外挿し、前進オイラーがより良い外挿を得るために行ったことを減らすと説明しています。さらに、このビデオでは、Byron と Kota によって開発された元の方法であるため、この名前が付けられた古典的な 4 次方法についても説明します。最後に、このビデオでは、ODE を解くための係数を自由に選択できますが、ウィキペディアには既に数百の既知の方法があることに注意してください。

  • 00:45:00  は2 つのソリューションにつながります。 Dobre-Fermi 法では、各ステップで 2 つの解が得られるため、最後に 2 つの行があります。この方法は、複数のプロパティを満たし、Tableau が大きくなると複雑になるため複雑です。目標は、勾配がどのように機能するかを理解することではなく、係数が満たす必要のある特性に焦点を当てることです。この方法は、直交規則によって動機付けられました。ODE への直接のマッピングは存在しない可能性がありますが、それでも直交規則によって非常に動機付けられています。

  • 00:50:00 このセクションでは、精度の異なる 2 つの方法を同時に提供することで効率化を目指す方法により、微分方程式の解法がいかに複雑になるかについて説明します。一方は他方よりも正確であり、より正確な方を使用すると、より正確でない方の誤差を推定するのに役立ちます。これは、局所的な誤差を満たしながら ODE を解くときにステップ サイズを調整するのに役立ちます。ビデオでは、さまざまな特性を持つさまざまな種類の方法があり、安定性も問題を解決する方法を選択する際に考慮すべき要素であると述べています。最後に、このビデオでは、微分方程式を解く際の順序の重要性について簡単に触れています。

  • 00:55:00 このセクションでは、Nathanel Bosch が、常微分方程式 (ODE) を解くためのさまざまな方法と、精度と複雑さの間のトレードオフについて説明します。彼は、推定の 1 ステップでエラーを測定するローカル エラーの重要性と、ステップ サイズを小さくすることでどのようにエラーを減らすことができるかを強調しています。次に、ハード オイラー法や明示的中間点法などのさまざまな方法について説明します。それぞれ独自の順序とエラーの収束率があります。 Bosch は、ステップ サイズの選択や自動サーバーの選択など、ODE を解決するためにライブラリを使用する際のさまざまな機能についても触れていますが、安定性を理解し、問題が発生した場合に潜在的な問題を回避することが依然として重要であると警告しています。

  • 01:00:00 ビデオのこのセクションでは、スピーカーは、機械学習技術を使用してデータから常微分方程式 (ODE) のベクトル場と初期値を推定する問題について説明します。彼は、観測データに ODE を適合させるパラメーター ベータ、ガンマ、およびラムダを推定することが目標である疫学的モデルの例を示しています。スピーカーは、推論問題を解決するために、ODE の状態の生成モデルと観測モデルを書き留めることが不可欠であると説明します。彼は、パラメーターを推定することで、データを生成したプロセスをよりよく理解できるようになり、推定されたパラメーターを文献と照合することで、さらなる洞察が得られると述べています。

  • 01:05:00 このセクションでは、スピーカーはパラメーター推定の問題と、常微分方程式 (ODE) を解くための最尤推定値を計算する方法について説明します。尤度関数は、真の X を取得できないという仮定のために評価できないガウス関数の積であるため、近似が必要です。ソルバーが十分に優れていると仮定することにより、話者は、真の解に推定解を代入すると、評価可能な項が生成されることを示します。次に、負の対数尤度を最小化することによって尤度関数が最大化され、結果として得られる損失関数からパラメーター推定値が得られます。講演者は、SIR-D モデルを使用した例で締めくくりました。最初の感染者数は不明であり、推定する必要があります。

  • 01:10:00 このセクションでは、スピーカーは、常微分方程式 (ODE) のモデルでパラメーター推定を実行する方法について説明します。 ODE モデルのシミュレーションは、そこからノイズの多いサンプルを取得することによって行われ、2 つのパラメーターを使用して、散布図の線を実際のデータと比較することによって計算される損失関数を形成します。オプティマイザーを使用して初期推定とパラメーターを反復処理し、L-BFGS オプティマイザーを使用して出力データを生成します。得られたデータを使用して、モデルとそのパラメーターを解釈し、文献と比較することができます。次に、接触率を時変にすることでモデルが改善され、モデルが少し複雑になり、パラメーター推定のプロセス全体が再度実行されます。

  • 01:15:00 このセクションでは、Nathanel Bosch が t のベータを推定する際の課題について説明します。これは、ODE における接触率の時変推定を記述し、推定の問題を解決するためのより優れたツールの必要性を強調しています。これに対処するために、彼はニューラル ネットワークを使用して t のベータをモデル化し、パラメーター推定で L2 損失関数を最小化することを提案しています。ニューラル ネットワーク アプローチは解釈が難しく、不確実性を適切に推定することはできませんが、接触率の推定値は得られます。さらに、この結果は、ニューラル ネットワーク アプローチが GP モデルの適合性と一致するように大幅な改善が必要であることを示唆しており、結果の不確実性を考慮に入れる必要があります。

  • 01:20:00 このセクションでは、スピーカーは、ニューラル ネットワークを使用して ODE を解くアプローチについて説明し、この方法を使用して不確実性を定量化することは容易ではありませんが、それでも有効な概念的アプローチであると述べています。最尤推定について説明し、不確実性の定量化を提供するために事前確率とサンプリングを追加する可能性について言及します。講演者はまた、確率論的数値 ODE ソルバーの今後のトピックについても説明し、機械学習研究における ODE の重要性と、実世界の問題を解決する上での ODE の役割を強調します。ニューラル ODE は、より一般的で構造のないアプローチとして簡単に言及されていますが、損失関数とトレーニング手順が類似しています。
Numerics of ML 6 -- Solving Ordinary Differential Equations -- Nathanael Bosch
Numerics of ML 6 -- Solving Ordinary Differential Equations -- Nathanael Bosch
  • 2023.01.24
  • www.youtube.com
The sixth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

講義 7 -- 確率的数値 ODE ソルバー -- ナサニエル ボッシュ



ML 7 の数値 -- 確率的数値 ODE ソルバー -- ナサニエル ボッシュ

このビデオでは、Nathanel Bosch が確率論的数値 ODE ソルバーの概念を紹介しています。これは、状態推定と数値 ODE ソルバーを組み合わせて、状態または ODE 解の分布を提供します。 Bosch は、Q 回積分ウィーナー プロセスを使用して真のソリューションをモデル化する方法と、このプロセスによってシステム内の不確実性を定量化および伝播する方法について説明します。次に、拡張カルマン フィルターを使用して ODE を解く方法と、ステップ サイズが誤差推定に与える影響を示します。ビデオの最後では、不確実性のキャリブレーションと、拡張カルマン フィルターを使用して非線形状態空間モデルのパラメーターを推定する方法について説明します。

講義の第 2 部では、ナサニエル ボッシュが確率論的手法を使用して ODE を解く利点について説明します。これには、意味のある不確実性推定値の取得や、初期値などの追加のモデル機能を含める柔軟性が含まれます。彼は、調和振動子や微分代数方程式などの例を使用して、このアプローチを示しています。ボッシュはまた、従来のスカラー法を使用してデータを正確に表現できなかった流行モデルの例を使用して、追加情報を含め、確率論的手法を使用することで、より意味のある結果が得られることを示しています。彼は、拡張カルマン フィルターとスムーザーを使用して、状態推定を通じて ODE を解き、推定を確率問題として扱い、意思決定におけるベイジアンであることの重要性を強調しています。

  • 00:00:00 このセクションでは、Nathanel Bosch が確率論的数値 ODE ソルバーの概念を紹介します。まず、状態空間モデル、状態推定用の一般的なフィルター/スムーザー、数値 ODE ソルバーなど、これまでの講義を要約します。彼は、微分方程式が与えられた ODE 解の状態を推定することが課題であり、数値 ODE ソルバーは近似しか提供しないと説明しています。 Bosch は次に、ODE を状態推定問題として解釈し、それらをデータ推定問題として解くことによって、2 つの概念を組み合わせる方法を提案します。結果として得られるアルゴリズムは、状態または ODE 解に対する分布を提供し、従来のサーバーよりも豊富な出力を提供する確率的数値サーバーを作成します。

  • 00:05:00 このセクションでは、確率論的数値 ODE ソルバーの概念について説明します。これらのソルバーは、ベクトル フィールドの評価を通じて単一の推定 X ハットを提供し、ステップ サイズに依存する誤差で推定を更新または将来の時点に拡張することにより、真の解を推定します。次に、数値 ODE 推定問題を解くためのツールとしての特殊状態推定の使用に議論が移ります。次に、フィルタリング分布、事後平滑化、現在の情報から将来の状態を推定する予測ステップについて説明し、これらの量を計算する簡単な方法として、拡張カルマン フィルターや拡張カルマン スムーザーなどのアルゴリズムについて説明します。このセクションは、数値 ODE 解は、実際の真の解を計算しようとするのではなく、推論問題として表現できるという考えで締めくくられます。また、目標は、初期条件と離散上の ODE を満たす t の x の事後分布を見つけることです。ポイントのセット。

  • 00:10:00 このセクションでは、確率的数値 ODE ソルバーの状態空間モデルの構築について詳しく説明します。ここで考える状態は、Q 倍の積分 Wiener 過程です。この状態は、動的システムを記述し、Q までの導関数を追跡する確率プロセスです。限られた数の導関数を追跡することにより、システム内の不確実性を定量化して伝播できる確率的状態モデルを取得できます。主な目標は、事前確率、尤度、およびデータ モデルを定義することです。これを解くと、出力の推定値が得られます。これは、高速な推論アルゴリズムであるガウス フィルタリングとスムージングを行うために必要です。

  • 00:15:00 このセクションでは、Nathanel Bosch が、Q 回統合された勝者プロセスの真の解をモデル化する確率プロセスについて説明します。このプロセスには、閉形式の式を持つ H の行列 a と H の共分散行列 Q を使用するガウス モデルの形式の遷移があります。プロセス内のエントリへのアクセスは線形操作であるため、1 次導関数と 2 次導関数へのアクセスが便利です。この過程はマルコフ過程であり、ガウス過程の特性を満たします。ボッシュは、プロセスのさまざまなサンプルのプロットも示しています。これは、2 回統合された線形プロセスと呼ばれる理由を示しています。

  • 00:20:00 このセクションでは、講演者は、Q 回の統合オーンシュタイン ウーレンベック事前確率と、後でガウス フィルター処理と平滑化に必要な遷移密度を書き留めることができるため、どのように便利であるかについて説明します。可能性とデータの組み合わせの部分も重要です。なぜなら、それは一番上にある望ましいことを行う前に知らせるからです。講演者は、ODE の言語の使い方を示し、無限の計算がある完全な世界ではゼロであるべき測定関数または情報演算子を定義します。また、観測モデルを紹介し、それが推論に必要なものを満たすのに役立つ理由を説明します。最後に、ノイズのない尤度モデルは直接尤度であり、カルマン フィルターの更新を考慮しているため便利です。

  • 00:25:00 このセクションでは、Nathanel Bosch がロジスティック ODE の具体例である Z の生成モデルと、それが推論プロセスにどのように関係しているかについて説明します。生成モデルにより、解のシミュレーション、導関数の計算、および Z 付近で崩壊する事後分布の生成が可能になります。この生成モデルは、微分方程式をエンコードする尤度モデルに加えて、状態空間モデルを解き、解に関連する X の推定値を提供します。推論により、事前結果と目的の最終結果の間の関係を確立し、状態空間モデルを解くことができます。

  • 00:30:00 このセクションでは、ナサニエル ボッシュが、確率論的数値法で常微分方程式を解くときに初期値を含めることの重要性について説明します。彼は、観測モデルに初期値のみに依存する別の測定値を追加することが、初期値を含めるためのより一般的な方法であると説明しています。次に、アルゴリズムを実装するために必要な拡張カルマン フィルターと ODE フィルターのビルディング ブロックの疑似コードを提供し、予測と更新の手順に含まれる標準のフィルター処理ループについて説明します。拡張アルゴリズムは最初に初期値を満たし、遷移モデル A と Q を使用してステップ サイズを計算します。

  • 00:35:00 このセクションでは、Nathanel Bosch が、Julia で確率論的数値法を使用して常微分方程式 (ODE) を解くために必要なコードを示します。数式は複雑に見えるかもしれませんが、モデルを正しく設定するために必要な 10 行のコードは簡単であると彼は指摘します。 Bosch は、拡張カルマン フィルターがわずか 2 行のコードで実装され、逆数を乗算するための標準的な表記法が、線形システムを解く数値的に安定したソリューションに置き換えられる方法を示しています。彼は、ロジスティック ODE のベクトル場、初期時間範囲、および真の解を定義し、2 回積分されたウィーナー過程を使用して事前分布を定義する方法を示します。 Bosch による拡張カルマン フィルター アルゴリズムの実装は、スライドの疑似コードとほぼ一致しており、Bosch が使用する初期分布は任意にゼロ平均と標準共分散に設定されています。

  • 00:40:00 このセクションでは、Nathanel Bosch が拡張カルマン フィルターを使用して ODE を解き、フィルター推定値をプロットする方法を示します。次に、ステップ サイズをいじって、ステップ サイズを小さくすると不確実性が減少し、ステップ サイズを大きくすると不確実性が増加することを示します。彼は、不確実性は時間の経過とともに増大するだけではなく、誤差の推定値は発生している誤差のモデルであると説明しています。最後に、彼はスムージングが一般的に軌道の結果を改善することを示しており、これは 2 回前の講義の動機と一致しています。ただし、誤差の推定値はさらに改善される可能性がありますが、その方法について聴衆に意見を求めています。

  • 00:45:00 このセクションでは、確率論的数値 ODE ソルバーの推定誤差が大きすぎるため、不確実性のキャリブレーションによって修正する必要があることを学びます。ハイパーパラメータのシグマの二乗は、不確実性に直接影響を与えるため、意味のある実際の不確実性の推定値を取得するには、適切に設定する必要があります。ハイパーパラメータを設定する動機は、パラメータが与えられたデータの可能性を最大化することによってハイパーパラメータが推定されるガウス過程の場合と似ています。データの確率を分解できるため、表現と最適化が便利になります。

  • 00:50:00 このセクションでは、Nathanel Bosch が拡張カルマン フィルターを使用して非線形状態空間モデルのパラメーターを推定する方法について説明します。 Z1 から K マイナス 1 までの z K の P は、ガウス推定を使用して推定され、シグマ ハットは準最尤推定の argmax として計算されます。 ODE フィルターでは、再スケーリングされたパラメーター推定値の再調整方法を使用して、閉形式で最尤推定値を計算できます。この方法は、より良い推定値を生成し、最尤推定シグマに対応します。ボッシュは、キャリブレーションサフィックス付きの更新機能を使用してこれを実装する方法を説明しています。

  • 00:55:00 このセクションでは、Nathanel Bosch が、確率論的数値常微分方程式 (ODE) ソルバーの拡張カルマン フィルター (EKF) について説明します。彼は、シグマ ハッチを大きくするように変更されていると述べています。これにより、実行中の方法で合計が計算され、計算したい量である n で除算されます。 EKF は以前、そうではないかもしれない何かをガウスとして近似しようとしていました。その目的は、可能な限り有益な不確実性の推定値を取得することです。そうすることで、彼らは、ODE ソルバーの数値誤差を意味のある形で説明する有用な誤差推定値を提供するアルゴリズムを手に入れました。得られたアルゴリズムは高速で、完全ではありませんが有用な不確実性推定を提供します。

  • 01:00:00 このセクションでは、ナサニエル ボッシュが確率論的方法を使用して ODE を解く動機について説明します。ボッシュは、不確実性を単純に定量化し、意味のある不確実性の推定値とプロットを取得するだけでなく、確率論的な方法で ODE ソルバーを定式化することは柔軟で便利であり、初期値などの追加のモデル機能を含めることができると考えています。状態空間モデルを定義し、拡張カルマン フィルターを実行することにより、初期値を使用した数値問題だけでなく、追加の情報を使用して高次の ODE を解くことができます。

  • 01:05:00 このセクションでは、Nathanel Bosch が ODE ソルバーの初期値に対する別のアプローチについて説明します。彼は、X1 が与えられた初期導関数と等しいことを確認するために新しい量を定義します。これは、いくつかの予測および更新ステップで拡張コマンド フィルターを実行するために使用できます。彼は、調和振動子の例と、1 次導関数の更新を含めるために以前から変更する必要があったのは 2 行のみであったことを示しています。意味のある結果を得るためにキャリブレーションが再度適用されます。この場合の誤差は、傾向があるアトラクタがないためゼロに向かう傾向はありませんが、代わりに問題の設定に応じて調整されます。ボッシュは、特異行列のために左から右に移動できない微分方程式である微分代数方程式についても説明しています。

  • 01:10:00 このセクションでは、微分代数方程式 (DAE) の概念について説明します。微分代数方程式は、導関数を記述せず、ある点で一定の値を持つ方程式です。講演者は、ODE 尤度アルゴリズムを修正して、DAE を確率論的に解くことができる DAE 尤度アルゴリズムを作成することを提案しています。次にスピーカーは、ODE に追加情報がある問題の例を示し、状態空間モデルを修正して追加の観測モデルを導入し、アルゴリズムが両方の観測モデルを適用して離散グリッド上の g を満たすことができるようにすることを提案します。スピーカーは、ODE と追加情報を使用して問題を解決する際の保存量の重要性を示すビデオの例を提供します。

  • 01:15:00 ビデオのこのセクションでは、Nathanel Bosch が、確率的数値 ODE ソルバーの使用と、ODE モデルの結果を改善するための追加情報を含める利点について説明しています。彼は、従来のスカラー モデルではデータを正確に表現できなかった流行モデルの例を示し、ガウス過程を使用してモデルを改善する方法を示しています。より多くの情報を追加し、確率論的手法を使用すると、最終的により意味のある結果につながる可能性があります。

  • 01:20:00 このセクションでは、Bosch が確率論的数値 ODE ソルバーについて説明します。これには、線形測定演算子を使用して、4 次元オブジェクト (sirnd) として表される ODE の解の特定の次元を測定することが含まれます。状態空間モデルを作成した後、ベータ状態を追加して ODE 解を解き、ODE 解の尤度モデル、初期値、およびデータを考慮します。推論タスクでは、拡張カルマン フィルターを使用して、観察されたデータの黒い点を考慮して、白い点が何であるかを判断します。より簡単な再定式化のために、X とベータをマージすることも提案されています。

  • 01:25:00 このセクションでは、スピーカーは確率論的数値 ODE ソルバーがどのように機能するかを説明します。これは本質的に状態推定を通じて ODE を解く方法であり、推定を確率論的問題として扱います。彼は、「ODE フィルター」と呼ばれることもあるさまざまなソルバーにつながる、拡張カルマン フィルターとスムーザーを使用して ODE を解く方法を定義しています。講演者は、意思決定におけるベイジアンであることの重要性、不確実性推定の有用性、および ODE の解決を含むさまざまな問題に適用できる患者アルゴリズムを使用することの利便性を強調しています。

  • 01:30:00 このセクションでは、外部コマンド フィルターを非標準的な方法で使用して数値問題を解決し、物理学と一般的な外部観測を組み合わせた方法でデータから推論を実行する方法について話します。講演者によると、ベイジアン フィルタリングとスムージングは、情報の柔軟な追加と推論アルゴリズムの因数分解を可能にするため、動的システムをモデル化または定式化するための最良の方法です。聴衆は QR コードをスキャンしてフィードバックを得ることが奨励されており、講演者への質問も大歓迎です。
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
Numerics of ML 7 -- Probabilistic Numerical ODE Solvers -- Nathanael Bosch
  • 2023.01.24
  • www.youtube.com
The seventh lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses bot...
 

講義 8 -- 偏微分方程式 -- マーヴィン・プフェルトナー



Numerics of ML 8 -- 偏微分方程式 -- Marvin Pförtner

Marvin Pförtner が偏微分方程式 (PDE) と、実世界のさまざまなシステムのモデリングにおけるその重要性について説明します。彼は、PDE が未知の関数と線形微分演算子を使用してシステムのメカニズムを表す方法を説明しますが、しばしば未知のパラメーターを解く必要があります。ガウス過程推論を使用して、PDE モデルを分析し、機械論的知識を統計モデルに注入できます。 Pförtner は、モデルを 2 次元の熱分布に制限し、モデルに対して行われた仮定を提示することによって、コンピューターの中央処理装置の熱分布を調べます。この講義では、ガウス過程を使用して偏微分方程式を解き、不確実性をモデル化するための現実的な境界条件を追加することについても説明します。全体として、情報演算子の概念と組み合わされた GP アプローチにより、システムの動作に関する事前知識を組み込み、線形偏微分方程式の形式で機械論的知識を注入し、境界条件と右辺を処理することができます。

このビデオの第 2 部では、点推定ではなく関数の確率測度を推定することにより、ガウス過程を使用して偏微分方程式 (PDE) を解く方法について Marvin Pförtner が説明しています。彼は、不確実性の定量化の利点を説明し、このアプローチは偏微分方程式の右辺関数の推定における不確実性を認めているため、より正直であると述べています。 Pförtner は、実際に役立ち、GP の微分可能性を制御できる Matern カーネルについても説明し、Matern カーネルのパラメーター P を計算する式を提供します。彼はさらに、1 次元の Matern カーネルの積を次元にわたって取ることによって PDE の d 次元カーネルを構築する方法と、モデル構築において数学的に注意を払うことの重要性について説明しています。

  • 00:00:00 講義のこのセクションでは、Marvin Pförtner が偏微分方程式 (PDE) と、金融市場、気候や天候などの流体、波力学など、現実の世界でデータを生成するメカニズム モデルを記述する上でのその重要性を紹介します。 .解決が難しいにもかかわらず、線形 PDE は引き続き強力なモデリング言語であり、熱伝導、電磁気、ブラウン運動の粒子速度などの多くの物理プロセスを正確に記述します。この講義では、実用的なモデリングの例を通じて、PDE ベースのモデルを確率的機械学習モデルに統合することに特に焦点を当てています。

  • 00:05:00 このセクションでは、Marvin Pförtner が偏微分方程式 (PDE) を使用して、物理モデルや財務モデルなどのさまざまなシステムをモデル化する方法について説明します。彼は、システムのメカニズムの動作を理解し、PDE モデルを使用してその動作を推測することの重要性を強調しています。ただし、偏微分方程式では未知のシステム パラメーターが必要になることが多く、その目的は、ベイジアン統計推定を使用してシステムの機械的知識と測定データを融合し、これらの未知のパラメーターを見つけて予測の信頼性を高めることです。 Marvin はまた、線形偏微分方程式と、それらが空間範囲を持つ物理システムとどのように関係しているかについても説明しています。

  • 00:10:00 このセクションでは、Marvin Pförtner が偏微分方程式 (PDE) について説明します。偏微分方程式は、温度分布や一連の電荷によって生成される力などの物理システムを記述するために一般的に使用されます。 PDE の未知の関数は、シミュレートされているシステムを表し、機械的な知識は線形微分演算子によって与えられます。ただし、PDE の課題は、通常、解析解がなく、離散化誤差を導入する数値ソルバーが必要になることです。材料パラメーターと右辺関数は、正確に知ることができないパラメーターの 2 つであり、従来のソルバーを介して不確実性を伝播することを困難にしています。さらに、偏微分方程式は通常、解を一意に識別しないため、追加の条件を課す必要があります。

  • 00:15:00 このセクションでは、スピーカーは偏微分方程式 (PDE) と、無限次元オブジェクトである関数との関係について説明します。微分演算子は線形です。つまり、微分演算子のカーネルに線形関数があり、ポアソン方程式の任意の解に線形項を追加しても解が得られます。境界条件は、シミュレーション ドメインの外側の相互作用をモデル化するために必要です。これは、外側が境界でシミュレーションとどのように相互作用するかをまとめたものです。 PDE は関数空間に属する関数に関するステートメントです。関数空間は、Rn と同様のベクトル空間構造を持つ関数のセットであり、行列による線形演算子の表現を可能にします。微分演算子は関数をその導関数にマップするため、線形演算子は線形プロパティを持つ関数空間間のマップです。

  • 00:20:00 このセクションでは、Pförtner は、線形偏微分方程式は本質的に無限次元ベクトル空間の線形システムであると説明し、ベクトル空間でノルムを定義し、収束を理解することの重要性を伝えています。次に、コンピューターの中央処理装置に熱分布の数学モデルを導入し、モデルをチップを切断する線上の 2 次元の熱分布に制限します。この講義では、このモデルの仮定と、この特定のケースに適したモデルである方法について説明します。

  • 00:25:00 このセクションでは、スピーカーは、チップ内の熱源とヒートシンクのモデリングと、偏微分方程式 (PDE) を使用してそれを表す方法について説明します。彼らは、二次の線形偏微分方程式である熱方程式と、チップ内の温度分布をモデル化するためにどのように適用できるかを説明しています。講演者はまた、PDE を未知の関数の観察と微分演算子の下のイメージとして解釈することにより、微分方程式からの機械論的知識を統計モデルに注入する方法についても説明します。 PDE は、エネルギーや質量などの基本量の保存を記述する物理学の基本法則と比較されます。

  • 00:30:00 このセクションでは、Marvin Pförtner が、温度と熱エネルギーの関係と、材料パラメーターを通じてそれらが互いにどのように比例するかについて説明します。彼は、熱エネルギーのすべての変化は、システムに入る熱の既知の値、または熱伝導を介して周囲から特定のポイントに流れ込む熱によって説明できると説明しています。次に、微分方程式の情報を含む、あらゆる情報を表現するために使用できる数学的概念として、情報演算子を紹介します。彼はさらに、ガウス過程の事前分布を使用して未知の関数 U をモデル化する方法と、線形観測の下でガウス過程の閉包を使用して事後過程を計算する方法について説明しています。ただし、偏微分方程式を解くには無限の観測値セットが必要なため、解かれている問題に関する分析情報がわかっている場合を除き、ほとんどの場合、計算上不可能です。

  • 00:35:00 このセクションでは、スピーカーはガウス過程 (GP) を使用して偏微分方程式 (PDE) を解くことについて説明します。これは、常微分方程式 (ODE) で使用されるアプローチに似ています。 GP は関数空間の確率尺度と見なされ、線形演算子はその GP のサンプル パスを RN にマッピングします。このプロセスの事前予測は正規分布であることがわかります。平均は線形演算子による GP 平均関数のイメージによって与えられ、共分散行列は有限次元の場合に見られる共分散行列と非常に似ています。このイベントの後部は、実際にはそれに似た構造を持っていることが判明しました。講演者は、多くの理論的な詳細が含まれており、GP を使用して偏微分方程式を解くことに無限大が関係しているため、注意が必要であると述べています。

  • 00:40:00 このセクションでは、Marvin Pförtner が、線形演算子の特定の選択を計算する方法と、それを標準の線形演算子表記で表現する際の難しさについて説明します。彼はまた、一方の引数を微分し、他方の引数を微分し、2 点間のすべてのペアワイズ導関数の行列を作成する方法についても説明します。次に、同じ定理を使用して問題に適用し、事後ガウス過程を計算する方法と、選点のセットを定義する方法について説明します。

  • 00:45:00 このセクションでは、スピーカーはガウス過程推論の一般化された形式が境界値問題をどのように解決できるかを説明します。彼らは、偏微分方程式 (PDE) の右辺に一致する黒関数を使用して観測を表す方法と、これから学習した情報を元のガウス過程に伝播する方法を概説しています。境界条件が修正されない偏微分方程式の自由度は不確実性を引き起こす可能性がありますが、ディリクレ境界条件を課すことにより、事後は通常のガウス過程回帰問題になり、2 つの境界値が観察される場合に機能します。講演者は、展開における境界値は通常知られていないことに注意することの重要性を強調しており、境界値と熱源分布の両方に不確実性を追加することが役立つでしょう。

  • 00:50:00 このセクションでは、スピーカーは偏微分方程式のより現実的な境界条件について説明します。彼は、熱は CPU の表面全体で均一に抽出され、この情報は、境界点の値の代わりに境界点の 1 次導関数が設定されるノイマン境界条件としてモデル化できると述べています。そうすることで、モデルに不確実性を追加し、ガウス分布を使用して導関数をモデル化できます。この境界条件を記述するために追加情報演算子が使用されます。講演者はさらに、CPU 内の温度計を使用してシステムの絶対スケールを決定する方法と、別のガウス プロセスを使用して以前の信念をモデル化することによって、関数の不確実な推定値を取得する方法について説明します。

  • 00:55:00 このセクションでは、Marvin Pförtner が、ガウス過程と情報演算子の助けを借りて、システムの動作に関する事前知識をモデルに統合する方法について説明します。彼は、システムが継続的に加熱するのを避けるために、ゼロに可積分なモデルの右辺関数を選択することが不可欠であると述べています。次に、Pförtner は、GP がすべてのサンプルでエリア 1 を持つようにするための課題と、境界を介して出る熱を考慮した境界効果を含む追加の制約を追加することで解決できる方法について説明します。最後に、Pförtner は、この GP アプローチを情報演算子の概念と組み合わせることで、システムの動作に関する事前知識を組み込み、線形偏微分方程式の形式で機械論的知識を注入し、境界条件と右辺を処理できるようになると結論付けています。

  • 01:00:00 このセクションでは、Marvin Pförtner が、ガウス過程を使用して偏微分方程式 (PDE) を解く方法について説明します。これは、点推定の代わりに関数の確率測度を推定することにより、PDE の条件を満たす信頼区間とサンプルを与えることができます。 .彼は、このアプローチは PDE の右辺関数の推定における不確実性を認めているため、より正直であり、2D シミュレーションだけでなく、別の空間次元としての時間によるシミュレーションにも適用できると説明しています。 Pförtner は、不確実性がないと仮定したこの方法の事後平均は、対称選点と呼ばれる古典的な方法と同等であることに注意しています。最後に、加重残差法、有限体積法、スペクトル法など、偏微分方程式を解くための他の方法も、不確実性を定量化することなく、ガウス過程の事後手段として実現できると説明しています。

  • 01:05:00 このセクションでは、スピーカーはガウス過程 (GP) を使用して線形偏微分方程式 (PDE) を解く方法と、関数推定の回帰を実現する方法について説明します。彼らは、適切な関数を選択することの重要性と、使用する前の重要性、および不確実性の定量化の利点を強調しています。スピーカーは、GP のサンプル パスが微分可能でない場合などの失敗のケース、およびすべてを厳密にするために重要な条件を検証する必要性についても言及します。このセクションは、これらの定理の正式な詳細を掘り下げるスピーカー グループからの今後の出版物のティーザーで締めくくります。

  • 01:10:00 このセクションでは、スピーカーはガウス過程 (GP) がどのように定義され、未知の関数をモデル化するために使用されるかについて説明します。 GP は、ドメイン内の各ポイントに 1 つずつ、実数値のランダム変数のコレクションです。それらは関数を表すために使用されますが、GP の評価の有限の組み合わせしか知りません。 GP のサンプル パスを取得するには、オメガを修正してすべての関数を変換することにより、関数を継続的にサンプリングする必要があります。サンプルパスが十分に微分可能であることを確認して、それらが定義されていることを確認します。さらに、線形演算子 L の下で GP のイメージである LF を計算するには、オメガを固定し、対応する関数に L を適用します。

  • 01:15:00 このセクションでは、スピーカーはサンプル パスを線形演算子を介してマッピングし、GP と呼ばれる無限次元のオブジェクトを作成する方法を説明します。GP は後で測定可能にする必要がある確率変数に変換されます。彼らは、適切なカーネルを選択することにより、GPS のサンプル パスが再生カーネル ヒルベルト空間になることを指摘していますが、GP の実際のカーネルの再生カーネル ヒバート空間は、サンプルが由来する空間ではなく、より大きな空間です。これらのサンプルが含まれている場所を選択する必要があります。スピーカーは、実際に役立ち、GP の微分可能性を制御できる Matern カーネルについて説明し、プロセスの一般化に役立つ Matern カーネルのパラメーター P を計算する式を提供します。

  • 01:20:00 このセクションでは、スピーカーは、特に導関数の順序が混在している場合に、1 次元の Matern カーネルの積を次元にわたって取ることによって、偏微分方程式 (PDE) の d 次元カーネルを構築する方法を説明します。これは、ユーザーが解こうとしている具体的な方程式に適応するのに役立ちます。さらに、GPS は、アフィン情報演算子を使用して、さまざまな情報源を 1 つの回帰モデルに結合するためのフレームワークを提供します。スピーカーは、モデルの構築、特に特定の方程式の事前確率を構築する際に数学的に注意を払うことの重要性を強調しています。
Numerics of ML 8 -- Partial Differential Equations -- Marvin Pförtner
Numerics of ML 8 -- Partial Differential Equations -- Marvin Pförtner
  • 2023.01.24
  • www.youtube.com
The eigth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

講義 9 -- モンテカルロ -- フィリップ・ヘニング



ML 9 の数値 -- モンテカルロ -- Philipp Hennig

モンテカルロに関するこのビデオでは、Philipp Hennig が、ベイズの定理を使用したベイジアン推論に関して、機械学習における統合がいかに基本的な問題であるかを説明しています。彼は、積分を行う特定の方法としてモンテカルロ アルゴリズムを紹介し、その方法の簡単な歴史を提供します。彼はまた、偏りのない推定やサンプル数の増加に伴う分散の減少など、モンテカルロ アルゴリズムの特性についても説明しています。さらに Hennig は、Metropolis-Hastings アルゴリズム、マルコフ連鎖モンテカルロ、およびハミルトニアン モンテカルロについて詳しく説明し、各アルゴリズムのプロパティの概要と、確率分布からサンプリングするときにそれらがどのように機能するかを説明します。最終的に Hennig は、アルゴリズムをやみくもに適用するのではなく、最適で効率的な結果を達成するためにアルゴリズムが使用される理由を理解することの重要性を指摘しています。

ビデオの第 2 部では、Philipp Hennig が高次元分布のモンテカルロ法、特に詳細なバランスを崩すという U ターンの考え方の問題を克服する No U ターン サンプラー (NUTS) アルゴリズムについて説明しています。 Hennig 氏は、これらのアルゴリズムは複雑で実装が難しいものの、効果的に使用するにはアルゴリズムを理解することが重要であると強調しています。彼はまた、モンテカルロ法を使用して期待値を計算するための決まり切ったアプローチに疑問を呈し、ランダム性なしで近似する他の方法があるかもしれないと示唆しています。 Hennig は、ランダム性の概念と限界、モンテカルロ法の収束率の欠如について議論し、決定論的なランダム性に頼るのではなく、機械学習の他の方法を検討する必要性を提案しています。

  • 00:00:00 このセクションでは、インストラクタが、ベイズの定理を使用して条件付き事後分布を計算するためにベイジアン推論を行う際の機械学習の基本的な問題である統合のトピックを紹介します。彼は、このプロセスには、条件付き分布の期待値として計算される限界を表す積分が含まれていると説明しています。インストラクターは、積分を正しく実行する方法を知ることの重要性を強調し、積分を実行する具体的な方法の 1 つとしてモンテカルロ アルゴリズムを紹介します。彼はモンテカルロの簡単な歴史を紹介し、アルゴリズムを盲目的に適用するのではなく、なぜアルゴリズムが使用されるのかを理解することが重要である理由を考察します。

  • 00:05:00 このセクションでは、フィリップ ヘニングが、1940 年代に核爆弾の設計を支援するためにモンテカルロ シミュレーションがどのように開発されたかについて説明します。問題は、爆発を達成するためにジオメトリを最適化することにあり、解決策は、モンテカルロ シミュレーションを使用して積分を和で概算することでした。この目的のために発明されたフェルミ アナログ コンピューターは、2 つの車輪とペンで構成され、サイコロから引き出された乱数を使用して中性子の経路をシミュレートします。このプロセスは単純に見えますが、この方法は、さまざまな分野のモンテカルロ シミュレーションを開発する最初のステップでした。

  • 00:10:00 このセクションでは、モンテカルロ シミュレーションの概念を説明します。これは、積分を、分布から得られた点における関数の評価の合計に置き換えることによって、期待値を推定する方法です。これは、サンプル数が増加するにつれて分散が減少する偏りのない推定量であり、サンプル数の平方根に対して 1 のように誤差が減少します。統計学者はこれが偏りのない推定量の最適なレートであると主張していますが、数値数学者はこのレートが非常に遅いと考えており、多項式レートが好まれています。ただし、この方法には、分散が基になる分布の次元に依存しないため、次元から解放されるなどの利点があります。

  • 00:15:00 このセクションでは、Philipp Hennig がモンテカルロ問題の次元に関する議論に取り組んでいます。 p の下に f の分散がありますが、これは問題の次元に関連している可能性がありますが、議論はそれが次元に依存しないということです。ただし、特定の構造化された問題では、分散は次元の関数として指数関数的に爆発する可能性があります。それにもかかわらず、モンテカルロ サンプリングの最も興味深いアプリケーションは、問題の次元に影響されないため、高次元の問題の計算が可能になります。 Hennig はまた、モンテカルロ サンプリングを使用して Pi を計算する古典的な例についても説明しています。この例では、サンプル数の逆平方根によって与えられるレートで真実に向かって収束します。

  • 00:20:00 このセクションでは、Philipp Hennig が積分を近似するためのモンテカルロ法について説明します。彼は、分布から多数のサンプルを抽出し、それらのシミュレーションで期待値を計算することによって、この方法がどのように機能するかを説明しています。これは、大まかな見積もりが必要な場合には良い解決策ですが、非常に正確な回答には実用的ではありません。 Hennig は、棄却サンプリングや重要なサンプリングなど、取り扱いが難しい分布からサンプルを構築する方法についても話していますが、これらの方法は高次元ではうまくスケーリングしないことに注意してください。

  • 00:25:00 このセクションでは、高次元分布に基づいてランダム変数を生成するアイデアについて説明します。このための標準的な方法はマルコフ連鎖モンテカルロと呼ばれ、有限のメモリで反復的に前進する構造に基づいています。このタイプの方法の 1 つは、メトロポリス ヘイスティングス アルゴリズムです。このアルゴリズムでは、マルコフ連鎖を構築し、提案された分布と、引き出された分布と提案された分布との比率を使用して新しい場所に移動します。このアルゴリズムは、1950 年代に核兵器の形状の最適化に取り組んでいた核物理学者のグループによって発明され、今日でも広く使用されています。

  • 00:30:00 このセクションでは、Philipp Hennig が、確率分布からのサンプリングに使用されるマルコフ連鎖モンテカルロ アルゴリズムの一種である Metropolis-Hastings アルゴリズムについて説明します。彼は、提案された分布から抽出し、確率密度に基づいてそれらを受け入れるか拒否することによって、アルゴリズムがどのようにポイントを生成するかを示しています。 Hennig はまた、サンプリングされている分布を効果的に調査するために、適切に適合された提案分布を使用することの重要性を強調しています。 Metropolis-Hastings アルゴリズムには、詳細なバランスとエルゴード性という 2 つの重要なプロパティがあり、アルゴリズムを長時間実行するプロセスで、サンプリングされた分布によって与えられる定常分布が確実に生成されます。

  • 00:35:00 このセクションでは、Philipp Hennig が、少なくとも 1 つの定常分布を持つアルゴリズムの特性について説明します。定常分布は、非周期的で正の再帰を持つシーケンスです。つまり、その時点に戻る確率がゼロではないことを意味します将来のポイント。アルゴリズムには、別の定常分布に陥る原因となるような構造があってはなりません。たとえば、Metropolis Hastings は、これら 2 つの特性を満たすアルゴリズムです。ただし、単純なモンテカルロに比べてレートが悪く、ローカルでランダムな動作をする可能性があります。アルゴリズムによって抽出された有効なサンプルの数は、分布の完全に反対側にある 2 つのサンプル間の高速道路の自由歩の長さまたは自由時間の長さと関係があります。

  • 00:40:00 このセクションでは、スピーカーはモンテカルロ法とその評価方法について説明します。彼は、分布の一方の端からもう一方の端まで移動するには、長尺と短尺の長さの比率の 2 乗に比例する多数のステップを使用する必要があり、その結果、依然として平方根の 0 である収束率が得られると説明しています。 t の前に巨大な倍数があります。彼は、モンテカルロの課題は、分布の形状を知らず、参照としての赤い点を持たずに、これらの青い点の統計だけを見ている場合、これにどのように気付くかが完全に明白ではないことであると述べています。です。最後に、彼はハミルトニアン モンテカルロについて話します。これはマルコフ連鎖モンテカルロの「アトム」であり、x の確率分布 P から引き出すために使用される一般的なアルゴリズムです。

  • 00:45:00 このセクションでは、Philipp Hennig がハミルトニアン モンテカルロ (HMC) の概念を説明します。これは、確率分布からサンプルを抽出するために使用される方法です。 HMC では、変数の量が 2 倍になり、新しい変数が既存の変数の運動量を表します。運動量変数は、常微分方程式を定義する関数に従って展開されます。H はエネルギーを表し、K は運動エネルギーを表します。 X の時間導関数は、P に関する H の偏導関数によって与えられ、P の時間導関数は、X に関する H の偏導関数を引いたものによって与えられます。 X と P の場合、X 上の分布からわずかに引き出します。

  • 00:50:00 このセクションでは、Philipp Hennig が、2 次の収束率を持つ Hoyn の方法を使用して、特定の状態の確率の導関数の常微分方程式 (ODE) ソルバーを実装する方法について説明します。次に、これをソフトウェア ライブラリの使用と比較し、ソルバーがハミルトニアン システムのダイナミクスをシミュレートする方法を示します。ハミルトニアン システムは、形状の対数によって与えられるポテンシャル内を移動する質量 1 の粒子であり、最終的に優れたサンプルを生成します。シミュレートするにはある程度一定のステップ数が必要ですが、メトロポリス-ヘイスティングス スキームは常に受け入れ、アルゴリズムは短いスケールの 2 乗を超えて長いスケールで与えられた距離で移動しないステップを作成することを Hennig は指摘しています。平方根になり、最終的にはより効率的なアルゴリズムになります。

  • 00:55:00 このセクションでは、Philipp Hennig がハミルトニアン モンテカルロ アルゴリズムのしくみについて説明します。このアルゴリズムは、1 つの一定のポテンシャル ラインにおける X と P の結合分布から導き出されます。ポテンシャル ラインは初期運動量によって選択され、各ステップで運動量が変更されて別のポテンシャル ラインに移動します。 Hennig はアルゴリズムを最適化問題と比較し、LeapFrog ステップとデルタ T と呼ばれる 2 つのパラメーターがあり、アルゴリズムが効果的に機能するために適切に選択する必要があることに注目しています。パラメーターが正しく設定されていない場合、シミュレーションは、実際にはどこにも移動せずに前後に移動することで、計算リソースを浪費する可能性があります。

  • 01:00:00 このセクションでは、Philipp Hennig が高次元分布のモンテカルロ法における U ターンと No U ターン サンプラー (NUTS) アルゴリズムのアイデアについて説明します。 U ターンのアイデアの問題点は、詳細なバランスが崩れ、アルゴリズムが離れてしまい、元に戻らなくなることです。 NUTS アルゴリズムは、反対方向に 2 つのマルコフ連鎖を開始し、一方が向きを変え始めるまで待ってからランダムに一方を選択することで、これを克服します。これは詳細なバランスを満たし、多くのマルコフ連鎖モンテカルロ アルゴリズムの重要な要素です。 Hennig 氏は、これらのアルゴリズムは複雑で実装が難しいものの、効果的に使用するにはアルゴリズムを理解することが重要であると強調しています。

  • 01:05:00 このセクションでは、スピーカーは、モンテカルロ法を使用したベイジアン推論で期待値を計算するためのニージャーク アプローチについて説明し、低い収束率と偏りのない推定器の必要性を強調します。しかし、話し手は、そもそも偏りのない推定量とランダム性の必要性に疑問を呈し、ランダム性なしで関心のある量を概算する他の方法があるかもしれないことを示唆しています.講演者は、ランダム性の概念と、チューリング マシンで計算されたシーケンスおよび有限シーケンスとの関係についても触れます。

  • 01:10:00 このセクションでは、Philipp Hennig がさまざまな数列によるランダム性の概念について説明します。彼は、サイコロによって生成されるようないくつかのシーケンスは、真にランダムではないにもかかわらず、文化的にランダムであると受け入れられていると主張しています.一方、円周率のような無理数は乱数ではありませんが、構造もありません。さらに Hennig は、シードが乱数ジェネレーターによって生成されたシーケンスのランダム性をどのように変更できるかを説明しています。最後に、彼は、乱数を生成する物理マシンがどのようにランダム性をテストされたかについて説明しますが、最終的にランダム性のダイ ハード テストに失敗しました。

  • 01:15:00 このセクションでは、Philipp Hennig が、ランダム性と、それが機械学習、特にモンテカルロ法とどのように関係しているかについて説明します。彼は、ランダム性は情報の欠如と関係があると説明しています。そのため、誰かが何かを知っていることが重要な暗号のような分野に適用できるのはそのためです。現代の機械学習で使用される種類の乱数について、この情報の欠如について話すのは間違っています。モンテカルロ法を使用する場合、モンテカルロ法に依存する科学論文の執筆者は、多くの場合、閲覧者から情報を隠します。彼らがそれを使用するのは、それが偏っているからではなく、使いやすく実装しやすいからです。

  • 01:20:00 このセクションでは、Philipp Hennig が、マルコフ連鎖モンテカルロ (MCMC) がどのように実行されるかを説明し、収束率がわからないにもかかわらず、高次元の問題に対して比較的うまく機能することを説明します。 MCMC は、乱数の使用に依存する理論上の保証がある唯一のアルゴリズムですが、このアプローチによって生成されたサンプルは、比較する他の方法がない場合に役立つことが認められています。 Hennig はまた、MCMC は基本的に非常に遅くて面倒であり、積分を近似するより良い方法があるかもしれないと述べています。彼は、彼らが来週検討するアルゴリズムは通常、低次元の問題に対してのみ機能すると警告し、決定論的なランダム性に頼るのではなく、機械学習の他の方法を検討する必要があることを提案しています.
Numerics of ML 9 -- Monte Carlo -- Philipp Hennig
Numerics of ML 9 -- Monte Carlo -- Philipp Hennig
  • 2023.02.02
  • www.youtube.com
The ninth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...
 

講義 10 -- ベイジアン求積法 -- Philipp Hennig



ML 10 の数値 -- ベイジアン求積法 -- Philipp Hennig

このビデオでは、Philipp Hennig が、機械学習における統合の計算問題に対する効率的な方法としてのベイジアン求積法について説明しています。彼は、実数値関数を一意に識別する方法を説明していますが、質問に直接答えるのは困難です。 Bayesian Quadrature は、未知のオブジェクトと計算できる量に事前確率を適用することにより、積分を見つける問題を推論問題として扱い、ベイジアン推論を実行する推論方法です。 Hennig はまた、このアプローチをモンテカルロ除去および重要度サンプリングと比較し、ベイジアン求積法が従来の求積法よりも優れていることを示しています。この講義では、ベイジアン求積法のカルマン フィルター アルゴリズムと、その従来の積分アルゴリズムとの関係について説明し、数値的方法での不確実性推定の使用について説明します。最後に Hennig は、数値計算の社会構造がアルゴリズム設計にどのように影響するかを探り、特定の問題に対する計算方法を設計する方法、および確率的機械学習がリアルタイムでエラーを推定する方法について説明します。

ビデオの第 2 部では、Philipp Hennig がベイジアン求積法について説明しています。ベイジアン求積法では、積分やアルゴリズム値など、関心のある量に事前分布を適用して、ベイジアン方式で何かを計算します。この方法では、事後推定と不確実性推定の両方が推定値の周りに割り当てられます。これは、従来の方法で識別できます。 Hennig は、アルゴリズムが観測された関数にどのように適応するかを説明し、能動学習手順を使用して次に評価する場所を決定します。このアルゴリズムは高次元で機能し、非常にスマートな収束率を備えています。また、古典的なアルゴリズムと直交規則の制限についても説明し、適応推論による回避策を提案しています。

  • 00:00:00 このセクションでは、Philipp Hennig が、効率的な方法としてのベイジアン求積法に焦点を当てて、機械学習における統合の計算問題について説明します。彼は、実数値関数 f of x について説明しています。これは、X から正弦の 2 乗を引いた 3x と X から x の 2 乗を引いた 2 つの関数の積であり、一連の文字を書き留めることで一意に識別できます。 Hennig は、私たちはこの関数についてすべてを知っていますが、この関数のマイナス 3 からプラス 3 までの定積分の値など、この関数に関するすべての質問に直接答えるのは難しいと説明しています。新しい C ライブラリ。

  • 00:05:00 このセクションでは、Philipp Hennig がベイジアン求積法について説明します。これは、未知のオブジェクトと計算可能な量に事前確率を適用することで、積分を見つける問題を推論問題として扱い、ベイジアンを実行する推論方法です。推論。事前確率を設定することにより、有限の不確実性から始めます。これにより、計算の可能な結果の範囲が狭くなり、計算の一般的なものになります。このアプローチは、効率の悪いモンテカルロ除去および重要度サンプリングとは対照的です。推定された関数は、数値の関数としてプロットできます。これは、ベイジアン求積法が積分を解くための実行可能なオプションであることを示唆しています。

  • 00:10:00 Philipp Hennig の講演のこのセクションでは、確率的機械学習を使用して関数の積分を推定する方法として、ベイジアン求積法について説明しています。彼はこのアプローチをモンテカルロ法と比較し、ガウス過程が関数の事前確率として使用されることを説明しています。特定の x 値で関数を評価することにより、関数の積分である潜在変数を推定できます。 Hennig は、このアプローチが従来の求積法より優れていることも示しています。

  • 00:15:00 このセクションでは、Philipp Hennig が、学習しようとしている関数の積分を近似するために、カーネルの積分を計算する方法を説明します。事前平均関数と事前共分散関数を選択することにより、再生カーネル ヒルベルト空間で積分を計算する問題を埋め込むことができます。さまざまな点での関数の評価を含む計算を通じて、カーネル全体の積分の計算を含むカーネル平均埋め込みに行き着きます。したがって、閉形式で積分を計算できるカーネルを選択する必要があり、Hennig は例として Weiner プロセス カーネルを選択します。

  • 00:20:00 このセクションでは、Philipp Hennig がベイジアン求積法のプロセスについて説明します。このプロセスには、非対称で非定常なガウス プロセスである Vino プロセスの事前使用と、正のガウス プロセスを取得するための一連の関数値の条件付けが含まれます。このプロセスを使用すると、モンテカルロ積分よりもはるかに優れた結果を得ることができます。たとえば、10^-7 の相対誤差を達成するには、ベイジアン求積では 200 回未満の評価が必要ですが、モンテカルロ積分では 10^11 を超える評価が必要になります。

  • 00:25:00 このセクションでは、モンテカルロ シミュレーションと比較したベイジアン求積法の速度について説明します。モンテカルロ シミュレーションは安価で実装が簡単ですが、ベイジアン求積法も比較的高速であり、カルマン フィルターとして実装できるため、機械学習モデルでの使用が可能になります。講演者は、プロセスの 2 つの状態の間の線形マップと、積分をエンコードする方法について説明し、確率微分方程式を離散化し、積分の更新を計算できるようにします。その後、ベイジアン求積法の特性について詳しく説明します。

  • 00:30:00 このセクションでは、スピーカーは関数の積分を評価するためのベイジアン求積法のカルマン フィルター アルゴリズムを紹介します。このアルゴリズムでは、行列 A と Q を定義して線形時不変システムの決定論的部分と確率論的部分を表し、H と R を観測モデルを表すように定義します。事後平均はカーネル関数の加重和であり、カルマン フィルターは積分の推定値を更新し、積分の不確実性はステップ長の 3 乗で増加します。アルゴリズムは線形時間で実行され、事後平均は関数値を内挿する区分的線形関数です。積分の推定値は、各ブロックの平均値の合計です。

  • 00:35:00 このセクションでは、ヘニングがベイジアン求積法の概念と、古典的な積分アルゴリズムである台形則との関係について説明します。彼は、台形規則は複雑なガウス過程推論スキームの事後平均と見なすことができ、この特定の洞察は本質的で一般的な結果であると述べています。 Hennig はさらに、数値計算、最適化、線形代数、微分方程式の解法など、さまざまな古典的なアルゴリズムがすべて、ベイズ事後推定にどのように関連しているかについて説明しています。さらに、彼は、数値計算は不確実性を伴う数値量の最小二乗推定を含むため、ガウス推論と見なされるべきであることを強調し、数値法を扱う場合に不確実性推定を使用すると有利になる可能性があることを示唆しています。

  • 00:40:00 このセクションでは、Philipp Hennig が、数値アルゴリズムの意思決定の側面と、実行する計算を決定する AI アルゴリズムのようなものについて説明します。評価点をどこに置くかという問題が生じますが、その答えはベイジアン推論問題にあります。確実性に向かって収束する確率分布を定義することにより、確実性または不確実性を表す量を見つけて操作することができます。積分に対する可能な分布の分散の目的は、それを最小化することです。これは、すべてのデルタ J をデルタ n から 1 を引いた値に等しく設定することで実行でき、積分ノードの規則的なグリッドを示します。さらに、統合ドメインの両端に統合ノードを持つ必要性についても説明します。

  • 00:45:00 このセクションでは、スピーカーは、ベイジアン直交アルゴリズムを使用して、事前のガウス過程に基づいて評価ノードを配置する場所の設計を取得する方法について説明します。このアルゴリズムは、使用される事前確率に応じて異なる設計を提供でき、評価ノードは、最大情報利得の単純なポリシーに従って選択できます。台形則は、ベイジアン推定と考えることができます。ここで、事後平均は、被積分関数より前の特定のガウス過程から生じる患者推定です。アルゴリズムは誤差の推定を提供しますが、その推定は正確ではなく、実際の誤差と推定された誤差の間に大きなギャップがあります。ただし、台形規則は何百年も前から存在しており、アルゴリズムに必ずしも欠陥があるわけではありません。台形規則には、検討が必要な特性がいくつかある場合があります。

  • 00:50:00 このセクションでは、Philipp Hennig が分散推定とベイジアン求積法との関係について説明します。彼は、誤差の推定値は標準偏差であり、これは予想誤差の平方根であると説明しています。一定のステップ サイズを使用すると、合計内に "i" がないため、合計の計算が簡単になります。この定理は、この台形規則の収束率は、N の 2 乗に対する 1 の O であると述べています。ただし、数学には隠れた仮定があります。ウィーナー過程から引き出されたサンプル パスは、ほとんどどこでも微分不可能であるため、非常に大雑把な動作をしており、事前確率の仮定が無効になります。

  • 00:55:00 このセクションでは、Philipp Hennig が、数値アルゴリズムを使用して大まかな微分不可能な関数を統合する問題について説明します。彼は、台形則などの非常に大まかな関数で動作するように設計されたアルゴリズムは、統合する関数がはるかに滑らかである場合、効率が低下する可能性があると説明しています。 Hennig は、アルゴリズムが大規模なクラスの問題で機能するように設計されている数値計算の社会的構造が、個々の問題に対して特にうまく機能しない過度に一般的な方法につながる可能性があることを示唆しています。ただし、これらのアルゴリズムがどのように機能するかを理解すれば、特定の問題が十分に重要であれば、その問題に対する計算方法を設計することは可能であると彼は述べています。また、確率的機械学習のアイデアを使用して、実行中にアルゴリズムのエラーの規模を推定する方法についても説明しています。

  • 01:00:00 このセクションでは、Philipp Hennig が、いくつかのデータが与えられたときに共分散行列の未知の定数のスケールを推定する方法について説明し、共役事前確率の概念を紹介します。彼は、指数族確率分布の場合、ガウス分布の分散を推定するために使用できるガンマ事前分布などの共役事前分布が常に存在すると説明しています。 Hennig は、ウィリアム C. リー ゴセットが、ギネスの醸造者として働いていたときにこの方法を思いつき、ビール樽からのサンプルの分布を推定しなければならなかったという話をしています。この方法では、事前分布と尤度を乗算し、結果を正規化してガンマ分布と同じ代数形式を取得し、観測値または関数値に基づく新しいパラメーターを使用します。

  • 01:05:00 このセクションでは、Philipp Hennig がパラメータの事後集中とスチューデント T 分布を推定する方法を説明しています。この方法はベイジアン求積法と呼ばれ、最初はスケールが広く、観測が収集されるにつれてより集中していきます。結果はプロットに表示され、最初は観測値の増加に従って分布が縮小します。 Hennig は、この滑らかな関数に関する以前の仮定は、この問題に対してあまりにも保守的であり、ルジャンドル多項式で展開される一連の機能を備えたガウス求積法など、非常にうまく機能する統合のためのはるかにスマートなアルゴリズムがあることを指摘しています。

  • 01:10:00 このセクションでは、Hennig は、-1 から 1 までのドメインなど、有界ドメインで積分を行う古典的な方法であるベイジアン求積法について説明します。収束の超多項式の重みですが、これは実際に滑らかな関数に対してのみ機能します。右のグラフに見られる緑色の線は、特定の種類のガウス事前仮定の下での事後平均推定にも対応している可能性があります。この記事の結果は主に、数値積分に対する 2 つの異なるアプローチ間の関係を明確にするための理論的な関心のためのものですが、この種の問題に非常に適していて、さまざまな種類のさまざまなベースを持つ多くの構造を備えた古典的なアルゴリズムがあります。統合の問題。これらの直交規則は、直交多項式と重み関数を使用して特定の形式で記述できると仮定して積分を近似し、W と積分領域に応じてファイの特定の選択肢があります。

  • 01:15:00 このセクションでは、スピーカーはさまざまなタイプのチェビシェフ多項式と、一変数関数の数値積分の計算におけるそれらの使用について説明します。講演者はまた、患者推論規則の事前確率を指定する際に、統合領域、関数形状、および事前確率を考慮することが重要である理由についても説明します。スピーカーは、古典的な統合アルゴリズムと求積法は、ガウス事後平均推定の何らかの形式と考えることができ、これらのアルゴリズムによって行われる選択は、情報理論の議論によって動機付けられる可能性があることに注意します。話者は、従来の求積法は 1 次元の積分ではうまく機能しますが、高次元の問題にはモンテカルロ アルゴリズムなどのより複雑なアプローチが必要であると述べて締めくくりました。

  • 01:20:00 このセクションでは、スピーカーは、次元のスケーリングに関して、前のセクションで示した方法の制限について説明します。これらのメソッドは、評価のメッシュを生成する必要があるため、次元的に指数関数的にパフォーマンスが低下する傾向があります。つまり、ドメインをポイントでカバーする必要があります。ガウス過程は事前確率として使用されており、その事後不確実性は評価が行われた場合にのみ、見られる数値に依存しないため、これは問題です。その結果、これらの統合方法は適応性がなく、高次元でのスケーラビリティが制限されます。この問題を克服するには、適応推論を通じて、いくつかのポイントが他のポイントよりも有益であるという事実を推論できる新しいアルゴリズムが必要です。

  • 01:25:00 このセクションでは、Philipp Hennig が、非負の値をエンコードするためのガウス プロセスの制限について説明し、実際の関数を 2 乗する新しい関数を定義することによる回避策を提案しています。結果の分布はガウス分布ではなく、ガウス過程で近似できる確率過程で近似されます。結果として得られるアルゴリズムは Wasabi と呼ばれます。これはワープ シーケンシャル アクティブ ベイジアン インテグレーションの略です。これは、大きな関数値が予想される場合に不確実性を適応的に追加する確率論的定式化であり、近似数値アルゴリズムの構築を可能にします。青色の効用関数は、関数値に対する事後不確実性を表します。

  • 01:30:00 このセクションでは、Philipp Hennig が数値積分のアルゴリズムである Bayesian Quadrature の概念について説明します。 Hennig は、アルゴリズムが観測された関数にどのように適応するかを説明し、アクティブ ラーニング手順を使用して次に評価する場所を決定します。このアルゴリズムは高次元で機能し、非常にスマートな収束率を備えています。 Hennig はまた、このアルゴリズムをモンテカルロ アルゴリズムと比較し、事前の知識によってアルゴリズムのパフォーマンスが向上すると主張しています。さらに、彼は、クリスマス後に議論される予定の、モンテカルロを超えたさらに優れたアルゴリズムの可能性を示唆しています。

  • 01:35:00 このセクションでは、Philipp Hennig がベイジアン求積法について説明します。これには、積分やアルゴリズム値など、関心のある量に事前分布を適用して、ベイジアン方式で何かを計算することが含まれます。この方法では、事後推定と不確実性推定の両方を推定の周りに割り当てます。これは、従来の方法で識別できます。エラーの推定値が悪い場合、それは必ずしも計算に関する確率論的見解が間違っていることを意味するのではなく、以前の一連の仮定が悪いことを意味します。より多くの事前知識を使用し、数値アルゴリズムを自律的なエージェントとして扱うことで、より多くの情報を抽出し、アルゴリズムをより高速に、より適切に機能させることができます。
Numerics of ML 10 -- Bayesian Quadrature -- Philipp Hennig
Numerics of ML 10 -- Bayesian Quadrature -- Philipp Hennig
  • 2023.02.02
  • www.youtube.com
The tenth lecture of the Master class on Numerics of Machine Learning at the University of Tübingen in the Winter Term of 2022/23. This class discusses both ...