00:00:00 このセクションでは、スピーカーは行列が変化したときの行列、固有値、および特異値の変化について説明します。逆行列の変化、逆行列の導関数、および行列が変化したときの固有値と特異値の変化の式を理解することに重点が置かれています。話者は、固有値と特異値の変化の正確な公式は存在しない可能性があると説明しています。 可能な限り、不等式を導出して、変化がどれほど大きくなるかを理解することができます。この講義では、時間 (T) に依存する行列 A と逆行列 A の設定についても説明します。
00:05:00 このセクションでは、スピーカーは行列の逆行列に関する前のセクションの議論を補完する微積分の同一性について議論します。この式は、逆行列の導関数は、逆行列の負の 1 倍に、行列の導関数と行列の逆関数を掛けたものに等しいと述べています。話し手は、逆行列の微分を「逆行列の変化」と呼び、式の両辺をデルタ T で割ることによって、どのように導関数を求めるかを説明します。式の理解。講演者はまた、大学数学における微積分の強調について意見を表明し、それが線形代数を覆い隠していると述べています。
00:10:00 このセクションでは、デルタ T がゼロになるとき、時間 t に対する dA/dt として行列 A の導関数の公式を説明します。デルタ a をデルタ T で割った比率には意味があり、デルタ T がゼロに近づくと、式は逆になります。 1 対 1 の場合の X に対する 1 の導関数は、X の 2 乗に対する 1 にすぎません。これは、デルタ a がフルサイズで低ランクの場合の式と同じです。次に、講義の焦点は、ラムダの固有値と、行列が変化したときに固有値がどのように変化するかに移ります。1 つの小さな変化と 1 つの変化のフルサイズの順序の 2 つの可能性があります。講義は、固有値と固有ベクトルを取り巻く事実で終わります。
00:15:00 このセクションでは、パラメータに依存する行列の固有ベクトルと固有値の概念について説明します。行列 A を詳細に調べます。固有ベクトル X は左側にあり、固有値は AX と同じです。対照的に、対称行列 A の固有ベクトル Y は、A または AT の転置と同じ方法で使用されます。正規化の重要性、特に Y 転置時間 X が 1 に等しいことが強調されています。次に、著者は数式の導関数を取得し、この新しいコンテキストに適合するように方程式をねじ曲げる方法について説明します。
00:30:00 このセクションでは、対称行列へのランク 1 の変更後の固有値の変更について話します。彼は、変化は微分ではなく真のベクトルであるため、新しい固有値の正確な式は存在しないことに注意しています。ただし、彼は、固有値が降順であり、ランク 1 の変化が正の半正定値であるなど、いくつかの既知の事実を共有しています。彼はまた、聴衆に uu 転置行列の固有ベクトルを検討するように求め、それが完全な n x n 行列の列×行であることを説明します。彼は、この計算から得られる数値はゼロより大きいと述べて結論付けています。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
00:05:00 このセクションでは、スピーカーは固有値の導関数に似た特異値の導関数について説明します。特異値の導関数の式は、da/dt に a の特異ベクトルを掛けた値の転置によって与えられます。この式は、V の a 倍が U のシグマに等しいという SVD に依存しています。これらの事実を使用して式を操作することにより、特異値の導関数の式を導き出すことができます。この式は、行列が時間とともにどのように変化するかを理解するのに役立ち、物理学や工学などのさまざまな分野に適用できます。
00:10:00 このセクションでは、スピーカーは逆値と特異値の導関数について説明します。彼らは、行列の SVD に関して特異値の式を説明することから始め、次に方程式の導関数を取ります。話者は積則を使用し、結果の方程式を単純化して、探している答えを与える項を見つけます。次に、他の 2 つの項がゼロになることを示し、選択した項が正しいことを証明します。最後に、内積と数値を使用して、U 転置による U の導関数がゼロに等しいことを示します。
00:30:00 このセクションでは、スピーカーは Vile の不等式と、それがインターレースとどのように関係しているかについて説明します。 Vile の不等式は、固有値がどれだけ増加できるかについて制限を与えます。この事実は、インターレース現象を理解するために重要です。スピーカーは、Vile の不等式とグラフを含む別の方法を含む、インターレースを証明する 2 つの方法があると述べています。このセクションでは、ビデオの次の部分で説明する圧縮センシングについても紹介します。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
講義では、行列とそのランクに焦点を当て、計算数学では急速に減少する特異値がどのように普及しているかに焦点を当てます。講師は低ランクの行列を調べ、特異値のシーケンスに多くのゼロがあることを示します。これにより、完全なランクの形式よりも低ランクの形式で行列を友人に送信する方が効率的になります。また、行列の数値ランクも導入します。これは、行列の特異値の許容範囲を定義する余地をいくらか与えることによって定義されます。多項式で十分に近似できる滑らかな関数をサンプリングすることにより、数値ランクが低くなり、結果として行列 X の低ランク近似が得られます。講義には、ガウス行列とヴァンデルモンド行列の例も含まれており、それらがどのように導くことができるかを説明しています。ランクの低い行列について説明し、特異値の境界におけるゾロタレフ数の有用性について説明します。
00:00:00 このセクションでは、計算数学の世界で低ランク行列が非常に一般的である理由を教授が説明しています。彼は、特異値の重要性について説明しています。特異値は、行列のランクと、それが低ランクの行列によってどれだけうまく近似できるかについて教えてくれます。彼は続けて、行列 X が K 個の非ゼロ特異値を持つ場合、行列 X は K 個のランク 1 行列の和に分解できると説明しています。さらに、X の列空間と行空間はどちらも次元 K を持ちます。特異値シーケンスは行列に固有のものであり、低ランクの行列をさまざまな数学的問題に出現させる X のプロパティを特定することに焦点が当てられています。
00:20:00 このセクションでは、行列の数値ランクについて学習します。これは、行列の特異値の許容範囲を定義する余地をいくらか与えることによって定義されます。 K がイプシロンを超える最初の特異値である場合、数値ランクは K であり、許容範囲を示します。ランクは、イプシロンを超える最後の特異値と同じであり、イプシロンを下回る最初の特異値です。数値的に低ランクの行列は、低ランクの行列であるだけでなく、特異値が急速に減少するフル ランクの行列でもあります。これにより、実際には妥当な許容レベルを許容しながら、低ランク近似を使用して行列を圧縮できます。ヒルベルト行列は、数値ランクが低いフル ランク行列の例です。
00:30:00 このセクションでは、スピーカーは、関数をサンプリングし、その関数を多項式で近似することにより、行列 X の低ランク近似を取得する方法について説明します。 x と y の両方で次数 M を持つ 2 つの変数の多項式を書き下してサンプリングできる場合、結果の x は低ランクになり、イプシロンはゼロに等しくなり、最大でも M の 2 乗ランクになります。多項式で適切に近似できる平滑関数をサンプリングすることにより、数値ランクが低くなり、結果として行列 X の低ランク近似が得られます。ただし、この方法の背後にある推論は、ヒルベルト行列ではうまく機能しません。フルランクです。
00:35:00 このセクションでは、講師が行列のランクを制限する適切な理由を見つける方法について説明します。多くの人が、行列のランクを正確に予測できる多項式を考え出そうとしましたが、その方法は満足のいくものではありませんでした。講師は、シルベスター方程式と呼ばれる特定の式を満たす行列であるシルベスター行列の考え方を紹介します。式を満たす A、B、および C を見つけることによって、行列が数値的に低いランクであることを示すことができます。講師は、ヒルベルト行列を使用した例と、シルベスター方程式を満たすために左と右に 1/2 を掛ける特定の方法を提供します。
00:40:00 このセクションでは、ガウス行列とヴァンデルモンド行列の例を示し、順列と乗算がどのように低ランクの行列につながるかを説明しました。講義では、X がセメスター方程式を満たす場合、フロベニウス ノルムと呼ばれるガウス行列とヴァンデルモンド行列の式に似た式を満たす任意の行列の特異値に境界を見つけることができると説明しています。 Fuller and bound は、行列のこの数値的な低ランクを示すために使用され、特定の方程式を満たすことと実際のこれらの低ランク行列の出現との関係を示すために例が示されています。
00:45:00 このセクションでは、講師はゾロタレフ数によって制限される特異値の抽象的な問題がどのように役立つかについて説明します。これが役立つ主な理由は、集合 E と F が分離されていることです。これが、ゾロタレフ数が k で非常に急速に小さくなる理由です。講師はヒルベルト行列を例として使用して、ゾロタレフ数が数値ランクに境界を与える方法を示し、計算数学に低ランク行列が非常に多い理由を示します。講師は、ゾロタレフ問題に取り組んだ 2 人の主要人物を取り巻く非公式の呪いについても言及しています。どちらも 31 歳で亡くなったため、ペンシルの名前の横に疑問符が付いています。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Alex TownsendView the complete course: https://oc...
この講義では、スピーカーは、L&U、Q&R、および固有ベクトル行列などのさまざまな行列因数分解を確認し、これらの各行列の自由パラメーターの数を数えます。また、Qs 対 SVD の計算についても説明し、ランク R 行列の SVD のパラメーターの数を数えます。講師は、行列の鞍点の概念と、最適化手法とラグランジュ乗数を使用してそれらを見つける方法についても説明します。最後に、講師は対称行列の固有値の符号と、レイリー商が行列の最大値と対応する固有ベクトルを決定するのにどのように役立つかについて説明します。
00:00:00 このセクションでは、スピーカーは、L&U、Q&R、固有ベクトル行列などの行列の大きな因数分解を確認し、これらの各行列の自由パラメーターの数を数えます。スピーカーは、L&U または Q&R の自由パラメーターの数が元の行列のパラメーターの数と一致する必要があること、および固有値行列と固有ベクトル行列の自由パラメーターの合計が N の 2 乗になることに注意します。講演者は、この演習は教科書にはあまり見られないが、線形代数を理解するための重要な復習であると述べています。
00:05:00 このセクションでは、スピーカーは、SVD、LU、QR、極分解など、さまざまな行列因数分解における自由パラメーターの数について説明します。スピーカーは、N x n の直交行列 Q の自由パラメーターの数は、正規化と直交条件により、最初の列では N-1 であり、後続の列では N-2 であることに注意します。また、対称行列 S の自由パラメーターの数についても説明しています。これは、1/2 N × N から 1 を引いたものに対角要素の数を加えたものです。次に、L × U、Q × R、Q × S など、さまざまな因数分解でこれらのカウントがどのように加算されるかを示します。最後に、対称行列の直交倍になる別の因数分解として、極分解について言及しています。
00:10:00 このセクションでは、講師が Qs と SVD の計算について説明し、SVD のパラメーターをカウントします。長方形行列が持つことができる最大のランクは M で、SVD の M 行 N 列の行列になります。講師は、それが MN 個のパラメーターを持つ元の行列の合計になることを期待しています。 S のカウントは M に等しく、V のカウントは N に等しくなります。M 行 M 列の直交行列の場合、U のカウントは 1/2 (M^2 + M) に等しくなります。
00:15:00 このセクションでは、スピーカーはランク R 行列の行列の特異値分解 (SVD) で重要なパラメーターをカウントする方法を説明します。行列の重要な部分は、ゼロ以外の特異値に対応する V の M 列だけです。パラメーターの数を数えるために、スピーカーは、M 列までの V の各直交列で必要なパラメーターの異なる数を説明する公式を使用します。この式では、各列の NM に 1 を加算し、その数を M の 2 乗 + M + 1 の半分から減算します。式の結果は、ランク R 行列の SVD のパラメーターの最終カウントです。
00:20:00 このセクションでは、スピーカーはランク R の行列とそれらが持つパラメーターの数について説明します。ランク R の行列は部分空間ではありません。これは、異なる行列が同じランクを持つことができ、異なる部分を持つ曲面のようになるためです。話し手は、ランク R の行列には R 個のパラメーターがあると信じています。次に、ランク R 行列のパラメーターの数を見つけます。パラメータの数は、Sigma は R、V は (R + 1) / 2、U は (M - 1) + (M - 2) + ... + (M - R) です。
00:30:00 このセクションでは、スピーカーは関数の鞍点を見つける方法について説明し、ブロック行列で表される重要なクラスの問題でそれらがどのように発生するかを示します。関数には最大値ではなく、鞍点があります。この問題に対する Lagron の貢献は、X とラムダに関する導関数を取り、それぞれ n と m の方程式を生成することです。最終的に、ブロック行列で表される行列は正定値ではないことを示し、この情報を使用して鞍点を決定できます。
00:35:00 このセクションでは、講師は、マトリックスの行列式がその固有値の符号を決定するのにどのように役立つかについて説明します。簡単な例を使用して、行列式が負の場合、両方の符号の固有値が存在する必要があることを示しています。次に、これを最適化で使用される KKT 行列に関連付け、それらは一般に不定ですが、それらには正定値ブロックが関連付けられていると主張します。彼は、この正定ブロックでブロック消去を使用すると、すべての n ピボットが正になり、KKT 行列が正と負の両方の固有値を持つという結論につながることを示しています。
00:45:00 このセクションでは、スピーカーはレイリー商における鞍点の概念について説明します。最小値と最大値の間の中間のラムダを処理するのは困難です。ただし、最大値と最小値では、商の値は簡単に測定できます。任意のベクトルが任意の次元で選択されている場合、最大値と最小値の間にある X の R を計算できます。講演者によると、サドル ポイントの詳細については次回のレクチャーで説明しますが、その前に、オーバーフィッティングとディープ ラーニングについて説明する 3 つ目のラボがあり、休憩後に予定されています。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
00:00:00 このセクションでは、スピーカーは、深層学習におけるコスト合計関数の最小値を見つけることに関連して、鞍点を理解することの重要性について説明します。これらは、レイリー商と単純な行列 S の例を提供し、鞍点、関数の最大値と最小値、および鞍点の存在の主な事実を示しています。講演者は、ラボ 3、プロジェクト、および基本的な統計、特に共分散行列について話し合う計画についても言及しています。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
00:25:00 このセクションでは、スピーカーはマルコフの不等式とチェビシェフの不等式の関係を説明します。彼は、X から M の 2 乗を引いた新しい変数 Y を導入し、その平均を計算する方法を説明します。次にスピーカーは、マルコフの不等式を Y に適用し、チェビシェフの不等式を X に適用して、どのように同じ結果が得られるかを示します。最後に、共分散と共分散行列の概念を紹介します。
00:30:00 このセクションでは、スピーカーは共分散と共分散行列の概念を紹介します。共分散行列は、M x M の行列で、M は一度に行われる実験の数です。この概念を説明するために、話者はコインごとに 1 つの出力 (X) で 2 つのコインを弾く例を使用します。 2 つのコインが別々に裏返された場合、出力間に相関関係はありませんが、それらが接着された場合、出力は相関し、結合確率は 2x2 行列に入れられます。
00:40:00 ビデオのこのセクションでは、スピーカーが 3 枚のコインを投げる同時確率と、それを 3 方向行列で表す方法について説明します。彼は、テンソルと共分散行列の概念に言及し、後者を 2 つの実験 X と Y の結合結果の分散として定義し、すべての可能な結果の合計として表されます。講演者はまた、シンボル P IJ と、それがさまざまな構成でコインを接着したり、接着を解除したりすることにどのように関係しているかを説明します。
00:50:00 このセクションでは、スピーカーは共分散行列とそのプロパティについて話します。彼は、X 実験の分散はすべての P IJ の合計から導き出されるのに対し、Y 実験の分散はシグマ Y の 2 乗値によって与えられると説明しています。 X と Y の間の共分散は、P IJ に X の平均からの距離と Y の平均からの距離を掛けた合計です。独立したコインの場合、共分散はゼロになりますが、接着されたコインの場合、シグマ X の 2 乗 シグマ Y の 2 乗と同じになります。行列の行列式は、接着されたコインの場合はゼロです。これは、共分散の 2 乗が Sigma X の 2 乗 Sigma Y の 2 乗と同じであることを示しています。共分散行列は常に正の半正定であり、ランク 1 の正の半正定の組み合わせであるため、正の半正定または正定です。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
00:00:00 このセクションでは、講師が最適化の基本について説明します。これは、深層学習に入る基本的なアルゴリズムです。講義はテイラー級数の説明から始まり、関数が複数の変数からなる場合にテイラー級数を拡張する方法を示します。次に講師は、各 X 変数に関する F の偏導関数である F の勾配を紹介します。最後に 2 次項について説明し、2 次導関数とそれらがより多くの変数でどのように変化するかについて説明して、講義を終了します。
00:05:00 講義のこのセクションでは、関数の二次導関数の行列であるヘッセ行列の概念を紹介します。ヘッセ行列は対称であり、その計算は n の小さい値から適度に大きい値まで実行可能です。ヤコビ行列であるベクトル関数の並列図があり、エントリはさまざまな変数に関する関数の導関数です。これらは、最適化問題で方程式を解くために使用される多変数計算の事実です。
00:10:00 このセクションでは、講師が n 個の未知数の連立方程式を解くためのニュートン法について説明します。これには、特定の関数の最小化が含まれます。ニュートン法は、n 個の未知数で n 個の方程式を解くための最良の方法です。F は 0 に等しく、1 の F はゼロに等しく、合計で n 個の方程式があるとして表すことができます。講師は、ニュートン法を使用して x の 2 乗マイナス 9 が 0 に等しい方程式を解く方法を示します。これは関数として記述でき、その方法を段階的に適用する方法を実演します。
00:15:00 このセクションでは、講師がニュートン法を使用して関数を最小化する方法と、関数が収束する速度を決定する方法について説明します。まず、X sub K + 1 を決定する式を単純化することから始め、X sub K がちょうど 3 の場合、X sub K + 1 も 3 になることを示します。次に、誤差がゼロに近づく速度に注目し、両方から 3 を引きます。式を単純化すると、ステップ K + 1 での誤差がすべてのステップで 2 乗されることがわかります。これは、ニュートン法が十分近くで実行された場合に優れている理由を証明しています。
00:20:00 このセクションでは、講師が最適化にニュートン法を使用する方法と、数千または数十万もの変数を持つ非常に複雑な損失関数に適用する方法について説明します。講義では、最急降下法とニュートン法という 2 つの方法について説明します。最急降下法では、F の勾配の方向に移動しますが、ステップ サイズは自由に決定できます。一方、ニュートン法は F の 2 次導関数を考慮し、より高速な収束を可能にしますが、望ましくない解に収束したり、特定の開始点で爆発したりする可能性もあります。これは、特定の開始点が望ましい解決策につながり、他の開始点が望ましくない解決策または無限につながるという引力領域の概念につながります。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
ビデオ「Gradient Descent: Downhill to a Minimum」では、関数を最小化することを目標とする最適化と深層学習における勾配降下法の重要性について講演者が説明しています。スピーカーは、勾配とヘッシアンを紹介し、二次関数を使用して最急降下のステップを示します。講演者はまた、勾配とヘッセ行列を解釈する方法、および凸性の測定におけるそれらの役割についても説明します。講演者は、収束速度を制御する上での条件数の重要性を強調しながら、適切な学習率の選択について詳しく説明します。このビデオでは、ヘビー ボール法など、勾配降下法の概念を理解するのに役立つ実用的な例と式も提供しています。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
00:05:00 このセクションでは、スピーカーは、楕円を形成する定数に等しい X と Y の 2 乗の関数を使用して、モデルの問題の最も急な方向の降下とレベル セットについて説明します。彼らは、最適な停止点は、レベルセット楕円の最も遠い点に接し、再び上昇を開始する場所であると説明しています.話者は運動量項を導入して最急降下式を改善し、その降下をジグザグ パターンで追跡し、固有ベクトルの値の改善を示します。話者は、勢いのある表現は奇跡であり、大幅な改善をもたらすと結論付けています。
00:10:00 ビデオのこのセクションでは、スピーカーは勾配降下を加速する際の運動量の使用について説明します。運動量の減衰項は、減衰がどれだけ小さいかを示します。運動量を使用すると、1 を引いた B と 1 を足した B のこの項は、1 を引いた B の平方根を 1 を足したものと、B の平方根を足したものに変わります。 B は 100 分の 1 であり、新しい X は古い X から勾配を引いたものであり、余分な項が追加されているため、少し記憶が残ります。この用語は、ステップ サイズで新しい量 Z を取得することを含み、Z を単なる勾配として取得する代わりに、スピーカーは前の Z の倍数ベータを追加します。これが探索方向です。
00:20:00 このセクションでは、スピーカーは、加速勾配降下アルゴリズムで k が前進するときに何が起こるかを分析する方法について説明します。彼らは、XZ変数が行列で乗算されるため、すべてのステップで定数係数の問題があると説明しています。スピーカーはまた、s の各固有ベクトルを追跡するために、ベクトルではなくスカラーに関して式を書き換えることができる各固有値に従うことにも言及しています。
00:25:00 このセクションでは、スピーカーは 1 つの固有ベクトルを追跡し、それを使用して問題全体をスカラーにする方法について説明します。ステップ サイズと運動量係数を選択することで、各ステップで固有ベクトルの係数を乗算して更新できる行列を作成できます。 s と beta をできるだけ小さくすることで、可能なラムダの全範囲にわたってアルゴリズムが損失関数を最小化することを保証できます。目標は、プロセスをできるだけ効率的にするためにこれらの値を選択することです。
00:30:00 このセクションでは、対称正定行列の最小固有値に対する最大固有値の比率である条件数の概念についてスピーカーが説明します。条件数が大きいほど問題が難しく、小さいほど問題が簡単です。スピーカーは、行列の固有値をできるだけ小さくするために s と beta の値を選択することによって勾配降下を加速し、最大の固有値を最小化するために運動量を使用する方法を説明します。話し手は、固有値が 1 つでも大きいと致命的となる可能性があるため、両方の固有値を最小化することが不可欠であることを強調します。
00:35:00 ビデオのこのセクションでは、スピーカーは、ラムダ、m、および capya に依存する固有値に基づいて、2 行 2 列の行列の最適なパラメーター s とベータを見つける問題について説明します。目標は、可能な限り小さい大きな固有値をもたらすパラメーターを選択することです。これにより、収束が速くなります。スピーカーは、小さな m と大きな M の比率に依存する最適な s とベータの式を提示し、この式に基づいて結果の最小固有値を計算する方法を説明します。最終的に、話者は、s とベータのこの最適な選択により、固有値が特定の数よりも小さくなり、収束が速くなると結論付けます。
00:40:00 このセクションでは、スピーカーは機械学習の収束率を向上させるためにモメンタムを使用することについて話します。彼らは、以前の時間の値を含むわずかに異なるアイデアを使用し、別の時点で勾配を評価するための Nesterov の方法について言及しています。講演者は、ADA grad など、以前の値を加算するための単純な式を含む機械学習で現在使用されている非常に一般的な方法があることを指摘しています。彼らはまた、MATLAB ソフトウェアや惑星計算で使用される後方差分式で行われるように、2 つまたは 3 つのステップまたはそれ以上戻ることで、さらに改善できる可能性があることを示唆しています。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
00:15:00 このセクションでは、スピーカーは線形計画法と、非線形計画法、二次計画法、半定値計画法、内点法などのさまざまなタイプについて説明します。話者は、線形計画問題の双対問題を作成し、主問題を線形コストと線形不等式制約を伴う最大化問題に変える、双対性の考え方を紹介します。次に、話者は、主問題とその双対問題は密接に関連しており、シンプレックス法を使用して解決できることを説明します。さらに、話者は双対性という重要な考え方を紹介します。これは、最大値は常に実行可能な許容値以下であると述べています。最後に、話者は不等式 B 転置 Y が C 転置 X 以下であることを 1 行で証明します。
00:20:00 このセクションでは、スピーカーは、線形計画法におけるゼロ以上の X の重要性と、弱い双対性を達成する上でのその役割について説明します。 X がゼロ以上であるという事実は、目的の不等式が満たされ、システムから得られる結果が正しいことを保証します。講演者は、双対性の概念と、それが線形計画法や 2 人用ゲームにどのように関係するかについて言及し、どちらの場合もアルゴリズムに注意を払うことの重要性を強調します。スピーカーは、説明した概念を実証するために、最大フローと最小カットの例も提供します。
MIT 18.065 Matrix Methods in Data Analysis, Signal Processing, and Machine Learning, Spring 2018Instructor: Gilbert StrangView the complete course: https://o...
講義 15. 行列 A(t) t に応じて、導関数 = dA/dt
15. 行列 A(t) t に応じて、導関数 = dA/dt
このビデオでは、行列とその逆行列の変化、固有値と特異値の経時変化など、行列に関連するさまざまなトピックを取り上げます。講演者は、これらの変化を計算するための重要な公式を説明し、線形代数における微積分を理解することの重要性を強調します。さらに、この講義では、正規化の重要性について説明し、対称行列とランク 1 行列の両方の固有値のインターレース定理について説明します。最後に、ビデオはカバーされたトピックのレビューと、将来の講義でそれらを拡張する約束で締めくくられます.
可能な限り、不等式を導出して、変化がどれほど大きくなるかを理解することができます。この講義では、時間 (T) に依存する行列 A と逆行列 A の設定についても説明します。
講義 16. 逆導関数と特異値の導関数
16. 逆微分と特異値の導関数
このビデオでは、行列の逆値と特異値の導関数、インターレース、行列の核ノルムなど、さまざまなトピックを取り上げています。講演者は、SVD を使用して特異値の導関数の式を提示し、行列が時間の経過とともにどのように変化するかを理解しながら、対称行列の固有値の変化の境界を確立します。バイアルの不等式は、行列のラムダ値を推定する方法として導入され、基底追跡は行列補完問題で使用されます。講演者はまた、マトリックスの核ノルムが、まったくノルムではないノルムに由来するという考えについて議論し、次の講義で議論されるなげなわと圧縮センシングの概念を紹介します。
講義 17: 特異値の急激な減少
講義 17: 特異値の急激な減少
講義では、行列とそのランクに焦点を当て、計算数学では急速に減少する特異値がどのように普及しているかに焦点を当てます。講師は低ランクの行列を調べ、特異値のシーケンスに多くのゼロがあることを示します。これにより、完全なランクの形式よりも低ランクの形式で行列を友人に送信する方が効率的になります。また、行列の数値ランクも導入します。これは、行列の特異値の許容範囲を定義する余地をいくらか与えることによって定義されます。多項式で十分に近似できる滑らかな関数をサンプリングすることにより、数値ランクが低くなり、結果として行列 X の低ランク近似が得られます。講義には、ガウス行列とヴァンデルモンド行列の例も含まれており、それらがどのように導くことができるかを説明しています。ランクの低い行列について説明し、特異値の境界におけるゾロタレフ数の有用性について説明します。
講義 18: SVD、LU、QR、サドル ポイントのカウント パラメータ
講義 18: SVD、LU、QR、サドル ポイントのカウント パラメータ
この講義では、スピーカーは、L&U、Q&R、および固有ベクトル行列などのさまざまな行列因数分解を確認し、これらの各行列の自由パラメーターの数を数えます。また、Qs 対 SVD の計算についても説明し、ランク R 行列の SVD のパラメーターの数を数えます。講師は、行列の鞍点の概念と、最適化手法とラグランジュ乗数を使用してそれらを見つける方法についても説明します。最後に、講師は対称行列の固有値の符号と、レイリー商が行列の最大値と対応する固有ベクトルを決定するのにどのように役立つかについて説明します。
講義 19. サドル ポイントの続き、Maxmin の原理
19. サドルポイントの続き、マックスミンの原理
このビデオでは、スピーカーは、鞍点と、2 次元空間でレイリー商を使用して最小値と最大値を見つける方法について引き続き説明します。最大値と最小値をすばやく見つけるために、鞍点を最小値の最大値として記述するインターレース定理について説明します。講演者はまた、高次多項式でデータをフィッティングする際のオーバーフィッティングに対して警告し、鞍点と単純なニューラル ネットワークを含むクラスの 2 つの自由形式のラボについて説明します。統計の平均と分散、サンプルの分散と共分散の概念が説明されています。講演者は、完全に依存する出力の共分散行列は可逆ではないことに注意し、複数の人が 1 つの家に住んでいる場合の世論調査のシナリオでは、ある程度の共分散が予想されますが、完全に独立しているわけではありません。
講義 20. 定義と不等式
20. 定義と不等式
ビデオのこのセクションでは、講演者は、期待値、分散、共分散行列など、確率論のさまざまな概念について説明します。マルコフの不等式とチェビシェフの不等式も、確率を推定するための基本的なツールとして導入されました。次にスピーカーは、マルコフの不等式とチェビシェフの不等式の間の関係を説明し、それらがどのように同じ結果につながるかを示します。確率論の基本的なツールである共分散と共分散行列の概念も導入されました。このビデオでは、同時確率とテンソルの考え方についても説明し、コインをくっつけるとどのように依存関係が追加され、確率が変化するかを説明しています。最後に、スピーカーは共分散行列のプロパティについて説明し、それが常に正の半正定行列であり、ランク 1 の正の半正定行列の組み合わせであることを強調します。
講義 21: 関数を段階的に最小化する
講義 21: 関数を段階的に最小化する
このビデオ講義では、関数を最小化するために使用される基本的なアルゴリズムとその収束率、特にニュートン法と最急降下法について説明します。また、関数に 1 つの最小値があることを保証する凸性の重要性を強調し、凸集合と凸関数の概念を紹介します。講師は、関数の凸性をテストする方法を説明します。これにより、グローバル最小値ではなく、鞍点またはローカル最小値があるかどうかが決まります。ビデオは、完全に二次的ではないニュートンの方法の安価なバージョンであるレーベンバーグ マルカートの議論で締めくくられています。
講義 22. 勾配降下: 下り坂を最小に
22. 勾配降下: 最小限までの下り坂
ビデオ「Gradient Descent: Downhill to a Minimum」では、関数を最小化することを目標とする最適化と深層学習における勾配降下法の重要性について講演者が説明しています。スピーカーは、勾配とヘッシアンを紹介し、二次関数を使用して最急降下のステップを示します。講演者はまた、勾配とヘッセ行列を解釈する方法、および凸性の測定におけるそれらの役割についても説明します。講演者は、収束速度を制御する上での条件数の重要性を強調しながら、適切な学習率の選択について詳しく説明します。このビデオでは、ヘビー ボール法など、勾配降下法の概念を理解するのに役立つ実用的な例と式も提供しています。
講義 23. 勾配降下の加速 (Momentum を使用)
23. 勾配降下の加速 (Momentum を使用)
このビデオでは、勾配降下を加速する際の運動量の概念について説明します。プレゼンターは基本的な勾配降下法を説明し、勢いを加えると通常の方法よりも速く降下し、最終的に大幅な改善が得られることを示します。また、最急降下の連続モデルについても説明し、それを運動量項を含む 2 次微分方程式として解析する方法を説明しています。プレゼンターは、行列の固有値をできるだけ小さくするために s と beta の値を選択することにより、運動量を使用して最大の固有値を最小化するときに、両方の固有値を最小化することの重要性を強調しています。彼らはまた、Nesterov の方法について議論し、2 つまたは 3 つのステップまたはそれ以上戻ることによって、さらなる改善が得られる可能性があることを示唆しています。
講義 24. 線形計画法と二人用ゲーム
24. 線形計画法と二人用ゲーム
この YouTube ビデオでは、線形計画法と 2 人用ゲームのトピックを取り上げています。線形計画法は、一連の線形制約に従って線形コスト関数を最適化するプロセスであり、経済学や工学などの分野で使用されます。動画では、シンプレックス法や内点法など線形計画法で使われるアルゴリズムや、主問題とその双対問題が密接に関係し、シンプレックス法で解ける双対性の概念について説明しています。このビデオでは、ネットワーク内の最大フローの上限を見つけ、行列を使用してゲームを解くプロセスなど、線形計画法を 2 人用ゲームに適用する方法についても説明しています。最後に、ビデオでは、これらの手法を 3 人以上のゲームに適用する際の制限について簡単に説明し、次の講義で確率的勾配降下法について説明することに言及しています。