機械学習とニューラルネットワーク - ページ 4

 

講義 6 - 一般化の理論




Caltech の機械学習コース - CS 156. 講義 06 - 一般化の理論

講義では、一般化の理論と成長関数を、N 個の点のセットに設定された仮説によって生成できる二分法の数として説明します。目標は、成長関数全体を特徴付け、ブレークを特徴付けることによってすべての N について一般化することです。点。スピーカーは、さまざまな仮説セットの成長関数を計算し、組み合わせの同一性を使用して成長関数の上限を証明するプロセスを示します。この議論では、Hoeffding 不等式における成長関数の使用、仮説間のオーバーラップを特徴付ける VC バインド、および Vapnik-Chervonenkis 不等式 (ブレークポイントによって決定される多項式の次数を持つ N の多項式) の使用についても触れています。

教授は、一般化の理論について説明し、これまでのポイントを明確にし、学習に必要なリソースを計算するために使用されるブレーク ポイントの概念を説明します。学習の焦点は、E_in ではなく E_out の近似にあり、学習者は慣れ親しんだ量を扱うことができます。教授はまた、M を成長関数に置き換えた理由と、これが N と k の組み合わせ量 B にどのように関係しているかを説明します。回帰関数について議論する際に、教授はバイアスと分散のトレードオフと、学習可能性がターゲット関数とどのように独立しているかを強調しています。最後に、教授は、同じ原則がすべてのタイプの関数に適用されることに注意します。

  • 00:00:00 このセクションでは、点の有限集合と成長関数に制限されるミニ仮説としての二分法について学びます。成長関数は、N 個のポイントのセットに設定された仮説によって生成できる二分法の数をカウントします。パーセプトロンのブレークポイントは、制限されたセットからの仮説の使用によりパターンが失われ始めるポイントとして定義されます。理論的な目標は、成長関数全体を特徴付け、ブレークポイントを特徴付けることによってすべての N について一般化することです。また、仮説セットや入力空間とは関係なく、少数の点でのパターン数を制限すると、多数の点で多くのパターンが失われることもわかります。

  • 00:05:00 このセクションでは、講師が 2 つの項目について説明します。1 つ目は、成長関数がブレーク ポイントを持つ多項式であることを示し、2 つ目は、ヘフディングの不等式で仮説の数 M を置き換えることを示しています。講師は、成長関数の詳細を決定する必要はなく、ヘフディングの不等式で使用できるように多項式によって制限されることを示すだけでよいことを強調しています。講師は、N と k の B と呼ばれるキー量を紹介します。これは、ブレークポイント k を持つ N 点での二分法の最大数を表す組み合わせ量です。 N, k の B の境界は、テーブルに N 個のポイントを入力し、最後のポイントを分離して再帰を導入することにより、再帰的に検出されます。

  • 00:10:00 このセクションでは、スピーカーはバイナリ シーケンスの拡張を表す行列の行をグループ化する方法について説明します。最初のグループ S_1 は、拡張子に基づいて 1 回だけ表示される行で構成されます。 2 番目のグループ S_2 は、両方の拡張子で表示される行で構成されます。これらのグループ化を使用して、話者はグループ S_1 の行数をアルファとして定義し、グループ S_2 の行数をベータとして定義します。これらの定義を使用すると、話者は、k 列がすべての可能なパターンを持たないように、N ポイントで取得できる行/パターンの最大数の再帰を見つけることができます。

  • 00:15:00 講義のこのセクションでは、スピーカーは一般化の理論とベータの推定方法について説明します。彼は、繰り返されるパターン ブロックを含む S_2 行列の 2 番目の部分を分析することで、これらのパターン ブロックには k ではなく、k - 1 のブレーク ポイントがあると主張できると説明しています。彼はまた、ミニマトリックスの行またはパターンの総数であるアルファプラスベータを取ることで、この小さなマトリックスのブレークポイントについて何かを言うことができると説明しています.最後に、すべてをまとめると、完全な行列とその行数を見積もることができると述べています。

  • 00:20:00 このセクションでは、スピーカーは行列を分析し、N と k の B の上限を解くための再帰式を導出します。ここで、N と k の B は、ブレークを設定した仮説セットの最大成長関数です。 kのポイント。再帰式を使用して N と k の B の値を計算することにより、話者はテーブルに N と k の B の上限を設定します。テーブルの境界条件が最初に満たされ、次に再帰式を使用してテーブルの残りの部分が満たされます。

  • 00:25:00 このセクションでは、スピーカーは一般化の理論について説明し、特定のポイント数 N とブレーク ポイント k が与えられた場合の二分法またはパターンの最大数を表すテーブルについて話します。スピーカーは、テーブルがどのように満たされるか、および制約がどのように空になるかを説明します。さらに、仮説セットや入力空間について何の質問もせずに、分岐点 k を持つ任意の仮説セットの成長関数の上限となる二分法またはパターンの最大数を計算する式を提示します。

  • 00:30:00 このセクションでは、講師が N と k の公式に関する定理を証明する帰納法について説明します。このステップでは、与えられた N と k の値に対して式が成り立つと仮定し、N-1 と k-1 についても成り立つことを証明します。講師は、2 つの式を操作し、合計をマージし、代数または組み合わせ論を使用してそれらを単一の量に減らすプロセスを実演します。目的は、与えられた式が N と k のすべての値 (以前に想定された値を含む) に対して成り立つことを確立することであり、そこから定理が証明されます。

  • 00:35:00 このセクションでは、スピーカーは N と k の B の上限を証明するプロセスを説明します。これは、ブレークポイント k を持つ仮説セットの成長関数であり、組み合わせの同一性を使用します。結果として得られる多項式は有用です。なぜなら、ブレーク ポイントは固定数であり、N とともに大きくならないからです。話者は次に、最大べき乗が N から k を引いた 1 であることを示すことによって、上限が N の多項式であることを示します。絶え間ない。最後に、話者は仮説セットの 3 つの例に上限を適用し、それらすべてが上限を満たしていることを示します。

  • 00:40:00 このセクションでは、講師が正の光線と正の間隔の成長関数の計算について説明します。必要な唯一の入力であるブレークポイントを利用することで、仮説セットのジオメトリを考慮せずに成長関数を見つけることができます。次に、講師はこの方法を 2 次元パーセプトロンに適用します。成長関数は不明ですが、ブレーク ポイントが 4 であることがわかっています。ブレーク ポイントを使用することで、成長関数を完全に束縛することができます。これは重要です。仮説セットの特徴付けを簡素化する際に。講師は次に、この成長関数をヘフディングの不等式で使用して、M が有意または無限の場合にほとんど役に立たない結合境界を使用して仮説の数を置き換える方法を説明します。

  • 00:45:00 このセクションでは、講師が成長関数の多項式の有界性を絵で証明する方法を説明します。可能なデータ セットのスペースはすべての軸をカバーし、色付きの領域は、特定のデータ セットが原因で E_in が E_out から逸脱する悪い領域を表します。この悪い領域を赤く塗り、ヘフディングの不等式を使用することで、講師は色付けされた領域が小さいことを示し、結合結合が複数の仮説の可能性を主張できるようにします。ただし、さらに仮説を追加すると、色付きの領域がキャンバスを埋め尽くすため、ユニオン バウンドの問題が発生します。次に、講師は、成長関数とオーバーラップの間の関係を確立するために必要な 2 つの側面と、E_out が有限標本引数に準拠するためのアプローチについて説明します。

  • 00:50:00 このセクションでは、講師は仮説間の重複を特徴付けるための新しいキャンバスとして VC バウンドを紹介します。彼は、成長関数はこれらの重複を特徴付ける抽象的な量であり、同じように振る舞う二分法の数を教えてくれると説明しています。冗長性は成長関数によって捉えられ、着色される点はサンプルだけでなく空間全体にも依存すると講師は説明します。講師は、仮説全体に依存せずに E_out と E_in を追跡するために、同じ分布から個別に生成された 1 つではなく 2 つのサンプルを選択することでこれを克服します。

  • 00:55:00 このセクションでは、スピーカーは、2 つの異なるサンプルである E_in と E_in ダッシュの間の追跡の概念と、それらが相互に追跡するかどうかについて説明します。複数のビンが使用される場合、E_out と E_in の間の関係はますます緩くなります。また、ビンの数が増えると、それらはゆるやかに離れます。複数の仮説の数学的影響は、ここでは 1 つのビンの場合と同じように発生します。話者が証明の技術を経ると、イプシロンは 2 を超えるイプシロンになり、次に 4 を超えるイプシロンになります。プラグインすると、イプシロンは 16 を 2 乗し、1/8 の因数になります。得られた結果は Vapnik-Chervonenkis 不等式と呼ばれ、N の多項式であり、ブレーク ポイントによって決定される多項式の次数を持ちます。

  • 01:00:00 ビデオ講義のこのセクションでは、司会者が教授に、前のスライドで説明したいくつかのポイントを明確にするように求めます。教授は、スライド 5 で選択された N 個の点は、機械学習の入力空間内の特定の点のセットに対応すると説明していますが、抽象化では、これらは単なる抽象的なラベルです。教授はまた、講義でのアルファとベータの使用は単なる命名規則であり、2 つの相対的な値についての主張はないと明言しています。最後に、教授は、入力空間と仮説セットにアクセスし、特定の仮説セットについて、すべての可能な方法で分離できないポイントの最大数を見つけることによって、ブレークポイントが計算されると説明しています。

  • 01:05:00 このセクションでは、教授は、ほとんどの学習モデルでは、正確なブレークポイントまたは境界のあるブレークポイントが既に確立されていると説明しています。つまり、学習プロセスを開始する前に、学習に必要なリソースを見積もることができます。境界が厳密でない場合もありますが、ほとんどの場合、成長関数の正確な推定値と 2 次境界の間の不一致は無視できます。講義では、学習の焦点は E_in の実際の値ではなく、学習者が慣れ親しんだ量で作業できるようにする E_out への近似値にあることを強調しています。最後に教授は、学習の理論を理解するための構成要素である VC の次元について、次の講義で詳しく説明することを聴衆に保証します。

  • 01:10:00 このセクションでは、教授は M を成長関数に置き換える理由と、ステートメントの技術的要件を満たすために必要な変更について説明します。教授はまた、N と k の B の定義を明確にし、B がブレークポイントで設定された仮説の上限である方法と、それが純粋に組み合わせの量である方法を詳しく説明します。次に教授は、N と k の B の証明に関する質問に答え、x_N を x_N-1 に減らしても k は変化しないと述べています。これは、より小さいセットの k 列がすべての可能なパターンを持つことはできないためです。最後に、教授は、分析と VC 分析は 2 項関数に適用できますが、実数値関数に拡張することもできます。

  • 01:15:00 このセクションでは、教授は、回帰関数について議論する際に、学習可能性に関する技術的な拡張に入る代わりに、バイアスと分散のトレードオフという別のアプローチを使用する方法について説明します。彼はまた、仮説セットに関する条件下で学習可能性が証明されていること、およびそれがターゲット関数とは無関係であることを明らかにしています。彼は続けて、一般化の問題はターゲット関数に依存しないが、ユーザーを満足させるために E_in を最小化できるかどうかの問題はターゲット関数に依存すると説明します。最後に、教授は、機能のタイプに関係なく、同じ原則が適用されると述べています。
Lecture 06 - Theory of Generalization
Lecture 06 - Theory of Generalization
  • 2012.04.21
  • www.youtube.com
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
 

講義 07 - VC ディメンション




Caltech の機械学習コース - CS 156. 講義 07 - VC ディメンション

講義では、仮説集合が打ち砕くことができる最大の点数であるVC次元の概念を紹介し、その実践的な応用について説明します。 VC 次元はモデルの自由度を表し、モデル内のパラメーター数との関係について説明します。さまざまな仮説セットの VC 次元を計算する方法を示す例が示されています。必要な例の数と VC 次元の間の関係が調査され、2 つの間に比例関係があることが注目されます。学習アルゴリズムのパフォーマンスに対する VC 次元の増加の影響についても説明します。全体として、この講義では、VC 理論とその機械学習への実際的な影響についての洞察を提供します。

また、このビデオでは、汎化の概念と汎化境界についても取り上げています。これは、機械学習における仮説セットのサイズと適切な汎化との間のトレードオフを示す肯定的なステートメントです。教授は、最初のブレーク ポイントの前の最大値である VC 次元と、それを使用して必要な例の数を概算する方法について説明します。彼は、正しい誤差測定を選択することの重要性を指摘し、VC 次元の推定値は、モデルを比較して必要な例の数を概算するために使用できる大まかな推定値であることを明確にしています。講義は、この資料と実験計画法のトピックとの共通点と、学習の原則が厳密な学習シナリオを超えて他の状況にどのように拡張されるかを強調することで終了します。

  • 00:00:00 このセクションでは、講師は機械学習の一般化を特徴付ける VC (Vapnik-Chervonenkis) 不等式である、学習理論における前の講義の主な結果を要約します。 Hoeffding 不等式から VC 不等式に切り替えるために必要な冗長性を特徴付ける成長関数が導入され、領域が重複する悪いイベントに関連しています。 E_out に関する技術的な問題は解決され、成長関数を使用して仮説 M の数が置き換えられました。その後、ブレーク ポイントに関連する VC 次元が定義され、任意の次元空間のパーセプトロンに対して正確に計算されます。 VC 次元の解釈とその実用的なアプリケーションについても説明します。

  • 00:05:00 このセクションでは、VC ディメンションの概念が、仮説セットによって粉砕できるポイントの最大数として導入されます。 VC 次元は d_VC として示され、成長関数が 2 から N になるような N の最大値です。粉砕できる N ポイント。このセクションでは、ポジティブ レイや 2D パーセプトロンなどの例を示し、特定の仮説セットの VC 次元を計算する方法を示します。 VC 次元は、仮説セットの成長関数を制限するために使用され、成長関数を制限する多項式の次数として機能します。

  • 00:10:00 このセクションでは、凸集合の VC 次元と学習との関係に焦点を当てます。 VC 次元は、仮説セットによって粉砕できるポイントの最大数を表します。 VC 次元が有限である場合、使用される入力分布または学習アルゴリズムに関係なく、最終的な仮説は一般化されます。ターゲット関数、学習アルゴリズム、および入力分布を含む学習図は、VC 理論が学習アルゴリズムおよびターゲット関数から独立しており、仮説セットのみに依存することを示しています。全体として、VC 理論には、仮説、仮説セット、および VC ディメンションの 3 つのブロックがあります。

  • 00:15:00 このセクションでは、VC 理論全体が扱う仮説セットであるパーセプトロンの VC 次元について学びます。これは、VC 次元を持ち、一般化できるかどうかを教えてくれるセットであるためです。 . 2 次元空間でのパーセプトロンの VC 次元は 3 ですが、単純な式では、d 次元空間では VC 次元は d + 1 であると述べられています。これは、VC 次元の重要性を理解する上で重要です。VC 次元が最大で d + 1、少なくとも d + 1 であることを示すことで、これを証明します。実証するために、破砕が可能である限り、破砕されるマトリックスを使用して、N 個の点 (N は d + 1) の特定のセットを構築します。

  • 00:20:00 このセクションでは、講師が d + 1 ポイントの特定のセットを示し、可逆行列を使用してそれらを粉砕できることを示します。次に、VC の次元について聴衆に質問を投げかけ、デモンストレーションの結果に基づいてどのような結論を下すことができるかを選択するよう求めます。正解は b です。これは、VC 次元が d + 1 以上であることを示しています。

  • 00:25:00 このセクションでは、教授は VC の次元が最大でも d + 1 であることを証明する方法について説明します。教授は聴衆に、いくつかのステートメントのどれが前提を確立するかを尋ね、彼らは「d」と答えます。教授は次に説明します。彼は d プラス 2 点のセットが存在することを示す必要があること. 彼は、d プラス 2 点のセットに対して、他の点の線形結合である 1 つの点が常に存在することを示すことによってこれを行います.したがって、彼は、パーセプトロンでは実装できないことを示す二分法を構築します。

  • 00:30:00 ビデオのこのセクションでは、パーセプトロンにおける二分法の概念についてスピーカーが説明しています。これは基本的に +1 または -1 のラベルを特定の点に割り当てます。代数的性質を使用することにより、VC 次元が d + 1 である d + 2 点の任意のセットを粉砕することは不可能であることが示されています。これは、d + 1 であるパーセプトロン モデルのパラメーターの数によるものです。 、および VC ディメンションは、粉砕できるポイントの最大数を示します。

  • 00:35:00 このセクションでは、VC ディメンションの概念とその解釈について説明します。 VC 次元は、モデルの自由度と、その自由度がパラメーターの数とどのように関連しているかを示す尺度です。この講義では、これらの自由度をオーディオ システムのノブと比較します。オーディオ システムでは、ノブが多いほどサウンドをより細かく制御できますが、効果的に使用するのは難しい場合があります。レクチャーでは、VC 次元がモデル内の数学の詳細を抽象化し、その表現力に焦点を当てていると説明します。また、VC 次元とさまざまなモデルの自由度 (正の光線など) との対応についても説明し、パラメーターが 1 つのモデルに対応する自由度が 1 の場合、VC 次元は 1 になることを示します。

  • 00:40:00 このセクションでは、講師は自由度と、自由度と VC ディメンションとの関係について、単純なモデルのコンテキストで説明します。 VC 次元は、モデルによって達成できる仮説の数を数えますが、パラメーターの数と必ずしも同じではありません。人工的な例を構築することにより、講師はパラメーターが常に自由度に寄与するとは限らないことを示します。代わりに、有効な自由度は、VC 次元によってより確実に測定できます。講師は、8 つのパラメーターを持つモデルが実際に 2 つのパラメーターしか持たないモデルと同じ VC 次元を持つことができる方法を示します。最後に、講師は、実践者はシステムに必要なデータ ポイントの数と、これが仮説セットの VC 次元にどのように関連するかに関心がある可能性があることに注意します。

  • 00:45:00 このセクションでは、スピーカーは、必要な例の数と VC 次元の値との関係について説明します。 VC の不等式には、できるだけ小さくしたい 2 つの小さなパフォーマンス量があります。これらの 1 つは E_out から遠くない E_in であり、もう 1 つは値が小さいデルタです。特定のイプシロン値とデルタ値を決定した後、スピーカーは、グラフにプロットされた関数 N を VC 次元で乗じ、e を -N 乗することを見て、それらを達成するために必要な例の数を決定する方法を説明します。曲線の興味深い部分は、確率が 1 未満の部分であり、スピーカーは VC 次元を 4 から 5 に増やすことの意味を探ります。

  • 00:50:00 このセクションでは、講師は、データセット内の例の数と、学習アルゴリズムの複雑さの尺度である VC 次元との関係について説明します。彼はいくつかのグラフを使用して、VC 次元が増加するにつれてアルゴリズムのパフォーマンスがどのように変化するかを示し、特定のレベルのパフォーマンスを達成するために必要な例の数が VC 次元に比例することを強調しています。ただし、彼はまた、パフォーマンスの境界が特定の単調性に従うことが保証されている一方で、実際のパフォーマンスが常にそうであるとは限らず、実務家にとってフラストレーションの原因になる可能性があることにも言及しています.

  • 00:55:00 このセクションでは、講師が VC 次元の観察と実際の応用について説明します。最初の教訓は、一定レベルのパフォーマンスを達成するために必要な VC の次元と例の数の間には比例関係があるということです。講師は、確率ステートメントが意味を持つ VC 不等式のコンフォート ゾーンに到達するには、VC 次元の 10 倍が必要であるという経験則を提供します。 2 番目の実際的な観察は、妥当なイプシロンとデルタの範囲が非常に広い場合、経験則も当てはまるということです。次に、講師は VC の不等式の公式を単純化し、それを公式資本オメガと呼び、それは成長関数に依存し、VC の次元が大きくなるにつれてオメガの公式は悪化すると述べています。
  • 01:00:00 このセクションでは、スピーカーは一般化の概念と、より多くの例を持つことが成長関数と多項式の動作にどのように影響するかについて説明します。彼は、悪い出来事を特徴付けるのではなく、肯定的なステートメントである一般化境界のアイデアを紹介します。 1 からデルタを引いた値以上の確率で、E_in は E_out を追跡します。つまり、例の数と仮説セットの VC 次元に依存するオメガ内にあることを意味します。スピーカーは、E_out が E_in とオメガによって制限されていることを示すために、一般化の境界を再配置することによって単純化します。彼は、この境界が仮説セットのサイズと優れた一般化の間のトレードオフをどのように示し、機械学習における正則化の概念につながるかを説明しています。

  • 01:05:00 このセクションでは、教授は、VC ディメンションは最初のブレーク ポイントのすぐ手前の最大値であると説明しています。これは、ブレーク ポイントとして機能するより大きなポイントもカウントされることを意味します。ブレークポイントの概念は多くの値をカバーしていますが、VC ディメンションは際立ったユニークなものです。彼はまた、粉砕 N ポイントについて議論するとき、個人は粉砕するポイントを選択できることを明確にしています。教授は、イプシロンとデルタは学習の 2 つのパフォーマンス パラメーターであり、イプシロンは E_in が E_out を追跡することを保証する近似パラメーターであり、デルタは確率ステートメントが失敗する可能性を決定する確率尺度であると説明しています。選択する点の数に対する誤差測度の影響について尋ねられたとき、教授は、バイナリの意味で誤差測度を扱う場合、上限があるため分散を心配する必要はないと説明しますが、他の点を使用する場合は分散を気にする必要はありません。 co-domain またはエラー対策、修正が必要です。

  • 01:10:00 このセクションでは、教授は VC 次元を正確に取得することはまれであると説明していますが、パーセプトロンの正確な次元は知っています。ニューラル ネットワークに関しては、冗長性とキャンセルのために、VC ディメンションの推定値が特定の数値を超えることはありません。教授は、VC 次元の境界は大まかな見積もりであると強調していますが、それでもその概念的な意味を維持しており、モデルを比較して必要な例の数を概算するためのガイドとして使用できます。経験則では、VC ディメンションの少なくとも 10 倍を使用して、VC 不等式の興味深い領域に入ります。これは、顧客が希望する精度のレベルによって異なります。教授は、この資料と実験計画法のトピックとの間には共通点があり、学習の原則は厳密な学習シナリオを超えて他の状況にまで及ぶと述べています。
Lecture 07 - The VC Dimension
Lecture 07 - The VC Dimension
  • 2012.04.26
  • www.youtube.com
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
 

講義 8 - バイアスと分散のトレードオフ



Caltech の機械学習コース - CS 156. 講義 08 - バイアスと分散のトレードオフ

教授は、機械学習におけるバイアスと分散のトレードオフについて議論し、仮説セットの複雑さが一般化と近似の間のトレードオフにどのように影響するかを説明します。講師は、バイアスと分散の概念を紹介します。これは、機械学習アルゴリズムが生成する仮説の平均と実際のターゲット関数との間の偏差を測定し、特定のモデルの仮説の分布が異なるデータセットに基づいてどの程度異なるかをそれぞれ測定します。トレードオフの結果、仮説セットが大きくなると、バイアスは小さくなり、分散が大きくなり、仮説セットが小さくなると、バイアスは大きくなりますが、分散は小さくなります。講師は、仮説セットを効果的にナビゲートするために十分なデータ リソースを持つことの重要性を強調し、バイアス分散分析と VC 分析のスケールの違いを強調します。

また、単純なモデルを必要とする例が少なくなり、より複雑なモデルを必要とする例のリソースが多くなり、単純なモデルと複雑なモデルの間のトレードオフについても説明しています。バイアス分散分析は、線形回帰に固有であり、モデルを選択するためのゴールド スタンダードである検証とともに、ターゲット関数の知識を前提としています。アンサンブル学習については、ブートストラップを使用して複数のデータ セットを平均化し、分散を減らすバギングを通じて説明します。アンサンブル学習における分散と共分散のバランスについても説明されており、線形回帰は、学習の最初の部分としてフィッティングを使用する学習手法として分類されますが、理論はサンプル外の優れたパフォーマンスを強調しています。

  • 00:00:00 このセクションでは、バイアスと分散のトレードオフに焦点を移します。これは、一般化を理解するための別のアプローチです。前の講義では、VC 分析は、仮説セットの VC 次元を介して、選択された仮説の一般化能力を確立しました。 VC 境界は、任意の学習アルゴリズム、任意の入力データ、および任意のターゲット関数に対して保持されます。 VC 分析の 1 つの側面は、それが実用的な尺度を提供することです。エラーの確率と例の数をプロットすることで、必要な例の数が VC 次元に比例することがわかりました。つまり、興味深い一般化プロパティを取得するには、VC 次元の 10 倍が必要です。最後に、VC 分析を汎化境界にまとめました。これは、正則化などの後の手法で使用します。

  • 00:05:00 このセクションでは、講師が学習における近似と一般化のトレードオフについて説明します。学習は、小さな E_out を達成することを目的としています。これは、仮説がターゲット関数を適切に近似し、この近似がサンプルから外れていることを意味します。ただし、より複雑な仮説セットを使用すると、f を適切に近似できる可能性が高くなりますが、適切な仮説を特定する際に問題が生じます。学習のための理想的な仮説セットの 1 つは、たまたまターゲット関数になる単一仮説です。それでも、ターゲット関数がわからないため、チャンスに耐えるのに十分な大きさの仮説セットが必要です。さらに、講師は、VC 分析がトレードオフの定量化を重視しているのに対し、バイアス分散分析も E_out を分解する方法について説明します。

  • 00:10:00 このセクションでは、スピーカーはバイアスと分散のトレードオフと、それが実数値関数と二乗誤差を使用した回帰にどのように関係するかを紹介します。目標は、サンプル外エラーを 2 つの概念コンポーネント (近似と一般化) に分解することです。これを行うために、話者は特定のデータ セットに関するエラーの期待値を使用します。これは、最終的な仮説が使用されるデータ セットに依存するためですが、データ セットを統合することによって依存関係を取り除くことを目的としています。結果は、特定の数のデータ ポイントを処理する場合のエラーの一般的な動作を分析する方法です。

  • 00:15:00 このセクションでは、講師は、100 例のすべての可能な実現に関して、動作の期待値を計算する方法を説明します。統合の順序を逆にして期待を取り除くことにより、講師はきれいな分解に到達します。次のステップでは、考えられるすべての仮説の期待値を取得して、平均仮説を導き出します。これは確かに不可能な作業ですが、分析のための概念的なツールを提供します。 g bar の技術的な有用性を理解することは、最上位の式を拡張して最終的に g bar を定義する必要がある線形項を取得するときに重要になります。

  • 00:20:00 このセクションでは、講師は数量を 2 つのステップに分解します。これにより、機械学習アルゴリズムが特定のデータセットから導出する仮説がターゲット関数からどの程度離れているかが決まります。最初のステップでは、与えられたデータセットでアルゴリズムが生成できる最良の仮説からこの仮説がどの程度逸脱しているかを評価し、2 番目のステップでは、この最良の仮説が実際のターゲット関数からどの程度逸脱しているかを評価します。講師は、これらの 2 つのステップを表すために、バイアスと分散という 2 つの量に到達します。バイアスは、機械学習アルゴリズムが生成する仮説の平均と、アルゴリズムの仮説セットに有限を設定する実際のターゲット関数との間の偏差を測定します。一方、分散は、特定のモデルの仮説の分布がさまざまなデータセットに基づいてどの程度変化するかを測定します。

  • 00:25:00 このセクションでは、教授が機械学習におけるバイアスと分散のトレードオフについて説明します。彼は、バイアスは仮説セットの限界であり、分散は異なるデータセットを使用したときの結果の違いであると説明しています。次に、仮説セットのサイズを変更するときに、一般化と近似の間にトレードオフがあることを示し、小規模な仮説セットと大規模な仮説セットを比較して、この考え方を説明します。彼は、仮説セットが大きいほどバイアスは小さくなりますが分散は大きくなり、仮説セットが小さいほどバイアスは大きくなりますが分散は小さくなります。

  • 00:30:00 このセクションでは、仮説セットが大きくなるにつれてバイアスが減少し、分散が増加する、バイアスと分散のトレードオフの概念をスピーカーが紹介します。これを理解するために、スピーカーはターゲット関数が正弦波である具体的な例を設定し、定数モデルと線形モデルの 2 つの異なる仮説セットが与えられます。次にスピーカーは、線形モデルが正弦波のより良い近似を与えることを示しますが、いくつかのエラーがあります。これは学習状況ではありませんが、ターゲット関数の近似におけるバイアスと分散の間のトレードオフを示しており、より複雑な学習問題への道を開いています。

  • 00:35:00 このセクションでは、講師が機械学習におけるバイアスと分散のトレードオフについて説明します。彼は、直線を 2 点に適合させる例を使用します。最初にターゲット関数を近似し、次に例から学習します。バイアス分散分析は、使用される 2 つのポイントに関係なくモデルのパフォーマンスを評価し、データセットへの依存に対処するという課題を克服するために必要です。次に、講師はサイズ 2 ポイントのデータセットを生成し、それらに線を当てはめ、予想されるサンプル外エラーが主にバイアスと分散の合計であることを示します。非常に明るい緑色の線、x の g バーは、彼がこのゲームを繰り返して得た仮説の平均です。それでも、データセットが異なれば推定値も異なるため、これは学習プロセスの出力ではありません。

  • 00:40:00 ビデオのこのセクションでは、バイアスと分散のトレードオフの概念が機械学習の文脈で説明されています。分散は学習プロセスの出力の標準偏差として計算され、バイアスは予測された出力とターゲット関数の間の誤差です。バイアスと分散の間のトレードオフは、2 つのモデルを使用して実証されます。1 つは小さなバイアスと大きな分散を持ち、もう 1 つは大きなバイアスと小さな分散を持ちます。学習状況では、モデルの複雑さは、ターゲットの複雑さではなく、利用可能なデータ リソースに一致させる必要があることが理解されています。

  • 00:45:00 このセクションでは、スピーカーは学習におけるバイアスと分散のトレードオフについて説明し、学習曲線の概念を紹介します。学習曲線は、データセットのサイズである N の関数として、E_out (サンプル外エラー) と E_in (サンプル内エラー) の期待値をプロットします。 N が増加するにつれて、サンプル外エラーは一般に減少しますが、この傾向は、使用されているモデルの複雑さの影響を受ける可能性があります。スピーカーは、仮説セットを効果的にナビゲートするために十分なデータ リソースを持つことの重要性を強調し、ノイズの多いデータがこのナビゲーションをさらに困難にする可能性があることに注意します。学習曲線は、バイアスと分散のトレードオフと、それが N の増加に伴ってどのように変化するかを視覚的に表したものです。

  • 00:50:00 このセクションでは、講師が学習曲線を使用して、バイアス分散分析と VC 分析の関係について説明します。彼は、両方の理論が近似を議論しており、一般化の観点から何が起こるかを考慮していると説明しています。講師は、2 つの理論の規模の違いを強調し、偏りは仮説セットに依存することに言及しています。最後に、講師は線形回帰のケースの分析について簡単に説明し、線形回帰についての洞察を得るための良い演習として推奨します。

  • 00:55:00 このセクションでは、インストラクターは、特に学習曲線を使用して、サンプル内エラー パターンとサンプル外エラー パターンについて説明します。インストラクターは、線形回帰とノイズを使用して、予想されるサンプル内エラーの簡単な式を示します。これはほぼ完璧であり、d プラス 1 の比率で完璧よりも優れています。インストラクターは非常に具体的な曲線を強調します。データ ポイントが多いほど、エラー率に影響を与えるノイズが少なくなります。ただし、サンプル データに合わせすぎると、最終的にノイズに合わせてしまうことになり、長期的には役に立たず、害を及ぼすことになります。

  • 01:00:00 このセクションでは、単純なモデルと複雑なモデルの間のトレードオフと、近似および一般化する能力について教授が話します。複雑なモデルはターゲット関数とトレーニング例をより適切に近似できますが、単純なモデルは一般化能力の点で優れています。これは、2 つの間にトレードオフがあり、両方の量の合計がいずれかの方向に進む可能性があるためです。重要なのは、モデルの複雑さと利用可能なデータ リソースを一致させることです。例が少ないということは、単純なモデルを使用する必要があることを意味しますが、例のリソースが多いほど、パフォーマンスを向上させるために複雑なモデルが必要になります。予想される汎化誤差は、式を使用して見つけることができます。これは、VC の次元を例の数で割ったものです。

  • 01:05:00 このセクションでは、バイアス分散分析がどのように線形回帰に固有のものであるか、およびターゲット関数を知っているとどのように仮定するかについて教授が説明します。これは役立つガイドであり、バイアスと分散の両方に影響を与える方法を理解するために使用できますが、モデルが何であるかを示すためにプラグインできるものではありません.彼はまた、モデルを選択するためのゴールド スタンダードは、ブースティングなどのアンサンブル手法を含む検証によるものであると述べています。次に教授は、分析のための理論的ツールとしての g バーの考え方を簡単に紹介しますが、この講義の焦点ではないことに注意してください。

  • 01:10:00 このセクションでは、バギングによるアンサンブル学習について教授が話します。これは、データセットを使用して、ブートストラップと平均化によって多数の異なるデータセットを生成するプロセスです。これにより、アンサンブル学習にある程度の利益がもたらされ、多くのことを平均化することで分散を減らすことができます。次に、モデレーターは、バイアス分散がベイジアン アプローチによっても表示されるかどうかを尋ねます。教授は、ベイジアン アプローチでは特定の仮定が行われますが、バイアス分散は依然として存在すると説明しています。最後に、機械学習における数値関数近似と外挿の関係、およびバイアスと分散の共分散のジレンマについて語っています。

  • 01:15:00 講義のこのセクションでは、教授はアンサンブル学習の文脈における分散と共分散のバランスについて説明します。彼は、バイアス分散分析では、独立して生成されたデータセットを選択し、独立したモデルを生成し、それらを平均化するという贅沢があったと説明しています。ただし、実際には、データセットのバリエーションに基づいてモデルを構築する場合、モデル間の共分散が重要な役割を果たし始めます。後で、線形回帰が学習手法なのか、それとも単なる関数近似なのかと尋ねられたとき、教授は、線形回帰は学習手法であり、フィッティングは学習の最初の部分であると述べています。追加された要素は、モデルがアウトオブサンプルで適切に機能することを保証することです。これが理論の目的です。
Lecture 08 - Bias-Variance Tradeoff
Lecture 08 - Bias-Variance Tradeoff
  • 2012.04.28
  • www.youtube.com
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
 

講義 9 - 線形モデル II



Caltech の機械学習コース - CS 156. 講義 09 - 線形モデル II

この講義では、バイアス分散分解、学習曲線、パーセプトロン、線形回帰、ロジスティック回帰などの線形モデルの手法など、線形モデルのさまざまな側面について説明します。講演者は、複雑さと一般化パフォーマンスの間のトレードオフを強調し、オーバーフィッティングに対して警告し、有効な保証のために仮説空間の VC 次元を適切に充電することの重要性を強調します。非線形変換の使用と一般化動作への影響についても説明します。講義ではさらに、ロジスティック関数と確率の推定におけるそのアプリケーションについて説明し、ロジスティック回帰のコンテキストで尤度とクロスエントロピー エラー測定の概念を紹介します。最後に、勾配降下などの誤差関数を最適化するための反復法について説明します。

また、講義では、機械学習における線形モデルと最適化アルゴリズムに関連するさまざまなトピックがカバーされています。教授は、勾配降下最適化における学習率と速度の間の妥協点を説明し、ロジスティック回帰アルゴリズムを紹介し、そのエラー測定と学習アルゴリズムについて説明します。勾配降下法とマルチクラス分類における終了の課題も解決されています。機械学習における特徴の導出と選択の役割は、VC 次元の観点から請求されるアプリケーション ドメインの芸術として強調され、議論されます。全体として、この講義では、機械学習の線形モデルと最適化アルゴリズムの包括的な概要を説明します。

  • 00:00:00 このセクションでは、Yaser Abu-Mostafa がサンプル外エラーにおけるバイアス分散分解について説明し、それが仮説セットとどのようにトレードオフするかを示します。彼はまた、汎化誤差を表す学習曲線と、VC 次元に比例する例の数が汎化特性をどのように決定するかについても説明します。線形モデルの手法についても説明します。

  • 00:05:00 レクチャーのこのセクションでは、スピーカーは、以前のレクチャーで説明した線形分類と線形回帰の観点から線形モデルを簡単に要約し、次に線形モデルの 3 番目のタイプであるロジスティック回帰に移ります。ロジスティック回帰を始める前に、スピーカーは、非線形変換と一般化の問題に関して未解決の問題を解決します。非線形変換は、Z 空間 (特徴空間) に学習アルゴリズムを適用するためのプラットフォームを提供し、最終的な仮説は依然として X 空間 (入力空間) に存在します。非線形変換の場合、講演者は、一般化の問題が取り除かれ、欠けている部分を講義で提供することを強調します。

  • 00:10:00 このセクションでは、X 空間での一般化動作に関して、非線形変換を行うために支払う代償について講師が説明します。 X 空間で線形モデルを使用すると、d+1 個の自由パラメーターの重みベクトルを取得できます。ただし、特徴空間の VC 次元は、X 空間の次元よりもはるかに大きくなる可能性があります。 VC の次元が大きすぎる場合、17 次多項式を当てはめることはできますが、一般化する可能性は実際にはありません。最初のケースはほぼ線形に分離可能で、2 番目のケースは完全に非線形である 2 つのケースについて説明します。 E_in をゼロにするには、高次元空間に移動する必要があります。これは、分類するポイントが 2 つしかないため問題になります。

  • 00:15:00 講義のこのセクションでは、線形モデルを扱う際の近似と一般化のトレードオフについてインストラクターが説明します。彼は、4 次曲面などのより複雑なモデルを使用すると、データをより適切に近似できるが、一般化がうまくいかない可能性があることについて話しています。彼はまた、非線形空間への変換を使用するという考えについても言及していますが、パラメーターの数を減らそうとすることには注意を払っています。インストラクターは、VC の不等式によって提供される保証が有効であるためには、頭の中で探索された仮説空間全体の VC 次元を充電することが重要であると説明します。

  • 00:20:00 このセクションでは、データを見る前にモデルを選択する際のデータ スヌーピングの危険性を中心に議論します。この慣行は、汚染された仮説セットにつながる可能性があることを強調します。つまり、現実世界のパフォーマンスを反映するためにデータが信頼できなくなることを意味します。ロジスティック回帰の概念が、その独自のモデル、誤差測定、学習アルゴリズムとともに紹介されています。この線形モデルは、前述のパーセプトロンおよび線形回帰モデルを大幅に補完するものであると考えられており、機械学習内に存在する複雑さとバリエーションの有用な例を提供します。

  • 00:25:00 このセクションでは、講師が線形モデルと、パーセプトロン、線形回帰、ロジスティック回帰などのさまざまな使用方法について説明します。線形分類の場合、仮説は +1 または -1 の決定であり、これは信号の直接的なしきい値です。線形回帰の場合、出力は入力と同じですが、ロジスティック回帰は、ロジスティック関数と呼ばれる非線形性を信号に適用します。これは、何かが起こる確率として解釈されます。講師は、ロジスティック関数の形状と、クレジット カードの申し込みなど、さまざまな問題の確率を推定する際のその応用について説明します。

  • 00:30:00 このセクションでは、ロジスティック関数のコンテキストでソフトしきい値またはシグモイドの概念を紹介します。この関数は線形信号を入力として受け取り、確率を出力します。これは、複数の要因がイベントの発生可能性に寄与する心臓発作のリスクなどの結果を予測するのに特に役立ちます。ロジスティック回帰の出力は、入力データがその情報を直接提供しない場合でも、学習プロセス中に真の確率として扱われます。

  • 00:35:00 このセクションでは、医療データの教師あり学習と、隠れたターゲット関数を近似するモデルを生成する方法について説明します。例はバイナリ出力として与えられ、確率の影響を受けるため、ノイズの多いケースになります。ターゲットは、d 次元のユークリッド空間から 0,1 までであり、x の確率解釈 f を使用します。 x の仮説 g は、重みを見つけて x で内積することによって求められます。目的は、ロジスティック回帰仮説が、もっともらしくオプティマイザーにとって使いやすい尤度によって構築されたエラー測定を使用して、ターゲット関数を反映するように重みを選択することです。エラー メジャーは、実際にデータを生成したターゲットである可能性に応じて、さまざまな仮説を評価します。

  • 00:40:00 講義のこのセクションでは、スピーカーは尤度の使用とその適用に関する論争について説明します。彼は、尤度の使用は、与えられたデータから最も妥当な仮説を見つけることであると説明しています。ただし、可能性は必要な確率ではないため、完全にクリーンなプロセスではありません。次にスピーカーは、尤度の式を紹介し、それを使用して本格的なエラー測定値を導出する方法を説明します。次に、式を使用して、個々のデータ ポイントの可能性の積であるデータセット全体の可能性を見つけます。彼は、1 つの例を支持すると他の例が台無しになる可能性があるため、仮説を選択する際には常に妥協が必要であると結論付けています。

  • 00:45:00 講義のこのセクションでは、スピーカーは、データセットの下で仮説の可能性を最大化することが、誤差測定値を最小化する方法を説明します。自然対数をとることで、最大化が最小化になり、トレーニング セットに誤差測定値が生じます。式を単純化した後、話者はエラー測定値をロジスティック回帰のサンプル内エラーと呼び、x_n に適用される w に依存する仮説と、その例のラベルとして与えられた値との間のエラー測定値として定義します。 、y_n です。講演者はまた、w 転置 x_n の符号に基づいて心臓発作のリスクがある人を識別するリスク スコアの興味深い解釈についても説明します。

  • 00:50:00 このセクションでは、バイナリ予測の精度を測定する方法としてクロス エントロピー エラー測定が導入されています。目標は、モデルの予測を改善するために、このエラー測定値を最小限に抑えることです。ただし、線形回帰とは異なり、ロジスティック回帰の誤差測定を最小化する閉形式の解はありません。代わりに、勾配降下法によって達成される反復ソリューションが必要です。この方法では、表面の最も急な斜面に沿って一歩を踏み出し、最小値に達するまで繰り返します。ロジスティック回帰の誤差測定の凸性により、勾配降下法は最適化に適した選択肢になります。

  • 00:55:00 講義のこのセクションでは、教授は線形モデルの誤差関数の最小値を見つけるために使用される反復法について説明します。彼は、これらの方法には、表面に沿って小さなステップで移動し、微積分、特にテイラー級数を使用して局所近似を行うことが含まれると説明しています。次に、勾配降下の概念を紹介します。次の重みは、現在の重みに特定の方向への移動を加えたものによって決定されます。これは、最急降下の方向で単位ベクトルを解くことによって決定されます。教授はさらに、ベクトルと単位ベクトルの内積が最も負の値になる方向を移動方向として選択する方法を説明します。

  • 01:00:00 このセクションでは、講師が勾配降下最適化におけるステップのサイズまたは学習率の妥協点について説明します。非常に小さなステップを実行すると、最終的には最小になりますが、それには永遠に時間がかかります。大きなステップを実行すると高速になりますが、線形近似が適用されない場合があります。グラフを分析した後、最善の妥協点は、最初は学習率を大きくして急勾配を利用し、最小値に近づくとオーバーシュートを避けるように注意することです。次に、講師は固定学習率の式を提示します。ここで、学習率は勾配の大きさに比例します。次に、ロジスティック回帰アルゴリズムが導入されます。このアルゴリズムでは、サンプル内エラー式を使用して勾配が計算され、現在の重みから学習率に勾配を掛けた値を減算することによって次の重みが取得されます。最後に、パーセプトロン、線形回帰、ロジスティック回帰の 3 つの線形モデルすべてが 1 つのスライドにまとめられ、クレジット ドメインに適用されます。

  • 01:05:00 このセクションでは、クレジット分析で実装できるさまざまな種類の線形モデルと、対応するエラー測定と使用される学習アルゴリズムについて教授が説明します。たとえば、パーセプトロンはバイナリ分類に使用され、ロジスティック回帰はデフォルトの確率を計算するために使用されます。パーセプトロンのバイナリ分類誤差やロジスティック回帰の交差エントロピー誤差など、モデルごとに異なる誤差測定値が使用されました。使用された学習アルゴリズムは、分類エラーのパーセプトロン学習アルゴリズムや交差エントロピー エラーの勾配降下法など、選択されたエラー測定に依存していました。最後に、教授は終了基準と、勾配降下法での終了で発生する問題について簡単に説明します。適切に分析された終了は、エラー サーフェスに多くの未知数があるため、少し注意が必要です。

  • 01:10:00 このセクションでは、スピーカーは、勾配降下法は効果的ですが、誰にでもできる最適化アルゴリズムではないことを説明しています。最適化アルゴリズムがナビゲートしようとしているサーフェスに複数のローカル ミニマムがある場合、アルゴリズムは、最適な結果をもたらすグローバル ミニマムではなく、ローカル ミニマムのみを検出する可能性があります。講演者は、条件の組み合わせを使用して最適化アルゴリズムを終了することを提案し、共役勾配が勾配降下法の有効な代替手段であることに注意します。スピーカーは、極小値がアプリケーションで実際の問題になる場合、この問題に取り組むための最適化の分野には多くのアプローチがあることを示唆しています。

  • 01:15:00 このセクションでは、対数と期待値を使用して 2 つの確率分布間の関係を取得する方法であるクロス エントロピーの概念について教授が説明します。教授はまた、最適化におけるバイナリ サーチと 2 次手法の限界についても説明し、より洗練された手法はより良い結果につながる可能性がありますが、CPU サイクルに関しては高すぎる可能性があることを強調しています。最後に、質問に答えて、教授は、数字を認識する例で示されているように、ロジスティック回帰をマルチクラスの設定に適用できることを確認します。

  • 01:20:00 講義のこのセクションでは、教授は順序回帰やツリーベースのバイナリ決定など、マルチクラス分類のさまざまな方法について説明します。教授はまた、ニューラル ネットワークの神経関数として使用される tanh 関数の使用法を紹介します。学習率の概念についても説明されており、教授は、使用できる適応学習率にはヒューリスティックスがあり、学習率を選択するための経験則が提示されていると述べています。さらに、意味のある機能と特定のデータ セットを参照することで得られる機能を区別し、前者が VC 保証を失う可能性を低くします。

  • 01:25:00 このセクションでは、教授は機械学習で特徴を導出するプロセスについて説明し、それがアプリケーション ドメインに依存する技術であることを強調しています。データに基づいて特徴を導出することは可能ですが、最終的な仮説セットによって一般化の動作が決定されます。教授はまた、特徴の選択は機械学習で自動的に行われるが、それは学習の一部となり、VC 次元で課金されることにも言及しています。機能の選択のトピックについては、ニューラル ネットワークと隠れ層に関する今後の講義でさらに取り上げます。
Lecture 09 - The Linear Model II
Lecture 09 - The Linear Model II
  • 2012.05.02
  • www.youtube.com
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
 

講義 10 - ニューラル ネットワーク



Caltech の機械学習コース - CS 156. 講義 10 - ニューラル ネットワーク

この講義では、カリフォルニア工科大学の Yaser Abu-Mostafa 教授がロジスティック回帰とニューラル ネットワークについて説明します。ロジスティック回帰は、有界実数値関数の確率解釈を計算する線形モデルです。エラー測定を直接最適化することはできないため、勾配降下法を導入して、十分に滑らかで 2 回微分可能な任意の非線形関数を最小化します。閉形式の解はありませんが、誤差の測度は凸関数であるため、勾配降下法を使用した最適化は比較的簡単です。

確率的勾配降下法は、ニューラル ネットワークで使用される勾配降下法を拡張したものです。ニューラル ネットワークは、パーセプトロンに関連する、生物学的な観点から動機付けられた仮説を実装するモデルです。バックプロパゲーション アルゴリズムは、ニューラル ネットワークと連携する効率的なアルゴリズムであり、モデルを特に実用的なものにします。このモデルには、人々を興奮させ、アルゴリズムを使用して簡単に実装できる生物学的リンクがあります。今日では選択されたモデルではありませんが、ニューラル ネットワークは実際のアプリケーションで成功を収めており、銀行や信用承認などの多くの業界で標準として使用されています。

簡単な要約:

  • ロジスティック回帰は、有界実数値関数の確率解釈を計算する線形モデルです。
  • ロジスティック回帰を最適化するために勾配降下法が導入されていますが、誤差測定を直接最適化することはできません。
  • 確率的勾配降下法は、ニューラル ネットワークで使用される勾配降下法を拡張したものです。
  • ニューラル ネットワークは、生物学的観点に基づいた、パーセプトロンに関連する仮説を実装するモデルです。
  • バックプロパゲーション アルゴリズムは、ニューラル ネットワークと連携する効率的なアルゴリズムであり、モデルを特に実用的なものにします。
  • 現在、ニューラル ネットワークは最適なモデルではありませんが、銀行や信用承認など、多くの業界で標準として使用されています。
 

講義 11 - オーバーフィッティング



Caltech の機械学習コース - CS 156. 講義 11 - オーバーフィッティング

この講義では、機械学習におけるオーバーフィッティングの概念と重要性について紹介します。モデルが信号ではなくノイズでトレーニングされるとオーバーフィッティングが発生し、サンプル外の適合が不十分になります。講義には、ノイズレベルやターゲットの複雑さなどのさまざまなパラメーターがオーバーフィッティングに及ぼす影響を説明するためのさまざまな実験が含まれています。講師は、過剰適合を早期に検出することの重要性と、それを防ぐための正則化および検証手法の使用を強調しています。オーバーフィッティングに対する決定論的および確率的ノイズの影響についても説明し、正則化と検証によるオーバーフィッティングの回避に関する次の 2 つの講義を紹介して、講義を締めくくります。

オーバーフィッティングの概念について説明し、それを防ぐための正則化の重要性を強調します。教授は、オーバーフィッティングとアンダーフィッティングのトレードオフを強調し、オーバーフィッティングにおける VC 次元の役割を説明します。同じ数の例が与えられた場合、VC 次元の不一致は、サンプル外エラーとサンプル内エラーの不一致につながります。モデルの検証に関する実際的な問題と、オーバーフィッティングやモデル選択にどのように影響するかについても説明します。さらに教授は、オーバーフィッティングを防ぐための区分的線形関数の役割を強調し、モデルの自由度の数を考慮し、正則化によってそれを制限することの重要性を強調しています。

  • 00:00:00 このセクションでは、講師が機械学習におけるオーバーフィッティングのトピックとその重要性を紹介し、オーバーフィッティングに対処する能力がこの分野の専門家とアマチュアを分けることを指摘します。オーバーフィッティングの主な原因はノイズとして特定され、講師はオーバーフィッティングに対処する手法として正則化と検証の概念を紹介します。このセクションは、次の 3 つの講義で取り上げる新しいトピックの紹介として機能します。

  • 00:05:00 このセクションでは、講師がオーバーフィッティングの概念を説明し、ノイズが追加された 2 次のターゲット関数に 4 次多項式を当てはめたときにオーバーフィッティングがどのように発生するかを示します。これにより、トレーニング エラーがゼロになり、アウト オブ サンプル フィットが不十分になります。これは、モデルが必要以上に進んだオーバーフィッティングの典型的な例です。この点は、トレーニング中に E_out が高いままである間に E_in が低下するため、ニューラル ネットワークでの過剰適合について議論するときにさらに強調されます。講師はまた、オーバーフィッティングは比較用語であり、より良い別の状況が必要であり、オーバーフィッティングは同じモデル内で発生する可能性があることにも注意しています。

  • 00:10:00 このセクションでは、Abu-Mostafa 教授がオーバーフィッティングについて説明します。これは、E_in が低下したときに発生しますが、信号ではなくノイズをフィッティングするために E_out が増加します。彼は、有効な VC 次元は時間とともに大きくなるが、一般化エラーはパラメーターの数が増えるにつれて悪化すると説明しています。同じモデル内の 2 つの異なるモデルまたはインスタンスを比較すると、過剰適合が発生する可能性があります。これを修正する 1 つの方法は、検証に基づいて早期停止アルゴリズムを使用してオーバーフィットを検出することです。これは、オーバーフィットを防ぐ正則化として機能します。オーバーフィッティングが発生したときにノイズのフィッティングを回避するには、E_in を最小化することを続けるのではなく、早い段階でそれを検出して停止することが重要です。

  • 00:15:00 このセクションでは、講師が、データにノイズが存在するためにオーバーフィッティングがどのように発生するかについて説明します。ケース スタディは、2 つの異なるモデル (ノイズの多い低次ターゲットを含むモデルとノイズのない高次ターゲットを含むモデル) を使用して提示されます。 2 次多項式と 10 次多項式を使用して、データを適合させます。 2 次近似では、標本内誤差は 0.05 で、標本外誤差はわずかに高くなります。対照的に、10 次の適合には問題があり、標本内誤差は 2 次の適合よりも小さくなっています。ただし、サンプル外エラーは劇的に増加し、ノイズがモデルに当てはめられたオーバーフィッティングのケースを示しています。

  • 00:20:00 このセクションでは、オーバーフィッティングと、モデルが別のタイプのノイズに適合している場合に、ノイズのない状況でもオーバーフィッティングがどのように発生するかについて説明します。彼は、10 次のモデルを 10 次のノイズの多いターゲットに当てはめた例と、それがどのように過剰適合を引き起こしたかを示しています。次に、モデルの複雑さをターゲットの複雑さではなくデータ リソースに一致させることで、モデルが単純であってもパフォーマンスが向上する可能性があることを示しています。講師は、一般化の問題はデータセットのサイズと品質に依存し、モデルの複雑さをターゲット関数に単純に一致させることが常に最善のアプローチであるとは限らないことを強調しています。

  • 00:25:00 このセクションでは、機械学習におけるオーバーフィッティングの概念について説明します。講義では、学習曲線を使用して、より複雑なモデルのサンプル内エラーがどのように小さくなるかを示しますが、サンプル外エラーは大きくなり、オーバーフィッティングが発生している灰色の領域を定義します。講義では、2 人の学習者による実験も示します。1 人は 10 次を選択し、もう 1 人は 2 次を選択して、ノイズのない 50 次のターゲットに適合させます。ノイズがないにもかかわらず、両方の学習者は依然として過適合を経験しており、実際のノイズの定義と、実際の機械学習の問題で注意が必要になることにつながります。講義では、オーバーフィッティングはほとんどの場合に発生すると結論付け、この問題を理解し、対処することの重要性を強調します。

  • 00:30:00 このセクションでは、講師が、ノイズ レベル、ターゲットの複雑さ、データ ポイントの数など、オーバーフィッティングに影響を与えるパラメーターについて説明します。非常に複雑な興味深いターゲット関数を作成するために、講師は互いに直交する特定の係数を持つルジャンドル多項式の標準セットを使用します。信号をエネルギー 1 に正規化することにより、講師はシグマの 2 乗がノイズの量であると述べることができます。実験のインスタンスを生成するとき、講師はノイズ、ターゲットの複雑さ、およびデータ ポイントの数のさまざまな組み合わせを使用して、オーバーフィッティングの持続性を観察します。

  • 00:35:00 このセクションでは、講師が 2 つの異なるモデル (2 次多項式と 10 次多項式) のサンプル外エラーを比較するオーバーフィッティング測定方法について説明します。測定値は、複雑なモデルの標本外誤差と単純なモデルの標本外誤差の差です。複雑なモデルの標本外誤差が大きく、測定値が正になる場合は、過剰適合があります。次に、講師は、さまざまなレベルのノイズとターゲットの複雑さによってオーバーフィッティング メジャーがどのように変化するかを示します。ノイズ レベルが増加し、ターゲットの複雑さが増すにつれて、オーバーフィッティングが悪化します。講師はまた、オーバーフィッティングは重大な問題であり、対処する必要があると指摘しています。

  • 00:40:00 このセクションでは、オーバーフィッティングのノイズの概念を従来のノイズを超えて拡張し、確率的ノイズと決定論的ノイズに分けます。通常、より多くのデータがオーバーフィッティングの減少につながり、確率論的または決定論的ノイズの増加はより多くのオーバーフィッティングにつながることに注意してください。決定論的ノイズは、仮説セットが捕捉できないターゲット関数の一部として定義され、仮説セットが処理できないため、ノイズとして分類されます。捉えることのできない何かがノイズであるという概念は、数の理解が限られている若い兄弟に複素数を説明することを含む架空のシナリオを使用してさらに調査されます。

  • 00:45:00 講義のこのセクションでは、決定論的ノイズと確率論的ノイズの違いを説明し、決定論的ノイズがオーバーフィッティングに与える影響を分析します。決定論的ノイズは使用される仮説セットに依存し、ターゲットの複雑さが増加するにつれて、決定論的ノイズとオーバーフィッティングも増加することが強調されます。ただし、これはターゲットの複雑さが一定のレベルを超えるまで発生しません。有限 N の場合、確率的ノイズと同じ問題が決定論的ノイズに適用され、サンプル サイズが限られているためにその一部をキャプチャする可能性があります。より複雑な仮説セットを使用することが必ずしも良いとは限らず、オーバーフィッティングにつながる可能性があることも言及されています。

  • 00:50:00 このセクションでは、講師は、有限のサンプルが与えられた場合のオーバーフィッティングの問題について説明します。彼は、有限のサンプルが与えられると、確率論的および決定論的の両方でノイズを適合させる能力があり、パフォーマンスが低下する可能性があると説明しています。講師は、確率論的および決定論的ノイズの役割についての洞察を得るために、ターゲットにノイズを追加する定量分析を提供します。彼は、二乗項と交差項を取得する準備として、重心とイプシロンを加算および減算します。これにより、分散項、バイアス項、加算項が生成されます。追加された項は、ノイズの分散であるシグマ 2 乗です。

  • 00:55:00 講義のこのセクションでは、スピーカーは期待値のバイアスと分散への分解と、それらが決定論的および確率論的ノイズとどのように関係しているかについて説明します。両方とも、それぞれターゲット関数と予測できないノイズの最良の近似を表します。例の数が増えると分散が減少しますが、仮説が与えられると、バイアスと分散の両方が避けられません。決定論的ノイズと確率論的ノイズは両方ともデータ ポイントに有限バージョンを持ち、これが適合をオーバーフィッティングの影響を受けやすくすることで分散に影響を与えます。スピーカーは、正則化と検証という 2 つのアプローチについて議論することで、オーバーフィッティングを回避するための次の 2 つの講義へのリードを提供します。正則化はオーバーフィッティングを避けるためにブレーキをかけるようなものであり、検証はオーバーフィッティングを確実に回避するために収益をチェックすることです。

  • 01:00:00 このセクションでは、拘束された適合または正則化を使用して過適合にブレーキをかける概念について教授が説明します。彼は、点を 4 次多項式に適合させる例を使用していますが、摩擦を加えることで完全には適合しないようにしています。適用されるブレーキの量は最小限ですが、素晴らしいフィット感を実現しながら、オーバーフィットを劇的に減らします.教授は、オーバーフィッティングを防ぐために、正則化とその選択方法を理解することが重要であると述べています。 Q&A セッションでは、確率的勾配降下法におけるランダム化の重要性と、ニューラル ネットワーク プロットでサンプル外エラーを引き出す方法について説明します。

  • 01:05:00 このセクションでは、教授は、学習シナリオにおける決定論的ノイズと確率論的ノイズは同じであると説明しています。決定論的ノイズは、仮説セットがターゲット関数に近づくことができないために引き起こされるからです。現実世界の学習問題では、一般にターゲット関数の複雑さは不明であり、ノイズを特定することはできません。オーバーフィッティングを概念的に理解する目的は、ノイズの詳細を知らずにオーバーフィッティングを回避することです。オーバートレーニングは、同じモデルに対するオーバーフィッティングと同義です。浮動小数点数などのその他のエラーの原因は、言及されていない過剰適合に対して限定的な影響をもたらします。教授は、3 次線形モデル (ロジスティック回帰) に関して、線形分離可能なデータに適用すると、極小値とサンプル内誤差ゼロを達成できることを明確にしています。

  • 01:10:00 このセクションでは、オーバーフィッティングの問題とその有限サンプル バージョンについて説明します。これは、有限サンプルにおける確率的要因と決定論的要因の両方からのノイズの寄与によって発生します。これにより、アルゴリズムがそのノイズに適合するようになりますが、H_10 などのより大きなモデルを適合させる場合には有害です。オーバーフィッティングを防ぐための区分的線形関数の使用について議論するとき、教授は、モデルの自由度の数を考慮し、正則化によるフィッティングに関してモデルを制限するための措置を講じることの重要性を強調しています。最後に、教授は、モデルの検証に関する実際的な問題と、それが過剰適合とモデル選択にどのように影響するかについて説明します。

  • 01:15:00 このセクションでは、オーバーフィッティングとアンダーフィッティングのトレードオフについて教授が説明し、より良い仮説に到達するには、トレーニングに使用できたはずのリソースを自分から奪う必要があるかもしれないと説明しています。教授はまた、VC (Vapnik-Chervonenkis) 次元と、それがオーバーフィッティングにどのように関係するかについて詳しく説明し、同じ数の例が与えられた場合、VC 次元の不一致がサンプル外とサンプル内の不一致の理由であると述べています。 - サンプル エラー。教授はまた、カラープロットでターゲットの複雑さを示したとしても、ターゲットの複雑さは明示的に測定されておらず、決定論的ノイズのエネルギーにマッピングする明確な方法がないことも明らかにしています.最後に、教授は、ターゲットの複雑さがバイアス分散分解でどのように変換され、過剰適合と一般化に影響を与えるかについて説明します。
Lecture 11 - Overfitting
Lecture 11 - Overfitting
  • 2012.05.10
  • www.youtube.com
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
 

講義 12 - 正則化



Caltech の機械学習コース - CS 156. 講義 12 - 正則化

正則化に関するこの講義は、オーバーフィッティングと、それが機械学習モデルの一般化に及ぼす悪影響の説明から始まります。正則化への 2 つのアプローチについて説明します: 数学的およびヒューリスティックです。次に、ルジャンドル多項式の例を拡張コンポーネントとして使用して、線形モデルのバイアスと分散に対する正則化の影響について詳しく説明します。正則化における C とラムダの関係についても説明し、拡張エラーの紹介と、一般化のために正則化を正当化する際のその役割について説明します。重みの減衰/成長の手法と、オーバーフィッティングを回避するために適切な正則化を選択することの重要性についても説明します。講義は、ヒューリスティックな演習として適切なオメガを選択することに焦点を当てて終了し、ラムダが正則化の救いの恵みとして役立つことを願っています。

2 番目の部分では、ネットワークの単純さと機能のバランスを取る方法として、重みの減衰について説明します。講師は、さまざまなレベルのノイズに対して最適な正則化パラメーターを決定するための検証の使用を強調して、過剰な正則化と最適でないパフォーマンスに対して警告します。正則化は、理論と実践に基づいた実験的なものとして説明されています。 L1/L2、早期停止、ドロップアウトなどの一般的なタイプの正則化が、さまざまな問題に適した正則化方法を決定する方法とともに紹介されています。正則化の実装に関連する一般的なハイパーパラメーターについても説明します。

  • 00:00:00 このセクションでは、Yaser Abu-Mostafo がオーバーフィッティングの詳細を掘り下げます。オーバーフィッティングは、モデルがデータにうまく適合しすぎて一般化が不十分な場合に発生します。データにノイズがなくても、モデルの制限により決定論的ノイズが発生する可能性があり、サンプル外エラーに悪影響を及ぼし、オーバーフィッティングを引き起こすパターンにつながります。ただし、Abu-Mostafo は、オーバーフィッティングの最初の治療法として正則化を導入しています。これは、ほぼすべての機械学習アプリケーションで使用される手法であり、理解することが重要です。

  • 00:05:00 このセクションでは、講師が機械学習における正則化への 2 つのアプローチについて説明します。最初のアプローチは数学的であり、不適切な問題を解決するために滑らかさの制約が課されますが、これらの開発で行われた仮定は、実際のアプリケーションに対して常に現実的であるとは限りません。 2 番目のアプローチはヒューリスティックであり、当てはめにブレーキをかけることでサンプル内エラーの最小化をハンディキャップすることを伴います。講師は、正弦波とライン フィットを使用した例を示し、ラインのオフセットと勾配を正則化して制御することで、サンプル外でより良いパフォーマンスを得ることができることを示しています。

  • 00:10:00 このセクションでは、講師が線形モデルのバイアスと分散に対する正則化の影響について説明します。正則化を使用することにより、分散が減少し、不完全な適合によりバイアスがわずかに増加します。講師は、ルジャンドル多項式を拡張コンポーネントとして使用する多項式モデルの例を使用して、バイアスと分散に対する正則化の効果を示します。正則化を使用すると、線形モデルは正則化されていないモデルや定数モデルよりも優れています。この講義では、機械学習で最も有名な正則化手法の 1 つの数学的開発について詳しく説明し、現実世界の状況に対処するために学べる具体的な結論と教訓に焦点を当てます。

  • 00:15:00 このセクションでは、講師がルジャンドル多項式を紹介し、それらを使用して多項式回帰の仮説セットを構築する方法を説明します。直交し、異なる座標を扱うこれらの多項式を使用することにより、関連するパラメーターは、1 つの個別の重みではなく、重みの組み合わせになります。仮説セットは、パラメータ化して線形形式で表すことができるため、簡単な分析ソリューションが可能になります。ターゲット関数は不明であり、目標は、有限のトレーニング セットを使用して適切な近似を取得することです。講師は、線形回帰を使用してサンプル内エラーを最小限に抑えるための、制約のないソリューションと制約のあるソリューションについても説明します。

  • 00:20:00 このセクションでは、講師が仮説セットの重みに適用される制約である正則化の概念について説明します。正則化には、重みの合計の大きさの 2 乗に予算 C を設定することが含まれます。つまり、すべての重みを大きくしすぎることはできません。問題は、この制約を受けながらサンプル内エラーを最小限に抑えることです。解はラグランジュ乗数または KKT を使用して取得され、w_reg と呼ばれる新しい解が得られます。講師は、目標は、サンプル内エラーを最小化する円内の点を選択することであると説明します。これには、制約に違反せずにできる限り遠くに行く必要があります。

  • 00:25:00 このセクションでは、正則化の概念について説明します。ここでの目的は、目に見えないデータを適切に一般化するモデルを導き出すことです。線形回帰の解は、制約を満たす最小絶対値です。主な焦点は、目的と制約の間の妥協点を見つけるために、制約に従って、E_in の最小値を達成するための分析条件を導出することです。目的関数の勾配は楕円に直交する必要があり、ベクトル w は赤い面の方向です。 w_reg の解析条件は、勾配が解の負の値に比例する必要があることです。解の方程式を最小化することにより、E_in の最小値を無条件に取得します。

  • 00:30:00 このセクションでは、正則化におけるパラメーター C とラムダの関係について説明します。 C の値が大きいほど、正則化項が重視されないため、ラムダの値が小さくなります。逆に、C が減少すると、正則化項がより重要になり、条件を適用するためにラムダの値を増やす必要があります。講義では、誤差関数と正則化項の和である拡張誤差についても紹介します。これは、制約を受けながら誤差関数を最小化する、制約のない最適化問題に相当します。この対応は、一般化の観点から正則化を正当化し、任意の正則化子に適用できます。最後に、この講義では、拡張エラーを最小限に抑えるための式を提供し、ソリューションを提供して締めくくります。

  • 00:35:00 このセクションでは、スピーカーは正則化の問題に対する解決策について説明します。解は w_reg で表されます。これは、正則化項が追加された疑似逆解の修正です。明確な仮定の下では、正則化を含む 1 ステップの学習が行われます。つまり、制約付きの最適化を行わなくても、完全に解を得ることができます。ラムダが増加すると、ソリューションの正則化項が支配的になり、w_reg がゼロになり、ソリューションがますます小さくなります。次に、話し手はよく知られた問題に正則化を適用し、ラムダの選択が重要であることを示し、正則化のタイプのヒューリスティックな選択が必要になることを示します。

  • 00:40:00 このセクションでは、正則化の概念と、重み減衰として知られる関連する方法を紹介します。重み減衰は、転置された w を最小化し、重みが小さいことを確認して「減衰」という名前が付けられていることを含む、機械学習で有名な正則化です。ニューラル ネットワークを使用する場合、バッチ勾配降下によって重みの減衰を実装できます。この項を追加すると、重み空間内の移動の前に重みが縮小されます。これにより、λ が大きい場合に関数について学習できる量が制限されます。重み減衰のバリエーションには、特定の重みに重要度係数を割り当てたり、さまざまな定数を使用して、使用されている正則化の種類を試したりすることが含まれます。

  • 00:45:00 このセクションでは、講師は、モデルで使用される重みの範囲を制限するために機械学習で使用される制約である、重みの減衰と重みの増加の手法について説明します。重みの減衰は、モデルがより小さな重みを使用するように制約することを伴いますが、重みの増加はより大きな重みを制約します。講師は、最良のサンプル外パフォーマンスを達成するために、両方の手法に対して最適なラムダ値を選択する必要があると説明しています。さらに、講師は適切な正則化子を選択する方法について説明し、正則化子の選択をガイドするのに役立つガイドラインを使用してオーバーフィッティングを回避することの重要性を強調します。最終的に、講師は、高周波の確率的ノイズを回避するなど、最適な正則化を見つけるのに役立つ実用的なルールを使用することをお勧めします。

  • 00:50:00 レクチャーのこのセクションでは、オーバーフィッティングにつながる可能性のあるさまざまな種類のノイズと、よりスムーズな仮説を選択する傾向がある正則化器を選択することが重要である理由について、インストラクターが説明します。彼は、正則化の一般的な形式と、最小化される拡張エラーを定義します。これは、VC 分析で使用される方程式に似ています。彼はまた、個々の仮説の複雑さと一連のオブジェクトの複雑さとの間の対応、および E_aug が E_in よりも E_out の推定値として優れていることについても説明しています。

  • 00:55:00 正則化に関する講義のこのセクションでは、サンプル外エラーのより良い代用としての拡張エラーのアイデアについて説明します。正則化はオーバーフィッティングを減らすことを目的としています。オーバーフィッティングとは、本質的に信号よりもノイズをフィッティングすることです。正則化を選択するための指針となる原則は、よりスムーズな方向に移動することです。これは、ノイズはスムーズではなく、よりスムーズなソリューションは、フィッティング信号よりもノイズを損なう傾向があるためです。スムーサーがうまく当てはまらない場合にも、シンプラーの概念が導入されます。適切なオメガを選択することはヒューリスティックな作業であり、関連する数学は、それが基づいている仮定と同じくらい優れています.講義は、ラムダが正則化子を選択するための救いとして役立つという希望で終わります。

  • 01:00:00 講義のこのセクションでは、ニューラル ネットワークの重み減衰の概念について説明します。重みが小さいと関数が単純になり、重みが大きいと論理的な依存関係が生じ、任意の機能を実装できるようになります。正則化のもう 1 つの形式は、ネットワーク内の一部の重みを強制的にゼロにする重みの除去です。その結果、VC の次元が小さくなり、一般化が向上し、過剰適合の可能性が小さくなります。ソフトウェイト除去が導入され、ネットワークに連続関数が適用され、一部の重みが他の重みよりも強調されます。最後に、関数を間接的に単純化する方法であるため、終了前にトレーニングを停止することを推奨する正則化の形式として、早期停止について説明します。

  • 01:05:00 このセクションでは、正則化はオプティマイザーによって行われ、目的関数は変更されないことを教授が説明しています。代わりに、サンプル内エラーである目的関数をオプティマイザーに引き渡し、それを最小化するように指示します。次に教授は、正則化をオプティマイザーに入れるだけに注意します。これは、正しく行わないと過剰な正則化と非最適なパフォーマンスにつながる可能性があります。彼は、目的関数で可能な限りキャプチャし、検証を使用して正則化パラメーター ラムダの最適値を決定することの重要性を強調しています。次に、教授は、ラムダの選択がさまざまなレベルのノイズでどのように変化するか、および検証を使用すると、ノイズが与えられた場合に可能な限り最良の結果を決定するのにどのように役立つかを示します。最後に、パフォーマンスに応じて、さまざまなパラメーターを持つさまざまなタイプの正則化子の使用について説明します。

  • 01:10:00 このセクションでは、教授が機械学習における正則化の使用について説明します。これは、完全に原則的な活動ではなく、実験的な活動です。機械学習のアプローチは、理論と実践の間のどこかにあります。つまり、理論と実践の両方に強力な基盤があります。教授はルジャンドル多項式を直交関数として使用します。これは、ルジャンドル多項式が興味深いレベルの一般性を提供し、解が単純であるためです。正則化により、ユーザーは最高のパフォーマンスを得るためのスイート スポットを見つけることができます。これは、2 つの個別のステップの間である可能性があります。追加された正則化項は、データセットに明示的に依存しません。ただし、最適なパラメーターであるラムダは、検証によって決定されるトレーニング セットに依存します。

  • 01:15:00 このセクションでは、正則化の概念が導入されます。これには、機械学習モデルでのオーバーフィッティングを回避するために、損失関数にペナルティ項を追加することが含まれます。最も一般的な正則化の 2 つのタイプである L1 と L2 について、それぞれの長所と短所とともに説明します。さらに、代替正則化手法としての早期停止とドロップアウトの使用についても説明します。講義の最後には、特定の問題に対する適切な正則化方法を決定する方法の概要と、正則化を実装する際に考慮すべき一般的なハイパーパラメーターについて説明します。
Lecture 12 - Regularization
Lecture 12 - Regularization
  • 2012.05.14
  • www.youtube.com
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
 

講義 13 - 検証




Caltech の機械学習コース - CS 156. 講義 13 - 検証

講義13では、モデル選択のための機械学習における重要な手法である検証に焦点を当てます。講義では、検証がなぜ検証と呼ばれるのか、モデル選択にとってなぜ重要なのかなど、検証の詳細について説明します。相互検証は、トレーニングと検証に使用可能なすべての例を使用できる検証の一種としても説明されています。講師は、アウトオブサンプルポイントを取り、仮説と目標値の差を計算する確率変数を使用して、アウトオブサンプル誤差を推定する方法を説明します。この講義では、推定値を使用して特定のモデルを選択するときに導入されるバイアスについても説明します。これは、検証セットに基づいて選択されたため、信頼性がなくなったためです。クロス検証の概念は、さまざまな仮説のサンプル外エラーを評価する方法として導入されています。

また、モデルの選択と検証に交差検証を使用してオーバーフィッティングを防止する方法についても説明しており、「1 つを除外する」ことと 10 倍の交差検証に焦点を当てています。教授は、サンプル外の不一致とデータのスヌーピングを説明することの重要性を実証し、サンプリング バイアスを回避するための方法をランダム化することを提案しています。彼は、クロス検証は複雑さを増す可能性がありますが、それを正則化と組み合わせることで最適なモデルを選択できると説明しています。また、検証は仮定を必要としないため、独自のものです。教授はさらに、異なるシナリオやモデル間で比較する場合でも、相互検証が原則に基づいた選択を行うのにどのように役立つか、および検証ポイントの合計がエラーバーとバイアスをどのように決定するかについて説明します。

  • 00:00:00 このセクションでは、検証に焦点を当てます。これは、モデルの選択に使用される機械学習のもう 1 つの重要な手法です。このプロセスには、検証セットのサイズを選択し、それを使用してモデル選択プロセスを検証することが含まれます。講義では、検証がなぜ検証と呼ばれるのか、モデル選択にとってなぜ重要なのかなど、検証の詳細について説明します。ディスカッションでは、トレーニングと検証に利用可能なすべての例を使用できるようにする一種の検証であるクロス検証についても説明します。講義では、制御に関する限り、検証と正則化を対比します。

  • 00:05:00 このセクションでは、モデルの複雑さによるサンプル内エラーとサンプル外エラーの違いを扱う、よく知られた方程式のコンテキストで、講師が検証と正則化について説明します。正則化は過適合の複雑さのペナルティを推定しますが、検証は標本外エラーを直接推定しようとします。講師は、アウトオブサンプルポイントを取り、仮説と目標値の差を計算する確率変数を使用して、アウトオブサンプル誤差を推定する方法を説明します。講師は、分散が推定の品質にどのように影響するかを強調し、1 つではなく点の完全なセットを使用することを提案します。

  • 00:10:00 このセクションでは、サンプル外エラーの偏りのない推定値としての検証セットと検証エラーの概念が導入されています。検証エラーの期待値は E_out です。これは、1 つのポイントでの期待値の別の形式です。検証エラーの分散が分析され、E_val に基づく推定値が単一点と比較して改善されていることが示されます。分散は最終的に 1/K に比例します。これは、K を大きくするとエラー バーが縮小し、推定の信頼性が向上することを意味します。ただし、検証ポイントの数は無料ではなく、トレーニングに使用できるポイントの数に直接影響します。

  • 00:15:00 このセクションでは、検証のプロセスに焦点を当てています。これにより、検証目的で N ポイントから K ポイントが取得され、残りのサブセット D_train がトレーニングに使用されます。最終的な仮説が信頼できるものであることを保証するために、検証セットの信頼できる推定値を持つことの有用性に注意することも重要です。ただし、不良数量の信頼できる推定値を持つことが目的であってはなりません。 K の値が大きくなると、推定の信頼性が高まりますが、仮説の質は低下します。したがって、K の増加に伴う代償を払わなくても済む方法を見つけることが重要です。1 つの方法は、エラーを推定した後にデータセットを復元し、完全なセットでトレーニングして、より良い結果を得る方法です。

  • 00:20:00 このセクションでは、トレーニング中に検証セットを使用した場合のパフォーマンスの妥協点に焦点を当てています。 D_train の削減されたセットは、完全なトレーニング セット D と比較して例が少なくなり、これを使用して最終仮説 g マイナスを取得します。見積もりを取得するには、検証セット D_val で g マイナスを評価し、残りの例をポットに追加して g を報告します。ただし、K が大きいということは、g マイナスと g の差が大きくなることを意味し、これは報告する推定値の信頼性に影響します。したがって、両方の長所を活かすために、検証に 5 分の 1 を使用するという経験則があります。学習プロセスに影響を与え、選択を助けるため、検証と呼んでいます。

  • 00:25:00 このセクションでは、テスト エラーと検証エラーの違いを理解することに焦点を当てます。テスト セットに偏りがなく、E_out の推定に使用される場合、推定値に変動があります。早期停止を使用すると、推定のバイアスが変化します。ミニラーニング シナリオでは、最小値の期待値が 0.5 未満であり、楽観的バイアスになっていることが簡単にわかります。早期停止のためにポイントが選択された場合も同じことが起こります。選択されたポイントは実現の最小値であり、楽観的なバイアスが導入されます。

  • 00:30:00 このセクションでは、機械学習におけるモデル選択のための検証セットの使用について説明します。このプロセスでは、トレーニング セットと検証セットに分割されたデータセットを使用して M モデルをトレーニングし、検証セットで各モデルのパフォーマンスを評価してサンプル外エラーの推定値を取得します。検証エラーが最小のモデルが選択されますが、この選択プロセスによりバイアスが導入されるリスクがあります。それにもかかわらず、偏りは実際には一般に小さく、標本外誤差の信頼できる推定値を得るために受け入れることができます。

  • 00:35:00 このセクションでは、講師は推定値を使用して特定のモデルを選択するときに導入されるバイアスについて説明します。これは、検証セットに基づいて選択されたため、信頼性がなくなったためです。推定器の期待値は、サンプル外誤差の偏った推定値になります。 2 つのモデルを使用した実験では、一方のモデルまたは他方のモデルへの系統的な偏りを示す曲線が生成されました。グラフの曲線は、学習曲線を逆方向に示し、サンプル外エラーがどのように減少するかを示し、トレーニングの例をさらに示します。検証セットのサイズが大きくなるにつれて、推定の信頼性が高まり、モデルのエラーを示す曲線が収束します。

  • 00:40:00 このセクションでは、特別な仮説セットでのトレーニングと、検証セットを使用した最終的な仮説の発見との間の不一致またはバイアスを推定する方法について説明します。検証セットは、最終的な仮説セットのトレーニング エラーと見なされ、VC 次元と有効な複雑さに関連する少しの数学を使用して、サンプル外エラーの推定値を取得できます。より多くの例が推定を改善しますが、増加した数の仮説から選択するときは、対数の寄与を考慮する必要があります。それにもかかわらず、単一のパラメーターを処理する場合、有効な複雑さは 1 の VC 次元であり、これは処理がそれほど難しくありません。したがって、適切なセットがあれば、サンプル外エラーの推定は実際の値とあまり変わらないでしょう。

  • 00:45:00 このセクションでは、スピーカーは、特に検証のコンテキストで、エラー推定を使用して意思決定を行う際のデータ汚染の考え方について説明します。トレーニング セットは完全に汚染されていると見なされますが、テスト セットは完全にクリーンで偏りのない推定値が得られます。ただし、検証セットはいくつかの決定を行うために使用されるため、わずかに汚染されているため、必要に応じて別の検証セットに移ることが重要です。次に、スピーカーは、プロセスでバイアスがかかっていない限り、より小さなエラーバーでより良い推定値を得ることができる検証方式としてクロス検証を導入します。

  • 00:50:00 このセクションでは、教授は相互検証による検証の概念、特に「1 つを除外する」方法を紹介します。この方法では、データセットを 2 つに分割し、1 つのポイントを検証に使用し、残りをトレーニングに使用します。このプロセスはさまざまな点で繰り返され、複数の偏りのない不完全な推定が行われます。すべての推定は、N から 1 を引いたデータ ポイントを使用したトレーニングに基づいているため、共通のスレッドがあります。不完全ではありますが、推定値を繰り返すことでモデルの動作を把握し、モデルを最適化してサンプル外でのパフォーマンスを最適化することができます。

  • 00:55:00 このセクションでは、さまざまな仮説のサンプル外エラーを評価する方法として、交差検証の概念を紹介します。データセットをトレーニング セットと検証セットに分割することで、目に見えないデータに対するモデルのパフォーマンスを推定できます。このプロセスを説明するために、「1 つを残す」方法が使用されます。交差検証の有効性について説明し、N - 1 ポイントをトレーニングに使用し、N ポイントを検証に使用すると、正確な結果を得るのに非常に効率的であることが示されています。

  • 01:00:00 このセクションでは、教授がモデル選択のための交差検証の使用について説明します。彼は、線形モデルと定数モデルを 3 点で比較することによってこれを実証し、定数モデルがどのように勝つかを示しています。次に、20 個の特徴を持つ 5 次の非線形変換を使用して、手書き数字の分離面を見つける問題に交差検証を適用します。彼はクロス検証の「1 つを除外する」を使用して 20 個のモデルを比較し、機能の追加を停止する場所を選択します。彼は、クロス検証エラーがサンプル外エラーと密接に追跡し、それをモデル選択の基準として使用すると、検証なしで完全なモデルを使用する場合と比較してパフォーマンスが向上し、6 つの特徴で最小になることを示しています。

  • 01:05:00 このセクションでは、オーバーフィッティングを防ぐための検証の使用と、それが正則化とどのように類似していると見なされるかについて教授が説明します。彼は、「1 つを除外する」検証が実際の問題のほとんどで実際的ではないことを説明し、代わりに 10 分割交差検証を使用することを提案しています。彼はまた、データセットのサイズに基づいて使用するパラメーターの数に関するガイダンスを提供し、検証によるモデルの選択がデータスヌーピングとしてカウントされない理由を明確にします.

  • 01:10:00 このセクションでは、検証セットを使用してモデルの選択を行う際に、サンプル外の不一致とデータのスヌーピングを説明することの重要性について教授が説明します。彼は、多くの実際的なケースで、コインを投げてサンプリング バイアスを回避し、交差検証手法を使用して正則化パラメーターを選択するなどのランダム化手法を使用する必要性を強調しています。相互検証は計算を複雑にする可能性がありますが、正規化と組み合わせてモデルに最適な仮説を選択することもできます。教授は、モデルを選択する方法は他にもありますが、検証は仮定を必要としないという点で独特であると述べています。

  • 01:15:00 このセクションでは、教授は、選択の性質に関係なく、モデルを選択する際に原則に基づいた選択を行うのに検証がどのように役立つか、および時間発展または追跡システムの場合にモデルを更新するためにどのように使用できるかについて説明します進化。検証と交差検証を比較すると、どちらの方法にも偏りがあるが、交差検証ではより多くの例をトレーニングと検証の両方に使用できるため、エラーバーが小さくなり、偏りに対する脆弱性が低くなると説明しています。クロスバリデーションが不要なほど大きなデータセットを持つことは可能かもしれませんが、教授は、データの性質上、1 億ポイントでもクロスバリデーションが有益である例を示しています。

  • 01:20:00 このセクションでは、交差検証が有用なシナリオについて説明し、潜在的な問題に対処します。彼は、大規模なデータセットの最も関連性の高い部分がセット全体よりも小さい場合に、相互検証が適切になると説明しています。競合するモデルを決定する場合、サンプル外エラーの重要性を判断するために統計的証拠が必要です。教授は、より小さなデータセットでは、クロス検証のためにセットを再サンプリングするかチャンクに分割する方が良いかについて決定的な答えはないと述べています.教授はまた、クラス間のバランスの役割と、取り残されるポイントの数を増やしたときにバイアスがどのように動作するかについても説明します.最後に、教授は、検証ポイントの総数がエラーバーを決定し、バイアスはクロス検証の使用方法の関数であると説明しています。

  • 01:25:00 このセクションでは、教授がエラー バーについて説明し、エラー バーが推定値のバイアスに対する脆弱性を示す方法について説明します。 2 つのシナリオの誤差範囲が同等である場合、一方がバイアスに対してより脆弱であると信じる理由はありません。ただし、一度に 1 つのシナリオを取ることと相関関係を考慮することの違いを確認するには、詳細な分析が必要です。教授は、いくつかの折り畳みが行われ、すべての例が交差検証推定に 1 回だけ表示される限り、バイアスに関してシナリオ間の好みはないと結論付けています。
Lecture 13 - Validation
Lecture 13 - Validation
  • 2012.05.17
  • www.youtube.com
Validation - Taking a peek out of sample. Model selection and data contamination. Cross validation. Lecture 13 of 18 of Caltech's Machine Learning Course - C...
 

講義 14 - サポート ベクター マシン



Caltech の機械学習コース - CS 156. 講義 14 - サポート ベクター マシン

この講義では、検証の重要性と機械学習におけるその使用、および検証に対する交差検証の利点について説明します。講義の焦点は、分類のための最も効果的な学習モデルとしてのサポート ベクター マシン (SVM) であり、制約付き最適化によるマージンの最大化、定式化、および分析ソリューションを含むセクションの詳細な概要が示されています。講義では、SVM の点と超平面の間の距離を計算する方法、SVM の最適化問題を解く方法、および双対定式化で SVM 最適化問題を定式化する方法など、さまざまな専門知識について説明します。講師は、二次計画法を使用して最適化問題を解決することの実用的な側面と、サポート ベクターを特定することの重要性についても説明します。講義の最後に、SVM での非線形変換の使用について簡単に説明します。

サポート ベクター マシン (SVM) に関するこの講義の 2 番目の部分では、講師はサポート ベクターの数を例の数で割ると、サンプル範囲外の点を分類する際のエラー確率の上限がどのように得られるかを説明します。非線形変換が実行可能なサポート ベクターの使用。教授はまた、w 転置された x と b を 1 にする正規化と、その最適化の必要性、およびエラーを許容してペナルティを科す SVM のソフト マージン バージョンについても説明します。さらに、サポート ベクターの数と VC 次元の間の関係が説明され、ノイズに対するメソッドの耐性が言及され、ノイズの多いデータの場合に使用されるメソッドのソフト バージョンが示されます。

  • 00:00:00 このセクションでは、講師が検証の重要性、特に機械学習での使用に関して説明します。検証エラーの結果としての公平で楽観的なバイアスの概念と、モデル選択への影響についても説明されています。検証に対する相互検証の利点は、このセクションでさらに強調されています。さらに、講師は、サポート ベクター マシンを分類の最も効果的な学習モデルとして紹介し、学習モデルの重要な利点として、その直感的な解釈、原理に基づく導出、および最適化パッケージを挙げています。制約付き最適化によるマージン、処方、および分析ソリューションの最大化を含むセクションの詳細な概要も提示されます。

  • 00:05:00 このセクションでは、線形分離でマージンを最大化するという概念が説明されました。線形に分離可能なデータを分離するすべての行でサンプル内誤差はゼロですが、より一般化できるようにマージンが改善される場合もあります。ノイズの多い状況では、新しいポイントが正しく分類される可能性が高くなるため、マージンが大きいほど良いと説明されています。これは成長関数に関連しており、成長関数が大きいほど機械学習の一般化に不利になります。マージンを最大化すると、データを正しく分離するだけでなく、それらのデータ ポイントに可能な最大のマージンを持つ行を検索することで、一般化に役立つことが示されています。
     
  • 00:10:00 このセクションでは、講師がファット マージンと、それによって分類器のパフォーマンスを向上させる方法について説明します。分類器に特定のサイズのマージンを持たせることを要求することで、可能な二分法の数が減り、成長関数が小さくなり、VC 次元が小さくなります。マージンが大きいほど、分類器のサンプル外のパフォーマンスが向上します。次に、講師は、超平面と最も近いデータ ポイントとの間の距離を見つけ、ベクトル w を正規化して分析を簡素化することにより、可能な限り最大のマージンを解決する方法を説明します。信号、つまり超平面とデータ ポイント間の距離は、ユークリッド距離ではなく、最も近いポイントと最も遠いポイントの順序であり、ユークリッド距離を取得するには変換する必要があります。

  • 00:15:00 このセクションでは、講師がサポート ベクター マシン分析に関連するいくつかの技術について説明します。まず、異なる平面の性能を比較するために、ユークリッド距離が尺度として使用されます。次に、サポート ベクター マシンをより便利に解析するためにベクトル X から w を抽出し、新しい役割を持つ w ベクトルと混同しないように w0 を抜き出します。目標は、xₙ (最も近い点) と平面の間の距離を計算することです。講師は、ベクトル w が平面および平面上のすべてのベクトルに直交していることを示しています。これは、平面上のすべての法線ベクトルに直交していることを意味します。これで、xₙ と平面の間の距離を取得できます。

  • 00:20:00 このセクションでは、スピーカーは、SVM でポイントと超平面の間の距離を計算する方法について説明します。これは、点から超平面上の一般的な点に向かうベクトルを、超平面に直交する方向に射影することによって行うことができます。この方向の単位ベクトルは、ベクトルの長さを正規化することによって計算されます。いくつかの代数を使用して、話者は距離の式を導き出し、欠落している項を追加することで単純化します。この式を使用して、可能な限り最高のマージンを与える w の組み合わせを選択できます。この結果生じる最適化問題は、制約が最小であるため、あまりユーザーフレンドリーではありません。ただし、いくつかの簡単な観察を行うことで、この問題をより使いやすい 2 次問題に再定式化できます。

  • 00:25:00 このセクションでは、講師がサポート ベクター マシン (SVM) の最適化問題の解き方を説明します。まず、SVM を制約付き最適化問題として定式化する方法を示します。この問題では、線形不等式制約に従う目的関数を最小化する必要があります。彼らは、ラグランジュ乗数を使用して不等式制約を等式制約に変換し、新しいラグランジュを解くことが可能であることを証明しています。彼らは、このアプローチが Karush と Kuhn-Tucker によって独立して発見され、KKT ラグランジュと呼ばれていることに注目しています。講師は、プロセスが正則化の手順に似ていることを強調し、解の勾配条件を思い出します。

  • 00:30:00 このセクションでは、講師が SVM と正則化とラグランジュ定式化の関係について説明します。勾配が 0 に等しい非制約問題とは異なり、制約が非ゼロ勾配につながることに注意することが不可欠です。ラグランジュ定式化は w や b などの変数に依存し、新しい変数、アルファ ベクトルのようなラグランジュ乗数があります。 .当面の問題は、目的関数を形式の制約に従って最小化することです。次に、それにラグランジュ名を付けます。興味深いのは、アルファは非負でなければならないにもかかわらず、実際にはアルファに関して最大化していることです。したがって、これに注意を払う必要があります。このセクションは、w と b に関してラグランジュの勾配を最小化する必要がある、制約のない部分の簡単な説明で締めくくります。

  • 00:35:00 講義のこのセクションでは、スピーカーは双対定式化で SVM 最適化問題を定式化する方法を説明します。彼は最初に w と b に関して問題を最適化し、2 つの条件を元のラグランジュに代入し、問題の二重定式化に至りました。次に、アルファが非負になるように制約を設定し、これらの制約に従って最大化問題を解き、サポート ベクターを決定するアルファの最適値を導き出します。

  • 00:40:00 このセクションでは、スピーカーは、二次計画法を使用して前に提示したサポート ベクター マシンの最適化問題を解決する実用的な側面について説明します。目的と制約は、最小化のために二次計画法パッケージに渡される係数に変換されます。行列の次元は例の数に依存し、これは大規模なデータセットの実際的な考慮事項になります。スピーカーは、例の数が多い場合、二次計画法は解を見つけるのに苦労し、ヒューリスティックの使用が必要になる可能性があると警告します。

  • 00:45:00 このセクションでは、二次計画法、特にアルファによってもたらされる解決策と、それが重み、表面、マージン、および b を決定するという元の問題とどのように関係しているかを詳しく説明します。講義では、平面とマージンを定義するポイントであるサポート ベクターを特定することの重要性が強調されています。正のラムダ (この場合はアルファ) の背後にある数学は、正の値を持つ点のみを考慮するため、サポート ベクターを識別する方法を提供します。これは、これらのアルファ値が 2 つの分類間の境界を定義するために重要であることを意味し、それらの位置を特定することは重みを最適化し、最大マージンを作成する上で重要です。

  • 00:50:00 このセクションでは、サポート ベクターの概念を紹介し、サポート ベクター マシン (SVM) アルゴリズムのコンテキストで説明します。サポート ベクターは、データのクラスを分離する決定境界または超平面に最も近いデータ ポイントとして定義されます。 SVM アルゴリズムは、二次計画問題を最適化して、決定関数のサポート ベクターとパラメーターを決定します。パラメーターの値は、クリティカル ポイントであるサポート ベクターのみに依存するため、モデルを適切に一般化できます。分離不可能なデータを処理する方法として、非線形変換についても簡単に説明します。データを高次元空間に変換しても最適化問題は複雑になりません。同じ手法を使用して、サポート ベクターと決定関数を見つけることができます。

  • 00:55:00 ビデオのこのセクションでは、講師が SVM での非線形変換の使用について説明します。非線形変換は、X 空間の場合のように、データが線形に分離できない場合に使用されます。講師は、線形分離可能な結果を得るために、非線形変換を使用して Z 空間で作業する方法を実演します。彼は、解決策は簡単で、アルファの数は、作業している空間の次元ではなく、データ ポイントの数に依存すると説明しています。最適化の観点から。サポート ベクターは Z 空間で識別されますが、X 空間ではデータ ポイントのように見えます。

  • 01:00:00 このセクションでは、講師は非線形変換でサポート ベクターを使用することを可能にする一般化の結果について説明します。有効なパラメーターの数を表すサポート ベクターの数を例の数で割ると、サンプル外の点を分類する際のエラー確率の上限が決まります。この機械のいくつかの実行の期待値が保持される場合、特定のケースで得られる実際の E_out は、おなじみのタイプの境界 (たとえば、パラメーターの数、自由度、および VC 次元を で割ったもの) によって制限されます。例の数)。この結果により、人々はサポート ベクターとサポート ベクターを非線形変換で使用するようになります。高次元への計算やそれに伴う一般化の費用がかからないためです。

  • 01:05:00 このセクションでは、教授が w 転置 x と b を 1 に正規化することを選択した理由と、この正規化が最適化に必要な理由を説明しています。彼はまた、SVM が非線形変換によって非線形に分離可能なポイントを処理する方法、および SVM のソフト マージン バージョンがエラーを許容し、それらにペナルティを課す方法についての質問に答えます。さらに、教授は、サポート ベクターの数と VC 次元の関係、およびアルファが SVM のパラメーターを表す方法について簡単に触れています。

  • 01:10:00 このセクションでは、講師はゼロ以外のパラメーターの数と、定義によりサポート ベクターの数に相当する VC 次元との関係について説明します。マージンの測定値は、使用する基準によって異なりますが、パフォーマンスの点でどちらか一方を優先する説得力のある理由はありません。サポート ベクターを枝刈りするための直接的な方法はありませんが、サブセットを取得してサポート ベクターのサポート ベクターを取得することは、計算上の考慮事項になる可能性があります。 SVM 法は特にノイズの影響を受けにくく、ノイズの多いデータの場合は、ノイズのない場合と非常によく似たソフト バージョンの方法が使用されます。
Lecture 14 - Support Vector Machines
Lecture 14 - Support Vector Machines
  • 2012.05.18
  • www.youtube.com
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
 

講義 15 - カーネルメソッド



Caltech の機械学習コース - CS 156. 講義 15 - カーネル メソッド

カーネル メソッドに関するこの講義では、サポート ベクター マシン (SVM) を、マージンを最大化するという概念により、従来の線形回帰モデルよりもパフォーマンス主導型の線形モデルとして紹介します。データが線形に分離できない場合は、非線形変換を使用して波状の曲面を作成し、複雑さを犠牲にすることなく複雑な仮説を立てることができます。このビデオでは、高次元の Z 空間に移動するカーネル メソッドについて説明し、個々のベクトルを計算せずに内積を計算する方法を説明しています。このビデオでは、分類問題に対して有効なカーネルを取得するためのさまざまなアプローチについても概説し、分離不可能なデータに SVM を適用する方法について説明します。最後に、このビデオでは、SVM におけるスラックの概念とマージン違反の定量化、マージン違反にペナルティを課すための変数 xi の導入、およびアルファを解決するためのラグランジュ定式化の見直しについて説明します。

第 2 部では、サポート ベクター マシン (SVM) とカーネル メソッドの使用に関する実用的な側面について説明します。彼は、ソフト マージン サポート ベクター マシンの概念と、幅広いマージンを維持しながら誤分類を許容する方法について説明しています。彼は、どの程度の違反が発生するかを決定するパラメーター C の重要性について語り、交差検証を使用してその値を決定することを提案しています。彼はまた、変換されたデータの定数座標に関する懸念に対処し、それがバイアス項と同じ役割を果たすことをユーザーに保証します。さらに、カーネルを組み合わせて新しいカーネルを生成する可能性について説明し、データ点が多すぎる SVM を解くのに二次計画法が失敗した場合に使用できるヒューリスティックな方法を提案しています。

  • 00:00:00 カーネル メソッドに関するレクチャーのこのセクションで、Yaser Abu-Mostafa は、サポート ベクター マシン (SVM) の概念を紹介し、SVM は最も単純な形式の線形モデルに過ぎず、よりパフォーマンス指向であることを指摘しています。マージンを最大化するという考えのためです。二次計画法のパッケージを使用することで、SVM 問題を解いてアルファを取得できます。これは、サポート ベクターを特定するのに役立ちます。データが線形に分離できない場合は、非線形変換を使用できますが、結果として得られる波状の曲面により、複雑さの代償を払うことなく複雑な仮説を得ることができます。サンプル内の量であるサポート ベクターの数に基づいて、サンプル外エラーを予測できます。

  • 00:05:00 このセクションのビデオでは、カーネル メソッドの概念と、線形分離可能なケースを超えてサポート ベクター マシンを拡張する際のカーネル メソッドの役割について説明します。カーネル メソッドの背後にある考え方は、複雑さを犠牲にすることなく高次元の Z 空間に到達することです。このビデオでは、これを達成するための鍵は、Z 空間内の個々のベクトルを実際に計算せずに、Z 空間内の内積を計算できるようにすることであると説明しています。これは、明示的な入力のみを使用して内積の計算を可能にするカーネルの出番です。このビデオでは、非線形変換とソフト マージンを処理するためのこれらの方法の意味と、複雑な問題を処理するために実際に使用する方法について説明します。

  • 00:10:00 このセクションでは、Z 空間での内積の使用と、カーネル メソッドとの関係について説明します。内積は、ラグランジュを形成し、二次計画法に制約を渡すために必要ですが、サポート ベクター機械を実行するために、内積のみを使用して計算できます。 Z 空間に対応する一般化された内積またはカーネルを使用することにより、2 つの点 x および x ダッシュを、カーネルと呼ばれる x および x ダッシュによって決定される関数に変換できます。 2 次多項式変換を使用した 2 次元ユークリッド空間の例を示します。

  • 00:15:00 このセクションでは、講師がカーネル メソッドの概念と、x と x ダッシュを変換せずにカーネルを計算する方法について説明します。講師は物事を Z 空間に変換しないカーネルを即興で作り、カーネルが Z 空間への変換に対応し、そこで内積をとることを聴衆に納得させます。講師は、1 + x_xdash を Q 乗した値でカーネルを 2 乗すると、これがどのように空間の内積になり、有効なカーネルになるかを説明します。さらに、講師は、同じままである Q の複雑さに関係なく、これを行うために必要な計算量を他の次元と比較します。

  • 00:20:00 このセクションでは、実際に多項式を展開せずに実行できる多項式変換のカーネル法について講師が説明します。対数を取って累乗することにより、多項式は単純な演算になり、巨大な展開を必要としません。これは簡単な多項式で、2D で視覚化して、他の場合に外挿できます。高次元空間にマッピングされるカーネルは、その空間で内積を取ることによって取得できます。講師は、X 空間や Z 空間では内積項を持たないが、無限次元空間では内積に相当するカーネルの例を紹介します。無限次元空間に行くという課題にもかかわらず、カーネル法は依然として有用であり、サポート ベクターの数を使用してモデルの一般化を決定できます。

  • 00:25:00 このセクションでは、講師が、無限次元空間に対応する洗練されたカーネルである動径基底関数カーネルを実演し、それが実際にどのように機能するかを、わずかに分離できないケースを取り上げて示します。講師は無作為に 100 点を生成し、それらを区切る線がないことを示します。次に、講師は X を無限次元空間に変換し、単純な指数関数であるカーネルを計算します。講師はこれを二次計画法に渡し、二次計画法がサポート ベクターを返します。講師がサポート ベクターを暗くすると、2 つのクラスが見やすくなります。

  • 00:30:00 このセクションでは、スピーカーはカーネル メソッドのアイデアと、それらを分類に使用する方法について説明します。彼は、ポイントのデータセットでカーネルを使用して、それらを線形平面で分離できる無限次元空間に変換する例を示しています。得られたマージンとサポート ベクターを使用して、汎化プロパティを導くサンプル内の量を決定します。次にスピーカーは、ある Z 空間の内積に対応する有効なカーネルを、問題の定式化と仮説の構築にどのように使用できるかを説明します。全体として、彼はカーネル メソッドの有用性と、それらを分類問題の解決にどのように適用できるかを強調しています。

  • 00:35:00 このセクションでは、線形モデルをカーネル形式に変換する方法を学びます。サポート ベクター マシンは、カーネルの選択を可能にするモデルになります。内積が Z 空間で取得された後、カーネルが内積の代わりになります。結果のモデルはカーネルの選択に依存し、サポート ベクターをプラグインすることで b を解くこともできます。ただし、Z 空間にアクセスしないとその有効性を確認できないため、カーネルを特定するのは困難です。それにもかかわらず、異なるカーネルの機能形式を調べることで、アプローチを比較する方法を説明します。

  • 00:40:00 このセクションでは、講師がカーネルメソッドで有効なカーネルを取得するための条件について説明します。次の 3 つのアプローチがあります。概念的または明示的な変換セットからカーネルを構築する構築。マーサーの条件。与えられたカーネルが対称であり、カーネル値から構築された行列が正の半正定値であることを必要とします。そして最後に、カーネルの実行可能性が非常に現実的な問題であり、2 つの条件を同時に満たす必要がある即興アプローチです。これらは、カーネルが対称であり、カーネル値から構築された行列が、マーサーの条件で必要とされるように、任意の点の選択に対して正の半定値でなければならないということです。

  • 00:45:00 このセクションでは、講師は、データが線形分離できない状況と、そのような場合にサポート ベクター マシン アルゴリズムを適用する方法について説明します。分離不可能なデータには 2 つのシナリオが考えられます。1 つは分離不可能性がわずかである場合、もう 1 つは分離不可能性が重要な場合です。非線形の分離可能なデータを処理するには、すべてのデータ ポイントを含む複雑で過度に高次元の空間を使用しようとする代わりに、エラーを作成して一般化を学習することで、エラーを低く抑えることができます。深刻な非分離性の場合、非線形変換を行い、カーネルまたはソフト マージン サポート ベクター マシンを使用する必要があります。次に講師は、マージン違反の考え方と、それを定量化して分類エラーを説明する方法について説明します。

  • 00:50:00 このセクションでは、講師がスラックの概念を紹介し、SVM でのマージン違反を定量化します。彼は、マージンの違反を測定するすべてのポイントに対してスラックを導入し、これらのスラックを合計することによって行われた合計違反にペナルティを課すと説明しています。彼は、他のものではなく、合理的でマージンの違反を測定するこの誤差測定を選択します。次に、マージンを最大化するとともに、マージン違反エラー項を最小化する新しい最適化を紹介します。定数 C は、マージンを最大化する前の項に対するこのマージン違反項の相対的な重要性を示します。 C の値に応じて、マージンとスラックの間のトレードオフを表すため、最終結果は直線的に分離可能なデータまたは妥協点になる可能性があります。最後に、新しい項を追加してラグランジュの定式化を見直します。

  • 00:55:00 このセクションでは、講師が変数 xi を追加してマージン違反にペナルティを課すことによって導入された新しい二次計画問題について説明します。ラグランジュには、ラグランジュ乗数ベータを使用するために解決しなければならない xi に関する新しい制約が含まれています。次に講師は、w と b の最小化がどのように変わらないかを示し、xi を解くと常にゼロになる量になることを発見します。この発見により、ベータがラグランジュから脱落し、以前と同じ解が残ります。唯一の影響は、アルファがゼロ以上であるだけでなく、C 以下でもあることです。

  • 01:00:00 ビデオのこのセクションでは、講師がソフト マージン サポート ベクター マシンの概念について説明します。これにより、広いマージンを維持しながら、ある程度の誤分類が可能になります。この解決策には、既存の等式制約に加えて、alpha が最大で C であることを要求する追加の制約が含まれます。ソフト マージン サポート ベクター マシンには、マージン サポート ベクターと非マージン サポート ベクターの両方が含まれます。後者は、マージンに違反するポイントであり、値 xi で表されるスラックを引き起こします。 C の値は、違反がどの程度発生するかを決定する重要なパラメーターであり、通常は交差検証によって決定されます。

  • 01:05:00 このセクションでは、講師がサポート ベクター マシン (SVM) とカーネル メソッドの使用に関する実践的なポイントについて説明します。彼は、データが線形分離可能でない場合、二次計画法は収束せず、実行可能な解がない状況につながる可能性があると説明しています。しかし、彼は怠け者であり、二次計画法からのアルファをソリューションに戻して、データが分離されているかどうかを評価することをユーザーに勧めています。さらに、彼は、データで変換される定数座標 1 に関する懸念に対処し、バイアス項 b と同じ役割を効果的に果たしていること、およびユーザーが同じ役割を持つ複数の座標を持つことを心配する必要がないことを説明しています。

  • 01:10:00 このセクションでは、教授は、サポート ベクター マシン (SVM) の線形性は特定の仮定に依存し、場合によっては線形よりも優れている可能性があると説明しています。データの次元は SVM の有効性に影響を与える可能性がありますが、RBF カーネルは、高次の項が急速に減衰する場合、無限の次元を処理できます。有効なカーネルには、収束に依存する明確に定義された内積が必要です。教授は、より技術的な詳細が必要なため、回帰ケースに一般化された SVM には触れません。SVM の主な成功は分類にあります。最後に、正定値ではないという二次計画法パッケージからの苦情があるかもしれませんが、解は一定の信頼性で問題ないかもしれません。

  • 01:15:00 このセクションでは、教授は、カーネルを組み合わせて新しいカーネルを生成する可能性と、Z 空間で内積を維持するための組み合わせの要件について説明します。彼はまた、二次計画問題が SVM で問題を解決する際のボトルネックであると述べ、二次計画法で処理できる点の数の見積もりを示しています。さらに、彼は、二次計画法がデータ点が多すぎる SVM の解決に失敗した場合に使用できるヒューリスティックな方法を提案しています。
Lecture 15 - Kernel Methods
Lecture 15 - Kernel Methods
  • 2012.05.24
  • www.youtube.com
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...
理由: