講義では、一般化の理論と成長関数を、N 個の点のセットに設定された仮説によって生成できる二分法の数として説明します。目標は、成長関数全体を特徴付け、ブレークを特徴付けることによってすべての N について一般化することです。点。スピーカーは、さまざまな仮説セットの成長関数を計算し、組み合わせの同一性を使用して成長関数の上限を証明するプロセスを示します。この議論では、Hoeffding 不等式における成長関数の使用、仮説間のオーバーラップを特徴付ける VC バインド、および Vapnik-Chervonenkis 不等式 (ブレークポイントによって決定される多項式の次数を持つ N の多項式) の使用についても触れています。
教授は、一般化の理論について説明し、これまでのポイントを明確にし、学習に必要なリソースを計算するために使用されるブレーク ポイントの概念を説明します。学習の焦点は、E_in ではなく E_out の近似にあり、学習者は慣れ親しんだ量を扱うことができます。教授はまた、M を成長関数に置き換えた理由と、これが N と k の組み合わせ量 B にどのように関係しているかを説明します。回帰関数について議論する際に、教授はバイアスと分散のトレードオフと、学習可能性がターゲット関数とどのように独立しているかを強調しています。最後に、教授は、同じ原則がすべてのタイプの関数に適用されることに注意します。
00:00:00 このセクションでは、点の有限集合と成長関数に制限されるミニ仮説としての二分法について学びます。成長関数は、N 個のポイントのセットに設定された仮説によって生成できる二分法の数をカウントします。パーセプトロンのブレークポイントは、制限されたセットからの仮説の使用によりパターンが失われ始めるポイントとして定義されます。理論的な目標は、成長関数全体を特徴付け、ブレークポイントを特徴付けることによってすべての N について一般化することです。また、仮説セットや入力空間とは関係なく、少数の点でのパターン数を制限すると、多数の点で多くのパターンが失われることもわかります。
00:05:00 このセクションでは、講師が 2 つの項目について説明します。1 つ目は、成長関数がブレーク ポイントを持つ多項式であることを示し、2 つ目は、ヘフディングの不等式で仮説の数 M を置き換えることを示しています。講師は、成長関数の詳細を決定する必要はなく、ヘフディングの不等式で使用できるように多項式によって制限されることを示すだけでよいことを強調しています。講師は、N と k の B と呼ばれるキー量を紹介します。これは、ブレークポイント k を持つ N 点での二分法の最大数を表す組み合わせ量です。 N, k の B の境界は、テーブルに N 個のポイントを入力し、最後のポイントを分離して再帰を導入することにより、再帰的に検出されます。
00:20:00 このセクションでは、スピーカーは行列を分析し、N と k の B の上限を解くための再帰式を導出します。ここで、N と k の B は、ブレークを設定した仮説セットの最大成長関数です。 kのポイント。再帰式を使用して N と k の B の値を計算することにより、話者はテーブルに N と k の B の上限を設定します。テーブルの境界条件が最初に満たされ、次に再帰式を使用してテーブルの残りの部分が満たされます。
00:25:00 このセクションでは、スピーカーは一般化の理論について説明し、特定のポイント数 N とブレーク ポイント k が与えられた場合の二分法またはパターンの最大数を表すテーブルについて話します。スピーカーは、テーブルがどのように満たされるか、および制約がどのように空になるかを説明します。さらに、仮説セットや入力空間について何の質問もせずに、分岐点 k を持つ任意の仮説セットの成長関数の上限となる二分法またはパターンの最大数を計算する式を提示します。
00:30:00 このセクションでは、講師が N と k の公式に関する定理を証明する帰納法について説明します。このステップでは、与えられた N と k の値に対して式が成り立つと仮定し、N-1 と k-1 についても成り立つことを証明します。講師は、2 つの式を操作し、合計をマージし、代数または組み合わせ論を使用してそれらを単一の量に減らすプロセスを実演します。目的は、与えられた式が N と k のすべての値 (以前に想定された値を含む) に対して成り立つことを確立することであり、そこから定理が証明されます。
00:35:00 このセクションでは、スピーカーは N と k の B の上限を証明するプロセスを説明します。これは、ブレークポイント k を持つ仮説セットの成長関数であり、組み合わせの同一性を使用します。結果として得られる多項式は有用です。なぜなら、ブレーク ポイントは固定数であり、N とともに大きくならないからです。話者は次に、最大べき乗が N から k を引いた 1 であることを示すことによって、上限が N の多項式であることを示します。絶え間ない。最後に、話者は仮説セットの 3 つの例に上限を適用し、それらすべてが上限を満たしていることを示します。
01:10:00 このセクションでは、教授は M を成長関数に置き換える理由と、ステートメントの技術的要件を満たすために必要な変更について説明します。教授はまた、N と k の B の定義を明確にし、B がブレークポイントで設定された仮説の上限である方法と、それが純粋に組み合わせの量である方法を詳しく説明します。次に教授は、N と k の B の証明に関する質問に答え、x_N を x_N-1 に減らしても k は変化しないと述べています。これは、より小さいセットの k 列がすべての可能なパターンを持つことはできないためです。最後に、教授は、分析と VC 分析は 2 項関数に適用できますが、実数値関数に拡張することもできます。
Theory of Generalization - How an infinite model can learn from a finite sample. The most important theoretical result in machine learning. Lecture 6 of 18 o...
00:15:00 このセクションでは、VC 理論全体が扱う仮説セットであるパーセプトロンの VC 次元について学びます。これは、VC 次元を持ち、一般化できるかどうかを教えてくれるセットであるためです。 . 2 次元空間でのパーセプトロンの VC 次元は 3 ですが、単純な式では、d 次元空間では VC 次元は d + 1 であると述べられています。これは、VC 次元の重要性を理解する上で重要です。VC 次元が最大で d + 1、少なくとも d + 1 であることを示すことで、これを証明します。実証するために、破砕が可能である限り、破砕されるマトリックスを使用して、N 個の点 (N は d + 1) の特定のセットを構築します。
00:20:00 このセクションでは、講師が d + 1 ポイントの特定のセットを示し、可逆行列を使用してそれらを粉砕できることを示します。次に、VC の次元について聴衆に質問を投げかけ、デモンストレーションの結果に基づいてどのような結論を下すことができるかを選択するよう求めます。正解は b です。これは、VC 次元が d + 1 以上であることを示しています。
00:25:00 このセクションでは、教授は VC の次元が最大でも d + 1 であることを証明する方法について説明します。教授は聴衆に、いくつかのステートメントのどれが前提を確立するかを尋ね、彼らは「d」と答えます。教授は次に説明します。彼は d プラス 2 点のセットが存在することを示す必要があること. 彼は、d プラス 2 点のセットに対して、他の点の線形結合である 1 つの点が常に存在することを示すことによってこれを行います.したがって、彼は、パーセプトロンでは実装できないことを示す二分法を構築します。
The VC Dimension - A measure of what it takes a model to learn. Relationship to the number of parameters and degrees of freedom. Lecture 7 of 18 of Caltech's...
00:15:00 このセクションでは、講師は、100 例のすべての可能な実現に関して、動作の期待値を計算する方法を説明します。統合の順序を逆にして期待を取り除くことにより、講師はきれいな分解に到達します。次のステップでは、考えられるすべての仮説の期待値を取得して、平均仮説を導き出します。これは確かに不可能な作業ですが、分析のための概念的なツールを提供します。 g bar の技術的な有用性を理解することは、最上位の式を拡張して最終的に g bar を定義する必要がある線形項を取得するときに重要になります。
00:45:00 このセクションでは、スピーカーは学習におけるバイアスと分散のトレードオフについて説明し、学習曲線の概念を紹介します。学習曲線は、データセットのサイズである N の関数として、E_out (サンプル外エラー) と E_in (サンプル内エラー) の期待値をプロットします。 N が増加するにつれて、サンプル外エラーは一般に減少しますが、この傾向は、使用されているモデルの複雑さの影響を受ける可能性があります。スピーカーは、仮説セットを効果的にナビゲートするために十分なデータ リソースを持つことの重要性を強調し、ノイズの多いデータがこのナビゲーションをさらに困難にする可能性があることに注意します。学習曲線は、バイアスと分散のトレードオフと、それが N の増加に伴ってどのように変化するかを視覚的に表したものです。
01:05:00 このセクションでは、バイアス分散分析がどのように線形回帰に固有のものであるか、およびターゲット関数を知っているとどのように仮定するかについて教授が説明します。これは役立つガイドであり、バイアスと分散の両方に影響を与える方法を理解するために使用できますが、モデルが何であるかを示すためにプラグインできるものではありません.彼はまた、モデルを選択するためのゴールド スタンダードは、ブースティングなどのアンサンブル手法を含む検証によるものであると述べています。次に教授は、分析のための理論的ツールとしての g バーの考え方を簡単に紹介しますが、この講義の焦点ではないことに注意してください。
Bias-Variance Tradeoff - Breaking down the learning performance into competing quantities. The learning curves. Lecture 8 of 18 of Caltech's Machine Learning...
00:35:00 このセクションでは、医療データの教師あり学習と、隠れたターゲット関数を近似するモデルを生成する方法について説明します。例はバイナリ出力として与えられ、確率の影響を受けるため、ノイズの多いケースになります。ターゲットは、d 次元のユークリッド空間から 0,1 までであり、x の確率解釈 f を使用します。 x の仮説 g は、重みを見つけて x で内積することによって求められます。目的は、ロジスティック回帰仮説が、もっともらしくオプティマイザーにとって使いやすい尤度によって構築されたエラー測定を使用して、ターゲット関数を反映するように重みを選択することです。エラー メジャーは、実際にデータを生成したターゲットである可能性に応じて、さまざまな仮説を評価します。
The Linear Model II - More about linear models. Logistic regression, maximum likelihood, and gradient descent. Lecture 9 of 18 of Caltech's Machine Learning ...
00:45:00 講義のこのセクションでは、決定論的ノイズと確率論的ノイズの違いを説明し、決定論的ノイズがオーバーフィッティングに与える影響を分析します。決定論的ノイズは使用される仮説セットに依存し、ターゲットの複雑さが増加するにつれて、決定論的ノイズとオーバーフィッティングも増加することが強調されます。ただし、これはターゲットの複雑さが一定のレベルを超えるまで発生しません。有限 N の場合、確率的ノイズと同じ問題が決定論的ノイズに適用され、サンプル サイズが限られているためにその一部をキャプチャする可能性があります。より複雑な仮説セットを使用することが必ずしも良いとは限らず、オーバーフィッティングにつながる可能性があることも言及されています。
Overfitting - Fitting the data too well; fitting the noise. Deterministic noise versus stochastic noise. Lecture 11 of 18 of Caltech's Machine Learning Cours...
00:20:00 このセクションでは、講師が仮説セットの重みに適用される制約である正則化の概念について説明します。正則化には、重みの合計の大きさの 2 乗に予算 C を設定することが含まれます。つまり、すべての重みを大きくしすぎることはできません。問題は、この制約を受けながらサンプル内エラーを最小限に抑えることです。解はラグランジュ乗数または KKT を使用して取得され、w_reg と呼ばれる新しい解が得られます。講師は、目標は、サンプル内エラーを最小化する円内の点を選択することであると説明します。これには、制約に違反せずにできる限り遠くに行く必要があります。
00:25:00 このセクションでは、正則化の概念について説明します。ここでの目的は、目に見えないデータを適切に一般化するモデルを導き出すことです。線形回帰の解は、制約を満たす最小絶対値です。主な焦点は、目的と制約の間の妥協点を見つけるために、制約に従って、E_in の最小値を達成するための分析条件を導出することです。目的関数の勾配は楕円に直交する必要があり、ベクトル w は赤い面の方向です。 w_reg の解析条件は、勾配が解の負の値に比例する必要があることです。解の方程式を最小化することにより、E_in の最小値を無条件に取得します。
00:30:00 このセクションでは、正則化におけるパラメーター C とラムダの関係について説明します。 C の値が大きいほど、正則化項が重視されないため、ラムダの値が小さくなります。逆に、C が減少すると、正則化項がより重要になり、条件を適用するためにラムダの値を増やす必要があります。講義では、誤差関数と正則化項の和である拡張誤差についても紹介します。これは、制約を受けながら誤差関数を最小化する、制約のない最適化問題に相当します。この対応は、一般化の観点から正則化を正当化し、任意の正則化子に適用できます。最後に、この講義では、拡張エラーを最小限に抑えるための式を提供し、ソリューションを提供して締めくくります。
Regularization - Putting the brakes on fitting the noise. Hard and soft constraints. Augmented error and weight decay. Lecture 12 of 18 of Caltech's Machine ...
00:15:00 このセクションでは、検証のプロセスに焦点を当てています。これにより、検証目的で N ポイントから K ポイントが取得され、残りのサブセット D_train がトレーニングに使用されます。最終的な仮説が信頼できるものであることを保証するために、検証セットの信頼できる推定値を持つことの有用性に注意することも重要です。ただし、不良数量の信頼できる推定値を持つことが目的であってはなりません。 K の値が大きくなると、推定の信頼性が高まりますが、仮説の質は低下します。したがって、K の増加に伴う代償を払わなくても済む方法を見つけることが重要です。1 つの方法は、エラーを推定した後にデータセットを復元し、完全なセットでトレーニングして、より良い結果を得る方法です。
00:20:00 このセクションでは、トレーニング中に検証セットを使用した場合のパフォーマンスの妥協点に焦点を当てています。 D_train の削減されたセットは、完全なトレーニング セット D と比較して例が少なくなり、これを使用して最終仮説 g マイナスを取得します。見積もりを取得するには、検証セット D_val で g マイナスを評価し、残りの例をポットに追加して g を報告します。ただし、K が大きいということは、g マイナスと g の差が大きくなることを意味し、これは報告する推定値の信頼性に影響します。したがって、両方の長所を活かすために、検証に 5 分の 1 を使用するという経験則があります。学習プロセスに影響を与え、選択を助けるため、検証と呼んでいます。
00:30:00 このセクションでは、機械学習におけるモデル選択のための検証セットの使用について説明します。このプロセスでは、トレーニング セットと検証セットに分割されたデータセットを使用して M モデルをトレーニングし、検証セットで各モデルのパフォーマンスを評価してサンプル外エラーの推定値を取得します。検証エラーが最小のモデルが選択されますが、この選択プロセスによりバイアスが導入されるリスクがあります。それにもかかわらず、偏りは実際には一般に小さく、標本外誤差の信頼できる推定値を得るために受け入れることができます。
Validation - Taking a peek out of sample. Model selection and data contamination. Cross validation. Lecture 13 of 18 of Caltech's Machine Learning Course - C...
00:10:00 このセクションでは、講師がファット マージンと、それによって分類器のパフォーマンスを向上させる方法について説明します。分類器に特定のサイズのマージンを持たせることを要求することで、可能な二分法の数が減り、成長関数が小さくなり、VC 次元が小さくなります。マージンが大きいほど、分類器のサンプル外のパフォーマンスが向上します。次に、講師は、超平面と最も近いデータ ポイントとの間の距離を見つけ、ベクトル w を正規化して分析を簡素化することにより、可能な限り最大のマージンを解決する方法を説明します。信号、つまり超平面とデータ ポイント間の距離は、ユークリッド距離ではなく、最も近いポイントと最も遠いポイントの順序であり、ユークリッド距離を取得するには変換する必要があります。
00:15:00 このセクションでは、講師がサポート ベクター マシン分析に関連するいくつかの技術について説明します。まず、異なる平面の性能を比較するために、ユークリッド距離が尺度として使用されます。次に、サポート ベクター マシンをより便利に解析するためにベクトル X から w を抽出し、新しい役割を持つ w ベクトルと混同しないように w0 を抜き出します。目標は、xₙ (最も近い点) と平面の間の距離を計算することです。講師は、ベクトル w が平面および平面上のすべてのベクトルに直交していることを示しています。これは、平面上のすべての法線ベクトルに直交していることを意味します。これで、xₙ と平面の間の距離を取得できます。
00:20:00 このセクションでは、スピーカーは、SVM でポイントと超平面の間の距離を計算する方法について説明します。これは、点から超平面上の一般的な点に向かうベクトルを、超平面に直交する方向に射影することによって行うことができます。この方向の単位ベクトルは、ベクトルの長さを正規化することによって計算されます。いくつかの代数を使用して、話者は距離の式を導き出し、欠落している項を追加することで単純化します。この式を使用して、可能な限り最高のマージンを与える w の組み合わせを選択できます。この結果生じる最適化問題は、制約が最小であるため、あまりユーザーフレンドリーではありません。ただし、いくつかの簡単な観察を行うことで、この問題をより使いやすい 2 次問題に再定式化できます。
00:30:00 このセクションでは、講師が SVM と正則化とラグランジュ定式化の関係について説明します。勾配が 0 に等しい非制約問題とは異なり、制約が非ゼロ勾配につながることに注意することが不可欠です。ラグランジュ定式化は w や b などの変数に依存し、新しい変数、アルファ ベクトルのようなラグランジュ乗数があります。 .当面の問題は、目的関数を形式の制約に従って最小化することです。次に、それにラグランジュ名を付けます。興味深いのは、アルファは非負でなければならないにもかかわらず、実際にはアルファに関して最大化していることです。したがって、これに注意を払う必要があります。このセクションは、w と b に関してラグランジュの勾配を最小化する必要がある、制約のない部分の簡単な説明で締めくくります。
00:35:00 講義のこのセクションでは、スピーカーは双対定式化で SVM 最適化問題を定式化する方法を説明します。彼は最初に w と b に関して問題を最適化し、2 つの条件を元のラグランジュに代入し、問題の二重定式化に至りました。次に、アルファが非負になるように制約を設定し、これらの制約に従って最大化問題を解き、サポート ベクターを決定するアルファの最適値を導き出します。
Support Vector Machines - One of the most successful learning algorithms; getting a complex model at the price of a simple one. Lecture 14 of 18 of Caltech's...
00:10:00 このセクションでは、Z 空間での内積の使用と、カーネル メソッドとの関係について説明します。内積は、ラグランジュを形成し、二次計画法に制約を渡すために必要ですが、サポート ベクター機械を実行するために、内積のみを使用して計算できます。 Z 空間に対応する一般化された内積またはカーネルを使用することにより、2 つの点 x および x ダッシュを、カーネルと呼ばれる x および x ダッシュによって決定される関数に変換できます。 2 次多項式変換を使用した 2 次元ユークリッド空間の例を示します。
00:15:00 このセクションでは、講師がカーネル メソッドの概念と、x と x ダッシュを変換せずにカーネルを計算する方法について説明します。講師は物事を Z 空間に変換しないカーネルを即興で作り、カーネルが Z 空間への変換に対応し、そこで内積をとることを聴衆に納得させます。講師は、1 + x_xdash を Q 乗した値でカーネルを 2 乗すると、これがどのように空間の内積になり、有効なカーネルになるかを説明します。さらに、講師は、同じままである Q の複雑さに関係なく、これを行うために必要な計算量を他の次元と比較します。
00:20:00 このセクションでは、実際に多項式を展開せずに実行できる多項式変換のカーネル法について講師が説明します。対数を取って累乗することにより、多項式は単純な演算になり、巨大な展開を必要としません。これは簡単な多項式で、2D で視覚化して、他の場合に外挿できます。高次元空間にマッピングされるカーネルは、その空間で内積を取ることによって取得できます。講師は、X 空間や Z 空間では内積項を持たないが、無限次元空間では内積に相当するカーネルの例を紹介します。無限次元空間に行くという課題にもかかわらず、カーネル法は依然として有用であり、サポート ベクターの数を使用してモデルの一般化を決定できます。
00:25:00 このセクションでは、講師が、無限次元空間に対応する洗練されたカーネルである動径基底関数カーネルを実演し、それが実際にどのように機能するかを、わずかに分離できないケースを取り上げて示します。講師は無作為に 100 点を生成し、それらを区切る線がないことを示します。次に、講師は X を無限次元空間に変換し、単純な指数関数であるカーネルを計算します。講師はこれを二次計画法に渡し、二次計画法がサポート ベクターを返します。講師がサポート ベクターを暗くすると、2 つのクラスが見やすくなります。
00:30:00 このセクションでは、スピーカーはカーネル メソッドのアイデアと、それらを分類に使用する方法について説明します。彼は、ポイントのデータセットでカーネルを使用して、それらを線形平面で分離できる無限次元空間に変換する例を示しています。得られたマージンとサポート ベクターを使用して、汎化プロパティを導くサンプル内の量を決定します。次にスピーカーは、ある Z 空間の内積に対応する有効なカーネルを、問題の定式化と仮説の構築にどのように使用できるかを説明します。全体として、彼はカーネル メソッドの有用性と、それらを分類問題の解決にどのように適用できるかを強調しています。
00:35:00 このセクションでは、線形モデルをカーネル形式に変換する方法を学びます。サポート ベクター マシンは、カーネルの選択を可能にするモデルになります。内積が Z 空間で取得された後、カーネルが内積の代わりになります。結果のモデルはカーネルの選択に依存し、サポート ベクターをプラグインすることで b を解くこともできます。ただし、Z 空間にアクセスしないとその有効性を確認できないため、カーネルを特定するのは困難です。それにもかかわらず、異なるカーネルの機能形式を調べることで、アプローチを比較する方法を説明します。
00:50:00 このセクションでは、講師がスラックの概念を紹介し、SVM でのマージン違反を定量化します。彼は、マージンの違反を測定するすべてのポイントに対してスラックを導入し、これらのスラックを合計することによって行われた合計違反にペナルティを課すと説明しています。彼は、他のものではなく、合理的でマージンの違反を測定するこの誤差測定を選択します。次に、マージンを最大化するとともに、マージン違反エラー項を最小化する新しい最適化を紹介します。定数 C は、マージンを最大化する前の項に対するこのマージン違反項の相対的な重要性を示します。 C の値に応じて、マージンとスラックの間のトレードオフを表すため、最終結果は直線的に分離可能なデータまたは妥協点になる可能性があります。最後に、新しい項を追加してラグランジュの定式化を見直します。
00:55:00 このセクションでは、講師が変数 xi を追加してマージン違反にペナルティを課すことによって導入された新しい二次計画問題について説明します。ラグランジュには、ラグランジュ乗数ベータを使用するために解決しなければならない xi に関する新しい制約が含まれています。次に講師は、w と b の最小化がどのように変わらないかを示し、xi を解くと常にゼロになる量になることを発見します。この発見により、ベータがラグランジュから脱落し、以前と同じ解が残ります。唯一の影響は、アルファがゼロ以上であるだけでなく、C 以下でもあることです。
01:00:00 ビデオのこのセクションでは、講師がソフト マージン サポート ベクター マシンの概念について説明します。これにより、広いマージンを維持しながら、ある程度の誤分類が可能になります。この解決策には、既存の等式制約に加えて、alpha が最大で C であることを要求する追加の制約が含まれます。ソフト マージン サポート ベクター マシンには、マージン サポート ベクターと非マージン サポート ベクターの両方が含まれます。後者は、マージンに違反するポイントであり、値 xi で表されるスラックを引き起こします。 C の値は、違反がどの程度発生するかを決定する重要なパラメーターであり、通常は交差検証によって決定されます。
Kernel Methods - Extending SVM to infinite-dimensional spaces using the kernel trick, and to non-separable data using soft margins. Lecture 15 of 18 of Calte...
講義 6 - 一般化の理論
Caltech の機械学習コース - CS 156. 講義 06 - 一般化の理論
講義では、一般化の理論と成長関数を、N 個の点のセットに設定された仮説によって生成できる二分法の数として説明します。目標は、成長関数全体を特徴付け、ブレークを特徴付けることによってすべての N について一般化することです。点。スピーカーは、さまざまな仮説セットの成長関数を計算し、組み合わせの同一性を使用して成長関数の上限を証明するプロセスを示します。この議論では、Hoeffding 不等式における成長関数の使用、仮説間のオーバーラップを特徴付ける VC バインド、および Vapnik-Chervonenkis 不等式 (ブレークポイントによって決定される多項式の次数を持つ N の多項式) の使用についても触れています。
教授は、一般化の理論について説明し、これまでのポイントを明確にし、学習に必要なリソースを計算するために使用されるブレーク ポイントの概念を説明します。学習の焦点は、E_in ではなく E_out の近似にあり、学習者は慣れ親しんだ量を扱うことができます。教授はまた、M を成長関数に置き換えた理由と、これが N と k の組み合わせ量 B にどのように関係しているかを説明します。回帰関数について議論する際に、教授はバイアスと分散のトレードオフと、学習可能性がターゲット関数とどのように独立しているかを強調しています。最後に、教授は、同じ原則がすべてのタイプの関数に適用されることに注意します。
講義 07 - VC ディメンション
Caltech の機械学習コース - CS 156. 講義 07 - VC ディメンション
講義では、仮説集合が打ち砕くことができる最大の点数であるVC次元の概念を紹介し、その実践的な応用について説明します。 VC 次元はモデルの自由度を表し、モデル内のパラメーター数との関係について説明します。さまざまな仮説セットの VC 次元を計算する方法を示す例が示されています。必要な例の数と VC 次元の間の関係が調査され、2 つの間に比例関係があることが注目されます。学習アルゴリズムのパフォーマンスに対する VC 次元の増加の影響についても説明します。全体として、この講義では、VC 理論とその機械学習への実際的な影響についての洞察を提供します。
また、このビデオでは、汎化の概念と汎化境界についても取り上げています。これは、機械学習における仮説セットのサイズと適切な汎化との間のトレードオフを示す肯定的なステートメントです。教授は、最初のブレーク ポイントの前の最大値である VC 次元と、それを使用して必要な例の数を概算する方法について説明します。彼は、正しい誤差測定を選択することの重要性を指摘し、VC 次元の推定値は、モデルを比較して必要な例の数を概算するために使用できる大まかな推定値であることを明確にしています。講義は、この資料と実験計画法のトピックとの共通点と、学習の原則が厳密な学習シナリオを超えて他の状況にどのように拡張されるかを強調することで終了します。
講義 8 - バイアスと分散のトレードオフ
Caltech の機械学習コース - CS 156. 講義 08 - バイアスと分散のトレードオフ
教授は、機械学習におけるバイアスと分散のトレードオフについて議論し、仮説セットの複雑さが一般化と近似の間のトレードオフにどのように影響するかを説明します。講師は、バイアスと分散の概念を紹介します。これは、機械学習アルゴリズムが生成する仮説の平均と実際のターゲット関数との間の偏差を測定し、特定のモデルの仮説の分布が異なるデータセットに基づいてどの程度異なるかをそれぞれ測定します。トレードオフの結果、仮説セットが大きくなると、バイアスは小さくなり、分散が大きくなり、仮説セットが小さくなると、バイアスは大きくなりますが、分散は小さくなります。講師は、仮説セットを効果的にナビゲートするために十分なデータ リソースを持つことの重要性を強調し、バイアス分散分析と VC 分析のスケールの違いを強調します。
また、単純なモデルを必要とする例が少なくなり、より複雑なモデルを必要とする例のリソースが多くなり、単純なモデルと複雑なモデルの間のトレードオフについても説明しています。バイアス分散分析は、線形回帰に固有であり、モデルを選択するためのゴールド スタンダードである検証とともに、ターゲット関数の知識を前提としています。アンサンブル学習については、ブートストラップを使用して複数のデータ セットを平均化し、分散を減らすバギングを通じて説明します。アンサンブル学習における分散と共分散のバランスについても説明されており、線形回帰は、学習の最初の部分としてフィッティングを使用する学習手法として分類されますが、理論はサンプル外の優れたパフォーマンスを強調しています。
講義 9 - 線形モデル II
Caltech の機械学習コース - CS 156. 講義 09 - 線形モデル II
この講義では、バイアス分散分解、学習曲線、パーセプトロン、線形回帰、ロジスティック回帰などの線形モデルの手法など、線形モデルのさまざまな側面について説明します。講演者は、複雑さと一般化パフォーマンスの間のトレードオフを強調し、オーバーフィッティングに対して警告し、有効な保証のために仮説空間の VC 次元を適切に充電することの重要性を強調します。非線形変換の使用と一般化動作への影響についても説明します。講義ではさらに、ロジスティック関数と確率の推定におけるそのアプリケーションについて説明し、ロジスティック回帰のコンテキストで尤度とクロスエントロピー エラー測定の概念を紹介します。最後に、勾配降下などの誤差関数を最適化するための反復法について説明します。
また、講義では、機械学習における線形モデルと最適化アルゴリズムに関連するさまざまなトピックがカバーされています。教授は、勾配降下最適化における学習率と速度の間の妥協点を説明し、ロジスティック回帰アルゴリズムを紹介し、そのエラー測定と学習アルゴリズムについて説明します。勾配降下法とマルチクラス分類における終了の課題も解決されています。機械学習における特徴の導出と選択の役割は、VC 次元の観点から請求されるアプリケーション ドメインの芸術として強調され、議論されます。全体として、この講義では、機械学習の線形モデルと最適化アルゴリズムの包括的な概要を説明します。
講義 10 - ニューラル ネットワーク
Caltech の機械学習コース - CS 156. 講義 10 - ニューラル ネットワーク
この講義では、カリフォルニア工科大学の Yaser Abu-Mostafa 教授がロジスティック回帰とニューラル ネットワークについて説明します。ロジスティック回帰は、有界実数値関数の確率解釈を計算する線形モデルです。エラー測定を直接最適化することはできないため、勾配降下法を導入して、十分に滑らかで 2 回微分可能な任意の非線形関数を最小化します。閉形式の解はありませんが、誤差の測度は凸関数であるため、勾配降下法を使用した最適化は比較的簡単です。
確率的勾配降下法は、ニューラル ネットワークで使用される勾配降下法を拡張したものです。ニューラル ネットワークは、パーセプトロンに関連する、生物学的な観点から動機付けられた仮説を実装するモデルです。バックプロパゲーション アルゴリズムは、ニューラル ネットワークと連携する効率的なアルゴリズムであり、モデルを特に実用的なものにします。このモデルには、人々を興奮させ、アルゴリズムを使用して簡単に実装できる生物学的リンクがあります。今日では選択されたモデルではありませんが、ニューラル ネットワークは実際のアプリケーションで成功を収めており、銀行や信用承認などの多くの業界で標準として使用されています。
簡単な要約:
講義 11 - オーバーフィッティング
Caltech の機械学習コース - CS 156. 講義 11 - オーバーフィッティング
この講義では、機械学習におけるオーバーフィッティングの概念と重要性について紹介します。モデルが信号ではなくノイズでトレーニングされるとオーバーフィッティングが発生し、サンプル外の適合が不十分になります。講義には、ノイズレベルやターゲットの複雑さなどのさまざまなパラメーターがオーバーフィッティングに及ぼす影響を説明するためのさまざまな実験が含まれています。講師は、過剰適合を早期に検出することの重要性と、それを防ぐための正則化および検証手法の使用を強調しています。オーバーフィッティングに対する決定論的および確率的ノイズの影響についても説明し、正則化と検証によるオーバーフィッティングの回避に関する次の 2 つの講義を紹介して、講義を締めくくります。
オーバーフィッティングの概念について説明し、それを防ぐための正則化の重要性を強調します。教授は、オーバーフィッティングとアンダーフィッティングのトレードオフを強調し、オーバーフィッティングにおける VC 次元の役割を説明します。同じ数の例が与えられた場合、VC 次元の不一致は、サンプル外エラーとサンプル内エラーの不一致につながります。モデルの検証に関する実際的な問題と、オーバーフィッティングやモデル選択にどのように影響するかについても説明します。さらに教授は、オーバーフィッティングを防ぐための区分的線形関数の役割を強調し、モデルの自由度の数を考慮し、正則化によってそれを制限することの重要性を強調しています。
講義 12 - 正則化
Caltech の機械学習コース - CS 156. 講義 12 - 正則化
正則化に関するこの講義は、オーバーフィッティングと、それが機械学習モデルの一般化に及ぼす悪影響の説明から始まります。正則化への 2 つのアプローチについて説明します: 数学的およびヒューリスティックです。次に、ルジャンドル多項式の例を拡張コンポーネントとして使用して、線形モデルのバイアスと分散に対する正則化の影響について詳しく説明します。正則化における C とラムダの関係についても説明し、拡張エラーの紹介と、一般化のために正則化を正当化する際のその役割について説明します。重みの減衰/成長の手法と、オーバーフィッティングを回避するために適切な正則化を選択することの重要性についても説明します。講義は、ヒューリスティックな演習として適切なオメガを選択することに焦点を当てて終了し、ラムダが正則化の救いの恵みとして役立つことを願っています。
2 番目の部分では、ネットワークの単純さと機能のバランスを取る方法として、重みの減衰について説明します。講師は、さまざまなレベルのノイズに対して最適な正則化パラメーターを決定するための検証の使用を強調して、過剰な正則化と最適でないパフォーマンスに対して警告します。正則化は、理論と実践に基づいた実験的なものとして説明されています。 L1/L2、早期停止、ドロップアウトなどの一般的なタイプの正則化が、さまざまな問題に適した正則化方法を決定する方法とともに紹介されています。正則化の実装に関連する一般的なハイパーパラメーターについても説明します。
講義 13 - 検証
Caltech の機械学習コース - CS 156. 講義 13 - 検証
講義13では、モデル選択のための機械学習における重要な手法である検証に焦点を当てます。講義では、検証がなぜ検証と呼ばれるのか、モデル選択にとってなぜ重要なのかなど、検証の詳細について説明します。相互検証は、トレーニングと検証に使用可能なすべての例を使用できる検証の一種としても説明されています。講師は、アウトオブサンプルポイントを取り、仮説と目標値の差を計算する確率変数を使用して、アウトオブサンプル誤差を推定する方法を説明します。この講義では、推定値を使用して特定のモデルを選択するときに導入されるバイアスについても説明します。これは、検証セットに基づいて選択されたため、信頼性がなくなったためです。クロス検証の概念は、さまざまな仮説のサンプル外エラーを評価する方法として導入されています。
また、モデルの選択と検証に交差検証を使用してオーバーフィッティングを防止する方法についても説明しており、「1 つを除外する」ことと 10 倍の交差検証に焦点を当てています。教授は、サンプル外の不一致とデータのスヌーピングを説明することの重要性を実証し、サンプリング バイアスを回避するための方法をランダム化することを提案しています。彼は、クロス検証は複雑さを増す可能性がありますが、それを正則化と組み合わせることで最適なモデルを選択できると説明しています。また、検証は仮定を必要としないため、独自のものです。教授はさらに、異なるシナリオやモデル間で比較する場合でも、相互検証が原則に基づいた選択を行うのにどのように役立つか、および検証ポイントの合計がエラーバーとバイアスをどのように決定するかについて説明します。
講義 14 - サポート ベクター マシン
Caltech の機械学習コース - CS 156. 講義 14 - サポート ベクター マシン
この講義では、検証の重要性と機械学習におけるその使用、および検証に対する交差検証の利点について説明します。講義の焦点は、分類のための最も効果的な学習モデルとしてのサポート ベクター マシン (SVM) であり、制約付き最適化によるマージンの最大化、定式化、および分析ソリューションを含むセクションの詳細な概要が示されています。講義では、SVM の点と超平面の間の距離を計算する方法、SVM の最適化問題を解く方法、および双対定式化で SVM 最適化問題を定式化する方法など、さまざまな専門知識について説明します。講師は、二次計画法を使用して最適化問題を解決することの実用的な側面と、サポート ベクターを特定することの重要性についても説明します。講義の最後に、SVM での非線形変換の使用について簡単に説明します。
サポート ベクター マシン (SVM) に関するこの講義の 2 番目の部分では、講師はサポート ベクターの数を例の数で割ると、サンプル範囲外の点を分類する際のエラー確率の上限がどのように得られるかを説明します。非線形変換が実行可能なサポート ベクターの使用。教授はまた、w 転置された x と b を 1 にする正規化と、その最適化の必要性、およびエラーを許容してペナルティを科す SVM のソフト マージン バージョンについても説明します。さらに、サポート ベクターの数と VC 次元の間の関係が説明され、ノイズに対するメソッドの耐性が言及され、ノイズの多いデータの場合に使用されるメソッドのソフト バージョンが示されます。
講義 15 - カーネルメソッド
Caltech の機械学習コース - CS 156. 講義 15 - カーネル メソッド
カーネル メソッドに関するこの講義では、サポート ベクター マシン (SVM) を、マージンを最大化するという概念により、従来の線形回帰モデルよりもパフォーマンス主導型の線形モデルとして紹介します。データが線形に分離できない場合は、非線形変換を使用して波状の曲面を作成し、複雑さを犠牲にすることなく複雑な仮説を立てることができます。このビデオでは、高次元の Z 空間に移動するカーネル メソッドについて説明し、個々のベクトルを計算せずに内積を計算する方法を説明しています。このビデオでは、分類問題に対して有効なカーネルを取得するためのさまざまなアプローチについても概説し、分離不可能なデータに SVM を適用する方法について説明します。最後に、このビデオでは、SVM におけるスラックの概念とマージン違反の定量化、マージン違反にペナルティを課すための変数 xi の導入、およびアルファを解決するためのラグランジュ定式化の見直しについて説明します。
第 2 部では、サポート ベクター マシン (SVM) とカーネル メソッドの使用に関する実用的な側面について説明します。彼は、ソフト マージン サポート ベクター マシンの概念と、幅広いマージンを維持しながら誤分類を許容する方法について説明しています。彼は、どの程度の違反が発生するかを決定するパラメーター C の重要性について語り、交差検証を使用してその値を決定することを提案しています。彼はまた、変換されたデータの定数座標に関する懸念に対処し、それがバイアス項と同じ役割を果たすことをユーザーに保証します。さらに、カーネルを組み合わせて新しいカーネルを生成する可能性について説明し、データ点が多すぎる SVM を解くのに二次計画法が失敗した場合に使用できるヒューリスティックな方法を提案しています。