機械学習とニューラルネットワーク - ページ 71

 

8.4 バイアスと分散対過学習と過小学習 (L08: モデル評価パート 1)



8.4 バイアスと分散対過学習と過小学習 (L08: モデル評価パート 1)

このビデオでは、このコースの最短ビデオの記録を樹立することが私の目標です。簡潔にまとめて、あまり長く話題を引きずらないようにしたいと思います。スライドは 2 つだけなので、それほど時間はかかりません。このビデオでは、バイアス分散分解と過小適合および過適合の概念との関係を検討します。

まず、この講義の前半で示したグラフを見てみましょう。これは単純なスケッチであり、実際の数値に基づいたものではないことに注意してください。実際には、現実世界のデータセットを扱う場合、これらの用語間の関係にノイズが多くなる可能性があります。このグラフは、モデルの能力に対してプロットされた二乗誤差損失を示しています。これは、モデルの複雑さまたはトレーニング データに適合する能力に関係します。

キャパシティとは、モデルがトレーニング セットにどの程度適合できるかを指します。容量が大きいほど、モデルがデータをより適合できることを意味します。たとえば、回帰のようなパラメトリック モデルでは、多くの場合、容量はパラメーターまたは項の数によって決まります。容量が増加するにつれて、より複雑なモデルがトレーニング データによりよく適合できるため、トレーニング エラーは減少します。

ただし、トレーニング エラーが低いからといって、新しいデータで良好なパフォーマンスが保証されるわけではありません。トレーニング データを近似しすぎてオーバーフィットする可能性があり、これにより、汎化誤差として知られる新しいデータの誤差が増加する可能性があります。一般化誤差は、独立したテスト セットを使用して推定できます。最初は、容量が増加するにつれて、汎化誤差はある程度改善されます。しかし、ある点に達すると誤差は再び増加し始め、過学習を示します。

トレーニング誤差と汎化誤差の間のギャップは、過学習の程度を表します。モデルの容量が増加すると、データ内のノイズを含めてモデルがデータに近づきすぎるため、ギャップが増加します。過学習の程度は、モデルがトレーニング データをどの程度過学習し、新しいデータにうまく一般化できていないのかを示します。

ここで、これらの概念をバイアスと分散に関連付けてみましょう。グラフでは、バイアスと分散という用語を赤色で追加しました。モデルの容量が増加すると、その分散も増加します。これは、短いデシジョン ツリーと比較して、深いデシジョン ツリーの場合に観察できます。分散が大きいモデルは、過学習の傾向が高くなります。分散が大きいほど、過学習の程度は大きくなります。これは、トレーニング誤差と汎化誤差の間のギャップによって表されます。

逆に、分散が増加すると、バイアスは減少します。通常、モデルがより複雑になると、バイアスが低くなります。グラフはバイアスが下降し、その後再び上昇しているように見えるかもしれませんが、それは単に描画が悪い結果です。実際には、モデルの容量が増加すると分散が増加するにつれて、バイアスは漸近的に減少します。

一方、モデルの容量が低い場合 (単純なモデルなど)、データへの適合が不十分になり、トレーニング セットとテスト セットの両方でパフォーマンスが低下します。これは高いバイアスに関連しています。モデルが単純すぎてデータの基礎となるパターンを捉えることができない場合、アンダーフィッティングが発生します。

要約すると、高いバイアスはアンダーフィッティングと相関し、高い分散はオーバーフィッティングと相関します。次のビデオでは、分類タスクにより関連する、0-1 損失のバイアス分散分解について簡単に説明します。二乗誤差損失の分解ほど直観的ではありませんが、分類コンテキストにおけるバイアスと分散の成分についての洞察が得られます。

8.4 Bias and Variance vs Overfitting and Underfitting (L08: Model Evaluation Part 1)
8.4 Bias and Variance vs Overfitting and Underfitting (L08: Model Evaluation Part 1)
  • 2020.11.04
  • www.youtube.com
This brief video discusses the connection between bias & variance and overfitting & underfitting.-------This video is part of my Introduction of Machine Lear...
 

8.5 0/1損失のバイアス分散分解(L08:モデル評価パート1)


8.5 0/1損失のバイアス分散分解(L08:モデル評価パート1)

この議論では、二乗誤差損失のバイアス分散分解と、それと過学習および過小学習との関係を詳しく掘り下げました。ここで、0/1 損失のバイアス分散分解に焦点を移します。これは、区分的な性質のため、もう少し複雑です。 0/1 損失では、真のラベルが予測ラベルと一致する場合には 0 の値が割り当てられ、そうでない場合には 1 の値が割り当てられます。この損失関数は連続関数ではないため、解析はさらに困難になります。

0/1 損失のコンテキストでバイアス分散分解を調べるために、Pedro Domingo と Common Dieterich の研究を参照します。 Pedro Domingo の論文「統一バイアス分散分解」は、0/1 損失に関連するさまざまなバイアス分散分解を統一することを目的としていました。何人かの著者がさまざまな分解を提案していますが、それぞれに重大な欠点があります。

このクラスでは、主に、バイアス分散分解と 0/1 損失の間のブリッジの背後にある直観に焦点を当てます。 1995 年の組み合わせ論の研究と、この研究に関するペドロ ドミンゴの説明について簡単に説明します。さらに詳しく理解するには、参考文献を参照してください。

まず、二乗誤差損失をもう一度見てみましょう。二乗誤差損失は、真の値と予測値の間の二乗差として定義されました。以前に、さまざまなトレーニング セットにわたるこの損失の期待を調べ、それをバイアス項と分散項に分解しました。ここで、関数 L を使用して損失を表し、この関数の期待値を取得する一般化された表記法を導入します。

二乗誤差損失のバイアスと分散の分解について議論する際、それをバイアス項と分散項に分解しました。 Bias(Y) として示されるバイアス項は、真のラベル (Y) と平均予測 (E[Y_hat]) の差を表します。 Var(Y_hat) として示される分散項は、平均予測を中心とした予測の変動性を測定します。これらの用語は、それぞれ、予測が真のラベルからどの程度逸脱するか、および予測がどの程度分散するかを捕捉します。

ここで、主予測と呼ばれる新しい用語を定義します。二乗誤差損失の場合、主な予測は、さまざまなトレーニング セットにわたる平均予測です。ただし、0/1 の損失を処理する場合、主な予測は予測のモード、つまり最も頻度の高い予測を取ることによって取得されます。この区別は、分類の文脈におけるバイアス分散分解を理解する上で重要です。

0/1 損失に関してバイアスと分散をどのように定義できるかを見てみましょう。前のスライドのクリーンアップされたバージョンを参照します。右側ではバイアス項を導入します。 Kong と Dieterrich の論文では、主予測 (E[Y_hat]) が真のラベル (Y) と等しくない場合、バイアスは 1 と定義され、そうでない場合は 0 と定義されています。この定義は、メインの予測が真のラベルと一致するかどうかをキャプチャします。

次に、バイアスがゼロの場合に注目してみましょう。これは、主な予測が真のラベルと一致することを示しています。このシナリオでは、損失は分散に等しくなります。定義上、損失は予測が真のラベルと一致しない確率を表します。したがって、分散は、予測 (Y_hat) が主予測 (E[Y_hat]) と等しくない確率として解釈できます。この確率は、バイアスがゼロの場合の予測のばらつきを反映しています。

ここで、バイアスが 1 の場合について詳しく見てみましょう。これは少し複雑です。まず、損失を 1 から予測が真のラベルと一致する確率を引いたものとして書き換えます。これは、1 から精度を引いたものに相当します。 Y が主予測と等しくない場合と、Y が主予測と等しい場合の 2 つの側面を考慮します。

Y が主予測と等しくない場合、損失は 1 に等しく、誤分類を示します。この場合、主な予測は真のラベルとは異なり、予測の変動性は無関係であるため、分散項は損失に寄与しません。損失全体は、主な予測が真のラベルと一致しないという事実を捉えるバイアス項に起因すると考えられます。

一方、Y が主予測と等しい場合、損失は 1 から他のすべての予測が主予測と異なる確率を引いたものに等しくなります。この確率は、バイアスが 1 の場合の予測のばらつきを表します。したがって、この場合の損失は分散項によって説明され、主な予測に関する予測の不確実性が反映されます。

要約すると、0/1 損失のバイアス分散分解では、主な予測が真のラベルと一致しない場合、バイアス項が誤分類エラーを捕捉します。分散項は、主な予測が真のラベルと一致する場合の予測の変動を説明します。

0/1 損失のバイアス分散分解は、損失関数の離散的な性質により、二乗誤差損失に比べてより微妙で複雑であることに注意することが重要です。バイアスと分散の項は、主な予測の概念に基づいて定義され、分類パフォーマンスのさまざまな側面を捉えます。

0/1 損失のコンテキストにおけるバイアスと分散のトレードオフを理解することは、分類モデルを評価および改善するために重要です。バイアスと分散の成分を分析することで、誤差の原因を洞察し、十分な情報に基づいた意思決定を行って、過小適合または過適合の問題を軽減することができます。

0/1 損失のバイアス分散分解のより詳細な調査に興味がある場合は、Pedro Domingo の論文「The Unified Bias Variance Decomposition」と、Kong と Dieterrich の関連著作を読むことをお勧めします。これらの論文は、分解に関する詳細な説明と数学的形式主義を提供します。

バイアスと分散のトレードオフは、過小適合と過適合の間でバランスを取るモデルの能力に関連する機械学習の基本的な概念です。バイアス項は、モデルの仮定または単純化による誤差を表し、モデルが単純すぎてデータの基礎となるパターンを捕捉できないという過小適合シナリオにつながります。一方、分散項は、トレーニング データの小さな変動に対するモデルの感度による誤差を表し、その結果、モデルが複雑すぎて一般化可能なパターンではなくノイズが捕捉される過剰適合シナリオが発生します。

0/1 損失の場合、主な予測が真のラベルと異なる場合、バイアス項は誤分類エラーを捕捉します。高いバイアスは、モデルが一貫して誤った予測を行っており、データ内の真の根底にあるパターンを捉えることができないことを示します。これは、モデルが単純すぎるか、問題の複雑さを捉えるのに必要な複雑さが欠けている場合によく発生します。

一方、分散項は、主な予測が真のラベルと一致する場合の予測の変動を捉えます。これは、さまざまなトレーニング データ サンプルに対するモデルの感度と予測の不安定性を反映しています。高い分散は、モデルがトレーニング データの小さな変化に過度に敏感であり、過剰適合している可能性があることを示します。これは、モデルがトレーニング データではうまく機能する可能性がありますが、目に見えないデータには一般化できないことを意味します。

理想的には、バイアスと分散の間のバランスを達成し、両方の種類のエラーを最小限に抑えるモデルを見つけたいと考えています。ただし、多くの場合、この 2 つはトレードオフになります。バイアスを減らすと分散が増加する可能性があり、その逆も同様です。これは、バイアスと分散のトレードオフとして知られています。

適切なバランスをとるために、さまざまなテクニックを使用できます。 L1 正則化や L2 正則化などの正則化手法は、モデルの複雑さを軽減し、分散を制御するのに役立ちます。相互検証を使用すると、データのさまざまなサブセットに対するモデルのパフォーマンスを評価し、潜在的な過剰適合を特定できます。バギングやブースティングなどのアンサンブル手法を使用して、複数のモデルを組み合わせて分散を減らすこともできます。

モデルの選択とハイパーパラメーターの調整には、バイアスと分散のトレードオフを理解することが重要です。これにより、モデルの一般化パフォーマンスを評価し、情報に基づいた意思決定を行って、モデルの精度と信頼性を向上させることができます。

8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
8.5 Bias-Variance Decomposition of the 0/1 Loss (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the tricky topic of decomposing the 0/1 loss into bias and variance terms.-------This video is part of my Introduction of Machine Learni...
 

8.6 「バイアス」という用語のさまざまな用法 (L08: モデル評価パート 1)



8.6 「バイアス」という用語のさまざまな用法 (L08: モデル評価パート 1)

講義は機械学習におけるバイアスと分散の分解のトピックを掘り下げたもので、特に刺激的なものではありませんでした。講演者は主題が退屈であることを認めた。ただし、機械学習におけるさまざまな形のバイアスに関して、講演者が最後に言及したい重要な点が 1 つありました。

「機械学習バイアス」という用語は、さまざまな文脈でさまざまなものを指すために使用されることを意味する、過剰な用語として説明されました。講演者による以前の機械学習コースでは、バイアス ユニットとニューラル ネットワークについて説明しましたが、それはこの講義で説明する統計的バイアスとは異なります。機械学習のコンテキストでは、バイアスは機械学習アルゴリズムの優先順位または制限を指し、帰納的バイアスとも呼ばれます。

講演者は、誘導バイアスを説明するために決定木アルゴリズムの例を挙げました。ディシジョン ツリーは、大きなツリーよりも小さなツリーを優先します。トレーニング セットで 2 つのデシジョン ツリーのパフォーマンスが同じ場合、アルゴリズムは小さい方のツリーを優先し、改善できない場合はツリーの成長を停止します。この小さいツリーに対する優先順位は、決定ツリー アルゴリズムに影響を与える誘導バイアスの一例です。

講演者は、機械学習のバイアスと統計的バイアスを対比したディーテリッヒとカーンの論文に言及しました。絶対的なバイアスに関連して、適切なバイアスと不適切なバイアスが議論されました。不適切なバイアスには、ターゲット関数に対する適切な近似が含まれていません。これは、アルゴリズムが問題に十分に適合していないことを意味します。一方、適切なバイアスにより、ターゲット関数への良好な近似が可能になります。

相対的なバイアスは、強すぎるか弱すぎると説明されています。バイアスが強すぎると、適切な近似が除外されず、代わりに貧弱な仮説が優先される可能性があります。逆に、バイアスが弱すぎると考慮される仮説が多すぎるため、過剰適合につながる可能性があります。

講演者は、バイアスと分散の間の相互作用を実証するために、決定木モデルを含むシミュレーション研究の例を共有しました。この研究では平均エラー率を評価し、一部のエラーはバイアスによるものであり、他のエラーは分散によるものであることがわかりました。

議論されたもう 1 つの重要なタイプのバイアスは、社会的理由から好ましくない、アルゴリズム システムにおける人口統計上の格差を指す公平性バイアスでした。機械学習モデルは特定の人口統計を不公平に扱う可能性があり、この偏りはデータセットの不均衡やその他の要因に起因する可能性があります。講演者は、機械学習における公平性の詳細については、Fair ML Book を参照することを推奨しました。

講演者は、照合精度を維持しながら顔画像からソフト生体認証情報を隠すという、彼らが取り組んでいるプロジェクトについて簡単に言及しました。目標は、アルゴリズムが顔画像から性別情報を抽出するのを防ぐことでプライバシーを保護することでした。講演者は、自社のシステムと市販の顔照合アルゴリズムのパフォーマンスを評価し、肌の色に基づく商用ソフトウェアのバイナリ性別分類器の偏りに注目しました。

講演者は、バイアスを最小限に抑え、さまざまな人口統計に対して分類器がどのように機能するかを考慮することの重要性を強調しました。彼らは、バイアスに対処し、より公平な結果を保証するためのオーバーサンプリングなどの技術の必要性を強調しました。

講義では、帰納的バイアス、統計的バイアス、公平性バイアスなど、機械学習におけるさまざまな形のバイアスについて取り上げました。例と議論は、機械学習アルゴリズムにおけるバイアスを軽減し、公平性を促進することに関連する課題と考慮事項に光を当てます。

8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
8.6 Different Uses of the Term "Bias" (L08: Model Evaluation Part 1)
  • 2020.11.05
  • www.youtube.com
This video discusses the different uses of the term "bias" in machine learning by introducing the concepts of machine learning bias and fairness bias.-------...
 

9.1 はじめに (L09 モデル評価 2: 信頼区間)



9.1 はじめに (L09 モデル評価 2: 信頼区間)

こんにちは、みんな!今日は、非常に魅力的で有益な講義が予定されています。セットアップとバイアス分散分解というかなり無味乾燥なトピックを掘り下げた前回の講義とは対照的に、このセッションはよりエキサイティングなものになることが約束されています。さまざまなリサンプリング手法について説明し、さまざまなデータセットでシミュレーションを実行して、リサンプリングがアルゴリズムのトレーニングにどのような影響を与えるかを観察します。データセットをトレーニング セットとテスト セットに分割することで、利用可能なトレーニング サイズが減り、モデルのパフォーマンスに影響を与える可能性があります。

さらに、信頼区間とそれを構築するためのさまざまな方法についても説明します。これには、通常の近似間隔とさまざまなブートストラップ手法の使用が含まれます。信頼区間は機械学習において重要性を増しており、最近の論文提出では信頼区間を含めることが求められています。査読者も信頼区間をより真剣に受け止めるようになりました。これらは、この分野での期待を提供し、査読者だけでなく、モデルを検討している他の読者にとっても役立つことが証明されています。

それでは、講義の内容に入りましょう。まず概要を説明し、続いてモデル評価のホールドアウト法について説明します。次に、ホールドアウト法をモデル選択にどのように使用できるかを検討します。次に、正規近似区間から始めて、さまざまな手法を使用して信頼区間を構築する方法を詳しく見ていきます。

リサンプリング方法も重要な焦点となります。反復ホールドアウト法を分析します。ホールドアウト法はトレーニング セットのリサンプリングされたバージョンに適用されます。さらに、リサンプリング手法に依存する経験的な信頼区間を調べます。ここでは、バギングとアンサンブル モデルの講義で説明したよく知られたブートストラップ手法に遭遇します。

ブートストラップ法を使用して経験的信頼区間を作成する方法を理解したら、ポイント 632 ブートストラップとポイント 632 プラス ブートストラップの 2 つの拡張バージョンを検討します。モデル評価のより広い枠組みの中でのこの講義の文脈に注目することが重要です。新しい機械学習アルゴリズムを紹介するのではなく、モデルを比較して選択するための重要なテクニックに焦点を当てます。

特定のデータセットに対してどの機械学習アルゴリズムが適切に機能するかを判断するのは難しいため、これらの手法は非常に重要です。多くの場合、最もパフォーマンスの高いアルゴリズムを見つけるために、多数のアルゴリズムを試して比較する必要があります。さらに、モデルのパフォーマンスを評価することは、画像ラベルを正確に予測することが重要である iPhone での画像認識などのアプリケーションを開発する場合に不可欠です。

目に見えないデータの汎化パフォーマンスを推定するだけでなく、さまざまなモデルも比較します。同じアルゴリズムとトレーニング セットを使用することで、異なるハイパーパラメーター設定を持つ複数のモデルを取得できます。これらのモデルを比較して最適なモデルを選択します。さらに、さまざまなアルゴリズムを使用し、画像やテキストなどの特定のデータ タイプでのパフォーマンスを評価したい場合があります。

最適なモデルを選択するには、絶対的な汎化パフォーマンスを正確に推定するか、絶対的なパフォーマンス値を使用せずにモデルをランク付けします。後者のアプローチは、同じテスト セットを複数回使用するときに生じるバイアスを回避するのに役立ちます。ランキング システムを使用すると、汎化パフォーマンスの正確な推定に依存せずに最適なモデルを選択できます。

今後の講義では、相互検証手法、モデル評価のための統計的テスト、および精度、再現率、受信者動作特性 (ROC) 曲線などの精度を超えた評価指標について説明します。

これらの講義は、さまざまな機械学習アルゴリズムを比較し、最適なモデルを選択する手段を提供するため、非常に重要です。新しいアルゴリズムは導入されていませんが、モデルのパフォーマンスを評価するための実用的な洞察とテクニックを提供します。

要約すると、今日の講義では、リサンプリング手法、信頼区間、および機械学習におけるそれらの関連性について説明します。この一連の講義を終えると、モデルの評価と、機械学習において情報に基づいた意思決定を行うために必要なツールについて包括的に理解できるようになります。これらのトピックの探索を始めましょう!

9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
9.1 Introduction (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
This first video goes over the contents being covered in L09 (issues with the holdout method, resampling methods, and confidence intervals). Then, it introdu...
 

9.2 ホールドアウト評価 (L09 モデル評価 2: 信頼区間)



9.2 ホールドアウト評価 (L09 モデル評価 2: 信頼区間)

このビデオでは、モデル評価のためのホールドアウト法について説明します。この方法は新しいものではありませんが、これまで調査したことのない興味深い側面がいくつかあります。ホールドアウト法では、データセットをトレーニング セットとテスト セットに分割します。トレーニング セットはモデルのトレーニングまたは適合に使用され、テスト セットはモデルのパフォーマンスを評価するために使用されます。

ただし、留意すべき考慮事項がいくつかあります。まず、トレーニング セット誤差は、汎化誤差の楽観的に偏った推定値です。これは、トレーニング データが過剰適合している可能性があるため、トレーニング エラーによってモデルのパフォーマンスを確実に推定できない可能性があることを意味します。一方、テスト セットがトレーニング セットから独立している場合、テスト セットは汎化誤差の不偏推定値を提供します。ただし、概念的な観点から見ると、テスト セットには悲観的なバイアスがかかる可能性があります。このバイアスは、データセットをトレーニング セットとテスト セットに分割すると、貴重なデータが失われるために発生します。データセットが小さい場合でも、評価のためにデータの 30% を削除すると、モデルのパフォーマンスに大きな影響を与える可能性があります。

この点を説明するために、簡単な例を考えてみましょう。わずか 10 個のデータ ポイントで構成されるデータセットがあると想像してください。評価のためにデータの 30% を削除すると、モデルはデータの 70% のみでトレーニングされます。機械学習モデルは一般に、より多くのデータから恩恵を受けるため、この限られたトレーニング データはモデルのパフォーマンスの低下につながる可能性があります。学習曲線をプロットすると、通常、データセットのサイズが増加するにつれて汎化パフォーマンスが向上することがわかります。したがって、データの大部分を評価のために差し控えると、モデルが悪化する可能性があります。

この欠点にもかかわらず、モデルを評価することは必要です。学術界では通常、テストセットのパフォーマンスを報告し、タスクが完了したと見なします。ただし、業界では、テスト セットでモデルを評価した後、データセット全体でモデルをトレーニングすることがよくあります。これにより、モデルのパフォーマンスをプロジェクト マネージャーなどの関係者に正確に報告できるようになります。ただし、データセット全体でトレーニングすると、テスト セットのパフォーマンス推定値に悲観的なバイアスが生じる可能性があります。たとえば、モデルがテスト セットで 95% の精度を達成した場合、完全なデータセットでトレーニングするとモデルのパフォーマンスが 96% まで向上する可能性があります。この場合、精度 95% という初期推定値には悲観的なバイアスがかかっています。

ホールドアウト法のみを使用することは、必ずしも理想的であるとは限りません。トレーニング データの分散を考慮しないなどの制限があります。データをランダムに分割すると、分割が異なるとモデルのパフォーマンスが変わる可能性があります。この変動により、テスト セットの推定は点推定のみを提供するため、信頼性が低くなります。さらに、ホールドアウト法では、モデルの調整と比較にテスト セットが複数回使用される場合の楽観的バイアスの可能性が考慮されていません。

バイアスの影響をさらに理解するために、悲観的バイアスの概念を考えてみましょう。モデルの選択に関しては、10% の悲観的なバイアスは、予測精度に基づくモデルのランキングに影響を与えません。 h2、h1、h3 の 3 つのモデルがあるとします。すべての精度推定値に 10% 悲観的なバイアスがかかっていたとしても、ランキングは同じままです。モデル選択の目的は、利用可能な最良のモデルを選択することであり、すべてのモデルにわたる一貫した悲観的なバイアスによって相対的なランキングが変わることはありません。

同様に、テスト セットの誤差が楽観的に偏っている場合もあります。これは、異なるモデルを調整および比較するために同じテスト セットを複数回使用した場合に発生します。テスト セットを繰り返し使用すると、テスト セットで良好なパフォーマンスを示したモデルのみが考慮される生存者バイアスが生じる可能性があります。この例としては、「CIFAR-10 分類子は CIFAR-10 に一般化されますか?」が挙げられます。この論文では、CIFAR-10 画像データセットでトレーニングおよび評価された分類器の過学習バイアスと楽観的バイアスを調査しています。

結論として、ホールドアウト法はモデル評価に一般的に使用されるアプローチですが、限界と潜在的なバイアスがあります。これらの制限を克服するために、相互検証やブートストラップなどの代替技術が開発されています。

相互検証は、データセットを複数のサブセットまたはフォールドに分割することを含む方法です。モデルはこれらのフォールドの組み合わせでトレーニングされ、残りのフォールドで評価されます。このプロセスは数回繰り返され、各フォールドが 1 回のテスト セットとして機能します。相互検証では、トレーニングとテストにデータのさまざまなサブセットを利用するため、モデルのパフォーマンスをより包括的に評価できます。これは、ランダムなデータ分割の影響を軽減し、モデルの汎化パフォーマンスのより信頼性の高い推定値を提供するのに役立ちます。

ブートストラップは、ホールドアウト法の制限に対処する別のリサンプリング手法です。これには、データセットを置換してランダムにサンプリングして、複数のブートストラップ サンプルを作成することが含まれます。各ブートストラップ サンプルはトレーニング セットとして使用され、残りのデータはテスト セットとして使用されます。置換を伴うサンプリングを繰り返すことにより、ブートストラップでは複数のトレーニングとテストの分割が生成され、モデルのパフォーマンスのより堅牢な評価が可能になります。

相互検証とブートストラップは両方とも、ホールドアウト法に関連するバイアスを軽減するのに役立ちます。利用可能なデータをより効率的に利用し、トレーニングとテストの分割における変動を考慮することで、モデルのパフォーマンスのより信頼性の高い推定値を提供します。

ホールドアウト法はモデルを評価するための単純なアプローチですが、限界と潜在的なバイアスがあります。これらの問題を軽減するために、相互検証やブートストラップなどの手法により、モデルのパフォーマンスのより堅牢で信頼性の高い推定値が提供されます。当面の問題の特定の要件と制約に応じて、これらの代替方法を検討することが重要です。

9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
9.2 Holdout Evaluation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.11
  • www.youtube.com
The second video talks about using a test set for estimating the generalization performance of a model. Technically, an independent test set can provide an u...
 

9.3 ホールドアウト モデルの選択 (L09 モデル評価 2: 信頼区間)



9.3 ホールドアウト モデルの選択 (L09 モデル評価 2: 信頼区間)

前回のビデオでは、モデル評価のホールドアウト法について説明しました。ここで、モデル選択のためにこの方法を変更する方法を検討します。要約すると、前のビデオでは、データセットをトレーニング セットとテスト セットに分割しました。機械学習アルゴリズムと固定ハイパーパラメーター設定を使用して、トレーニング セットでモデルをトレーニングしました。次に、テスト セットでモデルを評価しました。さらに、オプションでモデルをデータセット全体に適合させて、より多くのデータを活用し、パフォーマンスの向上を期待します。

今回は、ハイパーパラメータ調整と密接に関係するモデル選択にホールドアウト法を使用することを目指します。モデルの選択には、さまざまなハイパーパラメーター設定の中から最適なモデルを選択することが含まれます。ハイパーパラメータ調整のプロセスでは、それぞれが特定のハイパーパラメータ設定に対応する複数のモデルを生成します。モデルの選択は、最適なハイパーパラメーター設定を持つモデルを特定するのに役立ちます。

モデル選択のための修正されたホールドアウト方法を説明するために、手順を詳しく説明します。まず、データセットをトレーニング セットとテスト セットだけに分割するのではなく、トレーニング セット、検証セット、テスト セットの 3 つのセットに分割します。この分離により、モデル選択用に独立したデータセット、つまり検証セットを持つことが可能になります。

次に、さまざまなハイパーパラメータ設定を検討し、トレーニング データを使用して複数のモデルを適合させます。たとえば、ハイパーパラメータ値が k=3、k=5、k=7 の K 最近傍アルゴリズムを使用すると、3 つのモデルが得られます。

モデル選択ステップには、検証セットを使用してこれらのモデルを評価することが含まれます。モデルがトレーニング データに過剰適合する可能性があるため、最適なモデルを選択するのには適していません。したがって、モデルを評価するには独立した検証セットに依存します。各モデルの予測精度などのパフォーマンス メトリックを計算し、最適なハイパーパラメーター設定に対応して、最高のパフォーマンスを持つモデルを最適なモデルとして選択します。

ただし、モデルの選択に検証セットを複数回使用すると、前のビデオでテスト セットで発生した問題と同様に、バイアスが生じる可能性があります。モデルのパフォーマンスの不偏な推定値を取得するために、独立したテスト セットを予約します。最適なモデルを選択した後、テスト セットでそのパフォーマンスを評価し、結果を報告します。

オプションで、最終評価の前に、トレーニング データと検証データを組み合わせて使用してモデルを再適合できます。このステップでは、より多くのデータを活用して、モデルのパフォーマンスを向上させる可能性があります。最後に、独立したテスト セットで最終モデルを評価し、そのパフォーマンスを報告します。結合データを当てはめたモデルをさらに評価するためのテスト セットはありませんが、データ量が増加したため、一般にモデルの精度が向上すると予想されます。

実際には、モデル選択のホールドアウト方法はさまざまであり、すべての手順が厳密に従うわけではありません。実践者の中には、結合データで再トレーニングせずに、テスト セットで選択したモデルを直接評価する人もいます。それにもかかわらず、重要なアイデアは、トレーニング、検証、テスト用に個別のデータセットを用意して、公平なパフォーマンス推定を保証し、最適なモデルの選択を容易にすることです。

次のビデオでは、信頼区間の概念を詳しく説明します。

9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
9.3 Holdout Model Selection (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
After discussing the holdout method for model evaluation in the previous video, this video covers the holdout method for model selection (aka hyperparameter ...
 

9.4 正規近似による ML 信頼区間 (L09 モデル評価 2: 信頼区間)



9.4 正規近似による ML 信頼区間 (L09 モデル評価 2: 信頼区間)

このビデオでは、特にテスト セットから分類誤差または分類精度を推定するための信頼区間に焦点を当てています。最も単純なアプローチである正規近似法を使用します。ただし、今後のビデオでは、リサンプリングに基づいたより良い方法についても説明します。

現在、私たちは基本的なセクションにいて、正規近似法を使用して信頼区間を調べています。後続のビデオでは、さまざまなリサンプリング手法について詳しく説明します。反復ホールドアウト法から始めて、経験的信頼区間を構築するためのブートストラップなどの手法に進みます。これらの手法は、従来の機械学習で一般的に発生する小さなデータセットを扱う場合により効果的です。

二項分布について説明することから始めましょう。二項分布については、他の統計の授業ですでによく知っているかもしれません。二項分布は、試行回数と成功確率をそれぞれ表すパラメーター n と p とともに成功の数を提供します。二項分布の平均は、p の n 倍で求められます。たとえば、成功確率が 33% の試行が 100 回ある場合、平均は 30 になります。

左側の図では、p と n のさまざまな値に対する二項分布の確率密度関数がわかります。この密度関数は、さまざまな成功数の確率を示します。さらに、二項分布の分散は n 倍 p 倍 (1 - p) として計算されます。これは後で使用します。このモデルについてよく理解してください。

次に、二項分布を機械学習に接続してみましょう。 0 対 1 の負けはベルヌーイ試行として見ることができ、正しい分類 (成功) と誤った分類 (失敗) の 2 つの可能性があります。誤った分類は成功、正しい分類は失敗と考えることができます。この視点は、コイントスにおける表と裏の概念と一致しています。成功 (つまり、誤った分類) の確率を推定するには、多数の試行を実行し、成功の数を試行の総数で割って数えることによって経験的に計算できます。平均成功数は n 倍の p であり、二項分布の平均に相当します。

0-1 損失と二項分布の関係は、機械学習における誤差の概念を理解するのに役立ちます。 0 対 1 の損失をベルヌーイ試行として、真の誤差を正しい予測の確率として考えることができます。真の誤差を推定するには、テスト セットを使用し、不正確な予測の割合を計算します。この割合は分類誤差を表し、これをテスト セットのサイズでさらに割って、0 から 1 までの値を取得できます。

信頼区間を構築するときは、他の統計クラスの 1 サンプル信頼区間で使用されるのと同じ方法を使用します。信頼区間は、対象のパラメータが一定の確率で含まれると期待される区間です。最も一般的な信頼水準は 95% ですが、90% や 99% などの他の水準も使用できます。信頼水準の選択によって区間の幅が決まり、レベルが高くなるほど区間が広くなります。

信頼区間を正式に定義するには、仮定された分布から繰り返し抽出された複数のサンプルを考慮します。この場合、正規分布を仮定します。この方法を使用して 95% 信頼区間を構築する場合、無限数のサンプルに基づいて無限数の区間を構築すると、これらの区間の 95% に真のパラメータが含まれることが期待されます。

なぜデータが正規分布から得られると仮定するのか疑問に思われるかもしれません。その理由は、試行回数が多い場合、二項分布は正規分布に似るためです。比較的少数の試行であっても、データはすでに標準正規分布に似た形状を示しています。これが、正規近似を使用する理由です。

この場合の信頼区間を構築する方法。

ここで、正規近似法を使用した分類誤差の信頼区間の構築の詳細を見てみましょう。まず、二項分布の標準偏差を計算する必要があります。前述したように、二項分布の分散は n 倍 p 倍 (1 - p) で与えられます。したがって、標準偏差は分散の平方根です。

次に、必要な信頼レベルに対応する Z スコアを決定します。 Z スコアは、標準正規分布の平均からの標準偏差の数を表します。 95% の信頼レベルの場合、Z スコアは約 1.96 です。 Z スコアを計算する一般的な式は (x - μ) / σ です。ここで、x は目的の信頼水準、μ は平均、σ は標準偏差です。

信頼区間を構築するには、点推定値を表すテスト セットからの推定誤差率から始めます。次に、Z スコアと点推定値からの標準偏差の積を減算して加算します。これにより、信頼区間の下限と上限がそれぞれ得られます。結果として得られる間隔は、真の分類誤差が指定された信頼レベルに収まると予想される値の範囲を表します。

正規近似法では、試行回数 (テスト セットのサイズ) が十分に大きいことを前提としていることに注意することが重要です。テスト セットが小さい場合、この近似は正確ではない可能性があります。このような場合、ブートストラップなどのリサンプリング手法を使用すると、より信頼性の高い信頼区間を提供できます。

要約すると、正規近似法を使用して分類誤差の信頼区間を構築するには、次の手順が必要です。

  1. 式 sqrt(n * p * (1 - p)) を使用して、二項分布の標準偏差を計算します。
  2. 必要な信頼レベルに対応する Z スコアを決定します。
  3. 点推定値から Z スコアと標準偏差の積をそれぞれ減算および加算して、信頼区間の下限と上限を計算します。

後続のビデオでは、特に小規模なデータセットに役立つ、リサンプリング技術に基づいたより高度な方法を検討することに注意してください。これらの方法は経験に基づく信頼区間を提供し、多くの場合、通常の近似方法よりも正確です。

9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
9.4 ML Confidence Intervals via Normal Approximation (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.12
  • www.youtube.com
This video talks about the simplest way for making confidence intervals for machine learning classifiers using the test set performance: normal approximation...
 

9.5 リサンプリングと反復ホールドアウト (L09 モデル評価 2: 信頼区間)



9.5 リサンプリングと反復ホールドアウト (L09 モデル評価 2: 信頼区間)

このビデオでは、リサンプリングのトピックを掘り下げ、特に反復ホールドアウト法について説明します。前回は、データセットがトレーニング セットとテスト セットに分割される通常のホールドアウト法について検討しました。また、正規近似法を使用して、テスト セットで推定されたパフォーマンスに基づいて信頼区間を構築する方法についても検討しました。ここで、反復ホールドアウト法から始めて、リサンプリング法に焦点を移します。

視覚的に説明するために、学習曲線を考えてみましょう。学習曲線は、モデルが追加のトレーニング データから恩恵を受けるかどうかを示す指標として機能します。グラフでは、X 軸はトレーニング セットのサイズを表し、Y 軸は精度として測定されたパフォーマンスを表します。ただし、同じプロットを反転することで誤差を測定するために使用できます。ここで示されているパフォーマンスはアムネスティの手書き数字データセットに基づいていますが、計算を高速化するために 5000 枚の画像のサブセットのみが使用されています。これらの 5000 枚の画像のうち、3000 枚がトレーニング用に割り当てられ、1500 枚がテスト セットとして確保されました。 3500 枚の画像からなる別のデータセットも作成され、そこからさまざまなサイズのトレーニング セットが構築されました。

グラフ上の各データ ポイントは特定のトレーニング セット サイズに対応しますが、テスト セット サイズは 1500 で一定のままです。観察される傾向は、トレーニング セット サイズが減少するにつれてトレーニング精度が向上することです。ただし、トレーニング セットのサイズが大きくなるにつれて、トレーニングの精度は低下します。この傾向について考えられる説明の 1 つは、トレーニング セットが小さいほど、外れ値やノイズを含むデータをモデルが記憶しやすくなるということです。トレーニング セットのサイズが大きくなるにつれて、より多様な外れ値が存在するため、データを記憶することがより困難になります。ただし、トレーニング セットが大きいほど汎化が容易になり、テスト セットのパフォーマンスが向上します。

利用可能なより大きなデータセットがなかったため、グラフがトレーニング セット サイズ 3500 で停止していることに注意してください。赤で示されたテスト セットは 1500 サンプルに固定されました。これらのサンプルをテスト用に確保することにより、モデルがその最大能力に達していない可能性があるため、悲観的なバイアスが導入されました。キャパシティは、より多くのデータによってモデルが改善される可能性を指します。この場合、効率化を目的として、多項ロジスティック回帰である単純なソフトマックス分類器が使用されました。ただし、他の分類器を同様の実験に使用することもできます。

学習曲線に関連して、データセットのサイズとそれが分類器のパフォーマンスに与える影響を考慮することが重要です。データセットのサイズを増やすと、特にトレーニング セットのサイズが大きくなるにつれてテスト誤差が減少することを学習曲線が示している場合に、分類器のパフォーマンスを向上させることができます。たとえば、映画の評価予測を含むプロジェクトに取り組んでいる場合、IMDb などのソースからより多くの映画レビューを収集すると、分類器のパフォーマンスを向上させることができます。

オフィスアワー中に、学生はプロジェクトの分類器のパフォーマンスの向上についてよく質問します。分類器の強化には、パラメーターの変更、特徴の選択、特徴の抽出などのさまざまな戦略が含まれる場合があります。ただし、データセットのサイズを増やすことは、ポジティブな結果をもたらす可能性があるシンプルかつ効果的な方法です。学習曲線を調べることは、ハイパーパラメーターの調整だけに焦点を当てるのではなく、より多くのデータがモデルに利益をもたらすかどうかを判断するのに役立ちます。

データセットをトレーニング セットとテスト セットに分割することで生じる悲観的なバイアスを認識することが重要です。データのかなりの部分をテスト用に差し控えると、トレーニング データが限られているため、モデルの潜在能力が最大限に発揮されない可能性があります。解決策の 1 つは、テスト セットのサイズを減らしてこの偏りに対処することです。ただし、テスト セットのサイズを小さくすると、分散の増加という別の課題が生じます。モデルのパフォーマンス推定値の分散は、テスト セットが小さいほど大きくなり、推定値の信頼性が低下する可能性があります。

これらの課題を軽減するために、モンテカルロ相互検証と呼ばれる手法を採用できます。これには、ホールドアウト法を複数回繰り返し、結果を平均することが含まれます。この手法は一般に反復ホールドアウト法として知られています。

反復ホールドアウト法では、ホールドアウト プロセスを複数回繰り返し実行し、データセットをトレーニング セットとテスト セットにランダムに分割します。各反復では異なるランダム分割が使用され、各反復でトレーニングとテストにデータの異なるサブセットが使用されるようになります。このプロセスを数回繰り返すことで、モデルの複数のパフォーマンス推定値を取得できます。

反復ホールドアウト法の主な利点は、単一のホールドアウト分割と比較して、モデルのパフォーマンスのより堅牢で信頼性の高い推定値が得られることです。各反復では異なるランダム分割が使用されるため、データのランダム性によるパフォーマンスの変動を捉えることができます。これは、目に見えないデータに対するモデルの実際のパフォーマンスをより正確に推定するのに役立ちます。

各反復のパフォーマンス推定値を取得したら、平均パフォーマンスを計算し、それを最終推定値として使用できます。さらに、パフォーマンス推定値の分散または標準偏差を計算して、結果のばらつきを把握することもできます。

反復ホールドアウト法では、モデルが目に見えないデータで評価されるようにするために、反復ごとにトレーニング セットとテスト セットが互いに素である必要があることに注意することが重要です。また、トレーニング セットとテスト セットのサイズは、利用可能なデータセットのサイズと、トレーニング データと評価データの間の望ましいトレードオフに基づいて決定する必要があります。

反復ホールドアウト法は、データセットが複数のランダムな分割を許容できるほど大きい場合に特に便利です。これは、モデルのパフォーマンスのより堅牢な評価を提供するのに役立ち、限られたデータを扱う場合に特に有益です。

要約すると、反復ホールドアウト法は、データセットを異なるランダムに分割してホールドアウト プロセスを複数回繰り返すリサンプリング手法です。これは、より信頼性の高いパフォーマンス推定値を取得し、モデルのパフォーマンスの変動を把握するのに役立ちます。繰り返されたホールドアウト反復の結果を平均することにより、モデルの真のパフォーマンスをより正確に推定することができます。

9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
9.5 Resampling and Repeated Holdout (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about learning curves and how to assess whether a model can benefit from more data. Then it covers the repeated holdout method.-------This v...
 

9.6 ブートストラップ信頼区間 (L09 モデル評価 2: 信頼区間)



9.6 ブートストラップ信頼区間 (L09 モデル評価 2: 信頼区間)

おかえり!ここで、この講義のさらに興味深い部分に到達しました。このビデオでは、ブートストラップ法を使用した経験的信頼区間に焦点を当てます。簡単にまとめると、以前にバギング方法について説明したときにブートストラップ方法について説明しました。バギングでは、トレーニング セットからブートストラップ サンプルを抽出しました。しかし、なぜそれが「ブートストラップ」方式と呼ばれるのか疑問に思ったことはありますか?

さて、「ブートストラップ」という用語は、不可能な仕事を表すために比喩的に使用された「自分のブートストラップで自分自身を引き上げる」というフレーズに由来しています。ブートストラップ法は、単一のサンプルからサンプリング分布を推定する必要があるため、確かに困難な手法です。つまり、ある意味、私たちはこの困難な課題に挑戦することで、比喩的に自分自身を自分の力で引き上げようとしているのです。

時間が経つにつれて、「ブートストラップ」の意味は、厳格で誰の助けも借りずに努力することによって自分自身を向上させるという概念を含むように拡大されました。ただし、ブートストラップ手法の文脈では、私たちは手法自体にのみ焦点を当てており、「ブートストラップによって自分自身を引き上げる」ことに関連する政治的な意味合いには焦点を当てていません。

ここで、ブートストラップ法と、それによってサンプリング分布とパフォーマンス推定値の不確実性をどのように推定できるかについて詳しく説明します。ブートストラップ法は、1979 年に Bradley Efron によって初めて導入され、単一のデータセットのみにアクセスできる場合に標本分布を推定するために使用されるリサンプリング手法です。

概念を理解するために、データセットが 1 つだけあり、それを使用してさまざまなサンプル統計を推定したいと想像してください。これらの統計には、サンプル平均、標準偏差、R 二乗、相関関係など、関心のあるものを何でも使用できます。ブートストラップ法を使用すると、元のデータセットから繰り返しサンプリングして、母集団からサンプルを抽出するプロセスをシミュレートすることで、新しいデータセットを生成できます。置換なしでサンプリングする反復ホールドアウト法とは異なり、サンプリングは置換ありで行われることに注意することが重要です。

これらのブートストラップ サンプルを抽出し、サンプル平均などの目的のサンプル統計量を計算することにより、サンプル平均の分布が正規分布に従っていることを観察できます。この分布の標準偏差は平均の標準誤差として知られ、サンプルの標準偏差をサンプル サイズの平方根で割ったものから推定できます。

ブートストラップ法を使用すると、標準偏差を推定し、それを使用してパフォーマンス推定に関連する不確実性を決定することによって信頼区間を構築できます。信頼区間は、真の母集団パラメータとして妥当な値の範囲を提供します。ブートストラップ法の場合、経験的に標準偏差を計算し、それを信頼区間の計算に利用します。

ここで、ブートストラップ手順に含まれる手順を理解しましょう。まず、元のデータセットから置き換えたサンプルを描画します。次に、このブートストラップ サンプルを使用して、必要なサンプル統計を計算します。これら 2 つのステップを多数回 (通常は約 200 回以上行うことが推奨) 繰り返して、標本統計量の分布を取得します。この分布の標準偏差は、標本統計量の標準誤差の推定値として機能します。最後に、標準誤差を使用して信頼区間を計算し、パフォーマンス推定値に関する不確実性の尺度を提供します。

ブートストラップ法を使用して分類器のパフォーマンスを評価する場合、アプローチを少し変更できます。サイズ n のデータセットを考えてみましょう。この場合、p 回のブートストラップ ラウンドを実行し、各ラウンドで元のデータセットからブートストラップ サンプルを抽出します。次に、これらのブートストラップ サンプルのそれぞれにモデルを適合させ、ブートストラップ サンプルに含まれていないサンプルであるバッグ外サンプルの精度を計算します。すべてのブートストラップ ラウンドにわたる精度を平均することにより、ブートストラップ精度が得られます。このアプローチでは、トレーニングに使用されるサンプルではなく、目に見えないデータに基づいてモデルを評価することで、過剰適合の問題に対処します。さらに、ブートストラップの精度は、モデルのパフォーマンスのばらつきの尺度を提供します。

ブートストラップ メソッドを使用して分類器のパフォーマンスを評価する手順を要約すると、次のようになります。

  1. 元のデータセットからサイズ n のブートストラップ サンプル (置換あり) をランダムに選択します。
  2. ブートストラップ サンプルで分類器をトレーニングします。
  3. out-of-bag サンプル (ブートストラップ サンプルに含まれていないサンプル) でトレーニングされた分類器を評価し、精度を計算します。
  4. 多数のブートストラップ ラウンド (p 回) に対して手順 1 ~ 3 を繰り返します。
  5. すべてのブートストラップ ラウンドにわたる平均精度を計算して、ブートストラップ精度を取得します。

ブートストラップ精度は、目に見えないデータに対する分類器のパフォーマンスの推定値として機能し、パフォーマンス推定値に関連する不確実性の尺度を提供します。さらに、分類器の安定性と堅牢性を評価するのにも役立ちます。

ブートストラップ法を利用すると、モデルのパフォーマンスに関する貴重な洞察が得られ、パフォーマンスの推定に関連する不確実性を推定できます。この手法は、データが限られており、利用可能なデータセットを最大限に活用したい場合に特に役立ちます。ブートストラップ法を使用すると、サンプリング分布を近似し、信頼区間を構築し、分類器のパフォーマンスを効果的に評価できます。

結論として、ブートストラップ法は、単一のデータセットを使用してサンプリング分布を推定し、パフォーマンス推定の不確実性を評価できる強力なリサンプリング手法です。これは、さまざまな統計上の課題に対処するための実践的なアプローチを提供し、機械学習、統計、データ分析などの幅広い分野で応用されています。ブートストラップ手法を理解して実装することで、情報に基づいた意思決定を行い、限られたデータから信頼できる結論を導き出す能力を強化できます。

9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
9.6 Bootstrap Confidence Intervals (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
This video talks about the Leave One Out Bootstrap (i.e., computing the model performances on out-of-bag samples) for constructing confidence intervals.-----...
 

9.7 .632 および .632+ ブートストラップ法 (L09 モデル評価 2: 信頼区間)



9.7 .632 および .632+ ブートストラップ法 (L09 モデル評価 2: 信頼区間)

このビデオでは、前のビデオで説明したトピックをさらに深く掘り下げていきます。前回のビデオでは、ブートストラップ法、特に経験的信頼区間を構築するために使用されるアウトオブバッグ ブートストラップについて説明しました。このビデオでは、0.632 ブートストラップと 0.632+ ブートストラップという 2 つの高度なブートストラップ手法について説明します。これらのテクニックは関連しており、その起源についてはこのビデオで詳しく説明します。

ブートストラップ手順を簡単に要約すると、データセットから開始し、置換を伴うサンプリングによってブートストラップ サンプルを作成します。各ブートストラップ サンプルについて、モデルをフィッティングし、バッグから取り出したサンプルでのパフォーマンスを評価します。前回のビデオでは、オブジェクト指向のアプローチを使用して、Python でこの手順を実装する方法も示しました。

現在のビデオでは、プレゼンターがプロセスを簡素化するコード実装を紹介しています。彼らは、ブートストラップ ラウンドの数とランダム シードを入力として受け取る「BootstrapOutOfBag」というクラスを作成しました。このクラスは、データセットをトレーニング サブセットとテスト サブセットに分割する「分割」と呼ばれるメソッドを提供します。トレーニング サブセットはブートストラップ サンプルに対応し、テスト サブセットはバッグ外のサンプルを表します。これらの分割を反復することにより、発表者はブートストラップ手順を実行し、モデルのパフォーマンスを評価する方法を示します。

次に、発表者は「bootstrap_0.632_score」と呼ばれる別の実装を紹介します。この実装により、ユーザーは out-of-bag またはブートストラップ スコアを簡単に計算できるようになります。分類子、トレーニング セット、分割数、およびランダム シードを提供することで、ユーザーは平均精度を計算し、パーセンタイル法を使用して信頼区間を取得できます。

次に、ビデオでは、悲観的バイアスとして知られるアウトオブバッグ ブートストラップ法の欠点について説明します。 Bradley Efron は、この偏りに対処する方法として 0.632 の推定値を提案しました。悲観的なバイアスは、ブートストラップ サンプルに含まれる固有のデータ ポイントが元のデータセットに比べて少ないために発生します。実際、ブートストラップ サンプル内のデータ ポイントのうち一意なものは 63.2% のみです。発表者は、この図の背後にある確率計算について説明し、さまざまなサンプルサイズで確率計算がどのように動作するかを示す視覚化を提供します。

悲観的なバイアスを克服するために、ビデオでは 0.632 ブートストラップ法を紹介しています。この方法では、各ラウンドのバッグ外サンプルとブートストラップ サンプルの精度が組み合わされます。各ラウンドの精度は、バッグ外の精度と再置換の精度という 2 つの項の合計として計算されます。 out-of-bag 精度はブートストラップ サンプルに含まれていないサンプルのパフォーマンスを表し、再置換精度はモデルのフィッティングに使用されたのと同じデータのパフォーマンスを測定します。

これら 2 つの項を組み合わせることで、0.632 ブートストラップ法はモデルのパフォーマンスの偏りの少ない推定値を提供することを目的としています。この方法は、out-of-bag 精度を組み込むことで、再置換精度の過度に楽観的な性質に対処します。

結論として、このビデオは、高度なブートストラップ技術である 0.632 ブートストラップと 0.632+ ブートストラップを導入することで、前のビデオで説明した概念に基づいて構築されています。これらの方法は、アウトオブバッグとブートストラップのサンプル精度の両方を考慮することで、アウトオブバッグ ブートストラップの悲観的なバイアスを軽減することを目的としています。ビデオでは、これらの手法の理解と応用を容易にするコードの実装と説明が提供されます。

9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
9.7 The .632 and .632+ Bootstrap methods (L09 Model Eval 2: Confidence Intervals)
  • 2020.11.13
  • www.youtube.com
In this video, we discuss the .632 bootstrap, which addresses the pessimistic bias of the OOB bootstrap covered in the previous video. Then, we discuss the ....