機械学習とニューラルネットワーク - ページ 36

 

ジェネレーティブ AI の本当の可能性



ジェネレーティブ AI の本当の可能性

ジェネレーティブ AI は、開発者のプロトタイピング、評価、カスタマイズを支援することで、製品の作成方法に革命をもたらす可能性を秘めています。ただし、この技術はまだ初期段階にあり、倫理的かつ安全に使用されるようにするには、さらに研究が必要です。

  • 00:00:00 ビデオでは、大規模な言語モデルを使用することの潜在的な利点と課題について説明し、さらに、ヒューマン ループがこれらのモデルの上に差別化されたアプリケーションを構築するのにどのように役立つかを説明しています。

  • 00:05:00 ビデオでは、ジェネレーティブ AI が開発者のアプリケーションのプロトタイピング、評価、カスタマイズにどのように役立つかについて説明しています。 AIテクノロジーがワークフローを強化するのに役立つため、開発者の仕事は将来変わる可能性が高いと指摘しています.

  • 00:10:00 このビデオでは、ジェネレーティブ AI の可能性について説明し、その広範な採用に対するいくつかの障害について説明しています。この技術には大きな可能性がありますが、まだ初期段階にあり、倫理的かつ安全に使用するためにはさらに研究が必要であると指摘しています。

  • 00:15:00 ジェネレーティブ AI の可能性は膨大で、近い将来、多くの用途が考えられます。スタートアップ企業は、新しいアプリケーションのカンブリア爆発に備える必要があり、その中には予測が難しいものもあります。

  • 00:20:00 このビデオでは、ジェネレーティブ AI の可能性と、それを使用して新しい革新的な製品を作成する方法について説明しています。
The REAL potential of generative AI
The REAL potential of generative AI
  • 2023.02.28
  • www.youtube.com
What is a large language model? How can it be used to enhance your business? In this conversation, Ali Rowghani, Managing Director of YC Continuity, talks wi...
 

Vrije Universiteit Amsterdam Machine Learning 2019 - 1 機械学習入門 (MLVU2019)



Vrije Universiteit Amsterdam Machine Learning 2019 - 1 機械学習入門 (MLVU2019)

このビデオでは、機械学習の概要を説明し、機械学習に関連するさまざまなトピックについて説明します。インストラクターは、コースの準備方法を説明し、機械学習が威圧的であるという一般的な懸念に対処します。彼はさまざまな種類の機械学習を紹介し、従来のルールベースのプログラミングと区別しています。このビデオでは、教師あり学習の基本についても説明し、機械学習を分類および回帰の問題に使用する方法の例を示します。特徴空間、損失関数、および残差の概念も説明されています。

ビデオの 2 番目の部分では、機械学習の概要を説明し、パターンを見つけて正確なモデルを作成し、データセットから結果を予測するという主な目標について説明します。講演者は、特定のアルゴリズムとデータ分割を使用して過剰適合を回避し、一般化を達成することの重要性について説明します。彼はまた、密度推定の概念と複雑なデータでの難しさを紹介しています。講演者は、機械学習と他の分野との違いを明確にし、正確な予測を行うためにビッグ データ セットを分割する戦略をほのめかしています。このビデオでは、ディープ ラーニングの発展に伴い機械学習に携わる人々が増加していることにも言及し、初心者がこの分野で始めるためのヒントを提供しています。

  • 00:00:00 このセクションでは、スピーカーは機械学習コースの準備方法について話します。彼らは、学生が主要なコースの教材を注意深く読み、必要なことに集中することを提案しています。さらに、学生が自分の理解をテストし、インストラクターが彼らに話すことを暗記するために利用できるクイズがあります.生徒には宿題が与えられ、数式が印刷されたシートを使用して、残りの領域にペンでメモを書くことが許可されます。

  • 00:05:00 このセクションでは、特にコンピュータ サイエンスのバックグラウンドがない人にとって、機械学習が怖くて威圧的であるという懸念にスピーカーが対処します。彼は、このプロジェクトの目的は、探索と実験のためのデータセットとリソースを提供することで、個人が機械学習に慣れるのを助けることだと説明しています。スピーカーは、コラボレーションの重要性を強調し、学習を促進するために提供されたワークシートとコンピューティング ツールの使用を奨励します。
     
  • 00:10:00 このセクションでは、スピーカーは、機械学習の分野におけるグループ ダイナミクスとコミュニケーション スキルの重要性について説明します。彼は、グループで効果的に作業し、コミュニケーションできることは、テクニカル ライティングのスキルと同じくらい重要であると強調しています。スピーカーはまた、参加者がグループセッションに登録し、プログラム内の他の人に手を差し伸べて効果的な協力関係を築くことを奨励しています.彼は参加者に、オンライン ディスカッション フォーラムなどの利用可能なリソースを使用して、プログラム内の他のメンバーとつながり、生産的で協力的な関係を築くようアドバイスしています。

  • 00:15:00 このセクションでは、教師あり機械学習から始めて、さまざまなタイプの機械学習についてスピーカーが紹介します。彼らは、2 種類の教師あり機械学習 (分類と回帰) について説明し、休憩の後に回帰について説明します。講演者はまた、教師なし機械学習について簡単に説明し、機械学習が通常の機械と異なる理由について説明すると述べています。

  • 00:20:00 このセクションでは、スピーカーは、基本的に一連の事前定義された命令に従う従来のルールベースのプログラミングと、大量のデータセットを使用して使用可能な予測モデルを構築するプロセスである機械学習を区別します。新しいデータに基づいて意思決定を行う。機械学習は、迅速で信頼性が高く、腐敗しない意思決定が必要な状況で役立ちます。ただし、機械学習モデルは完全ではなく、予期せず失敗する可能性があることを覚えておくことが重要です。そのため、最終的な決定を下すには依然として人間の入力が必要です。臨床意思決定支援は、機械学習を使用して医師の意思決定に役立つ追加情報を提供する方法の一例です。

  • 00:25:00 このセクションでは、講演者は機械学習におけるオンライン学習または増分学習の概念について説明します。オンライン学習は、一定のデータ ストリームが存在し、モデルが新しい情報を更新および予測し続ける必要がある状況で効果的であると述べていますが、これは困難な作業です。したがって、モデルがより簡単に予測できるように、ベースデータを分離して再現することにより、オンライン学習の適用に焦点を当てることを推奨しています。さらに、スピーカーは、1950 年代と 60 年代の科学者がパーセプトロンと呼ばれる単純な人工脳を使用して、脳がどのように学習するかを調査した方法について説明し、男性と女性の違いを認識するようにパーセプトロンをトレーニングするなどの例を使用しました。

  • 00:30:00 ビデオのこのセクションでは、スピーカーが機械学習の基本について説明し、機械が入力機能に基づいて特定のカテゴリにデータを分類するようにトレーニングされる教師あり学習の概念を紹介します。特定の単語の頻度などの特徴を測定することによって、電子メールをスパムまたは非スパムとして分類する例が示されています。目標は、このデータをモデルを作成する学習アルゴリズムにフィードすることです。これにより、未知の新しい例のクラスを正確に予測できます。このタイプの問題に使用できる分類アルゴリズムは多数あります。

  • 00:35:00 このセクションでは、スピーカーは機械学習を分類問題に使用する方法の 2 つの例を示します。最初の例では、画像分類を使用して、アリゾナ州の契約書に含まれる複数桁の数字を認識します。彼らは数字の 28x28 ピクセル画像を特徴として使用し、目標は画像に含まれる数字を予測することです。 2 番目の例では、機械学習を使用して自動車に運転方法を教えます。そこでは、ステアリング ホイールのセンサーを介してデータを収集し、それをフレームに分割し、960 の機能を使用して自動車の方向を分類します。

  • 00:40:00 このセクションでは、スピーカーは、回帰問題を解決するアルゴリズムを構築する方法について説明します。与えられた例は、乗客数に基づいてバスの乗車時間を予測しています。講演者はまた、コースの完全なスケジュールを含むページがあることにも言及しています。これは、グループ間の時間の変更と、変更される可能性のある時折のビジュアルのために重要です.最後に、スピーカーは、2 つの特徴を使用して人の身長を予測することについて話します。これは、教師あり学習の問題の例です。

  • 00:45:00 このセクションでは、スピーカーは軸を使用して特徴空間でデータを表現する概念を紹介します。これにより、要素とそのインターフェイスを視覚的に表現できます。この空間に線を引くことで、空間を 2 つの領域に分割する分類器を作成できます。一方の領域は線より上のすべてを表し、もう一方の領域は線より下のすべてを表します。ロジスティックおしゃぶりは、線を使用する場合に最適です。各線は、3D 空間の平面上のプロパティを定義する 3 つの数値で表すことができます。交換可能な関数である損失関数を使用すると、モデルが間違っている例の数を計算できます。値が低いほど、モデルの適合性が高いことを意味します。

  • 00:50:00 このセクションでは、スピーカーは空間の例と、それらを使用してモデルを作成する方法を提供します。彼は、デシジョン ツリーの概念と、それらが大きな空間でどのように複雑になるかを説明しています。彼はまた、仕様と多様化のいくつかのバリエーションを使用して、分類のプロセスを単純かつ強力にする方法を示しています。最後に、スピーカーはマルチクラスとマルチラベルの分類に触れ、オブジェクトが相互に排他的でない場合にそれらがどのように役立つかについて説明します。

  • 00:55:00 このセクションでは、スピーカーは、重要なデータに基づいて特徴を作成することによって、適切なクラス確率スコアと出力スペースを決定する方法を説明します。ライン シータと筋肉損失関数を評価するために、モデルの予測値と実際の出力値の間の距離を測定する残差法が展開されます。回帰を使用して残差をプロットし、二乗残差の合計を計算すると、適切な二乗距離に基づいて線がデータに向かって引き寄せられるため、予測精度を向上させることができます。

  • 01:00:00 このセクションでは、スピーカーは、多重線形回帰などの特定のアルゴリズムを使用してデータを分析し、モデルを作成することの重要性について説明します。彼は、これらのモデルはオーバーフィッティングのために常に正確であるとは限らないと説明しています。そのため、データをさまざまなチャンクに分割し、それに応じて分析する必要があります。講演者はまた、モデルが新しいデータで結果を正確に予測できるようにするための機械学習アルゴリズムを作成する際に、一般化が最も重要な側面であることを強調しています。

  • 01:05:00 このセクションのビデオでは、機械学習と、それが大量のデータから学習する方法について説明しています。機械学習モデルは、パターンを見つけて、特徴に基づいてラベルを正確に予測できるモデルを作成することを目的として、データを特徴とラベルのセットに入れることによって構築されます。 k-means クラスタリングなどの手法を使用して、類似した特徴を持つデータ ポイントをグループ化すると、より正確なモデルを構築するのに役立ちます。さらに、最適なモデルを見つけるには多くの試行錯誤が必要であり、最適なモデルを事前に知る簡単な方法はないことを理解することが重要です。

  • 01:10:00 このセクションでは、スピーカーは密度推定の概念と、それがデータの確率分布の特定にどのように役立つかを紹介します。密度推定は、関心のある分布を仮定し、サンプル データに基づいてそれを取得することによって行われます。このモデルは、フィーチャ内のすべてのポイントの確率密度を予測し、さまざまな率の可能性を表す数値を割り当てます。ただし、人間の写真などの複雑なデータの場合、高次元の特徴により密度の推定が難しくなり、別の同様のサンプルを提供する別のアプローチが必要になります。

  • 01:15:00 このセクションでは、スピーカーは、機械学習以外にも、都市計画やバス計画など、機械が関係していると人々を混乱させる可能性のある分野があると述べています。しかし、これらの分野は必ずしも多くの費用や時間を必要とするわけではありません。講演者は、正確な予測を行うために大きなデータセットを小さなグループに分割することを含む、来週より詳細に議論される戦略についてもほのめかしています.この戦略は、音声認識や文字認識などの分野でよく使用されます。

  • 01:20:00 このセクションでは、講演者は機械学習についてのさまざまな考え方と、機械学習に使用できる既存の手法とモデルについて説明します。彼はまた、深層学習が機械学習に取り組む人々のフレーバーの増加にどのように貢献したかについても触れています。さらに、機械学習を始めたい初心者向けのヒントを提供し、学習の旅に役立つリソースの可用性について言及しています。
1 Introduction to Machine Learning (MLVU2019)
1 Introduction to Machine Learning (MLVU2019)
  • 2019.02.06
  • www.youtube.com
slides: https://mlvu.github.io/lectures/11.Introduction.annotated.pdfcourse materials: https://mlvu.github.ioThe first lecture in the 2019 Machine learning c...
 

2 線形モデル 1: 超平面、ランダム探索、勾配降下 (MLVU2019)



2 線形モデル 1: 超平面、ランダム探索、勾配降下 (MLVU2019)

このビデオでは、線形モデル、検索方法、および最適化アルゴリズムの基本について説明します。線形モデルを 2 次元と多次元の両方で説明し、ランダム検索や勾配降下法などの方法で適切なモデルを検索するプロセスについて説明します。機械学習における凸性の重要性が説明され、凸でないランドスケープでのランダム検索の欠点が取り上げられています。動画では検索方法として、進化的方法や分岐検索も紹介しています。最後に、超平面の最急降下の方向を見つけるプロセスを含め、損失関数を最適化するための微積分と勾配降下法の使用について説明します。

2 番目の部分では、勾配降下法とその線形モデルへの適用について説明します。このアルゴリズムでは、損失関数の負の勾配の方向にステップを実行してパラメーターを更新します。学習率は、アルゴリズムが最小値に収束する速さを決定する上で重要であり、線形関数を使用すると、検索することなく最適なモデルを導き出すことができます。ただし、より複雑なモデルでは勾配降下法を使用する必要があります。このビデオでは、分類と決定の境界についても紹介しています。ここでの目標は、最適な線を見つけて、青い点を赤い点から分離することです。線形モデルの制限には、非線形に分離可能なデータセットを分類できないことが含まれますが、計算コストが低く、高次元の特徴空間でうまく機能します。インストラクターは、機械学習の方法論など、議論される将来のトピックについてもプレビューします。

  • 00:00:00 このセクションでは、スピーカーは機械学習の基本的なレシピを説明します。これには、問題の抽象化、インスタンスと機能の選択、モデル クラスの選択、適切なモデルの検索が含まれます。次に、選択したモデル クラスとして線形モデルを紹介し、それらを数学言語で記述する方法について説明します。彼らは勾配降下を含む検索方法について話し、これらの方法は線形モデルに固有のものではなく、他のコンテキストで登場することを強調しています。インスタンスと対応する値を一致させるために上付き文字を使用して、データセットを記述するための表記法も導入されています。最後に、講義全体を通して実行例として単純な回帰データセットが使用されます。

  • 00:05:00 このセクションでは、スピーカーは線形モデルと、それらを使用してある空間を別の空間にマッピングする方法について説明します。線形モデルは、これを実現するために線を記述する関数を使用します。直線関数には、勾配とバイアスをそれぞれ表す 2 つのパラメーター W と B があります。講演者は、データセット内の特徴の数は任意である可能性があり、モデルは任意の数の特徴と連携する必要があると説明しています。複数の機能の場合、各インスタンスは太字表記を使用してベクトルとして表され、これらの各ベクトルは単一の値にマップされます。

  • 00:10:00 このセクションでは、スピーカーは、すべてのフィーチャに重みを割り当て、単一の B 値を維持することによって、線形モデルを平面から超平面に拡張する方法を説明します。この関数は、W と X と B のドット積として表すことができます。これは、同じ長さの 2 つのベクトルの単純な演算です。内積は、空間における 2 つのベクトルの長さと、それらの間の角度の余弦を掛けたものとして表すこともできます。講演者は、モデルに単純な機能を追加することで、より強力になるという興味深い原則についても言及しています。最後に、適切なモデルを見つけるために、損失関数が使用され、その損失関数を最小化する値をすべてのモデルの空間で検索する方法が使用されます。

  • 00:15:00 このセクションでは、スピーカーは線形回帰で使用される平均二乗誤差損失関数について説明します。この関数は、モデル予測と実際の値の間の距離を測定し、距離を二乗し、すべての残差を合計して損失を決定します。値が低いほど、モデルは優れています。話者は、関数が絶対値を使用する代わりに値を 2 乗して、正と負の値が相殺されないようにする理由を説明します。正方形はまた、外れ値に追加のペナルティを課し、損失関数でそれらをより重み付けします。このセクションでは、モデル空間と特徴空間についても簡単に説明し、損失ランドスケープでの低損失値の検索がモデルをデータに適合させる方法についても説明します。

  • 00:20:00 単純なモデルでは、ランダム検索を使用して、ランダムなポイントから開始し、ループを使用してそれに非常に近い別のポイントを選択し、両方のポイントの損失を計算することで、最適なパラメーター値を見つけることができます。新しいポイントの損失が良くなり、新しいポイントに切り替えます。このプロセスは、最適なパラメーター値に到達するまで続きます。これは、ハイカーが吹雪の中をナビゲートするのと似ています。あらゆる方向に小さなステップを踏んで、山の斜面が最も上昇している場所を特定し、その方向にステップを踏んで谷に到達します。ただし、空間が多次元である機械学習の設定では、全体像を一度に見ることはできないため、このプロセスは吹雪の中のハイカーに似ています。最適値に到達するまでランダムな方向。

  • 00:25:00 このセクションのビデオでは、機械学習における凸性の概念と、モデル検索方法としてランダム検索を使用することへの影響について説明しています。凸状の損失面、または数学的にグラフ化したときのボウルのような形状の損失面には、最小値が 1 つしかないため、全体的な最小値を見つけることができます。ただし、損失曲面が凸状ではなく、複数の極小値がある場合、ランダム検索がスタックして極小値に収束する可能性があります。これに対処するために、検索方法としてシミュレーテッド アニーリングが導入されました。これにより、上り坂に移動する可能性が可能になり、ローカル ミニマムを回避してグローバル ミニマムを見つける可能性が可能になります。

  • 00:30:00 このセクションのビデオでは、ランダム検索やシミュレーテッド アニーリングなどのブラックボックス最適化手法を使用して、損失関数をブラック ボックスと見なすことで連続または離散モデル空間を最適化する方法について説明しています。モデルの内部動作に関する知識。これらの方法を並列化して複数の検索を同時に実行し、大域的最適を見つける可能性を高めることもできることに注意してください。さらに、ビデオでは、これらの最適化手法は、進化的アルゴリズム、粒子、コロニーなどの自然現象に触発されていることが多いと述べています。

  • 00:35:00 このセクションでは、スピーカーは、進化からインスピレーションを得た進化的検索方法の基本的なアルゴリズムを紹介します。この方法では、モデルの母集団から開始し、損失を計算してランク付けし、母集団の半分を殺し、残りの半分を繁殖させて新しい母集団を作成します。新しいモデルは古いモデルの特性に基づいて選択され、突然変異を使用していくつかのバリエーションが母集団に追加されます。講演者はまた、ランダム探索のバリエーションである分岐探索法についても説明します。この方法では、1 つのランダムな方向を選択する代わりに、ランダムな K 個の方向が選択され、損失が最も少ない方向が選択されます。講演者は、進化的手法の柔軟性と能力に注目して結論を下しますが、高価な計算コストとパラメーター調整要件について注意を促します。

  • 00:40:00 このセクションでは、プレゼンターは、特定の問題に最適なモデルを見つけるためのさまざまな検索方法について説明します。モデルの数が増えると、局所的な曲率の調査に多くの時間が費やされ、最適化へのより直接的な線につながります。ランダムな一歩を踏み出す代わりに、移動する前に地元の近所を理解し、最適な方向を理解することに多くの時間を費やすことができます。次に、勾配降下法を紹介します。勾配降下法では、損失関数を調べ、微分積分によって関数が最も速く減少する方向を計算します。この方法では、関数が微分可能で滑らかで連続的である必要があり、もはやブラック ボックス モデルではありません。

  • 00:45:00 このセクションでは、スピーカーは損失関数に関連する勾配と接線について説明します。損失面は線形関数ではありませんが、損失関数の導関数を表す接線の傾きは、関数が減少する方向と速度を示します。より高い次元では、接線に相当するものは接線超平面であり、損失面が最も速く減少する方向も示します。この講義では、空間内の点または方向としてのベクトルの解釈についても触れます。これは、超平面などの線形関数を扱うときに役立ちます。

  • 00:50:00 このセクションでは、スピーカーは導関数を多次元に一般化する方法と、超平面の最急降下の方向を見つける方法について説明します。多次元で導関数を取得することと同じことは、勾配を計算することです。これは、X、Y、および Z に関する偏微分導関数で構成されるベクトルです。これら 3 つの値を合わせて平面の 3 つのパラメーターを定義し、3 つの値を合わせて平面を定義します。超平面。最急降下の方向 W は、X と W の間の距離が X と W の間の角度に等しい場合、または X と W が同じ場合に最大となる a のコサインを W 倍したノルムを最大化することによって見つけることができます。したがって、最急降下の方向は W です。

  • 00:55:00 このセクションでは、スピーカーは、勾配降下と呼ばれる損失関数の最小値を見つけるための簡単なアルゴリズムについて説明します。アルゴリズムは、モデル空間のランダムな点から開始し、その点での損失の勾配を計算し、それを anta と呼ばれる小さな値で乗算し、モデルからそれを減算します。ランダム性はなく、純粋に決定論的なステップのみです。勾配は、方向とステップ サイズの両方を示します。次に、スピーカーは微積分を使用して損失ランドスケープの勾配を計算し、和と連鎖のルールを説明し、W と B に関する損失関数の導関数の 2 次元ベクトルで終わります。

  • 01:00:00 このセクションでは、スピーカーは Python での勾配降下の実装と、最小値を見つけてそこにとどまるために、表面の曲率に沿ってベクトルの方向にステップできる方法について説明します。これを実証するために、彼らは、ユーザーが勾配降下法を使用して単純な線形モデルを試すことができるようにする、playground.tensorflow.org という Web サイトを紹介しています。ただし、スピーカーは、勾配降下法にはいくつかの制限があることも指摘しています。たとえば、学習率を選択する必要があることや、極小値に陥る可能性があることなどです。

  • 01:05:00 このセクションでは、ビデオで勾配降下法について詳しく説明し、線形モデルへの適用について説明します。勾配降下では、アルゴリズムは損失関数の負の勾配の方向にステップを実行することによってパラメーターを更新し、このプロセスが最小値に達するまで繰り返されます。学習率は、各ステップの大きさを決定します。アルゴリズムが最小値に収束する速度に影響するため、大きすぎず、小さすぎない学習率を見つけることが重要です。線形関数を使用すると、検索することなく最適なモデルを導き出すことができます。ただし、より複雑なモデルでは勾配降下法を使用する必要があります。勾配降下法は高速で、メモリが少なく、正確ですが、極小値を回避せず、滑らかな損失関数を持つ連続モデル空間でのみ機能します。最後に、ビデオは分類と決定の境界を紹介します。ここでの目標は、特徴空間で最適な線を見つけることによって、青い点を赤い点から分離することです。
     
  • 01:10:00 このセクションでは、スピーカーは、6 つのインスタンスで構成される単純な分類データセットの分類子を見つけるプロセスについて説明します。これを行うために、データセット内の潜在的な線形モデルまたは平面を評価するために使用できる損失関数を検索し、誤分類されたポイントの数を最小限に抑えて適切な評価を取得します。ただし、最初に使用する損失関数は、最適なモデルを見つけるのに適していません。これは、フラットな構造を持ち、ランダム検索と勾配上昇が無効になるためです。次に、スピーカーは、損失関数が評価関数とは異なる場合があると述べ、目的の点の周囲で最小値を持つが、どこでも滑らかな損失関数を提示します。

  • 01:15:00 このセクションでは、ポイント値を割り当て、問題を回帰問題として扱うことにより、回帰で使用される最小二乗法を分類に適用する方法を講師が実演します。このアプローチは、線形分離可能なポイントのクラスタリングではうまく機能しますが、線形分離不可能なクラスターを分離できるという保証はありません。これらは、特徴空間で決定されたステップを実行して損失関数を最小化することにより、勾配降下アルゴリズムがどのように機能するかを示しています。使用されている例は、線形に分離可能なポイントを持つデータセットであり、講師は、複雑な境界を持つコア データセットの例で示されているように、線形モデルが表現できるものにいかに制限があるかについても強調しています。

  • 01:20:00 このセクションでは、インストラクターが線形モデルの制限と、らせんパターンを持つデータセットなどの非線形に分離可能なデータセットを分類できない可能性について説明します。ただし、線形モデルは高次元の特徴空間でうまく機能し、計算コストも低くなります。インストラクターは、確率的勾配降下法は強力な最適化ツールですが、離散損失関数のプロキシとして使用するには滑らかな損失関数が必要であると説明しています。インストラクターは、機械学習の方法論など、議論される今後のトピックをプレビューして締めくくります。
2 Linear Models 1: Hyperplanes, Random Search, Gradient Descent (MLVU2019)
2 Linear Models 1: Hyperplanes, Random Search, Gradient Descent (MLVU2019)
  • 2019.02.07
  • www.youtube.com
slides: https://mlvu.github.io/lectures/12.LinearModels1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the linear models: ...
 

3 方法論 1: 曲線下面積、バイアスと分散、フリーランチなし (MLVU2019)



3 方法論 1: 曲線下面積、バイアスと分散、フリーランチなし (MLVU2019)

このビデオでは、機械学習モデルの評価における曲線下面積 (AUC) メトリックの使用、バイアスと分散の概念、および「フリー ランチなし」定理について説明します。 AUC メトリックは、ROC 曲線の下の領域を計算することによって、分類モデルのパフォーマンスを測定します。さらに、バイアスと分散は、モデルがトレーニング データにどの程度適合し、新しいデータに一般化されるかにおいて重要な役割を果たすため、議論されています。また、「フリー ランチなし」の定理は、すべての機械学習の問題に普遍的に適用できるアルゴリズムがないため、特定の問題ごとに適切なアルゴリズムを選択する必要性を強調しています。

このビデオでは、機械学習の 3 つの重要な概念、AUC (曲線下面積)、バイアスと分散、および「フリー ランチなし」の定理について説明します。 AUC はバイナリ分類モデルを評価するために使用されるメトリックであり、バイアスと分散はモデルの予測値とデータセット内の真の値との差を指します。 「フリーランチなし」の定理は、考えられるすべての問題とデータセットに対して最適に実行できる単一のアルゴリズムは存在しないため、特定の問題に対して適切なアルゴリズムを選択することの重要性を強調しています。

  • 00:20:00 このセクションでは、スピーカーは、機械学習モデルを評価するための最初の方法論である曲線下面積 (AUC) メトリックについて説明します。 AUC は、受信者動作特性 (ROC) 曲線の下の領域を計算することにより、分類モデルのパフォーマンスを測定します。スピーカーはまた、バイアスと分散の概念を紹介します。これらは、モデルがトレーニング データにどの程度適合するか、およびモデルが新しいデータにどの程度一般化されるかをそれぞれ測定します。最後に、講演者は、すべての機械学習の問題に万能のアルゴリズムはなく、特定の問題ごとに適切なアルゴリズムを選択することの重要性を強調する「フリー ランチなし」の定理について説明します。

  • 01:10:00 このセクションでは、講演者は機械学習方法論の 3 つの重要な概念を紹介します。それは、曲線下面積 (AUC)、バイアスと分散、および「フリー ランチなし」の定理です。 AUC は、バイナリ分類モデルのパフォーマンスを評価するために使用されるメトリックであり、モデルがランダムに選択されたポジティブ サンプルをランダムに選択されたネガティブ サンプルよりも高くランク付けする確率を表します。バイアスとは、モデルの予測の期待値とデータセットの真の値との差を指し、分散とは、異なるデータセットでトレーニングしたときのモデルの予測の分散を指します。 「フリー ランチなし」の定理は、考えられるすべての問題とデータセットに対して最高のパフォーマンスを発揮できる 1 つのアルゴリズムは存在しないことを示しており、特定の問題に対して適切なアルゴリズムを選択することの重要性を強調しています。
3 Methodology 1: Area-under-the-curve, bias and variance, no free lunch (MLVU2019)
3 Methodology 1: Area-under-the-curve, bias and variance, no free lunch (MLVU2019)
  • 2019.02.12
  • www.youtube.com
slides: https://mlvu.github.io/lectures/21.Methodology1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the practicalities t...
 

4 方法論 2: データクリーニング、主成分分析、Eigenfaces (MLVU2019)



4 方法論 2: データクリーニング、主成分分析、Eigenfaces (MLVU2019)

このビデオの最初の部分では、機械学習アルゴリズムを適用する前のデータの前処理とクリーニングのさまざまな重要な側面について説明します。まず、データのバイアスとスキューを理解することの重要性について説明します。次に、スピーカーは、欠損データ、外れ値、クラスの不均衡、特徴選択、および正規化に対処する方法について説明します。このビデオでは、基底の概念と MVN 分布について説明し、ホワイトニングを使用して正規化のためにデータを正規分布に変換する方法を説明し、次元削減のための主成分分析 (PCA) の使用で締めくくります。トレーニング セットの操作から補完方法の使用まで、PCA は元のデータからの情報を保持しながら、データを低次元空間に射影します。

ビデオのこの 2 番目の部分では、機械学習のデータ クリーニングと次元削減における主成分分析 (PCA) の使用について説明します。この方法では、データの平均センタリング、標本共分散の計算、固有分解を使用した分解を行い、分散を最も多く捉える軸に合わせた固有ベクトルを取得します。最初の K 個の主成分を使用すると、適切なデータ再構成が可能になり、機械学習のパフォーマンスが向上します。 Eigenfaces の概念も導入され、PCA は、機械学習に必要な情報のほとんどを維持しながら、データを 30 次元に圧縮するのに効果的であることが示されています。人類学での使用や、DNA や顔などの複雑なデータセットの研究など、PCA のさまざまなアプリケーションについて説明します。

  • 00:00:00 ビデオのこのセクションでは、プレゼンターが、機械学習アルゴリズムを適用する前のデータ クリーニングと前処理の基本について説明します。データを額面どおりに受け止めないことの重要性は、生存者バイアスについて議論することで強調されます。生存者バイアスだけに注目すると、歪んだ結果につながる可能性があります。次に、プレゼンターは、欠落データ、異常値、クラスの不均衡、機能選択、正規化などの手法について説明します。最後に、ビデオの後半では、主成分分析アルゴリズムを使用した次元削減について説明します。

  • 00:05:00 このセクションでは、重要ではない欠落している機能やインスタンスを削除し、削除によってデータ分布が変わらないようにするなど、データのクリーニングとデータ セット内の欠落したデータの処理に関する実用的なヒントをビデオで紹介します。欠損値を削除するよりも、トレーニング データ用に欠損値を保持し、モデルの応答をテストする方が便利な場合があります。トレーニング データの量を最大化するために、最頻値や平均値を使用するなど、欠損データに対して推測を埋める代入法を使用できます。欠落データを処理するための指針となる原則は、実世界のユース ケースまたは運用環境を考慮して、予想される欠落データを最も適切かつ実用的な方法で処理するモデルを準備することです。

  • 00:10:00 このセクションでは、スピーカーはデータの 2 種類の外れ値について説明します。機械的な外れ値と自然な外れ値です。機械的な外れ値は、データの欠落やデータ入力の誤りなどのエラーによって発生し、欠落データとして処理してクリーンアップする必要があります。一方、自然な外れ値は、特定の変数の非正規分布が原因で発生し、データセット内に保持してより適切に適合させる必要があります。講演者は、顔のデータセット内の異常な顔の特徴や、所得分布のデータセット内の非常に高い所得など、両方のタイプの異常値の例を提供します。

  • 00:15:00 このセクションでは、データの正規性の仮定をチェックすることの重要性について説明します。たとえば、線形回帰はこれらの仮定に基づいているため、正規性を確認し、知らず知らずのうちに仮定がモデルに隠れている可能性があることに注意することが重要です。データのモデル化と検証を行う際には、外れ値も考慮する必要があります。モデルが外れ値を適切に処理できることを確認するために、本番環境を表すトレーニング セットを使用してモデルをテストすることが重要です。さらに、データを機械学習アルゴリズムのカテゴリまたは数値の特徴に変換することの重要性と、そのような変換に伴う情報の損失の可能性について説明します。

  • 00:20:00 このセクションでは、スピーカーは、機械学習アルゴリズムに適した機能を選択することの重要性と、データから意味のある情報を抽出する方法について説明します。彼らは、電話番号などの数字を単純に数値として解釈するのは役に立たないと説明し、代わりに、市外局番や携帯電話と固定電話のステータスなどのカテゴリ別の特徴を探すことを提案しています。機械学習アルゴリズムが数値の特徴のみを受け入れる場合、講演者は、データに恣意的な順序を課すことを避けるために、整数コーディングではなく 1 つのホット コーディングを使用することを推奨しています。目標は、本質的な詳細を失うことなく必要な情報を抽出し、目の前のタスクに必要な情報を正確かつ効果的に伝える機能を選択することです。

  • 00:25:00 このセクションでは、スピーカーは機能を拡張してモデルをより強力にすることの価値について説明します。スピーカーは、電子メール スパム分類のデータセットの例を使用して、相互に関連する 2 つの特徴が他方の値を知らずに解釈できないため、線形分類器がクラス間に境界線を引くことを不可能にする方法を説明します。この制限に対処するために、話者は、既存の特徴の値を乗算する外積特徴の追加について説明します。これにより、元の空間では直線的に分離できなくても、より高い特徴空間で分類境界を描画できるようになります。次にスピーカーは、特徴を拡張することの重要性をさらに説明するために、円形の決定境界を持つ点のクラスの例を示します。

  • 00:30:00 このセクションでは、スピーカーは、機能を追加することで、線形分類器が分類問題を解決するのにどのように役立つかを説明します。 x 座標と y 座標の 2 乗を特徴として決定境界問題に追加することにより、線形分類器を使用して 2 つのクラスのポイントを区別できます。講演者は、TensorFlow Playground を使用して分類器をトレーニングすると、人間の目には円形に見える決定境界がどのように得られるかを示します。特徴の重みも示され、この分類問題を解決するために必要な特徴は 1 つだけであることが示されています。

  • 00:35:00 ビデオのこのセクションでは、スピーカーは、機能空間を拡張することで、回帰の場合でも、より強力なモデルにつながる方法について説明します。彼らは、二乗変数を線形回帰モデルに追加すると、データによりよく適合する放物線がどのように得られるかを示すことで、この点を説明しています。スピーカーは、クラスの不均衡に対処する方法についてもアドバイスし、オーバーサンプリングやデータ拡張などの手法を使用してトレーニング セットを操作することを提案します。最後に、正規化のトピックを紹介し、単位の違いが K 最近傍分類モデルのパフォーマンスにどのように影響するかを示す動機付けとなる例を提供します。

  • 00:40:00 ビデオのこのセクションでは、講演者は機械学習アルゴリズムのデータを正規化することの重要性について説明しています。彼らは、データを正規化する 3 つの方法を説明しています。正規化、標準化、ホワイトニングです。正規化には、データ範囲を 0 から 1 の範囲に絞り込むことが含まれますが、標準化には、データの平均が 0 で分散が 1 であることを確認することが含まれます。 3 番目の方法であるホワイトニングは、データ内のすべての相関を考慮して特徴空間内の球体に縮小する、やや優れた正規化です。話者は、ホワイトニングは次元削減に役立つと説明しています。

  • 00:45:00 このセクションでは、スピーカーはデータのホワイトニングの概念を説明します。これには、データを無相関の特徴セットに変換することが含まれます。講演者は、線形代数を使用して、新しい座標系の 2 つのベクトルを選択することにより、データの異なる基底を選択する方法を示します。元は標準座標系で (3,2) として表されていた青い点は、新しい基準系に対して再計算され、新しい座標 (2.5, 0.5) になります。これにより、基底ベクトルを列として行列に貼り付けるという一般化された表記法が導かれます。

  • 00:50:00 このセクションでは、スピーカーは、基底の概念と、行列転置を使用して異なる基底間で変換するためにどのように使用できるかについて説明します。行列の逆演算はコストが高く、数値的に不正確であるため、基底ベクトルの長さが 1 で、互いに直交している正規直交基底が優先されます。次にスピーカーは、多変量正規分布が正規分布を多次元に一般化したものであり、データの解釈に役立つことを説明します。分布の平均はベクトルであり、分散は多変量正規分布の共分散行列になります。講演者は、多変量正規分布をデータに適合させるためのサンプル共分散を計算する式についても簡単に説明します。

  • 00:55:00 このセクションでは、多変量正規分布 (MVN) 分布の概念を紹介します。これは、平均が 0、分散がすべての方向で 1、相関がなく、他の任意の MVN 分布に変換できます。正規化のためにデータを正規分布に変換するために MVN 分布の変換が逆にされる、データをホワイトニングするプロセスがさらに説明されます。このセクションでは、ホワイトニングと次元削減の両方を実行する方法である主成分分析 (PCA) による高次元データの次元削減にも焦点を当てています。できるだけ多くの関連情報を保持する元の機能から派生した新しい機能を見つけることにより、PCA は元のデータからの重要な情報を保持しながら、データを低次元空間に投影します。

  • 01:00:00 ビデオのこのセクションでは、プレゼンターが主成分分析 (PCA) と、キャプチャされた分散によって次元を並べ替える方法について説明し、有用なデータ再構成と次元削減を可能にします。プレゼンターは、固有ベクトルと、それらが変換によって方向が変わらない特別なベクトルであること、および元のデータの最大分散を見つけるためにどのように使用できるかについて説明します。プレゼンターは、対角行列の固有ベクトルを見つける方法と、行列を回転させて固有ベクトルを軸に沿って整列させる方法についても説明します。

  • 01:05:00 このセクションでは、主成分分析 (PCA) を使用して機械学習アルゴリズムのデータを前処理する方法について学習します。最初にデータを中央に配置して翻訳を削除し、次に標本共分散を計算して固有分解を使用して分解します。次に、データを標準の多変量正規 (MVN) 空間に変換し、最初の K 個の特徴を除いてすべて破棄します。分解から得られた固有ベクトルは軸に沿って整列されるため、分散が最も大きい方向を維持できます。これにより、次元が大幅に削減され、機械学習のパフォーマンスが向上します。

  • 01:10:00 このセクションでは、プレゼンターが主成分分析 (PCA) を使用した次元削減の概念について説明します。次元削減の目標は、できるだけ多くのデータを保持しながら不変性を維持することです。投影の分散を最大化することは、元のデータと投影されたデータの差を測定するために使用される損失関数である再構成エラーを最小化することと同じです。最初の主成分は最も多くの分散を捉える線であり、次の成分は残りの分散を捉えます。最初の K 個の主成分を使用すると、データを適切に再構成できます。

  • 01:15:00 このセクションでは、研究アプリケーションでの主成分分析 (PCA) の使用について説明します。そのようなアプリケーションの 1 つは人類学の分野で、化石化した骨の特徴を定量化し、実証するために使用できます。骨のさまざまな側面を測定し、比較のために特徴の高次元空間を作成することにより、PCA を使用してデータの次元を 2 つの主成分にまで縮小し、視覚的なクラスタリングと外れ値の識別を可能にします。さらに、PCA はヨーロッパの集団における DNA の研究に適用されており、DNA は高次元の特徴ベクトルに変換され、PCA を使用してデータ内のパターンとクラスターを明らかにすることができます。

  • 01:20:00 このセクションでは、主成分分析 (PCA) を DNA 特徴のデータセットに適用する方法と、それを使用してヨーロッパの大まかな形状を決定する方法について説明します。出身国別に色分けされた DNA データセットの 2 つの主成分を見ることで、人またはその祖先が住んでいた北または西/東の距離を判断できます。 PCA は、固有面に適用される面のデータセットの固有ベクトルなど、複雑なデータセットへの洞察を提供できるため、魔法の方法と見なされることがよくあります。顔のデータセットの平均を計算し、そのデータセットの共分散の固有ベクトルを調べることにより、PCA は顔の画像の高次元空間で方向を提供できます。

  • 01:25:00 このセクションでは、スピーカーは Eigenfaces の概念と、主成分分析 (PCA) がデータ クリーニングにどのように役立つかについて説明します。最初の固有ベクトルを平均顔に少し追加することで、話者はこれが顔の特徴の年齢にどのように対応するかを示します。 2 番目と 4 番目の固有ベクトルは、それぞれ照明と性別に対応します。 5 番目の固有ベクトルは、口が開いているか閉じているかを示します。固有ベクトルは新しい空間のベースとして機能し、データを 30 次元に圧縮すると、元の顔を適切に表現できます。変曲点は約 30 個の固有ベクトルで発生し、残りの詳細を破棄して、機械学習に必要な情報のほとんどを維持できます。
4 Methodology 2: Data cleaning, Principal Component Analysis, Eigenfaces (MLVU2019)
4 Methodology 2: Data cleaning, Principal Component Analysis, Eigenfaces (MLVU2019)
  • 2019.02.14
  • www.youtube.com
slides: https://mlvu.github.io/lectures/22.Methodology2.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture we discuss how to prepare your d...
 

講義 5 確率 1: エントロピー、(ナイーブ) ベイズ、クロスエントロピー損失 (MLVU2019)



5 確率 1: エントロピー、(ナイーブ) ベイズ、クロスエントロピー損失 (MLVU2019)

このビデオでは、確率論のさまざまな側面と、機械学習におけるその応用について説明しています。スピーカーは、システム内の不確実性の量を測定するエントロピーを紹介し、それが単純ベイズおよびクロスエントロピー損失とどのように関連しているかを説明します。サンプル空間、イベント空間、確率変数、および条件付き確率の概念についても説明します。ベイズの定理が説明され、機械学習の基本的な概念と見なされます。このビデオでは、最尤推定原理とベイジアン確率、および確率分布をシミュレートするためのプレフィックスフリー コードの使用についても説明しています。最後に、スピーカーは、単純ベイズ分類器を含む、バイナリ分類の識別的分類器と生成的分類器について説明します。

2 番目の部分では、多変量正規分布モデルを使用して、特定のクラスに属する新しいポイントの確率を計算する概念について説明します。分類子の確率分布を効率的に適合させるための機能の条件付き独立性、およびゼロ インスタンスを処理するための擬似観測の平滑化または調整の必要性について説明します。講演者はまた、精度よりも線形分類器にとってより効果的な損失関数としてエントロピー損失を紹介し、シグモイド関数が関数の対称性を崩壊させて単純化することで、予測データと実際のデータの差を測定する交差エントロピー損失関数の機能について説明します。最後に、ビデオは、次の講義が最終的な損失関数として SVM 損失をカバーすることを示唆しています。

  • 00:00:00 確率に関するビデオのこのセクションでは、講演者は学生にグループ プロジェクトに参加するようアドバイスすることから始めます。彼らが得るもの。次にスピーカーは確率論とエントロピーを紹介します。エントロピーは密接に関連し、機械学習に役立ちます。彼は、この文脈におけるエントロピーは、システム内の不確実性またはランダム性の量を測定することを意味すると説明しています。エントロピーの概念は機械学習において重要であり、単純ベイズと交差エントロピー損失を説明するために使用されます。これについては、講義の後半で説明します。講義では、分類と線形分類器の基礎についても説明します。

  • 00:05:00 このセクションでは、スピーカーは損失関数について説明し、非常に優れた損失関数と見なされるクロスエントロピー損失を紹介します。彼らは、10 代のオンライン ギャンブルに関する例を提示し、このシナリオで確率がどのように機能するかを説明します。スピーカーは、頻度と確率の概念と、それが実際の状況にどのように適用されるかについても触れています。

  • 00:10:00 このセクションでは、スピーカーは主観的確率と客観的確率の違いについて説明します。彼らは、主観的確率は個人的な信念と経験に基づいているのに対し、客観的確率は実験と観察から導き出される頻度論的確率に基づいていると説明しています。講演者は、機械学習では、トレーニング セットに基づいてテスト セットの損失を最小限に抑えることに重点が置かれていること、および確率論が確率を記述する数学的フレームワークとして使用されていることを指摘しています。スピーカーは、確率変数とサンプル空間の概念も紹介します。

  • 00:15:00 このセクションでは、確率論におけるサンプル空間とイベント空間の概念をビデオで説明します。サンプル空間には、2 つの結果の間に別の結果が存在しない、すべての可能な結果が含まれます。イベント空間には、サンプル空間のサブセットのセットが含まれており、サイコロを振って奇数または偶数になるなど、さまざまなイベントの確率を特定できます。確率は、離散標本空間と連続標本空間の両方に割り当てることができます。さらに、このビデオでは、確率的データ セットをモデル化するための確率変数と機能の使用について言及しており、イベントの結果の可能性を説明するのに役立ちます。

  • 00:20:00 このセクションでは、スピーカーは、確率変数とその関数としての表現を含む、確率の基本概念を紹介します。話者は、確率変数は単一の数値で表すことができ、変数としてインスタンス化できると説明しています。また、等号表記の使用と、関数または特定の値によってランダム変数を参照する方法についても説明します。次にスピーカーは、2 つの確率変数 X と Y によって定義されるイベント空間の例を示し、条件付き確率の概念を紹介します。

  • 00:25:00 このセクションでは、スピーカーは確率と、さまざまなイベントの確率を決定するためにそれらを書き換えて投影する方法について説明します。彼らは、2 つの変数が独立している場合、一方の値を知っていても、他方の確率は変わらないと説明しています。次に、話者は都市の異なる場所に住んでいる 2 人の例を使用して、一方が時間通りに仕事に行く確率が、もう一方の人が時間通りに来る確率に影響しないことを説明します。しかし、彼らは、2人の確率が関連している可能性が1つあるというまれな可能性があることに注意しています.

  • 00:30:00 このセクションでは、スピーカーは機械学習の基本概念である確率とベイズの定理について説明します。話者は交通渋滞の例を使用して、条件付きの独立性を説明し、アリスが仕事に遅れていることを知っていると、ボブも遅れているという信念がわずかに高まります.ベイズの定理は、この分野で最も重要な公式と考えられており、条件付き確率を好転させる方法を説明しています。最後に、講演者は、機械学習が確率分布をデータに適合させる方法と、頻度論的アプローチが利用可能な情報に基づいて最適なパラメーターを決定する方法について説明します。

  • 00:35:00 このセクションでは、スピーカーは最尤推定原理とベイジアン確率について説明します。最尤推定原理は、観測されたデータ ポイントが独立しており、これらのポイントの確率が尤度率を最大化するという仮定に基づいています。一方、ベイジアン確率は、事前の知識と観察されたデータに基づいて自分の信念を更新することを伴います。ベイジアン確率は、頻度論者とベイジアンの 2 つの当事者間の妥協を使用して、機械学習でうまく機能する信念分布を表現します。

  • 00:40:00 このセクションでは、スピーカーは確率分布の概念と、単一の結果を持つツリーなしでそれらをシミュレートする方法について説明します。プレフィックスのないコードまたはプレフィックス ツリーの使用は、広範囲の確率分布を生成する手段として提示されます。講演者は、このアプローチはコミュニケーションに使用でき、さまざまなシナリオで特定の結果の確率を見つけることができると説明しています。コインを使用して 3 面サイコロをシミュレートし、均一な分布を実現する例も提供されています。

  • 00:45:00 このセクションでは、スピーカーは、プレフィックスのないコード アルゴリズムを使用して記述できる確率分布のファミリについて説明します。 Naive Bayes として知られるこのアルゴリズムは、データに対して効率的であり、記述方法と確率分布の間の適切な接続を提供します。このアルゴリズムの主な用途は、確率変数の不確実性の尺度であるエントロピーを説明することです。スピーカーは、このアルゴリズムを使用して特定の確率分布からデータをエンコードし、特定のデータに適した確率分布を取得する方法を説明します。

  • 00:50:00 このセクションでは、スピーカーは、データの均一性の尺度として、エントロピーとクロスエントロピー損失について説明します。エントロピーは、異なる要素間のデータの均一性を表すために使用できます。エントロピーが小さいほど、より均一なデータを示します。クロスエントロピーは、異なるコードが使用されている場合に期待されるコード長を表すために使用され、常にエントロピー以上であり、最小値はゼロです。これらの尺度は、2 つの確率分布間の距離を理解するのに役立ち、一連の確率変数としてデータ セットを分析するための理論的基礎を提供します。

  • 00:55:00 このセクションでは、スピーカーは二項分類の識別的分類器と生成的分類器の概念について説明します。識別的分類は単純にインスタンスを識別しますが、生成的分類はクラスが与えられたデータの確率をモデル化します。生成的分類器は、ベイズ最適分類器から単純ベイズ分類器までの範囲に及びます。これは、条件付きの独立性の仮定を行い、正しくないと見なされますが、それでも非常にうまく機能し、安価です。

  • 01:00:00 このセクションでは、スピーカーは、多変量正規分布モデルを使用して、特定のクラスに属する新しいポイントの確率を計算する方法を説明します。彼らは、確率分布を推定して埋めることで、最も高い可能性に基づいて各クラスに確率を割り当てることができると説明しています。ただし、高次元を扱う場合、モデルを正確に適合させるのに十分なデータがない場合があります。その場合、代わりにカテゴリ分布を使用して、ベルヌーイ分布で特徴をモデル化できます。

  • 01:05:00 このセクションでは、特徴の条件付き独立性の概念について説明します。これにより、分類子の確率分布を効率的に適合させることができます。ただし、単一のゼロ確率値は分類子の精度に大きな影響を与える可能性があります。これは、疑似観測を平滑化または調整して、各特徴に少なくとも 1 つの観測があることを確認することで解決できます。これにより、確率がゼロになることはなく、分類器の精度に悪影響が及ぶことはありません。

  • 01:10:00 このセクションでは、可能性のあるすべてのクラスと機能の値を持つインスタンスが少なくとも 1 つ存在するようにすることで、機械学習モデルで歪んだ結果を回避する方法についてスピーカーが説明します。彼らは、生成分類器を、大規模で高次元のデータセットでうまく機能する独立性の仮定を持つものとして要約していますが、ゼロインスタンスを処理するにはラプラス平滑化が必要です。スピーカーは、エントロピー損失の概念を、精度と比較して線形分類器のより効果的な損失関数として紹介します。

  • 01:15:00 このセクションでは、スピーカーは、分類子モデルに値を割り当てる代わりに、ロジスティック シグモイド関数を使用して確率を割り当てる方法について説明します。線形モデルは引き続き使用されますが、0 と 1 の間の範囲に絞り込まれます。この方法により、正と負のインスタンスをより正確に解釈できます。

  • 01:20:00 このセクションでは、プレゼンターがクロスエントロピー損失関数について説明します。これは、機械学習モデルが予測するものとデータが示すものとの差を測定するために使用されます。損失関数は、予測とデータの間の線のサイズを最大化するように設計されており、最終的にこれらの線のサイズを最大化するために、青い線を押し上げ、すべての線の負の対数を最小化することを目的としています。

  • 01:25:00 このセクションでは、スピーカーはクロスエントロピー損失関数が、小さな残差よりも大きな残差を罰することによってどのように機能するかについて説明します。 P 対 M の関数は、小さなバーが損失に大きく寄与することも示しています。これは、以前のモデルの 2 乗に相当します。次にスピーカーは、対数の導関数と、定数乗数が方程式にどのように含まれているかについて説明します。計算を簡単にするために、定数乗数を無視するか、2 進対数を自然対数で定義することができます。

  • 01:30:00 このセクションでは、スピーカーはクロスエントロピー損失と、それを単純化する際にシグモイド関数が果たす役割について説明します。シグモイド関数の対称性により、損失関数の崩壊が可能になり、最終的に単純になります。ロジスティックシグモイドをロジスティック回帰に適用すると、決定境界から遠く離れた点を問題なく処理できます。ロジスティック回帰は、不確実性の領域で複数の適切な解をもたらす可能性があります。

  • 01:35:00 このセクションでは、講師が確率の概念を説明し、確率値に基づいてポイントを青または赤に分類します。彼はさらに、次の講義で最終的な損失関数として SVM 損失を取り上げることを示唆しています。
5 Probability 1: Entropy, (Naive) Bayes, Cross-entropy loss (MLVU2019)
5 Probability 1: Entropy, (Naive) Bayes, Cross-entropy loss (MLVU2019)
  • 2019.02.19
  • www.youtube.com
slides: https://mlvu.github.io/lectures/31.ProbabilisticModels1.annotated.pdfcourse materials: https://mlvu.github.ioApologies for the bad audio (and missing...
 

講義 6 線形モデル 2: ニューラル ネットワーク、バックプロパゲーション、SVM、およびカーネル法 (MLVU2019)



6 線形モデル 2: ニューラル ネットワーク、バックプロパゲーション、SVM、およびカーネル メソッド (MLVU2019)

線形モデルに関するビデオの最初の部分では、線形モデルに非線形性を導入することに焦点を当て、特徴空間の拡張に依存する 2 つのモデル (ニューラル ネットワークとサポート ベクター マシン (SVM)) について説明します。ニューラル ネットワークの場合、スピーカーは、シグモイドやソフトマックスなどの活性化関数を使用して、回帰および分類の問題のネットワークを設定する方法を説明します。次に、バックプロパゲーション (ニューラル ネットワークで使用される勾配の計算に使用される方法) について詳しく説明します。 SVM の場合、講演者は、各クラスの最も近い点へのマージンを最大化するという概念を紹介し、それを制約付き最適化問題としてどのように表現できるかを示します。このビデオでは、ニューラル ネットワークと SVM の原理を明確に紹介しています。受講者は、残りのコースの開始点として、講義の前半に集中することをお勧めします。

ビデオの後半では、サポート ベクター マシン (SVM)、ソフト マージン SVM、カーネル トリック、および SVM とニューラル ネットワークの違いについて説明します。ソフト マージン SVM は、非線形に分離可能なデータを処理する方法として導入され、分類の制約に準拠しないポイントにペナルティ値を追加できるようにします。カーネル トリックにより、高次元空間での内積の計算が可能になり、特徴空間が拡張されてモデルの能力が大幅に向上します。 SVM とニューラル ネットワークの違いについて説明し、十分に理解されていなくても、より高度なタイプの分類を実行できるニューラル ネットワークへの移行について説明します。

  • 00:00:00 このセクションでは、先週説明された、使用されている機能から派生した機能である追加の機能を追加することにより、線形モデルを使用して非線形機能を学習する方法についてスピーカーが説明します。次にスピーカーは、特徴空間の拡張に依存するニューラル ネットワークとサポート ベクター マシンの 2 つのモデルに焦点を当てます。ニューラル ネットワークには学習可能な特徴抽出器が必要ですが、サポート ベクター マシンはカーネル トリックを使用してより大きな特徴空間に爆発させます。講義では、ニューラル ネットワークで使用される勾配を計算する特定の方法であるバックプロパゲーションと、サポート ベクター マシンで使用されるヒンジ損失関数について説明します。講演者は、線形モデルをよりよく理解するために講義の前半に焦点を当てることをお勧めします。これは、コースの残りの部分の出発点となるからです。

  • 00:05:00 このセクションでは、研究者が人間の脳からインスピレーションを得て AI システムを開発し始めた 50 年代後半から 60 年代前半までさかのぼり、ニューラル ネットワークの歴史について話します。彼らは、線形モデルとして機能し、分類に使用されるパーセプトロンと呼ばれる単純化されたバージョンのニューロンを作成しました。しかし、脳の興味深い点は、多数のニューロンが連携して機能する方法であるため、研究者はこれらのパーセプトロンを連鎖させてネットワークを構築し始めました。

  • 00:10:00 線形モデルに関する講義のこのセクションでは、スピーカーは、通常の非線形関数とより興味深いモデルを学習する力を得るために、パーセプトロンのネットワークに非線形性を導入する方法を説明します。これを行う 1 つの方法は、シグモイド関数を使用することです。この関数は、数値の範囲を取り、それらを 0 から 1 の範囲に絞り込みます。非線形活性化関数を持つパーセプトロンをフィードフォワード ネットワークまたは多層パーセプトロンに連鎖させることにより、これを回帰モデルまたは分類モデルに変換できます。各行は、調整が必要なネットワークのパラメーターを表します。これらの数値を適応させて学習問題を解決するプロセスは、バックプロパゲーションと呼ばれます。これについては、講義の後半で説明します。

  • 00:15:00 「6 線形モデル 2: ニューラル ネットワーク、バックプロパゲーション、SVM、およびカーネル メソッド (MLVU2019)」というタイトルのビデオのこのセクションでは、スピーカーは、回帰および分類の問題のためにニューラル ネットワークを設定する方法を説明します。回帰の場合、隠れ層が 1 つあり、出力層に活性化がないネットワークが設定され、続いて回帰損失関数が適用されます。バイナリ分類の場合、シグモイド活性化が出力層に追加され、得られた確率は、入力が正である確率として解釈できます。マルチクラス分類の場合、softmax アクティベーションが追加されます。これにより、クラスごとに 1 つの出力ノードが作成され、合計が 1 になるように確率が正規化されます。クロス エントロピー損失が最小化されるまで、損失関数を使用してネットワークの重みをトレーニングします。

  • 00:20:00 このセクションでは、勾配降下法を使用するニューラル ネットワークの基本原理について説明します。ただし、データセット全体の損失を計算するとコストがかかる可能性があるため、データセット内の 1 つの例のみを使用して損失を計算し、その 1 つの例のモデルを最適化する確率的勾配降下法が使用されます。確率的勾配降下法はランダム性を追加し、わずかなランダム性を作成して、極小値を回避するのに役立ちます。次に、話者は分類のためにアテンション フラワー プレイグラウンドに隠れ層を追加します。そこでは、確率的分類が示されます。ただし、モデルはこの特定の問題ではうまく機能していないようです。

  • 00:25:00 ビデオのこのセクションでは、スピーカーは線形モデルの活性化関数について説明し、シグモイドと ReLU 活性化関数を比較します。 ReLU 関数はデータをより速く適合させ、その決定境界は区分線形ですが、シグモイドは曲線の決定境界を作成します。スピーカーは、追加のレイヤーを試してモデルをより強力にすることを推奨していますが、複雑さが増すとトレーニングが難しくなります。次に、ビデオはバックプロパゲーションを掘り下げます。これにより、コンピューターは指数関数的なコストをかけずに記号微分を使用して勾配を効率的に計算できます。モジュールの構成として機能を記述し、連鎖律を繰り返し適用することが基本的な考え方であるとスピーカーは説明します。

  • 00:30:00 このセクションでは、各サブモジュールの勾配を乗算することによって特定の入力のグローバル勾配を計算するために、特定のモデルを取得してモジュールのチェーンに分割する方法として、逆伝播アルゴリズムについて説明します一緒。このプロセスは、ペンと紙を使用して記号的に入力に関する各モジュールの導関数を計算することから始まり、次に数値計算に進みます。関数を一連のモジュールとして構成し、ローカル導関数を使用し、チェーン ルールを繰り返し適用してグローバル導関数を導出するという考え方を説明するために、簡単な例を示します。結果として得られる因子は、それぞれグローバル導関数およびローカル導関数と呼ばれます。

  • 00:35:00 このセクションのビデオでは、システムをモジュールに分割し、シグモイド アクティベーションを使用して 2 層のニューラル ネットワークに適用することで、逆伝播について説明しています。入力ではなく、重みに関する損失関数の導関数を見つけることに重点が置かれています。最初のモジュールは損失関数で、その後に線形活性化関数である Y が続きます。各隠し値は、独自のアクティベーション関数 (この場合はシグモイド関数) が適用されたモジュールを取得します。 H2 プライムは、アクティベーション関数への線形入力です。最後に、ビデオでは、入力に関するモデルの導関数と、重みに関する損失関数の導関数の違いを認識することが重要であると述べています。

  • 00:40:00 このセクションでは、スピーカーは各モジュールのローカル勾配、具体的には V2 と V2 に対する Y に関する損失の導関数について説明します。 Y に対する L の導関数は、連鎖律を使用して簡略化され、2 倍 Y から T を差し引いたものになります。これは、ノルムの 2 乗誤差です。 V2 上の Y は線形関数であり、導関数は単純に H2 です。勾配降下法をパラメーター z2 に適用すると、H2 の活性化時間の誤差を差し引いて更新されます。話者はニューラル ネットワークを政府として例え、首相を最上位、閣僚を第 2 層、公務員を第 1 層に配置します。閣僚は公務員に耳を傾け、特定の決定に対して大声で叫び、これは肯定的な信頼と解釈されますが、黙っていることは否定的な信頼を意味します。首相は、エラーに基づいて信頼レベルを調整し、更新のためにネットワークに逆伝播します。

  • 00:45:00 このセクションでは、スピーカーは、モデルの出力の誤差のすべての重みに責任を割り当てることによって、バックプロパゲーションがどのように機能するかを説明します。彼は不自然な類推を使用して、グローバル エラーが計算され、問題に貢献した閣僚に対する信頼のレベルで乗算されることを示しています。次にスピーカーは、信頼レベルを更新する際にアクティベーション関数をどのように説明する必要があるかを示します。バックプロパゲーションは基本的に、エラーをネットワークに伝播してモデルの重みを更新します。講演者は、ニューラル ネットワークは線形関数と非線形関数の組み合わせであり、最も単純なバージョンはフィードフォワード ネットワークであると要約しています。

  • 00:50:00 このセクションのビデオでは、ニューラル ネットワークの歴史と課題について説明し、トレーニングの難しさとパラメーターの微調整に伴う不確実性のために、ニューラル ネットワークへの関心がどのように低下したかについて説明します。モデルが機能するかどうかを即座にフィードバックできる凸型の損失曲面を持つサポート ベクター マシンは、トレーニングに伴う不確実性がないため、より普及しました。次にビデオでは、類似のデータに対して異なるパフォーマンスを示す複数のモデルの問題に対する解決策としてサポート ベクター マシンを紹介します。最も近い点までのマージンを最大化し、それらをサポート ベクターと呼ぶという概念を使用します。

  • 00:55:00 このセクションでは、サポート ベクター マシン (SVM) の概念を、バイナリ分類問題の決定境界を見つける方法として紹介します。 SVM アルゴリズムの目的は、マージン (決定境界と各クラスの最も近い点の間の距離) を最大化する直線を見つけることです。 SVM の目的は、制約付き最適化問題として表すことができます。ここでの目標は、モデルの出力が正のサポート ベクターに対して +1、負のサポート ベクターに対して -1 であることを保証する制約を満たしながらマージンを最大化することです。 SVM は、点が正か負かをエンコードするラベル パラメーターを導入することでさらに単純化できます。これにより、2 つの目的を超平面パラメーターで完全に記述できる単一の目的に減らすことができます。

  • 01:00:00 このセクションでは、スピーカーは、サポート ベクター マシン (SVM) の決定境界間のマージンを最大化するという概念について説明します。マージンのサイズは、モデルのパラメーターによって決定できるベクトルの長さに依存します。目的は、特定の制約を満たしながら、このマージンを最大化することです。ただし、データが線形分離可能でない場合は、スラック パラメーターを追加してモデルをスラックする必要があります。これにより、モデルが特定の制約に違反して、より適切なフィットを見つけることができます。各データ ポイントには独自のスラック パラメーターがあり、ゼロまたは正の値に設定できます。

  • 01:05:00 このセクションでは、講師がソフト マージン SVM の概念について説明します。これにより、分類制約に準拠しないポイントにペナルティ値を追加することで、線形に分離できないデータ セットを処理できます。このペナルティは、勾配降下法を使用して最小化できる損失関数によって表されます。講師は、制約付き最適化問題を解くことを可能にするカーネル トリックの代替として、サポート ベクターに関して損失関数を書き換えるオプションも提示します。ヒンジ損失関数は、このペナルティ システムを実装する方法として提示されます。

  • 01:10:00 このセクションでは、インストラクターが、精度、最小二乗法、クロスエントロピー損失、ソフト マージン SVM 損失など、機械学習におけるさまざまな損失関数について説明します。ソフト マージン SVM は、決定境界とペナルティ付きの最も近い点との間のマージンを最大化することによって機能します。ただし、この最適化関数には制約と鞍点があるため、勾配降下法では効果的に解くことができません。インストラクターは、制約を取り除くことなく、制約付き最適化問題をより単純な形式に書き直すのに役立つ LaGrange 乗数の方法を紹介します。この方法を使用して、講師はソフト マージン SVM 最適化関数を書き換えて、カーネル トリックの適用を可能にする方法を紹介します。

  • 01:15:00 このセクションでは、スピーカーは、サポート ベクター マシン (SVM) と、データセット内の点のペアのドット積を他のドット積で置き換える方法であるカーネル トリックについて説明します。 SVM は、アルファのサイズにペナルティを課し、どの点がサポート ベクターであるかを示し、データセット内のすべての点のペアを合計することによって機能します。カーネル トリックにより、高次元空間での内積の計算が可能になり、線形モデルの計算と同様のコストではるかに強力なモデルが得られます。すべての外積を追加することによって機能が拡張される例が示されています。これにより、機能空間が大幅に増加し、より強力なモデルが可能になります。

  • 01:20:00 このセクションでは、カーネル関数を使用して分類用の高次元特徴空間を実現する概念について説明します。内積を使用してそれをより高いべき乗に拡張することにより、低コストを維持しながら、外積および無限次元の特徴空間を含むように特徴空間を拡張できます。ただし、この方法は過適合になりやすく、実装が複雑になる可能性があります。カーネル関数の使用は、テキストやタンパク質配列など、直接的な特徴抽出が簡単ではない非数値データにも拡張できます。カーネル関数は現在流行りのものではないかもしれませんが、特定のケースではまだ役に立ちます。

  • 01:25:00 このセクションでは、サポート ベクター マシン (SVM) とニューラル ネットワークの違いについて説明します。 SVM はトレーニング時間が 2 次であるという点で制限がありますが、ニューラル ネットワークはデータに対して特定の回数のパスしか必要としません。ただし、勾配降下法を使用して SVM をトレーニングすることはできますが、この方法ではカーネルのトリックを見失います。 2005 年頃、SVM のトレーニングは、関連するデータの量のためにますます困難になり、ニューラル ネットワークの復活につながりました。さらに、機械学習の文化は、成功の背後にある理由がまだ完全には理解されていなくても、ニューラル ネットワークが機能することを受け入れるようになりました。最終的に、この移行により、ニューラル ネットワーク モデルを使用して、より高度な種類の分類を実行できるようになりました。これについては、次のセクションで説明します。
6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)
6 Linear Models 2: Neural Networks, Backpropagation, SVMs and Kernel methods (MLVU2019)
  • 2019.02.27
  • www.youtube.com
NB: There is a mistake in slide 59. It should be max(0, 1 - y^i(w^T\x + b) ) (one minus the error instead of the other way around).slides: https://mlvu.githu...
 

深層学習 1: テンソルのバックプロパゲーション、畳み込みニューラル ネットワーク (MLVU2019)



7 深層学習 1: テンソルのバックプロパゲーション、畳み込みニューラル ネットワーク (MLVU2019)

ディープ ラーニングとバックプロパゲーションに関するビデオの最初の部分では、ディープ ラーニング フレームワーク、テンソル、バックプロパゲーション アルゴリズム、勾配消失問題の基礎など、いくつかのトピックを取り上げます。講演者は、一連の線形代数操作を使用してニューラル ネットワークを実装する方法と、関数の合成としてモデルを定義するためにバックプロパゲーション アルゴリズムを使用する方法について説明します。このビデオでは、行列演算を使用して導関数を計算する方法についても説明し、重みの初期化や活性化関数としての ReLU の使用など、勾配消失問題の解決策を探っています。最後に、このビデオでは、複雑なニューラル ネットワークで利用できるミニバッチ勾配降下とさまざまなオプティマイザーについて触れています。

この第 2 部では、最適化アルゴリズムや正則化手法など、深層学習に関連するさまざまなトピックを取り上げます。 Adam 最適化はディープ ラーニングの一般的なアルゴリズムとして説明されていますが、L1 および L2 正則化はオーバーフィッティングを防止する方法として検討されています。画像処理におけるニューラル ネットワークの可能性についても説明し、畳み込みニューラル ネットワークは画像認識タスクの強力なツールとして強調されています。このビデオでは、これらのネットワークの仕組みと、ネットワークが複雑な画像を認識する機能を構築する方法、および複数のモジュールを連鎖させることの限界を克服する方法としてのエンドツーエンドの学習の概念についても詳しく説明しています。

  • 00:00:00 ディープ ラーニングに関するビデオのこのセクションでは、スピーカーは、ニューラル ネットワークやそれらがレイヤーでどのように構成されているかなど、前のセッションで説明した概念を確認することから始めます。次に、ニューラル ネットワークが基本的に一連の線形代数ステップであり、シグモイド関数のような非線形関数がときどきあることについて説明します。これは、ニューラル ネットワークの実装プロセスを簡素化し、より効率的なトレーニングを可能にするため、重要です。講演者はまた、ニューラル ネットワークはトレーニングが困難だったため、一時的に支持されなくなったことにも言及していますが、次のセクションでは、逆伝播がこの課題を克服するのにどのように役立つかを見ていきます。

  • 00:05:00 このセクションでは、テンソル行列計算の理解と逆伝播アルゴリズムの再検討が必要な深層学習システムまたはフレームワークの基本をビデオで概説します。話者は、ディープ ラーニングに関連するニューラル ネットワークの荷物にもかかわらず、それは単なる一連の線形代数操作であるため、特別なものではないことを強調しています。ニューラル ネットワークの一般的なフレームワークを開発するための最初のステップは、操作を効率的かつ単純に定義して、効果的なトレーニングを簡単に行えるようにすることです。さらに、グラフィック処理装置やビデオ カードを使用すると、行列の乗算が効率的に実行されるため、約 20 倍高速になります。最後に、このビデオでは、畳み込み層、オートエンコーダー、深層学習の哲学的側面に関する議論など、講義シリーズでカバーされる残りのトピックの概要を説明します。

  • 00:10:00 このセクションでは、深層学習で使用できる一連の数値を格納するために使用されるデータ構造であるテンソルについてスピーカーが説明します。テンソルはデータセットを格納するために使用され、通常は浮動小数点数を含むすべての要素に対して同じデータ型を持たなければなりません。講演者は、各カラー チャネルに 1 つずつ、3 つのグレースケール画像のスタックである 3 テンソルに画像を保存する方法と、画像を反復処理する別のインデックスを追加して 4 つのテンソルに画像のデータセットを保存する方法を説明します。データセット。最後に、深層学習の関数や操作はプログラミング言語と同じですが、テンソルを入力と出力として使用し、局所勾配を計算する逆方向計算も順方向計算と一緒に実装されることをスピーカーは説明します。

  • 00:15:00 このセクションのビデオでは、バックプロパゲーション アルゴリズムと、それを使用してニューラル ネットワーク モデルを関数の構成として定義する方法について説明します。ネットワーク全体の勾配は、すべての関数のすべてのローカル勾配の積として計算され、計算グラフ全体に損失を伝播するために逆伝播が使用されます。このビデオでは、計算グラフを定義する方法が 2 つあります。レイジー実行とイーガー実行です。レイジー実行は簡単ですが、デバッグや調査には適していません。 Eager Execution は現在、PyTorch や TensorFlow などのフレームワークのデフォルトです。これにより、ユーザーは計算を実行して計算グラフを定義できるため、トレーニング中のモデルのデバッグと変更が容易になります。

  • 00:20:00 このセクションでは、スピーカーは計算グラフと、スカラー変数を使用してそれを構築する方法について説明します。次に、計算グラフを使用してフレームワーク内にニューラル ネットワークを実装する方法の例を示します。損失値はニューラル ネットワークで計算され、損失値から逆伝播プロセスが開始され、ネットワークのパラメーターの勾配が取得されます。勾配が得られると、勾配降下の 1 つのステップは、値から勾配を少し引くことによって実行できます。

  • 00:25:00 このセクションでは、講演者は深層学習システムのバックプロパゲーションの 2 つの重要な側面、つまり複数の計算パスの処理とテンソルの操作について説明します。スピーカーは、複数のパスが同じ値につながる計算グラフでダイヤモンドを処理するための多変量チェーン ルールを紹介します。さらに、スピーカーは、すべての中間値がスカラー値ではなくテンソルであるバックプロパゲーションでテンソルを使用することの重要性を説明します。目標は、行列演算に関して導関数を計算し、より高速な計算を可能にすることです。スピーカーは、入力がベクトルであるスカラーを出力する関数の簡単な例を使用して、行列に関するベクトルの導関数を取得する方法を示し、内積を調べることで関数をできるだけ単純にします。

  • 00:30:00 このセクションでは、スピーカーはベクトルと行列の例を使用してテンソルの導関数を計算する方法を説明します。最初の例は、ベクトルに関するスカラーの微分が単なる数値のベクトル、つまり勾配であることを示しています。次に、2 番目の例は、行列に関するベクトルの導関数が単なる行列であることを示しています。スピーカーは、すべての可能な値を取り、それらを行列に配置すると、元の行列 P が得られることを強調しています。

  • 00:35:00 このセクションでは、スピーカーは、関数の導関数を取得することで、ベクトルの入力と出力の可能なスカラー導関数の行列と、高次の入力/出力の導関数のテンソルがどのように得られるかを説明します。ただし、これらの中間値を計算することは、特にベクトル/行列の組み合わせを扱う場合、困難で複雑になる可能性があります。このプロセスを単純化するために、これらの中間値を処理するのではなく、左から右に順番に各導関数を計算することによって積を累積できます。スピーカーは、関数の逆方向の実装が、入力としての出力に関する損失の微分をどのように取り込むかを説明します。

  • 00:40:00 このセクションでは、スピーカーは、中間積を削除することにより、行列計算に関して値を計算する方法を説明します。すべての入力に対するすべての入力の導関数を計算し、多変量連鎖規則を使用して、計算パスに通過するように指示し、結果を合計する必要があります。 K がテンソルまたは高レベルのテンソルである場合でも、各要素を導出し、合計を合計する必要があります。これは、その方法で計算するには非効率的である可能性があるため、行列乗算の要素を i 番目の行の内積に抽出します。 W と X の I 番目の行と X の内積。最終的に、各フォワード パスとバックワード パスの最後に、損失関数の結果を最小化することで、指定されたターゲット変数に一致するように各追跡シーケンスを最適化します。 .

  • 00:45:00 ディープ ラーニングとバックプロパゲーションに関するビデオのこのセクションでは、講演者は、多変量連鎖規則と行列演算を使用して導関数を計算する方法について説明します。重み行列 W の各要素の導関数を計算できます。W の局所勾配は、2 つのベクトルの外積を使用して導出されます。他の入力についても同じプロセスに従うことができます。線形層の順方向計算は WX + B を使用して計算され、逆方向計算は行列乗算を使用して W、X、および B に関する損失の勾配を計算することによって実現できます。ただし、講演者は、ほとんどの深層学習システムには既に後方関数が実装されているため、ユーザーが自分で計算する必要はないことに注意しています。

  • 00:50:00 このセクションでは、勾配消失問題が 90 年代の深層学習にとって最大の障害であったことを話者が説明します。重みが大きすぎたり小さすぎたりしてはならないため、重みの初期化に関する問題を調べます。そうしないと、アクティベーション関数が効果的に機能せず、出力が常にゼロになります。解決策は、ランダムな直交値または 2 つの正の値の間の一様分布からのサンプルを使用してネットワークの重みを初期化し、固有値が 1 であることを確認することです。これにより、出力の平均と分散が同じままであることが保証されるため、ネットワークは効果的に学習できます。

  • 00:55:00 このセクションでは、勾配がますます小さくなり、ネットワークが学習しない勾配消失問題など、深層学習ネットワークにシグモイド関数を使用するときに発生する問題について説明します。代わりに、ビデオでは、ReLU をより単純な活性化関数として使用することを提案しています。この関数は、0 より大きい入力全体で 1 の恒等関数を持ち、それ以外の場合は導関数が 0 であるため、勾配は減衰しません。このビデオでは、通常の勾配降下法と確率的勾配降下法の中間バージョンとしてミニバッチ勾配降下法も紹介しています。これは、小さなバッチに関する損失を計算し、ランダム性と並列処理を可能にします。ただし、このビデオでは、GPU メモリを使用してより高速に実行される大きなバッチ サイズと、最適な結果を生成するためにより効果的な小さなバッチ サイズとの間にトレードオフがあることを警告しています。最後に、このビデオでは、勾配降下の概念を利用するさまざまなオプティマイザーに触れていますが、複雑なニューラル ネットワークで発生するさまざまな勾配を考慮してわずかに調整します。
     
  • 01:00:00 このセクションでは、インストラクターは、非常に小さな極小値を処理し、大まかな損失面を平滑化するための 3 つの方法について説明します: モメンタム、ネステロフ モメンタム、およびアダムです。運動量の背後にある基本的な直感は、勾配を力 (重力と同様) として扱い、モデルを丘を転がり落ちる岩として扱うことで損失面をナビゲートすることです。ネステロフ運動量では、最初に運動量ステップを適用してから勾配を計算できるように、小さな洞察が追加されます。 Adam は、モデル内のすべてのパラメーターには独自の損失面と、特定の方向にどれだけ積極的に移動するかの設定があるという考えと一緒にこの考えを取り入れています。そのため、モデル空間の次元ごとに平均勾配が推定され、それに応じて更新がスケーリングされます。指数移動平均は、勾配と分散の両方に対して取得されます。これにより、平均に追加される前の勾配からの一種の影響が可能になります。

  • 01:05:00 このセクションのビデオでは、深層学習におけるオプティマイザーとレギュラーライザーについて説明しています。 Adam は、深層学習でうまく機能する勾配降下法をわずかに適応させた最適化アルゴリズムとして説明されています。複数のハイパーパラメータがあり、デフォルト設定でうまく機能します。次に、データを記憶する余地が大きい大規模モデルでのオーバーフィッティングを防ぐための手法として、正則化について説明します。 L2 正則化では、重みテンソル ベクトルの長さを乗じたハイパーパラメーターを損失に追加します。これにより、システムは重みの小さいモデルを優先するようになります。 L1 正則化もこの考え方に従いますが、テンソル ベクトルの L1 ノルムを使用して距離を計算し、損失面のコーナーを与えます。 L1 レギュラライザーは、システムが出力に影響を与えない接続を削除できるスパース ソリューションを好みます。

  • 01:10:00 このセクションでは、モデルのオーバーフィッティングを防ぐために使用される手法である、深層学習における正則化の概念について説明します。正則化は、モデルが目に見えないデータに適切に一般化されるようにするのに役立ちます。 L1 と L2 は、深層学習で使用される 2 つの一般的な正規化タイプです。 L2 正則化はモデルを原点に引き寄せ、重みが大きくなりすぎるのを防ぎますが、L1 正則化はエッジに沿って溝を生成します。ドロップアウトについても説明します。これには、トレーニング中に非表示のノードをランダムに無効にし、すべてのノードに複数の情報源を考慮に入れることが含まれます。最後に、スピーカーは、画像を消費してテキストを生成する単一のニューラル ネットワークなど、深層学習の成果を強調します。

  • 01:15:00 このセクションのビデオでは、ニューラル ネットワークを使用したさまざまな画像処理手法について説明します。興味深い手法の 1 つは、ニューラル ネットワークが特定の絵画のスタイルを使用して写真を変換できるスタイル トランスファーです。画像から画像への変換は、彩度の低い画像またはエッジ検出された画像を使用したトレーニングに基づいて、ネットワークが画像の欠落部分を生成することを学習する別の手法です。畳み込み層は、重みを共有し、パラメーター空間を削減することで、ネットワークをより効率的にするのに役立ちます。これは、画像の処理にとって特に重要です。全体として、ビデオは画像処理におけるニューラル ネットワークの驚くべき可能性を強調していますが、最良の結果を得るには、ドメインの知識に基づいてアーキテクチャを慎重に設計することの重要性を強調しています。

  • 01:20:00 このセクションでは、講演者は畳み込みニューラル ネットワークがどのように機能するかを説明します。畳み込みニューラル ネットワークは、画像認識および分類タスクに一般的に使用されるフィードフォワード人工ニューラル ネットワークの一種です。これらのネットワークの背後にある重要なアイデアは、共有重みを使用してパラメーターの数を制限し、最大プーリング レイヤーを使用して画像の解像度を下げることです。それらは、一連の完全に接続された層で構成され、その後に 1 つ以上の畳み込み層が続きます。畳み込み層は、カーネルと呼ばれるスライディング ウィンドウを使用して、入力画像をフィルター処理し、変更されたチャネルで出力画像を生成します。これらの畳み込みレイヤーと最大プーリング レイヤーを連結し、いくつかの完全に接続されたレイヤーを追加することで、非常に正確な結果を生成する基本的な画像分類ネットワークを作成できます。
     
  • 01:25:00 このセクションでは、スピーカーは、ネットワークの上位にあるノードを見て、どのような種類の入力が高い応答をトリガーするかを確認することで、畳み込みニューラル ネットワークが実際に行っていることを視覚化する方法について説明します。ネットワークの最初の層は主にエッジ検出に応答し、次の層は個々のエッジを特徴に組み立てます。このプロセスは続き、徐々に表現を構築し、顔全体で終わります。ニューラルネットワークがどのように機能するかをさらに探求するために、講演者は入力を最適化して特定のニューロンを活性化させ、抽象芸術のような画像を生み出すことについて説明します.これらの画像を調べることで、話し手は、鳥のような特徴や犬のような特徴など、ニューロンがどの特徴に反応しているかを判断できます。最後に、スピーカーは、従来の機械学習とディープ ラーニングの主な違いは、エンド ツー エンドの学習の考え方であると説明します。パイプラインは必要なく、ネットワークはたとえば新聞を分析し、ネットワークを介さずに自然言語処理を実行できます。多段階プロセス。

  • 01:30:00 このセクションでは、講演者は、機械学習タスクを実行する際に精度の高い複数のモジュールを連鎖させることの制限について説明します。各モジュールからの累積誤差は、システム全体の精度を大幅に低下させる次のモジュールにノイズの多い入力を作成する可能性があります。次に、この問題に対処するためのソリューションとして、エンド ツー エンドの学習が導入されます。モジュールごとにトレーニングを分離する代わりに、勾配降下法を使用して生データからエンドツーエンドで学習するように、パイプライン全体が全体としてトレーニングされます。これにより、アプローチがより柔軟になり、深層学習システムがより広範な問題を解決できるようになります。
7 Deep learning 1: Backpropagation for tensors, Convolutional Neural Networks (MLVU2019)
7 Deep learning 1: Backpropagation for tensors, Convolutional Neural Networks (MLVU2019)
  • 2019.02.27
  • www.youtube.com
slides: https://mlvu.github.io/lectures/41.DeepLearning1.annotated.pdfcourse materials: https://mlvu.github.ioThis lecture builds on the explanation of backp...
 

8 確率 2: 最尤法、ガウス混合モデルおよび期待値の最大化 (MLVU2019)



8 確率 2: 最尤法、ガウス混合モデルおよび期待値の最大化 (MLVU2019)

ビデオのこのセクションでは、最尤推定、正規分布、ガウス混合モデル、および期待値最大化アルゴリズムを使用した密度推定の確率モデルを中心に説明しました。講演者は、最尤原理を説明し、最良の確率モデルを選択する際の適用を示しました。彼らは正規分布を調査し、確率関数と確率密度関数の違いを説明し、ガウス混合モデルを紹介しました。講演者はまた、単変量および多変量の正規分布からのサンプリング方法と、ガウス混合モデルが母集団内のさまざまなクラスターの識別にどのように役立つかについても説明しました。さらに、ガウス混合モデルをデータセットに適合させるために期待値最大化アルゴリズムが導入されました。また、講演者は、Q 関数近似を使用して期待値最大化アプローチを形式化する方法を説明し、それが局所最適に収束することを証明しました。

このビデオでは、最尤法、混合ガウス モデル、および期待値の最大化 (EM) のトピックについて説明します。スピーカーは、EM アルゴリズム、その証明、および収束する理由について説明します。また、Q を固定したままシータを選択することで L を最大化する M ステップについても説明します。ガウス混合モデルをデータに当てはめるには EM アルゴリズムを使用する必要があり、スピーカーは、クラスタリングや探索的分析などのそのアプリケーションと、ガウス混合モデルを各クラスに当てはめることによって分類に使用する方法について説明します。このビデオでは、確率モデルを複雑なニューラル ネットワークに適合させるための今後の講義についても言及しています。

  • 00:00:00 ビデオのこのセクションでは、確率分布をデータに当てはめることにより、密度推定に確率モデルを使用するという概念をスピーカーが紹介します。彼らは特に最尤推定に焦点を当て、それを正規分布またはガウス分布に基づく 4 つの異なるモデルに適用します。このビデオでは、最尤原理を使用して、ランダムな 12 コイン フリップ シーケンスで使用されたコインを特定する例も示しています。1 つのコインは曲がっており、もう 1 つのコインはまっすぐです。次に、ガウス混合モデルを紹介します。これは強力ですが、最尤法を使用して適合させるのが困難なモデルであり、ガウス混合モデルを適合させる方法として期待値最大化アルゴリズムに飛び込みます。

  • 00:05:00 このセクションでは、機械学習のモデル選択で使用される最尤原理について説明します。そのデータを与える可能性が最も高いモデルを選択するために、観察されたデータにモデルを適合させることが含まれます。尤度の対数は、通常、簡単にするために使用されます。これは、関数が最高点に達する場所で変化しない単調関数です。平均と分散または標準偏差をパラメーターとする正規分布も導入され、回帰および多変量正規分布を含むさまざまなモデルで使用されます。ガウス混合モデルも、複数の正規分布の組み合わせとして説明されています。

  • 00:10:00 このセクションでは、スピーカーはさまざまなタイプの分布と、正規分布が提供する明確なスケールを持つことの重要性について説明します。講演者はまた、確率関数と確率密度関数の違いについても言及し、個々のイベントには確率密度があり、確率はその密度を積分することによって得られることを強調します。次に、スピーカーは正規分布の式を紹介し、指数関数的に減衰することによって、明確なスケールを持つという基本的な要件をどのように達成するかを示します。この式は、減衰をさらに加速する二乗項を追加することでさらに改善されます。

  • 00:15:00 ビデオのこのセクションでは、プレゼンターは、基本関数を再スケーリングして移動することにより、正規分布の確率密度関数を作成する方法を説明しています。彼は、変曲点を使用して確率質量を最も必要な場所に配置する方法と、スケールのサイズを制御する方法、および平均を調整するために関数を移動する方法を示しています。最後に、データから正規分布を作成するためのパラメーターの最尤推定について説明します。

  • 00:20:00 このセクションでは、スピーカーは最尤推定と、確率空間で最高点を見つける際のその適用について説明します。それらは、1D ガウス分布のパラメーターの確率の対数の合計を最大化するという目的を提示します。次に、平均に関して微分を取り、最大値を求めてそれを解きます。彼らは、正規分布の平均の最尤推定量がデータの平均にすぎないことを発見し、これらすべての関数の標準偏差を見つけるために同じアプローチを適用できることを発見しました。スピーカーは、最適解を見つけるための分析ソリューションの存在についても言及しています。

  • 00:25:00 このセクションのビデオでは、最小二乗回帰における正規性の仮定について説明しています。このモデルは、線にわずかなノイズを加えることによってデータが生成されることを前提としており、データの確率分布は正規分布と考えることができます。線形モデルのパラメーターの尤度を最大化するには、X、W、および B が与えられた場合に Y の確率を最大化する必要があります。二乗目的関数。多変量分布についても説明します。平均は原点であり、確率密度は距離が増加するにつれて指数関数的に減衰します。

  • 00:30:00 このセクションでは、スピーカーは、線形変換を使用して、正規化されたベル カーブの確率質量の大部分を含む単位円を空間内で移動させ、データに適合させる方法について説明します。線形変換は、行列とベクトル T を定義します。これは、最初に正規化された単位円に適用され、曲線の下の総体積が計算され、それで除算されます。この変換を適用すると、円が特定の方向に引き伸ばされ、確率密度が大きくなります。これを修正するために、行列の行列式を拡大体積で割って、変換されたガウス分布の下の特定の点の確率密度を取得します。

  • 00:35:00 このセクションでは、スピーカーは、特定の平均値とシグマを使用して非標準の一変量正規分布からサンプリングする方法について説明します。これを行うには、標準正規分布から x をサンプリングし、分散を掛け、平均を加算して、目的の分布からサンプルを取得します。同様に、特定の平均とシグマを使用した多変量正規分布からのサンプリングには、シグマの分解、標準分布からのサンプリング、および線形変換の適用が含まれます。講演者はまた、休憩後の議論の焦点となるガウス混合モデルの概念を紹介します。スピーカーは、グレード分布の例を使用して、サンプル内のさまざまな母集団の概念を説明します。

  • 00:40:00 このセクションでは、スピーカーはガウス混合モデルと、母集団内のさまざまなクラスターの識別にどのように役立つかについて説明します。重みとスケーリングが異なる 3 つの個別の正規分布を作成することにより、結果の確率密度関数には 3 つのピークまたはモードが含まれます。このモデルをデータに適合させるために、最尤目標を使用して最適なガウス混合モデル パラメーターを決定します。場合によっては勾配が役立つこともありますが、対数内の合計のため、操作が簡単ではありません。代わりに、k-means クラスタリング アルゴリズムに似た期待値最大化アルゴリズムを使用して、データの最適なクラスタリングを見つけます。

  • 00:45:00 このセクションでは、ビデオでガウス混合モデルの使用について説明します。これは基本的に、ランダムな値セットをサンプリングし、それを使用して、それぞれの重みを持つさまざまなコンポーネントから値 X をサンプリングすることを含む隠れ変数モデルです。ただし、問題は、X 値のみが観測され、Z 値が隠されていることです。解決策は、期待値の最大化 (EML) アルゴリズムを使用することです。これは、コンポーネントのランダムな推測を行い、各ポイントにソフトな責任を割り当て、分布をデータ サブセットに適合させ、与えられたセット値の分布を推測するプロセスを繰り返します。 X 値。この反復プロセスを通じて、アルゴリズムはモデル パラメーターを推定し、データの可能性を最大化できます。

  • 00:50:00 このセクションのビデオでは、ガウス混合モデルをデータセットに適合させるために使用される期待値最大化 (EM) アルゴリズムについて説明します。このアルゴリズムは、最初に各ポイントにソフトな責任を割り当てることによって機能します。つまり、各ポイントは各コンポーネントからの責任の一部を持ちます。次に、これらの責任を使用して、加重平均と分散を使用して平均と分散が計算される加重データセットにガウス モデルを適合させます。このプロセスは、適切な適合が得られるまで、期待値と最大化のステップを繰り返します。このビデオは、このプロセスの視覚化を示しており、適切な適合が見つかるまで、モデルがより重要なポイントに向かってシフトする方法を示しています。

  • 00:55:00 このセクションでは、スピーカーは、期待値の最大化の直感的な性質の形式化と、それが局所最適に収束することを証明する方法について説明します。 Q 関数を真の尤度の近似として使用することにより、尤度関数を 2 つの項に分解できます。KL ダイバージェンスと、近似の精度を測定する L 関数です。これらの項の対数を取ることにより、話者は、L 関数が、最適なパラメーターが与えられた尤度関数セットの対数から近似 Q セットの対数を減算することによって計算できることを示します。この分解は、期待値最大化アプローチの収束を理解し、証明するのに役立ちます。

  • 01:00:00 このセクションでは、スピーカーは EM アルゴリズムの証明と、それが収束する理由について説明します。結合分布と条件付き分布を並べ替えることで、与えられたシータに対する x の対数の期待値が Q に関する定数として記述できることが示されます。次に、EM アルゴリズムを KL ダイバージェンスの観点から再定義する方法をスピーカーが説明します。いくつかのデータと任意のシータを与えられたキューを選択して、データを固定したまま KL ダイバージェンスを 0 にします。これにより、L が空間全体をカバーし、最大の可能性が達成されます。

  • 01:05:00 このセクションでは、スピーカーは M ステップについて説明します。ここでは、Q を固定したまま L を最大化するシータを選択することで、L を最大化します。彼らは、このステップがどのようにして可能性を高めるのか、また E/M の繰り返しによって可能性が常に高まるのかを説明しています。講演者は、M ステップを最大化目標にどのように組み込み、期待値最大化アルゴリズムの最尤推定量を導出するかについても説明します。彼らは、クラスタリングや探索的分析などのこの手法のアプリケーションと、ガウス混合モデルを各クラスに適合させることによって分類に使用する方法について説明しています。

  • 01:10:00 このセクションでは、スピーカーはガウス混合モデルと、それらがどのように多くの形状を取り、正規分布よりもはるかに強力になるかについて説明します.ガウス混合モデルをデータに適合させるには、期待値最大化アルゴリズムを使用する必要があります。これは、最尤適合の分析的な閉じた形式の解がないためです。ただし、モデルが適合されると、基本分類子を使用して確率密度に基づいて新しいポイントを分類するなど、さまざまな方法で使用できます。次の講義では、スピーカーは、ニューラル ネットワークの隠れ変数モデルと、確率モデルを複雑なニューラル ネットワークに適合させる方法について説明する予定です。
8 Probability 2: Maximum Likelihood, Gaussian Mixture Models and Expectation Maximization (MLVU2019)
8 Probability 2: Maximum Likelihood, Gaussian Mixture Models and Expectation Maximization (MLVU2019)
  • 2019.03.01
  • www.youtube.com
slides: https://mlvu.github.io/lectures/42.ProbabilisticModels2.annotated.pdfcourse materials: https://mlvu.github.ioWe return to the subject of probability,...
 

講義 9 深層学習 2: 生成モデル、GAN、Variational Autoencoders (VAE) (MLVU2019)



9 ディープラーニング 2: 生成モデル、GAN、Variational Autoencoders (VAE) (MLVU2019)

このビデオでは、ディープ ラーニング プロジェクトの分割データ、転移学習、生成モデルに焦点を当てるなど、ディープ ラーニングに関連するさまざまなトピックを取り上げています。講演者は、ニューラル ネットワークを使用してランダムな結果と確率分布を生成するという概念を探究し、敵対的生成ネットワークやオートエンコーダーなどのジェネレーターをトレーニングするさまざまな方法を説明します。また、データ操作や次元削減などのさまざまな機械学習アプリケーションにおける GAN、条件付き GAN、ステガノグラフィ、オートエンコーダーの重要性についても掘り下げます。スピーカーは、多くのラベル付きデータを使用せずに高レベルのデータ操作を行うための潜在空間でのデータ操作と、変分自動エンコーダーなどの代替アプローチの必要性について説明します。

ビデオのこの 2 番目の部分では、他のモデルでよく見られるモード崩壊の問題に対処することを目的とした生成モデルの一種である変分オートエンコーダー (VAE) について説明します。 2 つのニューラル ネットワークを使用して入力を潜在空間にエンコードし、それを入力空間にデコードして戻すことで、エンコードとデコードの両方を最適化できます。スピーカーは、損失関数を KL ダイバージェンス項と期待対数尤度項に分解します。これは、ネットワークの最適化に使用できます。 VAE で期待値を最大化する課題について説明し、この問題を克服する方法として再パラメータ化のトリックについて説明します。講演者は、VAE を GAN や PCA などの他の手法と比較し、VAE はより強力である一方で、トレーニングもより困難であると結論付けています。

  • 00:00:00 このセクションでは、データを見る前にデータをトレーニング セットとテスト セットに分割するように聴衆に注意してください。深層学習プロジェクトに取り組んでいる人には、転送学習を使用して、Google などの企業の事前トレーニング済みネットワークを使用し、独自のレイヤーを上に追加することで、高価なトレーニングなしで強力なモデルを作成することを提案しています。これは、大きな GPU を備えた大きなマシンにアクセスできない場合に適したオプションです。さらに、スピーカーは、プロジェクトのルーブリックをチェックして、すべての重要な側面がカバーされていることを確認し、合格点を容易にするようにアドバイスします。

  • 00:05:00 このセクションのビデオでは、生成モデリングのディープ ラーニングについて説明しています。ディープ ラーニングでは、画像や言語の断片など、新しいものをサンプリングできる確率分布を生成するようにニューラル ネットワークをトレーニングします。最初のステップは、これらの新しいものを生成できるジェネレーターと呼ばれるニューラル ネットワークを構築することです。実際には存在しない人物の画像を生成するように訓練されたニューラル ネットワークの例を示します。その後、ビデオでは、ジェネレーターをトレーニングする 2 つの方法 (敵対的生成ネットワークとオートエンコーダー) について説明し、より原則的なアプローチとして変分オートエンコーダーに焦点を当てています。

  • 00:10:00 このセクションでは、スピーカーは、ニューラル ネットワークを使用してランダムな結果と確率分布を生成する方法を説明します。これを行うには 2 つの方法があります。ネットワークに何らかの入力を与え、その出力を多変量正規分布の平均とシグマとして解釈する方法と、標準の多変量正規分布からランダムな入力をサンプリングし、それらをニューラル ネットワークに渡して観察する方法です。出力。後者のアプローチは、多変量正規分布を複雑な形状の非正規分布に変換する 2 層ニューラル ネットワークを使用したスピーカーの実験で示されているように、非常に複雑で興味深い確率分布を生成できます。このアプローチは、人間の顔などの非常に複雑な分布をモデル化するために使用できます。

  • 00:15:00 このセクションでは、インストラクターが生成モデルのトレーニング手順と、モデルが直面する可能性のある問題 (モードの崩壊など) について説明します。ニューラル ネットワークが表す確率分布をデータセットに適合させる単純なアプローチの 1 つは、生成された画像と元の画像の間の距離を損失として使用する逆伝播によるものです。ただし、このアプローチはしばしば失敗し、データセットのすべてのモードが 1 つのモードに崩壊します。次に、インストラクターは、うまく機能した生成モデルの 2 つの例を紹介します。Generative Adversarial Networks (GAN) と Variational Autoencoders (VAE) です。インストラクターは、GAN に影響を与えた畳み込みニューラル ネットワーク (CNN) の背後にある歴史と、生成された画像を改善するために互いに競合する 2 つのネットワークを通じてどのように機能するかを説明します。一方、VAE には、元の画像を確率分布に圧縮するエンコーダ ネットワークと、その分布から新しい画像を生成するデコーダ ネットワークがあります。

  • 00:20:00 このセクションでは、スピーカーは、入力を最適化して特定の出力ニューロンに一致する画像を生成するために使用される手法について説明します。これにより、ネットワークがだまされて考えられる偽の画像である敵対的な例が出現します。まったく別のもの。この手法は当初、ニューラル ネットワーク コミュニティに打撃を与えましたが、アドホックな学習アルゴリズムの開発につながりました。このアルゴリズムでは、敵対的な例が生成され、負の例としてデータセットに追加されます。ただし、このアプローチは完全に効率的ではなかったため、Vanilla GANs と呼ばれるエンドツーエンドのソリューションが開発されました。これは、印象的な例を作成するためにフレームワークの上に構築する他の 3 つの方法を講演者が説明するために使用する基本的なアプローチです。

  • 00:25:00 このセクションでは、プレゼンターが GAN (Generative Adversarial Networks) がどのように機能するかを説明します。 GAN は、2 つのニューラル ネットワーク、出力を生成するジェネレーター、およびどの出力が偽物かを判断する画像分類器であるディスクリミネーターで構成されます。 gan をトレーニングする目的は、ジェネレーター ネットワークがより現実的な結果を作成できるようにすることです。プレゼンターが説明しているように、ジェネレーターとディスクリミネーターは 2 人のゼロサム ゲームのように機能し、各ネットワークは他のネットワークの裏をかこうとします。ジェネレーターは、ディスクリミネーターをだます偽の出力を作成しようとする責任があり、ディスクリミネーターの仕事はこれらの偽の出力をキャッチすることです。プレゼンターは、トレーニング後、GAN の出力はターゲット入力とランダム性の組み合わせになると説明しています。
     
  • 00:30:00 このセクションでは、スピーカーは条件付き GAN について説明します。これは、データを生成する機能と出力の制御を組み合わせることを目的としています。制御なしで出力を生成する通常の GAN とは異なり、条件付き GAN は出力を制御する入力を受け取るため、複数のラベルを持つデータセットに役立ちます。スピーカーは、2 つのジェネレーターを使用して 2 つのペアになっていない画像のバッグをマッピングし、画像が前後にマッピングされた場合に元の画像が取得されるようにサイクル一貫性損失項を追加するサイクル GAN についても説明します。これにより、他の方法では作成にコストがかかる追加のイメージを生成できます。

  • 00:35:00 このセクションでは、スピーカーはコードを目に見える場所に隠すステガノグラフィーの概念と、ある画像を別の画像内に隠す GAN や VAE などの生成モデルとの関係について説明します。これらのモデルの目標は、ある画像が別の画像の中に隠れていることを弁別器が認識できないようにすることです。スピーカーは、写真をモネの絵画に変えるなど、これらのモデルがイメージをさまざまなスタイルに変換する方法の例を示します。講演者は、人物の超リアルな画像を生成するスタイル GAN についても説明し、低レベルのセマンティック プロパティから高レベルのセマンティック プロパティまでの画像を生成するデコンボリューション ニューラル ネットワークを介して潜在ベクトルをフィードすることで、GAN がどのように機能するかについても説明します。

  • 00:40:00 このセクションでは、スピーカーは、各レイヤーでランダム ノイズをネットワークに供給することによって、生成された画像の詳細を制御できるモデルについて説明します。この方法により、潜在ベクトルの負荷が軽減され、一意の画像の生成も可能になります。スピーカーは、生成プロセス中の特定のポイントで光とベクトルを変更することにより、この手法を実演し、各レベルで選択された特定の特性を持つ画像を生成します。このモデルは、単に超リアルな顔を生成するだけにとどまらないレベルの制御を提供します。

  • 00:45:00 このセクションでは、ジェネレーターを作成したら何ができるかについてスピーカーが説明します。手法の 1 つは内挿と呼ばれ、多変量分布空間から 2 つの点を取得してそれらの間に線を引き、等間隔の点を選び出し、それらをジェネレーターに送り込むことで、1 つの出力から次。これは、等間隔の点のグリッド上で行うことができ、角を照明空間の任意の点にマッピングして、補間グリッドを作成します。これらの潜在空間は通常、球状トポロジーで配置されます。つまり、補間を行うには、球状補間として知られるこの球状領域も移動する必要があります。最後に、データ操作または次元削減を行うには、潜在空間にマッピングする必要があります。これには、オートエンコーダーを使用して出力から潜在空間にマッピングする必要があります。

  • 00:50:00 このセクションでは、講演者は自動エンコーダーと、データ操作や次元削減などのさまざまな機械学習アプリケーションにおけるその重要性について説明します。自動エンコーダーは、データを入力から潜在空間にマッピングし、出力に戻すのに役立つニューラル ネットワークです。ネットワークのボトルネック アーキテクチャにより、入力の特徴をより圧縮された形式で学習および再現できます。トレーニングが完了すると、ネットワークは 2 次元空間で潜在コードのクラスタリングを生成できます。これにより、笑顔などの高レベルの意味的特徴が空間内のクラスターとしてレイアウトされます。

  • 00:55:00 このセクションでは、スピーカーは潜在空間でデータを操作して、多くのラベル付きデータを必要とせずにデータの高レベルの操作を行うことについて説明します。彼らは、潜在空間で操作されてからデコードされるエンコードされた画像を使用して、誰かを笑顔にする簡単なアルゴリズムを示しています。講演者はまた、自動エンコーダーの限界と、変分自動エンコーダー (VAE) のような代替アプローチの必要性についても説明します。VAE は、元の入力に近いポイントをデコードするようにデコーダーに強制しますが、空間内での適切な補間を保証するためにまったく同じではありません。 .

  • 01:00:00 ビデオのこのセクションでは、モデルがデータ間のポイントに焦点を合わせ、データが原点に集中するようにする生成モデルの一種である変分オートエンコーダー (VAE) について講演者が説明します。あらゆる方向に無相関の分散があります。最尤法を使用してモデルをデータに適合させ、ニューラル ネットワークを使用して真の事後分布を近似します。 X から Zed へのマッピングがないため、モードの崩壊は依然として問題ですが、VAE は以前のモデルよりも優れたソリューションを提供します。

  • 01:05:00 このセクションでは、生成モデルと、異なる入力に対して同様の出力が生成されるモード崩壊がどのように発生するかについて学びます。これに対処するために、2 つのニューラル ネットワークを使用して入力を潜在空間の分布にエンコードし、潜在空間の分布を入力空間の分布にデコードする変分オートエンコーダー (VAE) を使用できます。入力の対数確率の分解を使用して、損失関数として使用できる実際の確率の下限を取得できます。これにより、エンコードとデコードの両方でニューラル ネットワークを最適化できるため、モードの崩壊の問題を軽減できます。

  • 01:10:00 このセクションでは、スピーカーは L 関数をディープ ラーニング システムで使用できるものに書き換える方法を説明します。目標は、尤度の下限を最大化することであり、負の L を最小化することで、尤度を可能な限り引き上げることができます。スピーカーは、条件付き確率の定義を使用して分数の上部を分解し、期待値の合計に単純化します。これが KL 発散と期待される対数尤度になります。これらの項は、深層学習システムで損失関数として計算して使用できます。 KL 項は集合ベクトルを原点に向けて引っ張り、原点の周りの超球体に向かってそれらを厚くしますが、もう一方の項は期待値を取る必要があるため、実装が少し難しくなります。

  • 01:15:00 このセクションでは、スピーカーは変分オートエンコーダー (VAE) のコンテキストで期待値を最大化する課題について説明します。スピーカーは、サンプルを取得し、各サンプルの確率密度の対数を計算してから平均を取ることで、期待値を近似していると説明しています。単純にするために L を 1 に設定します。ただし、彼らは、彼らの方法が微分不可能なサンプリング ステップで行き詰まることに注意しています。この問題を解決するために、彼らは再パラメータ化のトリックを組み込み、ニューラル ネットワークの一部としてサンプリング ステップを実装できるようにしました。これは、Variational Encoder の開発につながります。これは、実装がより簡単なジェネレーターをトレーニングするための原則的なアプローチです。

  • 01:20:00 このセクションでは、Generative Adversarial Networks (GAN) と Variational Autoencoders (VAE) と呼ばれる生成モデルの違いについて説明します。 GAN は潜在空間からデータ空間へのマッピングを提供しますが、VAE はデータ空間から潜在空間へ、そしてデータ空間へ戻るという逆の働きをします。 VAE は、言語や離散データなどのデータ要素間の補間を提供し、離散変数の生成において GAN よりも優れています。講演者は、VAE がスマイル ベクトル、既存の論文、およびサングラスの減算ベクトルを使用して悪者実験を実行する方法の例を示します。講演者は、VAE は第一原理からの直接的なアプローチを提供するが、GAN は画像により適していると結論付けています。

  • 01:25:00 このセクションでは、スピーカーは変分オートエンコーダー (VAE) と主成分分析 (PCA) を比較し、両方の手法が次元削減とデータの標準化された分布へのマッピングに使用されると述べていますが、VAE はより強力であり、より多くの事。ただし、VAE のトレーニングは、PCA が分析解を見つけることができる一方で、勾配降下法を必要とするため、はるかに困難です。さらに、PCA は、顔の笑顔の寸法など、データに基づいて意味のある寸法を提供することがよくありますが、VAE によって生成される寸法は、特定のセマンティック機能が対象とされない限り、通常は意味を持ちません。
9 Deep Learning 2: Generative models, GANs, Variational Autoencoders (VAEs) (MLVU2019)
9 Deep Learning 2: Generative models, GANs, Variational Autoencoders (VAEs) (MLVU2019)
  • 2019.03.05
  • www.youtube.com
slides: https://mlvu.github.io/lectures/51.Deep%20Learning2.annotated.pdfcourse materials: https://mlvu.github.ioToday we discuss neural networks that can ge...