What is a large language model? How can it be used to enhance your business? In this conversation, Ali Rowghani, Managing Director of YC Continuity, talks wi...
slides: https://mlvu.github.io/lectures/11.Introduction.annotated.pdfcourse materials: https://mlvu.github.ioThe first lecture in the 2019 Machine learning c...
00:05:00 このセクションでは、スピーカーは線形モデルと、それらを使用してある空間を別の空間にマッピングする方法について説明します。線形モデルは、これを実現するために線を記述する関数を使用します。直線関数には、勾配とバイアスをそれぞれ表す 2 つのパラメーター W と B があります。講演者は、データセット内の特徴の数は任意である可能性があり、モデルは任意の数の特徴と連携する必要があると説明しています。複数の機能の場合、各インスタンスは太字表記を使用してベクトルとして表され、これらの各ベクトルは単一の値にマップされます。
00:10:00 このセクションでは、スピーカーは、すべてのフィーチャに重みを割り当て、単一の B 値を維持することによって、線形モデルを平面から超平面に拡張する方法を説明します。この関数は、W と X と B のドット積として表すことができます。これは、同じ長さの 2 つのベクトルの単純な演算です。内積は、空間における 2 つのベクトルの長さと、それらの間の角度の余弦を掛けたものとして表すこともできます。講演者は、モデルに単純な機能を追加することで、より強力になるという興味深い原則についても言及しています。最後に、適切なモデルを見つけるために、損失関数が使用され、その損失関数を最小化する値をすべてのモデルの空間で検索する方法が使用されます。
00:35:00 このセクションでは、スピーカーは、進化からインスピレーションを得た進化的検索方法の基本的なアルゴリズムを紹介します。この方法では、モデルの母集団から開始し、損失を計算してランク付けし、母集団の半分を殺し、残りの半分を繁殖させて新しい母集団を作成します。新しいモデルは古いモデルの特性に基づいて選択され、突然変異を使用していくつかのバリエーションが母集団に追加されます。講演者はまた、ランダム探索のバリエーションである分岐探索法についても説明します。この方法では、1 つのランダムな方向を選択する代わりに、ランダムな K 個の方向が選択され、損失が最も少ない方向が選択されます。講演者は、進化的手法の柔軟性と能力に注目して結論を下しますが、高価な計算コストとパラメーター調整要件について注意を促します。
00:50:00 このセクションでは、スピーカーは導関数を多次元に一般化する方法と、超平面の最急降下の方向を見つける方法について説明します。多次元で導関数を取得することと同じことは、勾配を計算することです。これは、X、Y、および Z に関する偏微分導関数で構成されるベクトルです。これら 3 つの値を合わせて平面の 3 つのパラメーターを定義し、3 つの値を合わせて平面を定義します。超平面。最急降下の方向 W は、X と W の間の距離が X と W の間の角度に等しい場合、または X と W が同じ場合に最大となる a のコサインを W 倍したノルムを最大化することによって見つけることができます。したがって、最急降下の方向は W です。
00:55:00 このセクションでは、スピーカーは、勾配降下と呼ばれる損失関数の最小値を見つけるための簡単なアルゴリズムについて説明します。アルゴリズムは、モデル空間のランダムな点から開始し、その点での損失の勾配を計算し、それを anta と呼ばれる小さな値で乗算し、モデルからそれを減算します。ランダム性はなく、純粋に決定論的なステップのみです。勾配は、方向とステップ サイズの両方を示します。次に、スピーカーは微積分を使用して損失ランドスケープの勾配を計算し、和と連鎖のルールを説明し、W と B に関する損失関数の導関数の 2 次元ベクトルで終わります。
01:00:00 このセクションでは、スピーカーは Python での勾配降下の実装と、最小値を見つけてそこにとどまるために、表面の曲率に沿ってベクトルの方向にステップできる方法について説明します。これを実証するために、彼らは、ユーザーが勾配降下法を使用して単純な線形モデルを試すことができるようにする、playground.tensorflow.org という Web サイトを紹介しています。ただし、スピーカーは、勾配降下法にはいくつかの制限があることも指摘しています。たとえば、学習率を選択する必要があることや、極小値に陥る可能性があることなどです。
slides: https://mlvu.github.io/lectures/12.LinearModels1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the linear models: ...
slides: https://mlvu.github.io/lectures/21.Methodology1.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture, we discuss the practicalities t...
00:30:00 このセクションでは、スピーカーは、機能を追加することで、線形分類器が分類問題を解決するのにどのように役立つかを説明します。 x 座標と y 座標の 2 乗を特徴として決定境界問題に追加することにより、線形分類器を使用して 2 つのクラスのポイントを区別できます。講演者は、TensorFlow Playground を使用して分類器をトレーニングすると、人間の目には円形に見える決定境界がどのように得られるかを示します。特徴の重みも示され、この分類問題を解決するために必要な特徴は 1 つだけであることが示されています。
00:35:00 ビデオのこのセクションでは、スピーカーは、機能空間を拡張することで、回帰の場合でも、より強力なモデルにつながる方法について説明します。彼らは、二乗変数を線形回帰モデルに追加すると、データによりよく適合する放物線がどのように得られるかを示すことで、この点を説明しています。スピーカーは、クラスの不均衡に対処する方法についてもアドバイスし、オーバーサンプリングやデータ拡張などの手法を使用してトレーニング セットを操作することを提案します。最後に、正規化のトピックを紹介し、単位の違いが K 最近傍分類モデルのパフォーマンスにどのように影響するかを示す動機付けとなる例を提供します。
slides: https://mlvu.github.io/lectures/22.Methodology2.annotated.pdfcourse materials: https://mlvu.github.ioIn this lecture we discuss how to prepare your d...
00:20:00 このセクションでは、スピーカーは、確率変数とその関数としての表現を含む、確率の基本概念を紹介します。話者は、確率変数は単一の数値で表すことができ、変数としてインスタンス化できると説明しています。また、等号表記の使用と、関数または特定の値によってランダム変数を参照する方法についても説明します。次にスピーカーは、2 つの確率変数 X と Y によって定義されるイベント空間の例を示し、条件付き確率の概念を紹介します。
01:25:00 このセクションでは、スピーカーはクロスエントロピー損失関数が、小さな残差よりも大きな残差を罰することによってどのように機能するかについて説明します。 P 対 M の関数は、小さなバーが損失に大きく寄与することも示しています。これは、以前のモデルの 2 乗に相当します。次にスピーカーは、対数の導関数と、定数乗数が方程式にどのように含まれているかについて説明します。計算を簡単にするために、定数乗数を無視するか、2 進対数を自然対数で定義することができます。
slides: https://mlvu.github.io/lectures/31.ProbabilisticModels1.annotated.pdfcourse materials: https://mlvu.github.ioApologies for the bad audio (and missing...
NB: There is a mistake in slide 59. It should be max(0, 1 - y^i(w^T\x + b) ) (one minus the error instead of the other way around).slides: https://mlvu.githu...
00:30:00 このセクションでは、スピーカーはベクトルと行列の例を使用してテンソルの導関数を計算する方法を説明します。最初の例は、ベクトルに関するスカラーの微分が単なる数値のベクトル、つまり勾配であることを示しています。次に、2 番目の例は、行列に関するベクトルの導関数が単なる行列であることを示しています。スピーカーは、すべての可能な値を取り、それらを行列に配置すると、元の行列 P が得られることを強調しています。
00:40:00 このセクションでは、スピーカーは、中間積を削除することにより、行列計算に関して値を計算する方法を説明します。すべての入力に対するすべての入力の導関数を計算し、多変量連鎖規則を使用して、計算パスに通過するように指示し、結果を合計する必要があります。 K がテンソルまたは高レベルのテンソルである場合でも、各要素を導出し、合計を合計する必要があります。これは、その方法で計算するには非効率的である可能性があるため、行列乗算の要素を i 番目の行の内積に抽出します。 W と X の I 番目の行と X の内積。最終的に、各フォワード パスとバックワード パスの最後に、損失関数の結果を最小化することで、指定されたターゲット変数に一致するように各追跡シーケンスを最適化します。 .
00:45:00 ディープ ラーニングとバックプロパゲーションに関するビデオのこのセクションでは、講演者は、多変量連鎖規則と行列演算を使用して導関数を計算する方法について説明します。重み行列 W の各要素の導関数を計算できます。W の局所勾配は、2 つのベクトルの外積を使用して導出されます。他の入力についても同じプロセスに従うことができます。線形層の順方向計算は WX + B を使用して計算され、逆方向計算は行列乗算を使用して W、X、および B に関する損失の勾配を計算することによって実現できます。ただし、講演者は、ほとんどの深層学習システムには既に後方関数が実装されているため、ユーザーが自分で計算する必要はないことに注意しています。
slides: https://mlvu.github.io/lectures/41.DeepLearning1.annotated.pdfcourse materials: https://mlvu.github.ioThis lecture builds on the explanation of backp...
このビデオでは、最尤法、混合ガウス モデル、および期待値の最大化 (EM) のトピックについて説明します。スピーカーは、EM アルゴリズム、その証明、および収束する理由について説明します。また、Q を固定したままシータを選択することで L を最大化する M ステップについても説明します。ガウス混合モデルをデータに当てはめるには EM アルゴリズムを使用する必要があり、スピーカーは、クラスタリングや探索的分析などのそのアプリケーションと、ガウス混合モデルを各クラスに当てはめることによって分類に使用する方法について説明します。このビデオでは、確率モデルを複雑なニューラル ネットワークに適合させるための今後の講義についても言及しています。
00:25:00 このセクションのビデオでは、最小二乗回帰における正規性の仮定について説明しています。このモデルは、線にわずかなノイズを加えることによってデータが生成されることを前提としており、データの確率分布は正規分布と考えることができます。線形モデルのパラメーターの尤度を最大化するには、X、W、および B が与えられた場合に Y の確率を最大化する必要があります。二乗目的関数。多変量分布についても説明します。平均は原点であり、確率密度は距離が増加するにつれて指数関数的に減衰します。
00:30:00 このセクションでは、スピーカーは、線形変換を使用して、正規化されたベル カーブの確率質量の大部分を含む単位円を空間内で移動させ、データに適合させる方法について説明します。線形変換は、行列とベクトル T を定義します。これは、最初に正規化された単位円に適用され、曲線の下の総体積が計算され、それで除算されます。この変換を適用すると、円が特定の方向に引き伸ばされ、確率密度が大きくなります。これを修正するために、行列の行列式を拡大体積で割って、変換されたガウス分布の下の特定の点の確率密度を取得します。
00:35:00 このセクションでは、スピーカーは、特定の平均値とシグマを使用して非標準の一変量正規分布からサンプリングする方法について説明します。これを行うには、標準正規分布から x をサンプリングし、分散を掛け、平均を加算して、目的の分布からサンプルを取得します。同様に、特定の平均とシグマを使用した多変量正規分布からのサンプリングには、シグマの分解、標準分布からのサンプリング、および線形変換の適用が含まれます。講演者はまた、休憩後の議論の焦点となるガウス混合モデルの概念を紹介します。スピーカーは、グレード分布の例を使用して、サンプル内のさまざまな母集団の概念を説明します。
slides: https://mlvu.github.io/lectures/42.ProbabilisticModels2.annotated.pdfcourse materials: https://mlvu.github.ioWe return to the subject of probability,...
00:25:00 このセクションでは、プレゼンターが GAN (Generative Adversarial Networks) がどのように機能するかを説明します。 GAN は、2 つのニューラル ネットワーク、出力を生成するジェネレーター、およびどの出力が偽物かを判断する画像分類器であるディスクリミネーターで構成されます。 gan をトレーニングする目的は、ジェネレーター ネットワークがより現実的な結果を作成できるようにすることです。プレゼンターが説明しているように、ジェネレーターとディスクリミネーターは 2 人のゼロサム ゲームのように機能し、各ネットワークは他のネットワークの裏をかこうとします。ジェネレーターは、ディスクリミネーターをだます偽の出力を作成しようとする責任があり、ディスクリミネーターの仕事はこれらの偽の出力をキャッチすることです。プレゼンターは、トレーニング後、GAN の出力はターゲット入力とランダム性の組み合わせになると説明しています。
00:30:00 このセクションでは、スピーカーは条件付き GAN について説明します。これは、データを生成する機能と出力の制御を組み合わせることを目的としています。制御なしで出力を生成する通常の GAN とは異なり、条件付き GAN は出力を制御する入力を受け取るため、複数のラベルを持つデータセットに役立ちます。スピーカーは、2 つのジェネレーターを使用して 2 つのペアになっていない画像のバッグをマッピングし、画像が前後にマッピングされた場合に元の画像が取得されるようにサイクル一貫性損失項を追加するサイクル GAN についても説明します。これにより、他の方法では作成にコストがかかる追加のイメージを生成できます。
00:35:00 このセクションでは、スピーカーはコードを目に見える場所に隠すステガノグラフィーの概念と、ある画像を別の画像内に隠す GAN や VAE などの生成モデルとの関係について説明します。これらのモデルの目標は、ある画像が別の画像の中に隠れていることを弁別器が認識できないようにすることです。スピーカーは、写真をモネの絵画に変えるなど、これらのモデルがイメージをさまざまなスタイルに変換する方法の例を示します。講演者は、人物の超リアルな画像を生成するスタイル GAN についても説明し、低レベルのセマンティック プロパティから高レベルのセマンティック プロパティまでの画像を生成するデコンボリューション ニューラル ネットワークを介して潜在ベクトルをフィードすることで、GAN がどのように機能するかについても説明します。
slides: https://mlvu.github.io/lectures/51.Deep%20Learning2.annotated.pdfcourse materials: https://mlvu.github.ioToday we discuss neural networks that can ge...
ジェネレーティブ AI の本当の可能性
ジェネレーティブ AI の本当の可能性
ジェネレーティブ AI は、開発者のプロトタイピング、評価、カスタマイズを支援することで、製品の作成方法に革命をもたらす可能性を秘めています。ただし、この技術はまだ初期段階にあり、倫理的かつ安全に使用されるようにするには、さらに研究が必要です。
Vrije Universiteit Amsterdam Machine Learning 2019 - 1 機械学習入門 (MLVU2019)
Vrije Universiteit Amsterdam Machine Learning 2019 - 1 機械学習入門 (MLVU2019)
このビデオでは、機械学習の概要を説明し、機械学習に関連するさまざまなトピックについて説明します。インストラクターは、コースの準備方法を説明し、機械学習が威圧的であるという一般的な懸念に対処します。彼はさまざまな種類の機械学習を紹介し、従来のルールベースのプログラミングと区別しています。このビデオでは、教師あり学習の基本についても説明し、機械学習を分類および回帰の問題に使用する方法の例を示します。特徴空間、損失関数、および残差の概念も説明されています。
ビデオの 2 番目の部分では、機械学習の概要を説明し、パターンを見つけて正確なモデルを作成し、データセットから結果を予測するという主な目標について説明します。講演者は、特定のアルゴリズムとデータ分割を使用して過剰適合を回避し、一般化を達成することの重要性について説明します。彼はまた、密度推定の概念と複雑なデータでの難しさを紹介しています。講演者は、機械学習と他の分野との違いを明確にし、正確な予測を行うためにビッグ データ セットを分割する戦略をほのめかしています。このビデオでは、ディープ ラーニングの発展に伴い機械学習に携わる人々が増加していることにも言及し、初心者がこの分野で始めるためのヒントを提供しています。
2 線形モデル 1: 超平面、ランダム探索、勾配降下 (MLVU2019)
2 線形モデル 1: 超平面、ランダム探索、勾配降下 (MLVU2019)
このビデオでは、線形モデル、検索方法、および最適化アルゴリズムの基本について説明します。線形モデルを 2 次元と多次元の両方で説明し、ランダム検索や勾配降下法などの方法で適切なモデルを検索するプロセスについて説明します。機械学習における凸性の重要性が説明され、凸でないランドスケープでのランダム検索の欠点が取り上げられています。動画では検索方法として、進化的方法や分岐検索も紹介しています。最後に、超平面の最急降下の方向を見つけるプロセスを含め、損失関数を最適化するための微積分と勾配降下法の使用について説明します。
2 番目の部分では、勾配降下法とその線形モデルへの適用について説明します。このアルゴリズムでは、損失関数の負の勾配の方向にステップを実行してパラメーターを更新します。学習率は、アルゴリズムが最小値に収束する速さを決定する上で重要であり、線形関数を使用すると、検索することなく最適なモデルを導き出すことができます。ただし、より複雑なモデルでは勾配降下法を使用する必要があります。このビデオでは、分類と決定の境界についても紹介しています。ここでの目標は、最適な線を見つけて、青い点を赤い点から分離することです。線形モデルの制限には、非線形に分離可能なデータセットを分類できないことが含まれますが、計算コストが低く、高次元の特徴空間でうまく機能します。インストラクターは、機械学習の方法論など、議論される将来のトピックについてもプレビューします。
3 方法論 1: 曲線下面積、バイアスと分散、フリーランチなし (MLVU2019)
3 方法論 1: 曲線下面積、バイアスと分散、フリーランチなし (MLVU2019)
このビデオでは、機械学習モデルの評価における曲線下面積 (AUC) メトリックの使用、バイアスと分散の概念、および「フリー ランチなし」定理について説明します。 AUC メトリックは、ROC 曲線の下の領域を計算することによって、分類モデルのパフォーマンスを測定します。さらに、バイアスと分散は、モデルがトレーニング データにどの程度適合し、新しいデータに一般化されるかにおいて重要な役割を果たすため、議論されています。また、「フリー ランチなし」の定理は、すべての機械学習の問題に普遍的に適用できるアルゴリズムがないため、特定の問題ごとに適切なアルゴリズムを選択する必要性を強調しています。
このビデオでは、機械学習の 3 つの重要な概念、AUC (曲線下面積)、バイアスと分散、および「フリー ランチなし」の定理について説明します。 AUC はバイナリ分類モデルを評価するために使用されるメトリックであり、バイアスと分散はモデルの予測値とデータセット内の真の値との差を指します。 「フリーランチなし」の定理は、考えられるすべての問題とデータセットに対して最適に実行できる単一のアルゴリズムは存在しないため、特定の問題に対して適切なアルゴリズムを選択することの重要性を強調しています。
4 方法論 2: データクリーニング、主成分分析、Eigenfaces (MLVU2019)
4 方法論 2: データクリーニング、主成分分析、Eigenfaces (MLVU2019)
このビデオの最初の部分では、機械学習アルゴリズムを適用する前のデータの前処理とクリーニングのさまざまな重要な側面について説明します。まず、データのバイアスとスキューを理解することの重要性について説明します。次に、スピーカーは、欠損データ、外れ値、クラスの不均衡、特徴選択、および正規化に対処する方法について説明します。このビデオでは、基底の概念と MVN 分布について説明し、ホワイトニングを使用して正規化のためにデータを正規分布に変換する方法を説明し、次元削減のための主成分分析 (PCA) の使用で締めくくります。トレーニング セットの操作から補完方法の使用まで、PCA は元のデータからの情報を保持しながら、データを低次元空間に射影します。
ビデオのこの 2 番目の部分では、機械学習のデータ クリーニングと次元削減における主成分分析 (PCA) の使用について説明します。この方法では、データの平均センタリング、標本共分散の計算、固有分解を使用した分解を行い、分散を最も多く捉える軸に合わせた固有ベクトルを取得します。最初の K 個の主成分を使用すると、適切なデータ再構成が可能になり、機械学習のパフォーマンスが向上します。 Eigenfaces の概念も導入され、PCA は、機械学習に必要な情報のほとんどを維持しながら、データを 30 次元に圧縮するのに効果的であることが示されています。人類学での使用や、DNA や顔などの複雑なデータセットの研究など、PCA のさまざまなアプリケーションについて説明します。
講義 5 確率 1: エントロピー、(ナイーブ) ベイズ、クロスエントロピー損失 (MLVU2019)
5 確率 1: エントロピー、(ナイーブ) ベイズ、クロスエントロピー損失 (MLVU2019)
このビデオでは、確率論のさまざまな側面と、機械学習におけるその応用について説明しています。スピーカーは、システム内の不確実性の量を測定するエントロピーを紹介し、それが単純ベイズおよびクロスエントロピー損失とどのように関連しているかを説明します。サンプル空間、イベント空間、確率変数、および条件付き確率の概念についても説明します。ベイズの定理が説明され、機械学習の基本的な概念と見なされます。このビデオでは、最尤推定原理とベイジアン確率、および確率分布をシミュレートするためのプレフィックスフリー コードの使用についても説明しています。最後に、スピーカーは、単純ベイズ分類器を含む、バイナリ分類の識別的分類器と生成的分類器について説明します。
2 番目の部分では、多変量正規分布モデルを使用して、特定のクラスに属する新しいポイントの確率を計算する概念について説明します。分類子の確率分布を効率的に適合させるための機能の条件付き独立性、およびゼロ インスタンスを処理するための擬似観測の平滑化または調整の必要性について説明します。講演者はまた、精度よりも線形分類器にとってより効果的な損失関数としてエントロピー損失を紹介し、シグモイド関数が関数の対称性を崩壊させて単純化することで、予測データと実際のデータの差を測定する交差エントロピー損失関数の機能について説明します。最後に、ビデオは、次の講義が最終的な損失関数として SVM 損失をカバーすることを示唆しています。
講義 6 線形モデル 2: ニューラル ネットワーク、バックプロパゲーション、SVM、およびカーネル法 (MLVU2019)
6 線形モデル 2: ニューラル ネットワーク、バックプロパゲーション、SVM、およびカーネル メソッド (MLVU2019)
線形モデルに関するビデオの最初の部分では、線形モデルに非線形性を導入することに焦点を当て、特徴空間の拡張に依存する 2 つのモデル (ニューラル ネットワークとサポート ベクター マシン (SVM)) について説明します。ニューラル ネットワークの場合、スピーカーは、シグモイドやソフトマックスなどの活性化関数を使用して、回帰および分類の問題のネットワークを設定する方法を説明します。次に、バックプロパゲーション (ニューラル ネットワークで使用される勾配の計算に使用される方法) について詳しく説明します。 SVM の場合、講演者は、各クラスの最も近い点へのマージンを最大化するという概念を紹介し、それを制約付き最適化問題としてどのように表現できるかを示します。このビデオでは、ニューラル ネットワークと SVM の原理を明確に紹介しています。受講者は、残りのコースの開始点として、講義の前半に集中することをお勧めします。
ビデオの後半では、サポート ベクター マシン (SVM)、ソフト マージン SVM、カーネル トリック、および SVM とニューラル ネットワークの違いについて説明します。ソフト マージン SVM は、非線形に分離可能なデータを処理する方法として導入され、分類の制約に準拠しないポイントにペナルティ値を追加できるようにします。カーネル トリックにより、高次元空間での内積の計算が可能になり、特徴空間が拡張されてモデルの能力が大幅に向上します。 SVM とニューラル ネットワークの違いについて説明し、十分に理解されていなくても、より高度なタイプの分類を実行できるニューラル ネットワークへの移行について説明します。
深層学習 1: テンソルのバックプロパゲーション、畳み込みニューラル ネットワーク (MLVU2019)
7 深層学習 1: テンソルのバックプロパゲーション、畳み込みニューラル ネットワーク (MLVU2019)
ディープ ラーニングとバックプロパゲーションに関するビデオの最初の部分では、ディープ ラーニング フレームワーク、テンソル、バックプロパゲーション アルゴリズム、勾配消失問題の基礎など、いくつかのトピックを取り上げます。講演者は、一連の線形代数操作を使用してニューラル ネットワークを実装する方法と、関数の合成としてモデルを定義するためにバックプロパゲーション アルゴリズムを使用する方法について説明します。このビデオでは、行列演算を使用して導関数を計算する方法についても説明し、重みの初期化や活性化関数としての ReLU の使用など、勾配消失問題の解決策を探っています。最後に、このビデオでは、複雑なニューラル ネットワークで利用できるミニバッチ勾配降下とさまざまなオプティマイザーについて触れています。
この第 2 部では、最適化アルゴリズムや正則化手法など、深層学習に関連するさまざまなトピックを取り上げます。 Adam 最適化はディープ ラーニングの一般的なアルゴリズムとして説明されていますが、L1 および L2 正則化はオーバーフィッティングを防止する方法として検討されています。画像処理におけるニューラル ネットワークの可能性についても説明し、畳み込みニューラル ネットワークは画像認識タスクの強力なツールとして強調されています。このビデオでは、これらのネットワークの仕組みと、ネットワークが複雑な画像を認識する機能を構築する方法、および複数のモジュールを連鎖させることの限界を克服する方法としてのエンドツーエンドの学習の概念についても詳しく説明しています。
8 確率 2: 最尤法、ガウス混合モデルおよび期待値の最大化 (MLVU2019)
8 確率 2: 最尤法、ガウス混合モデルおよび期待値の最大化 (MLVU2019)
ビデオのこのセクションでは、最尤推定、正規分布、ガウス混合モデル、および期待値最大化アルゴリズムを使用した密度推定の確率モデルを中心に説明しました。講演者は、最尤原理を説明し、最良の確率モデルを選択する際の適用を示しました。彼らは正規分布を調査し、確率関数と確率密度関数の違いを説明し、ガウス混合モデルを紹介しました。講演者はまた、単変量および多変量の正規分布からのサンプリング方法と、ガウス混合モデルが母集団内のさまざまなクラスターの識別にどのように役立つかについても説明しました。さらに、ガウス混合モデルをデータセットに適合させるために期待値最大化アルゴリズムが導入されました。また、講演者は、Q 関数近似を使用して期待値最大化アプローチを形式化する方法を説明し、それが局所最適に収束することを証明しました。
このビデオでは、最尤法、混合ガウス モデル、および期待値の最大化 (EM) のトピックについて説明します。スピーカーは、EM アルゴリズム、その証明、および収束する理由について説明します。また、Q を固定したままシータを選択することで L を最大化する M ステップについても説明します。ガウス混合モデルをデータに当てはめるには EM アルゴリズムを使用する必要があり、スピーカーは、クラスタリングや探索的分析などのそのアプリケーションと、ガウス混合モデルを各クラスに当てはめることによって分類に使用する方法について説明します。このビデオでは、確率モデルを複雑なニューラル ネットワークに適合させるための今後の講義についても言及しています。
講義 9 深層学習 2: 生成モデル、GAN、Variational Autoencoders (VAE) (MLVU2019)
9 ディープラーニング 2: 生成モデル、GAN、Variational Autoencoders (VAE) (MLVU2019)
このビデオでは、ディープ ラーニング プロジェクトの分割データ、転移学習、生成モデルに焦点を当てるなど、ディープ ラーニングに関連するさまざまなトピックを取り上げています。講演者は、ニューラル ネットワークを使用してランダムな結果と確率分布を生成するという概念を探究し、敵対的生成ネットワークやオートエンコーダーなどのジェネレーターをトレーニングするさまざまな方法を説明します。また、データ操作や次元削減などのさまざまな機械学習アプリケーションにおける GAN、条件付き GAN、ステガノグラフィ、オートエンコーダーの重要性についても掘り下げます。スピーカーは、多くのラベル付きデータを使用せずに高レベルのデータ操作を行うための潜在空間でのデータ操作と、変分自動エンコーダーなどの代替アプローチの必要性について説明します。
ビデオのこの 2 番目の部分では、他のモデルでよく見られるモード崩壊の問題に対処することを目的とした生成モデルの一種である変分オートエンコーダー (VAE) について説明します。 2 つのニューラル ネットワークを使用して入力を潜在空間にエンコードし、それを入力空間にデコードして戻すことで、エンコードとデコードの両方を最適化できます。スピーカーは、損失関数を KL ダイバージェンス項と期待対数尤度項に分解します。これは、ネットワークの最適化に使用できます。 VAE で期待値を最大化する課題について説明し、この問題を克服する方法として再パラメータ化のトリックについて説明します。講演者は、VAE を GAN や PCA などの他の手法と比較し、VAE はより強力である一方で、トレーニングもより困難であると結論付けています。