機械学習とニューラルネットワーク - ページ 15

 

講義 8. サンプリングと標準誤差



8. サンプリングと標準誤差

「サンプリングと標準誤差」に関するこのビデオでは、母集団パラメーターを推定するためのサンプリング手法に焦点を当てて、推論統計のさまざまな概念について説明します。このビデオでは、確率サンプリングと単純ランダム サンプリング、および層別サンプリングについて説明し、母集団からのランダム サンプル全体の平均値と標準偏差の一貫性に関連する中心極限定理について説明します。このビデオでは、エラー バー、信頼区間、標準偏差、標準誤差、適切なサンプル サイズの選択、分布タイプなどのトピックについても詳しく説明しています。スピーカーは、母集団全体を調べずに母集団標準偏差を推定するのに役立つため、標準誤差を理解することの重要性と、それがさまざまな部門で広く議論されている概念であることを強調しています。

  • 00:00:00 このセクションでは、インストラクターが推論統計に関連するサンプリングのトピックについて説明します。重要なアイデアは、母集団から引き出された 1 つまたは複数のランダム サンプルを調べて、その母集団についての参照を作成することです。インストラクターは、母集団の各メンバーがサンプルに含まれる確率がゼロではない確率サンプリングについて説明します。単純なランダム サンプリングが詳細に調査されます。これには、母集団の各メンバーがサンプルで選択される確率が等しいことが必要です。ただし、インストラクターは、母集団が均等に分布していない場合や、サブグループを分割してサンプルで比例的に表す必要がある場合など、特定の状況では層化サンプリングが必要になる場合があることに注意しています。

  • 00:05:00 このセクションでは、母集団内のサイズに比例して表す必要がある小さなサブグループをサンプリングする方法として、層化サンプリングの概念を紹介します。層化サンプリングを使用して、建築の学生が確実に代表されるようにする例が示されています。ただし、層化サンプリングを正しく行うのは難しい場合があるため、このコースでは単純な無作為抽出に固執します。このコースでは、1961 年から 2015 年までの米国の 21 都市の毎日の最高気温と最低気温のサンプル データセットを提供します。データは、データが正規分布していないことを示すヒストグラムを使用して視覚化されます。 1 日の平均最高気温は摂氏 16.3 度で、標準偏差は約 9.4 度です。

  • 00:10:00 このセクションでは、ビデオでサンプリングの考え方と、母集団全体との関係について説明します。母集団からサイズ 100 のランダム サンプルを取得し、平均と標準偏差を比較することにより、ビデオは、個々のサンプルが母集団と異なる場合がありますが、全体として、中心極限定理により、平均と標準偏差が母集団と一致することを示しています。 .ビデオは、1000 サンプルのシミュレーションを実行することにより、サンプル平均の平均が 16.3、標準偏差が 0.94 であることを示し、14.5 ~ 18.1 の 95% 信頼区間を提供します。信頼区間は広いですが、母平均が含まれています。

  • 00:15:00 このセクションのビデオでは、実際の母平均の推定値をより厳密に制限する方法について説明しています。より多くのサンプルを抽出することと、より大きなサンプルを取得することの両方が考慮されます。サンプル サイズを 100 から 200 に増やして実験を実行すると、標準偏差が 0.94 から 0.66 に大幅に減少しました。これは、サンプル サイズが大きいほど、より正確な推定値を得るのに役立つことを示しています。エラーバーを使用してデータの変動性を視覚化する方法も紹介されています。信頼区間を使用して、平均が統計的に有意に異なるかどうかを判断できます。信頼区間が重ならない場合、平均が有意に異なると結論付けることができます。重複する場合は、さらに調査が必要です。

  • 00:20:00 このセクションでは、スピーカーは Python で PyLab パッケージを使用してエラー バーをプロットする方法について説明します。標準偏差に 1.96 を掛けることで、推定値の平均と信頼度を示す誤差範囲を作成できます。サンプルサイズが大きくなると、エラーバーが小さくなり、信頼性が高くなりますが、必ずしも精度が向上するとは限りません。ただし、中心極限定理を使用することで、サンプル サイズが大きい複数のサンプルを調べるのは冗長かもしれませんが、1 つのサンプルを使用しても貴重な洞察を得ることができます。

  • 00:25:00 このセクションでは、動画で中心極限定理の 3 番目の部分について説明します。これは、標本平均の分散が母集団の分散を標本サイズで割った値に近くなると述べています。これにより、平均の標準誤差が計算されます。これは、母集団の標準偏差をサンプル サイズの平方根で割った値に等しくなります。このビデオでは、コードを使用して平均の標準誤差が機能するかどうかをテストし、標準偏差が標準誤差を非常によく追跡していることを示しているため、標準誤差を計算して標準偏差を推定するのに役立ちます。標準偏差と標準誤差の違いは、前者を計算するには多くのサンプルを調べる必要があり、後者を計算するには 1 つのサンプルしか必要ないことです。

  • 00:30:00 このセクションでは、スピーカーは標準誤差の概念について説明します。これは、複数のサンプルを取得せずに母集団の標準偏差を概算する方法です。標準誤差の式には母集団の標準偏差が含まれますが、母集団全体を調べる必要があるため、通常は不明です。代わりに、サンプル標準偏差が推定値としてよく使用されます。スピーカーは、サンプル サイズが大きいほど、サンプルの標準偏差が母集団の標準偏差の比較的正確な近似値であることを示しています。ただし、これは、さまざまな種類の分布や大規模な人口に対して常に当てはまるとは限らないことに注意してください。

  • 00:35:00 このセクションのビデオでは、一様分布、正規分布またはガウス分布、指数分布など、さまざまな分布について説明し、これらの分布の離散近似を示しています。標準偏差と標本標準偏差の差は、これらすべての分布で同じではなく、指数関数が最悪のケースです。確率分布の非対称性の尺度であるスキューは、母集団を推定するために必要なサンプル数を決定する際の重要な要素です。さらに、ビデオは、必要なサンプル数を決定する際に母集団のサイズは重要ではないという直感に反する発見を明らかにしています。

  • 00:40:00 このセクションでは、単一のサンプルから母集団の平均を推定するために、適切なサンプル サイズを選択することの重要性について話します。彼は、正確な答えを得るには適切なサンプル サイズを選択し、小さすぎるサンプル サイズの使用を避けることが不可欠であることを強調しています。サンプル サイズが選択されると、サンプルの平均と標準偏差を計算するために母集団からランダム サンプルが取得されます。サンプルから生成された推定標準誤差を使用して、サンプル平均付近の信頼区間が生成されます。スピーカーは、この方法は独立したランダム サンプルが選択された場合にのみ機能することを警告し、従属サンプルを選択すると誤った結果が生じる可能性があることを示しています。最後に、彼は 95% 信頼区間外の割合を計算するための実験例を示し、5% が最適な結果であることを強調しています。

  • 00:45:00 このセクションでは、スピーカーは統計分析における標準誤差の概念を理解することの重要性について説明します。彼は、答えが良すぎたり悪すぎたりすると、確率計算が正しくないことを強調しています。標準誤差がどのように機能するかを示すために、彼はシミュレーションを実行し、95% 信頼区間外の部分が 5% の期待値に非常に近いことを示しています。講演者は、標準誤差の重要性と、それがさまざまな部門で広く議論されている概念であることを強調して締めくくります。
8. Sampling and Standard Error
8. Sampling and Standard Error
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

講義 9. 実験データの理解



9. 実験データの理解

この講義では、Eric Grimson 教授が、データの収集からモデルを使用した予測まで、実験データを理解するプロセスについて説明します。彼はばねの例を使用して、線形関係を予測する際に精度を測定することの重要性を示し、適合度を測定するためのさまざまな方法を探っています。 Grimson は線形回帰と多項式近似の概念を導入し、高い r-2 乗値が必ずしも高次多項式が最適な選択であるとは限らないことを強調しています。 Grimson はコードを使用して 16 次元空間を最適化し、この多項式の適合を使用するかどうかの選択は次の講義に任せます。

  • 00:00:00 講義のこのセクションでは、Eric Grimson 教授が、今日のデータ集約型の世界で実験データを理解することの重要性について説明します。彼は、科学者、エンジニア、社会科学者、またはデータを扱うその他の職業に関係なく、データを操作して有用な情報を抽出できるソフトウェアが必要であると強調しています。彼はまた、実験を実施し、データを取得し、モデルを使用してデータに関する予測を行うプロセスについても語っています。バネの例を使用して、バネに関するデータを収集し、モデル化し、データの分析に役立つソフトウェアを作成する方法を説明します。

  • 00:05:00 このセクションでは、フックの弾性の法則の概念を紹介します。この法則は、ばねを圧縮または伸長するために必要な力は、圧縮または伸長される距離に直線的に相関すると述べています。負の符号は、力が圧縮または伸張の反対方向に加えられることを示します。フックの法則は広範囲のばねに適用されますが、法則が崩れる前にばねを伸ばすことができる量には限界があります。フックの法則とばね定数を使用して、ばねを 1 cm 圧縮するのに必要な力を計算する例を示します。

  • 00:10:00 このセクションでは、スピーカーは、ばねのさまざまな質量を測定してばね定数を決定するプロセスを説明します。理想的には、1 回の測定で十分ですが、質量は信頼できない可能性があり、ばねには不完全な材料が含まれている可能性があるため、ばね定数を抽出するためにプロットできる線形関係を持つ一連の測定値を生成するには、複数回の試行が必要です。講演者は、データ ポイントをグラフ化する前に、配列関数を使用してすべての値を均等にスケーリングする方法を示します。理想的な線形関係により、研究者は原子間力顕微鏡を調整し、生物学的構造の力を測定することができます。

  • 00:15:00 このセクションでは、スピーカーは実験データに線を当てはめ、線と測定点の間の距離を測定する方法について説明します。彼らは、目的関数を最小化する直線を見つけることによって、直線がどの程度適合しているかを判断するために目的関数が必要であると説明しています。スピーカーは、x 軸に沿った変位、垂直方向の変位、または線上の最も近い点までの距離など、距離を測定するさまざまな方法も考慮します。最終的には、新しい独立した値が与えられた場合に予測される従属値を測定するため、垂直方向の変位を選択します。

  • 00:20:00 このセクションでは、Eric Grimson が、最小二乗法を使用して予測線の精度を測定する方法を説明します。この方法では、予測された y 値と観測された y 値の差を見つけ、それらを 2 乗して符号を除去し、すべての観測値についてこれらの 2 乗した差を合計します。この合計は、線が観測値にどのように適合するかの尺度を提供します。差の二乗和を最小化することで、最適な直線を見つけることができます。さらに、Grimson は、予測曲線のモデルが多項式であると仮定し、線形回帰手法を使用して、データに最適な次数 1 または次数 2 の多項式を見つけることによって、最適な曲線を見つける方法について説明しています。

  • 00:25:00 このセクションでは、線形回帰の概念を、2 次元空間で可能なすべての線で表すことができるサーフェスの最低点を見つける方法として紹介します。線形回帰を使用して、ある点から始めて勾配に沿って下り坂を歩き、新しい勾配を測定し、最低点に到達するまで繰り返すことで、最適な線を見つけます。これを行うためのアルゴリズムは、ニュートンの方法に非常に似ています。このセクションでは、組み込みの PyLab 関数である polyFit を使用して、最適な最小二乗近似を提供する特定の次数の多項式の係数を見つける方法についても説明します。

  • 00:30:00 このセクションでは、プレゼンターが Python を使用して線をデータに適合させる方法と、使用されている多項式の順序を変更する方法を示します。彼らは、使用される多項式の次数が高いほど、適合がデータに近づくと説明しています。プレゼンターは、線の当てはめが機能せず、二次線の当てはめがより適しているデータ セットの視覚的な例を提供します。また、関数 polyval を使用して任意の次数多項式に適合し、予測値の配列を返す方法についても説明し、コードの抽象的な性質を示しています。

  • 00:35:00 このセクションでは、スピーカーは実験データの適合度を測定する方法について説明します。異なるモデルを比較するために、彼は平均二乗誤差を測定することを提案しています。このアプローチは 2 つのモデルを比較するのに役立つからです。ただし、この方法には問題があります。これは、ある近似が別の近似よりも本当に優れているかどうかを知る決定的な方法を提供しないためです。この問題に対処するために、講演者は決定係数 (r-2 乗) を使用することを推奨しています。これはスケールに依存せず、適合が完全にどれだけ近いかを知ることができます。彼は、観測値と予測値の差と平均誤差の測定を含む r-2 乗の計算式を提供しています。

  • 00:40:00 このセクションでは、モデルの精度を評価するために分散と r-2 乗値を計算する方法をスピーカーが説明します。分散は、二乗誤差の合計をサンプル数で割ることによって取得できます。 r 2 乗値は、データのばらつきがモデルによってどの程度説明されているかを示し、範囲は 0 から 1 です。 1 の r-2 乗は、モデルがすべての変動性を説明することを意味し、0 の r-2 乗は、モデルとデータの間に関係がないことを意味します。次に、2 つの関数 genFits と testFits を紹介します。これらの関数は、複雑度の異なるモデルを生成およびテストし、対応する r 2 乗値を返します。これらの関数は、一連のデータに最適なものを決定するのに役立ちます。

  • 00:45:00 このセクションでは、インストラクターは 2 次、4 次、8 次、および 16 次の多項式近似を使用してコードを実行し、データに最適な近似を決定します。彼らは、PyLab のようなコードを使用することで、16 次元空間で最適化し、線形回帰を使用して最適な解を見つけることができると説明しています。 16 次の多項式は優れた仕事をし、ほぼ 97% の r 2 乗値を持っていますが、インストラクターは、高い r 2 乗値が必ずしも 16 次多項式の使用が最良の選択であるとは限らないと警告しています。使うか使わないかは次回の講義まで。
9. Understanding Experimental Data
9. Understanding Experimental Data
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: Eric GrimsonPr...
 

講義 10. 実験データの理解 (続き)



10. 実験データの理解 (続き)

ビデオのこのセクションでは、オーバーフィッティングを回避しながら、実験データに適合する適切なモデルを見つけることの重要性を発表者が強調しています。クロス検証を使用して、モデルの複雑さと新しいデータの予測における有効性の適切なバランスを判断するなど、いくつかの方法について説明します。講演者は、さまざまな次数のモデルを実験データに適合させる例を示し、データセットにノイズを追加することによる過適合の影響を示します。 R 二乗値は、モデルがデータにどの程度適合しているかを判断するためのツールとしても導入されています。全体として、新しいデータを予測する際にモデルの複雑さと有効性のバランスを取ることの重要性が強調されています。

  • 00:00:00 このセクションでは、データを理解するためにモデルを実験データに適合させるという概念について以前に話し合ったことを、講師は生徒に思い出させます。目標は、データの根底にある現象を説明し、新しい設定での動作を予測できるモデルを作成することです。ただし、データは常にノイズが多いため、モデルを適合させる際には実験の不確実性を考慮する必要があります。インストラクターは、多項式、特に線形回帰の使用を要約して、観測データと予測データの差を最小限に抑える係数を見つけます。

  • 00:05:00 このセクションでは、線形回帰の概念について詳しく説明します。線形回帰の背後にある考え方は、1 つのアクセスが a 値で、もう 1 つのアクセスが B 値である空間内のすべての可能な線を表すことです。ここで、表面の値または高さは、すべてのポイントでの目的関数の値です。アイデアは、その表面のあるポイントから開始し、底に到達するまで下り坂を歩くことです。底には常に 1 つのポイントがあり、そのポイントに到達すると、a と B の値が最適なラインになります。このセクションは、モデルがデータにどの程度適合しているかを測定する 0 と 1 の間のスケールに依存しない値である係数決定 R 二乗についての説明で締めくくります。

  • 00:10:00 このセクションでは、スピーカーはモデルを実験データに適合させる際の R-2 乗値の重要性について説明します。 R 2 乗値は、モデルがデータにどの程度適合しているかを示します。値 1 は完全な適合を示し、0 に近い値は適合が不十分であることを示します。より高次のモデルの方がデータに適合する可能性がありますが、現象の説明や予測に使用するのに最適なモデルであるとは限りません。スピーカーは、ノイズを追加した放物線関数を使用して、例のデータをどのように生成したかについても説明します。

  • 00:15:00 要約。このセクションでは、スピーカーは、検証または相互検証を使用してモデルの有効性をテストする方法について説明します。ノイズが追加された放物線弧からデータを生成し、2 つの異なるデータセットを使用して次数 2、4、8、および 16 のモデルを適合させます。最適適合モデルは依然として 16 次ですが、データが 2 次多項式から生成されたときに 16 次多項式が最適適合である理由は謎です。スピーカーは、小さなトレーニング エラーは必要ですが、優れたモデルには十分ではなく、同じプロセスから生成されたさまざまなデータに対してモデルがどの程度うまく機能するかを確認するには、検証または相互検証が必要であると説明します。

  • 00:20:00 このセクションでは、スピーカーは実験データの使用とそれにモデルを適合させる方法について説明します。また、さまざまなデータセットでモデルをテストすることの重要性と、モデルの自由度が多すぎる場合のオーバーフィッティングの可能性についても調査しています。彼らの例を通して、彼らは低次モデル (例えば次数 2 または 4) が実際には高次モデル (例えば次数 16) よりも行動を予測するのにより効果的であり、複数のデータセットでモデルをテストして確実にすることが重要であることを示しています。複雑すぎないこと。

  • 00:25:00 このセクションでは、スピーカーは、モデルがトレーニング データに完全に適合するように設計されているため、新しいデータセットに適合できないデータへの過適合の危険性について警告します。彼は、検証を使用してオーバーフィッティングを検出する方法と、場合によっては高次の入力変数が不要な理由を説明しています。彼は、二次モデルを線に当てはめる例を示し、ノイズの当てはめを開始し、効果の低い当てはめにつながるため、システムがより高い項の係数にノーと言うことを示しています。話者の例では、二次曲線を直線に当てはめ、システムがノイズを完全に当てはめ、効果的に新しい値を予測する 1 つのポイントが追加されるまで、モデルがどのように完全に機能するかを示しています。

  • 00:30:00 このセクションでは、オーバーフィッティングの概念を紹介し、データセットに少量のノイズを追加し、2 次モデルと 1 次モデルの両方をフィッティングすることで、その効果を示します。二次モデルはノイズが追加されるとうまく機能しないことが示されていますが、一次モデルはそれに対してより回復力があります。講演者は、過度に複雑なモデルと不十分なモデルの間で適切なバランスを見つけることが、結果を正確に予測する上で重要であることを強調しています。このセクションの最後に、適切なモデルを見つけるための推奨される方法を示します。

  • 00:35:00 このセクションのビデオでは、特定のデータ セットに最適なモデルを決定する方法について説明しています。特に、選択の指針となる理論がない場合に役立ちます。 1 つのアプローチは、モデルが新しいデータを適切に予測できるようになるまでモデルの次数を増やすことですが、元のトレーニング データに過剰適合しないようにすることです。例として、このビデオではフックの法則がばねの伸張にどのように適用されるかを見ており、データのセグメントごとに異なる線形モデルが必要であることを示し、データを適切にセグメント化することの重要性を強調しています。 leave one out 検証や K-fold 検証などの相互検証も、より大きなデータ セットを処理する場合のモデルの複雑さの選択を導くのに役立ちます。

  • 00:40:00 このセクションでは、スピーカーはクロス検証を使用して、55 年間にわたる米国の 1 日平均最高気温を予測するための最適なモデルを決定する方法について説明します。反復ランダム サンプリングを使用して、データセットからランダム サンプルを選択し、トレーニング セットでモデルをトレーニングし、テスト セットでテストします。また、高温の年間平均を計算してプロットし、1 次、2 次、3 次、および 4 次次元のモデルを作成します。データの半分でトレーニングし、残りの半分でテストし、決定係数を記録して取得します。平均。各次元の平均値を報告します。

  • 00:45:00 このセクションでは、プレゼンターは、ランダム ドット サンプル法を使用して、データセットをトレーニング セットとテスト セットにランダムに分割する方法を示します。次に、さまざまなトレーニング セットとテスト セットを設定するループを実行し、多項式近似を使用して各次元を近似します。次に、モデルを使用してテスト セットの値を予測し、それらを実際の値と比較して、R 2 乗値を計算し、それを追加します。彼は、複数の試行を実行して、それらの試行に関する統計と内部の統計を取得する必要があると結論付けています。各トライアル。これにより、データを説明する最も単純なモデルを選択できます。
     
  • 00:50:00 このセクションでは、スピーカーは、実験データに基づいて新しいデータを効果的に予測できるモデルの複雑さについて説明します。この複雑さは、データ外の動作を適切に予測する最も単純なモデルを決定するための理論または相互検証に起因する可能性があります。
10. Understanding Experimental Data (cont.)
10. Understanding Experimental Data (cont.)
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: Eric GrimsonPr...
 

講義 11. 機械学習の概要



11. 機械学習の紹介

ビデオでは、機械学習の概念、そのしくみ、および教師あり学習と教師なし学習の 2 つの一般的な方法について説明しています。次に、教師あり学習の例を示します。マシンをトレーニングして、身長と体重に基づいて新しいサッカー選手の位置を予測します。

  • 00:00:00 この 1 段落の要約は、ビデオ「機械学習」の概要を説明することを目的としています。機械学習の 2 つの主な方法である分類とクラスタリングについて説明する前に、機械学習の概念とそのさまざまなアプリケーションを紹介することから始めます。次にビデオは、機械学習のトピックについて詳しく説明する前に、線形回帰の基本を紹介します。ビデオの最後のセクションでは、学生に機械学習の概念をより簡潔に紹介することに焦点を当てています。

  • 00:05:00 機械学習は、明示的にプログラムされていないコンピューター学習のプロセスです。この講義では、さまざまな種類の機械学習アルゴリズムとその仕組みについて説明します。また、機械学習が現在使用されている場所の例をいくつか紹介します。

  • 00:10:00 このビデオでは、機械学習の考え方、そのしくみ、および教師あり学習と教師なし学習という 2 つの一般的な方法について説明しています。次に、教師あり学習の例を示します。マシンをトレーニングして、身長と体重に基づいて新しいサッカー選手の位置を予測します。

  • 00:15:00 このビデオでは、距離に基づいてデータのクラスターを作成するために使用できる機械学習アルゴリズムが示されています。このアルゴリズムは、2 つの例を手本として選び、その例に最も近いグループに入れるだけで他のすべての例をクラスタリングし、そのグループの中央値要素を見つけることによって機能します。

  • 00:20:00 機械学習は、データ内のパターンを識別する方法を学習するプロセスです。このプロセスは、ラベル付けされたデータで機械学習モデルをトレーニングすることから始まり、次にそのモデルを使用してラベル付けされていないデータのパターンを識別します。これには主に 2 つの方法があります。ラベル付きデータの使用とラベルなしデータの使用です。最初のケースでは、機械学習モデルは、割り当てられたラベルに対応するデータ内のパターンを識別できます。 2 番目のケースでは、機械学習モデルは、ユーザーが選択した機能に対応するデータ内のパターンを識別できます。

  • 00:25:00 このビデオでは、可能な限り正確なモデルを作成するために、どの特徴を測定し、どのように重み付けするかを決定するプロセスである、特徴エンジニアリングの概念について説明しています。使用された例は爬虫類のラベリングであり、単一の例にラベリングするのは簡単ですが、例の数が増えるほど難しくなります。次にビデオでは、機能選択の概念について説明します。これは、可能な限り正確なモデルを作成するために、保持する機能と破棄する機能を選択するプロセスです。ビデオはニワトリのラベル付けの例で終わります。これは爬虫類のモデルには適合しませんが、ニワトリのモデルには適合します。

  • 00:30:00 この動画では、機械学習とその原理について紹介しています。 2 人のプレーヤーが互いの違いを判断しようとするゲームの例を使用して、データをそうではないものとして誤ってラベル付けすることのないシステムを設計することの重要性について説明します。ベクトル間の距離を測定する方法であるミンコフスキー計量が導入されています。

  • 00:35:00 このビデオでは、平面内の標準的な距離測定であるユークリッド距離と、さまざまな特徴を持つオブジェクト間の距離を比較するために使用されるメトリックであるマンハッタン距離を紹介します。ユークリッド距離は 2 の平方根に基づいていますが、マンハッタン距離はグリッド上のポイント間の距離に基づいています。異なる生物の脚の数を比較する場合など、オブジェクト間の距離よりもオブジェクト間の特徴の違いの方が重要な場合があります。特徴エンジニアリング (測定する特徴を選択し、それらをどのように重み付けするか) は、機械学習において重要です。

  • 00:40:00 このビデオでは、スケールの重要性と、スケールが機械学習アルゴリズムの仕組みに与える影響について説明しています。さまざまな方法で重みを使用する方法と、例間の距離を測定する方法について説明します。また、さまざまな方法を使用してデータをクラスター化する方法と、適切な数のクラスターを選択する方法についても説明します。

  • 00:45:00 このビデオでは、機械学習の概念を紹介し、曲線をデータに当てはめて 2 つのグループを分離する方法を示しています。また、機械学習モデルを評価する方法の例も提供します。

  • 00:50:00 このビデオでは、感度 (正しくラベル付けされたものの数) と特異度 (ラベルが目的のアイテムをどれだけ正確に識別したか) の間のトレードオフについて説明しています。 Guttag 教授は、このトレードオフを理解しやすくするのに役立つ ROC (Receiver Operator Curves) と呼ばれる手法を実演しています。
11. Introduction to Machine Learning
11. Introduction to Machine Learning
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: Eric GrimsonIn...
 

講義 12. クラスタリング




12. クラスタリング

このビデオでは、データ ポイントをグループにクラスタリングする概念を確認します。 k-means アルゴリズムを使用してクラスタリングを実行する方法と、速度のためにアルゴリズムを最適化する方法について説明します。また、クラスタリングを使用してデータの問題を診断する方法についても説明します。

  • 00:00:00 このビデオの目的は、可変性とクラスタリングの概念を確認することです。このビデオでは、変動性はクラスターの平均とクラスター内の各例の間の距離の合計であり、クラスタリングは一連の例を単一のクラスターにグループ化する最適化問題であることを説明しています。

  • 00:05:00 階層クラスタリングは、データ セット内のアイテムをクラスタリングする方法です。アルゴリズムは、各アイテムを独自のクラスターに割り当てることから開始し、最も類似した 2 つのクラスターを見つけます。残りのクラスターが 5 つ未満の場合、アルゴリズムは最も近い 2 つのクラスターを 1 つのクラスターにマージします。

  • 00:10:00 ビデオでは、さまざまなクラスタリング メトリクスについて説明し、それぞれが最終的なクラスタリング結果にどのように影響するかを説明しています。たとえば、距離の近い都市同士を結合するには単一結合を使用し、距離の離れた都市同士を結合するには完全結合を使用します。

  • 00:15:00 ビデオではクラスタリングの仕組みが説明されており、最も一般的に使用されているアルゴリズムは k-means です。高速で効率的ですが、最適化してさらに高速にすることができます。

  • 00:20:00 このビデオでは、K 個の重心をランダムに選択し、それらの重心に点を割り当てることで、オブジェクトをクラスタリングする方法を著者が説明しています。著者は、K を誤って選択することの潜在的な欠点についても説明しています。最後に、著者は、優れた k-means アルゴリズムを使用して最適な K を見つけることを推奨しています。

  • 00:25:00 このビデオでは、データのサブセットに対して階層的クラスタリングと k-means を実行する方法を順を追って説明します。また、アルゴリズムの弱点とその修正方法についても説明しています。

  • 00:30:00 このビデオでは、k-means アルゴリズムを使用してデータをクラスター化する方法を説明しています。データはクラスターに分割され、各クラスターの重心が計算されます。

  • 00:35:00 この講義では、スケーリングと分散を使用してデータをクラスター化する方法について教授が説明します。彼は、特徴ベクトルをスケーリングする方法と、スケーリングされたデータの平均と標準偏差を計算する方法を示しています。

  • 00:40:00 このビデオでは、Z スケーリング、補間、k-means など、さまざまな方法を使用してデータをクラスター化する方法を説明しています。結果は、データが適切にクラスター化されておらず、2 つのクラスター間に統計的に有意な差がないことを示しています。

  • 00:45:00 ビデオでは、クラスタリングを使用してデータの問題を診断する方法について説明しています。特に、クラスタリングを使用して、陽性である可能性が高い患者など、同様の特徴を持つ患者のグループを見つける方法を示しています。ビデオでは、クラスタリングを使用して K のさまざまな値を見つける方法を示しています。これにより、検出されるクラスターの数が増加します。

  • 00:50:00 このビデオでは、データ サイエンティストがクラスタリングについて説明しています。彼らは、クラスタリングとは、データを類似のグループにグループ化するプロセスであると説明しています。さまざまなパラメーターを使用してさまざまなクラスターを作成する方法と、データ サイエンティストが最適なクラスターを作成するためにデータについてどのように考える必要があるかについて説明します。
12. Clustering
12. Clustering
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

講義 13. 分類



13.分類

このビデオでは、最近隣、K 最近傍 (KNN)、ロジスティック回帰など、いくつかの分類方法について説明します。プレゼンターは、動物の分類と手書き認識の例を使用して KNN を実演し、ノイズの多いデータを回避してより信頼性の高い結果を提供する方法を説明します。彼らは Titanic データセットを紹介し、感度や特異度などの指標を使用して分類モデルのパフォーマンスを評価する際に適切なバランスを見つけることの重要性を説明しています。さらに、このビデオでは、Leave-one-out と反復ランダム サブサンプリングの 2 つのテスト方法と、それらを KNN 分類に適用する方法について説明します。最後に、プレゼンターは、分類問題で線形回帰よりもロジスティック回帰が好まれる理由を説明し、さまざまな変数にさまざまな重みを割り当て、特徴の重みを通じて変数に関する洞察を提供する能力を強調しています。

  • 00:00:00 このセクションでは、教師あり学習における分類の概念を紹介することから始めます。これは、特徴ベクトルに関連付けられた離散値 (しばしば「ラベル」と呼ばれる) を予測する行為です。これには、誰かが薬に対して有害反応を示すかどうか、またはコースでの成績を予測することが含まれます。次に、インストラクターは、動物の距離行列とバイナリ表現を使用して、それらを爬虫類として分類するかどうかを示す例を提供します。最近傍法として知られる分類への最も単純なアプローチには、トレーニング データを記憶し、新しい例のラベルを予測するときに最も近い例に関連付けられたラベルを選択することが含まれます。

  • 00:05:00 このセクションでは、プレゼンターは、ノイズの多いデータを回避し、最近傍法よりも信頼性の高い K 最近傍 (KNN) 分類法について説明します。彼は、動物の分類や手書き認識などの例を使用して、KNN のデモを行います。 KNN メソッドは、最も近いものだけではなく、通常は奇数である複数の最近傍の「投票」を行い、これにより外れ値の影響が軽減されます。発表者は、絶対確実ではありませんが、KNN は通常、ノイズのあるデータに対してより信頼性の高い分類方法であると結論付けています。

  • 00:10:00 このセクションのビデオでは、K 最近傍アルゴリズムとその制限について説明します。 K 最近傍法は効率的で理解しやすいですが、すべてのトレーニング例を保存する必要があり、メモリを大量に消費する可能性があり、例を比較する必要があるため、分類の予測に時間がかかる場合があります。さらに、K が大きすぎると、アルゴリズムがクラスのサイズに支配され、分類エラーが発生する可能性があります。このビデオでは、クロス検証を使用して K の最適な値を選択することを提案し、投票プロセスで明確な勝者が存在するように K を選択することが重要であることを説明しています。

  • 00:15:00 このセクションでは、プレゼンターが分類の新しい例を紹介します。機械学習を使用して、タイタニック号の災害からどの乗客が生き残るかを予測します。データセットには、乗客のクラス、年齢、性別、および生存したかどうかに関する情報が含まれています。機械学習モデルを評価するために、プレゼンターは、クラスの不均衡がある場合に精度だけでは適切なメトリックではない理由を説明し、感度、特異性、正の予測値、負の予測値などの他のメトリックを紹介します。彼はまた、適切なバランスを選択することの重要性と、これらの指標がどのように異なる洞察を提供するかについても説明しています。

  • 00:20:00 このセクションでは、スピーカーは分類器における感度と特異性の重要性と、分類器をテストする方法について説明します。感度と特異度は、分類子のアプリケーションに応じてバランスを取る必要があります。たとえば、がん検査にはより高い感度が必要ですが、心臓切開手術の検査にはより高い特異度が必要です。次にスピーカーは、分類器をテストするための 2 つの方法を説明します。1 つを残す方法 (小さなデータセットに使用) とランダムなサブサンプリングの繰り返し (大きなデータセットに使用) です。後者では、トレーニングとテストのためにデータをランダムにセットに分割し、機械学習法と呼ばれるパラメーターを導入して、kN やロジスティック回帰などのさまざまな方法を比較します。これらのテストのコードが示され、スピーカーは分類器をテストしてそのパフォーマンスを検証することの重要性を強調します。

  • 00:25:00 このセクションでは、講師が 2 つのテスト方法について説明し、1 つを除外してランダム サンプリングを繰り返し、それらを KNN 分類に適用する方法を示します。インストラクターは、ラムダ抽象化 (数学で一般的なプログラミングのトリック) を使用して、4 つの引数の関数を 2 つの引数の関数に変換する方法についても説明します。両方のテスト方法を使用した KNN 分類の結果が表示されており、有意差はなく、評価基準の精度が一貫していることを示しています。 KNN 分類は、ランダム予測よりも優れたパフォーマンスを示しました。

  • 00:30:00 このセクションでは、スピーカーは、機械学習で使用される一般的な方法であるロジスティック回帰について説明します。実数を予測するように設計された線形回帰とは異なり、ロジスティック回帰は特定のイベントの確率を予測します。このメソッドは、各特徴の重みを見つけ、各特徴の予測に使用される重みを計算し、最適化プロセスを使用してトレーニング データからこれらの重みを計算します。ロジスティック回帰はログ関数を使用するため、その名前が付けられています。SK Learn Linear Model は、それを実装するために使用される Python ライブラリです。

  • 00:35:00 このセクションでは、スピーカーは、トレーニング データを使用してロジスティック回帰モデルを構築し、一連の特徴ベクトルを使用してテストする方法を説明します。ロジスティック回帰モデルは SKLearn ライブラリを使用して作成され、変数の重みが計算されると、そのモデルを使用して、特定の特徴ベクトルに基づいてさまざまなラベルの確率を予測できます。講演者はまた、既存のリストから新しいリストを作成する汎用的で効率的な方法であるリストの理解についても紹介します。これは、テスト特徴ベクトルのセットを構築するときに特に役立ちます。

  • 00:40:00 このセクションでは、スピーカーは Python でのリスト内包表記と、特定のタスクに対するその便利さについて説明しますが、その誤用に対して警告します。続いて、スピーカーは、ロジスティック回帰をモデルとして適用するプロセスと、トレーニング データとテスト データを使用してそれを構築およびテストする方法について説明します。次に、LR (ロジスティック回帰) を定義し、「生き残った」および「生き残っていない」というラベルを付けてモデルを適用する方法を示します。講演者は、ロジスティック回帰は KNN よりも高速であると述べています。これは、重みが取得されると、モデルの評価が迅速なプロセスになるためです。

  • 00:45:00 このセクションでは、インストラクターが、分類問題で線形回帰よりもロジスティック回帰が好まれる理由を説明します。まず、ロジスティック回帰はより微妙であると考えられており、パフォーマンスを向上させるために異なる変数に異なる重みを割り当てることができます。第二に、出力として印刷できる機能の重みを通じて、変数に関する洞察を提供します。重みを見ると、分類に使用される変数を理解できます。たとえば、提示されたモデルでは、ファーストクラスのキャビンの乗客は生存率にプラスの効果がありましたが、年齢と男性であることはマイナスの効果がありました。また、インストラクターは、変数が相関している可能性があるため、特徴の重みを解釈する際には注意するようアドバイスしています。
13. Classification
13. Classification
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

講義 14. 分類と統計的罪



14. 分類と統計的罪

この YouTube ビデオでは、誤った結論につながる可能性のあるさまざまな分類と統計上の罪について説明しています。重要なポイントの 1 つは、機械学習モデルの研究から得られる洞察を理解することの重要性です。ロジスティック回帰の変数の重みの解釈は、特に特徴が相関している場合に誤解を招く可能性があるためです。このビデオでは、受信者動作特性 (AUROC) 曲線の下の領域を使用して分類器のパフォーマンスを評価し、数値を誤用する誘惑を避けることの重要性も強調しています。さらに、データを精査し、非代表的なサンプリングを回避することの重要性が強調されています。これは、ガベージ イン、ガベージ アウト (GIGO) や生存者バイアスなどの統計的罪につながる可能性があるためです。

  • 00:00:00 ビデオのこのセクションでは、インストラクターが機械学習モデルを研究して、データを生成したシステムとプロセスに関する洞察を得ることの重要性について説明します。彼は、タイタニック データセットの生存率を予測するために使用されたロジスティック回帰モデルのさまざまな変数の重みを調べることで、これを示しています。インストラクターは、さまざまな変数の相対的な重みを調べることで、難破船から生き残れない可能性がはるかに高いことに、三等船の男性乗客が関連していると結論付けました。彼は、機械学習モデルの研究から得られる洞察を理解せずに予測を行うために、機械学習モデルのみに頼らないよう警告しています。

  • 00:05:00 このセクションでは、特に特徴が相関している場合に、ロジスティック回帰で重みを解釈する際の問題についてスピーカーが説明します。ロジスティック回帰を使用するには、L1 と L2 の 2 つの方法があり、Python では L2 がデフォルトです。 L1 は、重みを見つけてそれらをゼロにするように設計されているため、高次元の問題でオーバーフィッティングを回避するのに役立ちます。ただし、L1 は、1 つの変数が重要であるにもかかわらず、より重みのある別の変数と相関している場合でも、1 つの変数をゼロにします。一方、L2 はすべての変数に重みを分散するため、特に相関関係がある場合、どの変数もそれほど重要ではないように見えます。これを説明するために、講演者はタイタニック号の客室クラスの例を示し、1 つの変数を削除すると結果の解釈がどのように変わるかについて説明しました。

  • 00:10:00 このセクションのビデオでは、相関する特徴を処理する際の重みの過剰解釈の問題について説明します。ビデオでは、いくつかの例を分析しながら、重み自体を解釈すると誤解を招く可能性がある一方で、重みの符号を解釈すると役立つことを強調しています。ビデオでは、ロジスティック回帰のパラメーター P について説明し、P のさまざまな値が予測の精度と感度にどのように影響するかを説明します。ビデオは、精度が良いように見えても、感度に問題がある可能性があることを強調することで締めくくられており、重要な結論を引き出す前に、結果を包括的に分析する必要があることを示しています.

  • 00:15:00 このセクションでは、スピーカーは受信者動作特性 (ROC) と、モデルの可能なすべてのカットオフを調べて結果の形状を確認できる曲線である方法について説明します。y 軸はは感度を表し、x 軸は 1 マイナス特異性を示します。彼らは、曲線下面積 (AUC) の重要性と、それがモデルのパフォーマンスをよりよく理解するのにどのように役立つかについて言及しています。スピーカーは、モデルのカットオフを選択する際に、モデルが悪い決定や不必要な間違いを犯すのを防ぐために、非常に敏感/非特異的または非常に特異的/鈍感な曲線のコーナーを避けるように警告します。

  • 00:20:00 このセクションでは、スピーカーは受信者動作曲線下の領域 (AUROC) を使用して分類器の性能を評価する概念について説明します。彼らは、曲線がランダム分類器と比較して分類器の有効性をどのように示しているか、および曲線が 1 に近いほど分類器のパフォーマンスが優れていることを説明しています。講演者はまた、AUROC スコアの統計的有意性を判断することは困難な場合があり、データ ポイントの数や現在のアプリケーションなど、複数の要因に依存することにも注意しています。最終的には、AUROC スコアの有用性が重要であり、実際の意思決定に役立つはずです。

  • 00:25:00 このセクションでは、スピーカーは受信者動作特性 (AUROC) 曲線下の領域の概念について説明し、特異性と比較して一般的にどのように使用されるかを説明します。彼らは、曲線の下の面積を計算するトリックは、特異性測定から取得した凹型曲線を使用することによって支援されると説明しています。これにより、統計の視覚化と比較が容易になります。ただし、このツールは誤解を招く目的で使用される可能性があるため、統計学者は数値を誤用する誘惑を避ける方法を理解する必要があると警告しています。彼らは、数字自体は嘘をつかないことを強調しますが、嘘つきは数字を使って誤った印象を与えます。講演者は XY ペアのセットを提供し、統計的には同じように見えますが、グラフにすると大きく異なる可能性があることを説明しています。

  • 00:30:00 このセクションでは、スピーカーは統計と実際のデータを混同しないことの重要性について説明し、プロットやグラフを通じてデータを視覚化することの価値を強調します。しかし、彼はまた、誤解を招くような図が意図的または意図せずに作成される可能性があると警告し、結論を引き出す前にラベルを精査し、チャートのコンテキストを理解する必要があることを強調しています.講演者は、視覚的に誤解を招くようなグラフの 2 つの例を提示します。1 つは成績の男女比較、もう 1 つは福祉とフルタイムの仕事をしている人の数の比較です。

  • 00:35:00 このセクションでは、スピーカーは、Garbage In, Garbage Out (GIGO) の一般的な統計上の罪について説明します。彼らは 1840 年代の国勢調査のデータを使用して、奴隷制度は奴隷にとって良いことであると主張し、解放された奴隷は奴隷にされた奴隷よりも狂気である可能性が高いと述べた例を提供しています。ジョン・クインシー・アダムスは、この主張の誤りを明らかにし、ひどい不実表示が行われたと主張した.講演者は、データの正確性が非常に重要であり、エラーがあったとしても、偏りがなく、独立しており、ガベージ イン、ガベージ アウトを回避するために均等に分散されている必要があることを強調しています。

  • 00:40:00 このセクションでは、話し手は、まったく分析しないよりも悪いデータを分析することに対して警告します。多くの場合、人々は誤ったデータを使用して誤った統計分析を行い、危険な結論に至ります。演説者は、廃止論者による 19 世紀の国勢調査データの欠陥のある分析の例を挙げています。データのランダムではないエラーを分析すると、正確ではない結論が導き出されました。次にスピーカーは、第二次世界大戦中、生存者の偏見がどのように同盟国に航空機について間違った結論を下させたかを引用します。彼らは、爆撃から戻ってきた飛行機を分析し、撃墜された飛行機ではなく、高射砲による銃弾の穴を支えていたスポットを補強しました。講演者は、統計手法は、母集団のサブセットをランダムにサンプリングすることによって、母集団全体に関する数学的ステートメントを作成できるという仮定に基づいていると説明しています。ランダム サンプリングを使用すると、意味のある結論を下すことができます。

  • 00:45:00 このセクションでは、スピーカーは、簡易サンプリングとも呼ばれる非代表的サンプリングと、統計分析への影響について説明します。彼は、便利なサンプルが通常無作為ではないため、生存者バイアスに悩まされ、特に世論調査やコース評価の結果をゆがめる可能性があると説明しています.さらに彼は、無作為で独立したサンプルを仮定する標準誤差の計算が、便利なサンプルから信頼できる結論を引き出すことができないことを指摘し、統計分析の信頼性の低さの例として政治世論調査を挙げています。重要なポイントは、データがどのように収集および分析されたか、および分析の根底にある仮定が正しいかどうかを理解することの重要性です。これにより、統計上の罪の餌食にならないようにすることができます。
14. Classification and Statistical Sins
14. Classification and Statistical Sins
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016. 講義 15. 統計的罪とまとめ



15. 統計的罪とまとめ

このビデオでは、John Guttag が 3 つの主な統計上の罪について説明し、それぞれが誤った結論につながる可能性がある例を示しています。彼は学生に、自分が見ているデータの種類を認識し、適切な間隔を使用して結論が正確であることを確認するように勧めています.

  • 00:00:00 John Guttag が 3 つの主要なタイプの統計的罪について説明しています: 0 から始まる y 軸の罪を犯すこと、データを切り捨てて正しく見えるようにすること、変動と傾向を混同することです。彼はまた、あまり議論の余地のないトピックである発熱とインフルエンザの例を示しています。この例では、インフルエンザにかかったときに気温が変わらないことは明らかです。 Guttag は、学生が見ているデータの種類を認識し、適切な間隔を使用して結論が正確であることを確認するように学生に勧めています。

  • 00:05:00 このビデオでは、統計学者と教授が、誤った結論につながる可能性があるチェリー ピッキング データの危険性について説明しています。彼は、科学者が適切な結論を出すためには、適切な期間にわたってデータを調べる必要があると示唆しています。

  • 00:10:00 スピーカーは、数字自体が常に大きな意味を持つわけではなく、統計を検討する際にはそのコンテキストが重要であると指摘しています。彼は、コンテキストが重要な統計の 2 つの例、豚インフルエンザと季節性インフルエンザについて説明しています。彼はまた、パーセンテージ変化について話すとき、分母を知ることが重要であると述べています.

  • 00:15:00 このビデオでは、パーセンテージを使用して癌クラスターなどを計算する際の落とし穴について説明します。これは、数学的シミュレーションが、何かの可能性をより正確に示す方法と、弁護士がこの情報を訴訟でどのように使用するかを示しています。

  • 00:20:00 このビデオでは、特定の地域にがんの症例が多いかどうかについての質問に統計分析がどのように役立つかを説明しています。このビデオでは、問題の弁護士が不適切な統計分析を行い、誤った結論につながった様子も示されています。

  • 00:25:00 このビデオでは、インストラクターが、テキサス狙撃兵の誤謬や複数の仮説検証など、さまざまな統計上の誤謬について説明しています。彼は、懐疑と否定は異なるものであり、データから推論を引き出すときは間違いを犯さないように注意する必要があると警告しています。

  • 00:30:00 このビデオの主なポイントは、プログラミングとはライブラリとアルゴリズムを使用して問題を解決することであるということです。このビデオでは、確率の観点から考える重要性と、問題を解決する際のランダム性の使用についても強調しています。

  • 00:35:00 このビデオでは、学生がデータを分析するために使用できるさまざまな統計モデルについて教授が説明しています。彼は、結果の信頼性を理解することの重要性を強調し、データを効果的に提示する方法に関するヒントを提供します。

  • 00:40:00 このビデオでは、コンピューティングの歴史を簡単に説明し、UROP (研究インターンシップ) の概念を紹介しています。コンピューター サイエンスはキャンパスで最も人気のある専攻ではないかもしれませんが、追求する価値のある分野であることを説明しています。最後に、このビデオでは、人生で成功する方法についての最後のアドバイスを提供します。
15. Statistical Sins and Wrap Up
15. Statistical Sins and Wrap Up
  • 2017.05.19
  • www.youtube.com
MIT 6.0002 Introduction to Computational Thinking and Data Science, Fall 2016View the complete course: http://ocw.mit.edu/6-0002F16Instructor: John GuttagPro...
 

初心者のための深層学習クラッシュ コース


初心者のための深層学習クラッシュ コース

このビデオでは、教師あり学習アルゴリズムと教師なし学習アルゴリズムに焦点を当てたディープ ラーニングの短期集中コースを提供します。モデル、状態、報酬、ポリシー、価値など、各アプローチの主要な概念について説明します。ディープ ラーニング モデルの主な欠点は、トレーニング データにオーバーフィットする可能性があり、一般化が不十分になることです。ドロップアウトやデータセットの拡張など、オーバーフィッティングに対処するためのテクニックについて説明します。このディープ ラーニングの入門コースでは、トピックの概要を説明し、ニューラル ネットワークとドロップアウトの重要性を強調します。また、深層学習の基礎を理解することで過適合を減らす方法についても説明します。

  • 00:00:00 このビデオでは、ジェイソンが視聴者にディープ ラーニングの速習コースを案内し、ディープ ラーニングとは何か、その重要性を説明しています。彼はさらに、深層学習がどのように機能するかを説明し、従来の機械学習に対する主な利点に焦点を当てています。それは、ドメインの専門知識や人間の介入を必要とせずに、特徴とタスクをデータから直接学習できることです。最後に、Jason は、さまざまなタスクで人間を凌駕する能力など、深層学習の最近の成功のいくつかについて説明します。

  • 00:05:00 ディープ ラーニング モデルには大量の計算能力とデータが必要であり、数十年前には利用できませんでした。第 3 に、これらのモデルは、TensorFlow や PyTorch などのオープン ソース ソフトウェアの人気の高まりとともに合理化されています。ニューラル ネットワークは、アルゴリズムが人間の脳の構造に着想を得た機械学習のサブフィールドであるディープ ラーニングの基礎を形成します。ニューロンが脳を構成しているように、ニューラル ネットワークの基本的な構成要素もニューロンです。ニューラル ネットワークはデータを取り込み、このデータのパターンを認識するようにトレーニングし、同様のデータの新しいセットの出力を予測します。伝播前の最後のステップで、新しいネットワークが予測を吐き出します。予測が正しければ、ネットワークは損失関数を使用して、期待される出力からの偏差を定量化します。予測が間違っている場合、ネットワークは逆伝播を使用して重みとバイアスを調整します。

  • 00:10:00 このビデオでは、ネットワークの初期化から始めて、深層学習がどのように機能するかを説明しています。最初の反復では、ネットワークに一連の入力データが与えられます。次に、損失関数を使用して予測を行うようにネットワークをトレーニングします。次に、バック プロパゲーションを使用して、ネットワークの重みとバイアスを調整します。次に、新しいネットワークは、データセット全体を予測できるようになるまで、勾配降下法を使用してトレーニングされます。このアプローチには、重みとバイアスに対する調整が入力データに依存しないという事実を含め、いくつかの欠点があります。

  • 00:15:00 深層学習で使用される最も一般的な 3 つの活性化関数は、シグモイド、tanh、relu です。これらの関数にはさまざまな長所と短所がありますが、最終的にはすべて非線形のニューラル ネットワークを生成します。勾配降下アルゴリズムは、活性化のスパース性を適切に処理できますが、「瀕死値の問題」に悩まされる可能性があります。

  • 00:20:00 深層学習は、人工ニューラル ネットワークのトレーニングを扱う機械学習の分野です。短期集中コースでは、活性化関数とは何かを説明することから始め、非線形活性化関数が深層学習で使用される理由について説明します。次に、短期集中コースでは、損失関数と、それらがネットワークのトレーニングにどのように使用されるかについて説明します。最後に、短期集中コースでは、オプティマイザーと、それらを使用してネットワークを可能な限り正確にする方法について説明します。

  • 00:25:00 勾配降下法は、特定の損失関数を最適化するために使用されるアルゴリズムです。ランダムな点から開始し、損失関数の勾配を最小または最大に達するまで減少させます。これは人気のあるオプティマイザであり、高速、堅牢、かつ柔軟です。勾配降下法は反復的であり、過去の勾配を使用して次のステップを計算します。

  • 00:30:00 このビデオでは、モデル パラメーター (機械学習モデル内の内部変数) とハイパーパラメーター (モデル内になく、データから値を推定できない外部変数) の違いについて概説しました。ハイパーパラメータは、「混乱を招く可能性のあるパラメータ」と呼ばれることが多く、通常は開業医によって手動で設定されます。勾配降下とバックプロパゲーションは、深層学習で使用される 2 つの一般的な反復プロセスです。著者は、深層学習モデルのトレーニングに必要なエポック数に関しては、「正しい答え」はないと指摘しています。データセットが異なれば反復回数も異なるためです。最後に、深層学習を効果的に使用するためのヒントをいくつか紹介します。

  • 00:35:00 このビデオは、教師あり学習に焦点を当てた、深層学習の速習コースです。カバーされる主な概念には、教師あり学習アルゴリズムとその目的、および線形回帰と非線形回帰が含まれます。

  • 00:40:00 教師なし学習の主な目標は、人間の観察者が理解できないデータのパターンと関係を見つけることです。教師なし学習は、クラスタリングとアソシエーションの 2 つのタイプに分けることができます。クラスタリングは、教師なし学習の最も単純で最も一般的なアプリケーションであり、データを異なるクラスターにグループ化するプロセスです。クラスには、互いに可能な限り類似し、他のクラスター内のデータ ポイントとは可能な限り異なるデータ ポイントが含まれます。クラスタリングは、人間の観察者には気付かれない可能性があるデータ内の潜在的なパターンを見つけるのに役立ちます。階層的クラスタリングは、階層のシステムによってクラスターを見つけ、すべてのデータ ポイントが複数のクラスターに属することができます。階層クラスタリングは、ツリー ダイアグラムとして編成できます。より一般的に使用されるクラスタリング アルゴリズムには、k-means、期待値、および aca の階層クラスター分析があります。一方、関連付けは、異なるエンティティ間の関係を見つけようとします。アソシエーション ルールの典型的な例は、マーケット バスケット分析です。教師なし学習は、ホストが滞在や体験を見つけ、世界中の人々をつなぐのに役立つ airbnb を含む、ほぼすべての場所でアプリケーションを見つけます。このアプリケーションは教師なし学習アルゴリズムを使用しており、潜在的なクライアントが要件を照会すると、airbnb がこれらのパターンを学習して推奨します

  • 00:45:00 初心者向けのディープ ラーニング クラッシュ コースでは、モデル、状態、報酬、ポリシー、価値など、強化学習の主要な概念について説明します。ディープ ラーニング モデルの主な欠点は、トレーニング データにオーバーフィットする可能性があり、一般化が不十分になることです。ドロップアウトやデータセットの拡張など、オーバーフィッティングに対処するためのテクニックについて説明します。

  • 00:50:00 ニューラル ネットワークは、多数の相互接続された処理ノード (ニューロン) で構成される機械学習アルゴリズムです。各ニューロンは、隣接するニューロンから入力を受け取り、出力を生成できます。ニューラル ネットワークは、複雑な機能をモデル化するために使用され、さまざまなアーキテクチャを使用してトレーニングできます。

  • 00:55:00 このビデオでは、クラッシュ コースで、従来のニューラル ネットワークではモデル化に苦労しているシーケンシャル メモリの概念を紹介します。リカレント ニューラル ネットワーク (RNns) は、隠れ層でフィードバック ループを使用する新しいネットワーク アーキテクチャの一種であり、可変入力長でデータ シーケンスをモデル化できます。
  • 01:00:00 このビデオでは、リカレント ニューラル ネットワークがどのように機能するか、およびネットワークの 2 つのバリアントであるゲート付きリカレント ニューラル ネットワークと長期短期記憶リカレント ニューラル ネットワークを使用して短期記憶の問題を解決する方法について説明します。

  • 01:05:00 ディープ ラーニングの 5 つのステップは、データ収集、データの前処理、モデリング、検証、エラー検出です。データの品質は重要であり、悪いデータは悪いモデルを意味します。データに関して万能というものはありませんが、一般的な経験則では、パフォーマンスの良いモデルに必要なデータ量は、そのモデルのパラメーター数の 10 倍にする必要があります。

  • 01:10:00 ビデオでは、信頼できるデータ セットでのトレーニングの重要性と検証セットの重要性について説明しています。続いて、トレーニング - テスト - 検証の分割比率について説明し、クロス検証を行う方法の例を示します。

  • 01:15:00 深層学習は、モデルをトレーニングする前に慎重にデータを準備する必要がある複雑なプロセスです。この準備プロセスの 1 つのステップは、欠損データの処理です。これを行うにはいくつかの方法があり、どちらにも長所と短所があります。最初のオプションは、欠損値のあるサンプルを除外することですが、関連する情報が削除される可能性があるため、リスクが高くなる可能性があります。 2 番目のオプションは欠損値を代入することですが、これには時間がかかる可能性があり、すべての場合に適切であるとは限りません。特徴のスケーリングは、ディープ ラーニング用にデータを準備するためのもう 1 つの重要なステップであり、データを正規化し、標準化し、外れ値の影響を軽減するのに役立ちます。データが準備されると、モデルをトレーニングするためにネットワークに送られます。次に、モデルは検証セットを使用して評価されます。モデルが良ければ、さらに最適化される可能性があります。データの準備は複雑で時間のかかるプロセスであることを忘れないでください。不明な点がある場合は、まずビデオをご覧ください。

  • 01:20:00 深層学習は非常に効果的ですが、過適合になりやすい場合もあります。オーバーフィットを回避するには、より多くのデータを取得する、モデル サイズを縮小する、重みの正則化を実装するなど、いくつかの方法があります。

  • 01:25:00 深層学習に関するこの入門コースでは、ニューラル ネットワークとドロップアウトの重要性を強調しながら、トピックの概要を説明します。また、深層学習の基礎を理解することで過適合を減らす方法についても説明します。
Deep Learning Crash Course for Beginners
Deep Learning Crash Course for Beginners
  • 2020.07.30
  • www.youtube.com
Learn the fundamental concepts and terminology of Deep Learning, a sub-branch of Machine Learning. This course is designed for absolute beginners with no exp...
 

ディープ ニューラル ネットワークのしくみ - 初心者向けフル コース



ディープ ニューラル ネットワークのしくみ - 初心者向けフル コース

00:00:00 - 01:00:00 ビデオ「ディープ ニューラル ネットワークのしくみ - 初心者向けフル コース」では、基本的な線形回帰方程式から画像認識で使用される複雑な畳み込みニューラル ネットワークまで、ニューラル ネットワークの動作について包括的に説明しています。インストラクターは、ノードのレイヤーが重み付き合計とスカッシュを実行して出力を生成する方法、重みを調整してエラーを最小限に抑えるためのバックプロパゲーションのプロセス、パターンを認識するための畳み込みニューラル ネットワークの概念など、ニューラル ネットワークの仕組みを例と視覚教材を使用して説明します。画像で。このビデオでは、ロジスティック関数、多層パーセプトロン、分類子を作成するための複数の出力関数の使用などのトピックについても取り上げています。

01:00:00 - 02:00:00 ディープ ニューラル ネットワークの初心者向けコースでは、ニューラル ネットワークの機能に関連するいくつかのトピックを扱います。コースのインストラクターは、畳み込み、プーリング、正規化、およびそれらを積み重ねてディープ ニューラル ネットワークを形成する方法について説明します。バックプロパゲーションは、エラーを減らすためにネットワークの重みを調整するために使用されるプロセスとしても説明されています。このコースでは、シーケンスからシーケンスへの変換におけるベクトル、ゲーティング、スカッシング関数、および再帰型ニューラル ネットワークの使用についても説明します。インストラクターは、LSTM ネットワークが文の次の単語を予測する方法と、時間の経過に伴うパターンを識別することによってロボット システムでどのように役立つかの例を提供します。最後に、このビデオでは、バックプロパゲーションを伴う勾配降下法を使用してニューラル ネットワークをトレーニングし、重みを調整してエラーを減らす方法について説明しています。

02:00:00 - 03:00:00 ビデオ「ディープ ニューラル ネットワークのしくみ - 初心者向けフル コース」では、人間レベルの知能と比較しながら、さまざまなシナリオでのニューラル ネットワークのパフォーマンスについて説明しています。講師は、多くのことをうまくこなす能力としての知能の科学的定義を紹介し、機械と人間の性能と一般性を対数目盛で比較します。このビデオでは、画像分類における畳み込みニューラル ネットワークの限界、ボード ゲームや言語翻訳でのディープ ラーニングの成功、レコメンダーと自動運転車の一般性の限界、ヒューマノイド ロボットの複雑化などのトピックを扱います。ビデオは、AlphaZero の知性、汎用性、およびパフォーマンスの大幅な向上を強調し、より一般的な一連のタスクに対応できるアルゴリズムを作成するために物理的な相互作用に焦点を当て、人間レベルの知性に近づけることを主張しています。最後に、インストラクターは、パターンを認識して正確な予測を行うための、畳み込みニューラル ネットワークでの畳み込み、プーリング、および正規化のプロセスについて説明します。

03:00:00 - 03:50:00 ディープ ニューラル ネットワークの仕組みに関するこのビデオでは、画像の輝度値のパターンを認識するニューロンとレイヤーを構築することで、画像分類のプロセスを初心者に説明しています。このビデオでは、勾配降下法と、遺伝的アルゴリズムやシミュレーテッド アニーリングなどのさまざまな最適化手法を使用した最適化プロセスについて説明しています。インストラクターは、エラーを最小限に抑え、バックプロパゲーションによって重みを調整する方法と、畳み込みニューラル ネットワークのハイパーパラメーターを最適化する方法について説明します。ニューラル ネットワークの作成に使用できるツールは多数ありますが、データの準備、解釈、およびハイパーパラメーターの選択について十分に理解することは依然として重要です。

パート1

  • 00:00:00 このセクションでは、インストラクターは、4 ピクセルの白黒画像が真っ白な画像か真っ暗な画像かを自動的に判断するタスクが与えられた場合に、ニューラル ネットワークがどのように機能するかの例を示します。垂直線、対角線、または水平線。彼は、ピクセルの明るさに関する単純なルールでこれを行うのは難しいと説明しています。代わりに、ニューラル ネットワークはすべての入力を取得し、明るさに応じて各ピクセルに番号を割り当てることから始めます。真っ白でマイナス1はずっと黒です。次に、入力ニューロンの重み付けされた接続が合計され、値が押しつぶされて、ニューロンの値がプラス 1 からマイナス 1 の範囲外にならないようになります。

  • 00:05:00 このセクションでは、ディープ ニューラル ネットワークの仕組みと各層の動作についてビデオで説明します。レイヤー内のニューロンは加重合計を実行し、結果をスカッシュします。これが次のレイヤーの入力になります。レイヤーが深くなるにつれて、受容野はより複雑になり、すべてのピクセルをカバーします。このビデオでは、スカッシュ関数に代わる整流線形ユニットの概念も紹介されており、ニューラル ネットワークの安定性が非常に優れています。最後に、必要な数のレイヤーを作成した後、ニューラル ネットワークの結果を提供する出力レイヤーが作成されます。

  • 00:10:00 このセクションでは、インストラクタがニューラル ネットワークをトレーニングして重みを調整し、出力予測と実際の真実との間の誤差を最小限に抑える方法について説明します。これは、傾き、つまり重みの変化に対する誤差の変化を計算し、誤差が減少する方向に重みを調整することによって達成されます。これは、重み調整ごとに各レイヤーですべての重みとニューロン値を乗算する必要があるため、計算コストの高いプロセスです。ただし、ニューラル ネットワークを介さずに勾配を直接計算できるようにする洞察があり、トレーニング プロセスをより効率的にします。

  • 00:15:00 このセクションでは、インストラクターがディープ ニューラル ネットワークのしくみと、微積分を使用して勾配を計算し、重みを調整してエラーを減らす方法について説明します。彼は、重みが 1 つのニューラル ネットワークの簡単な例を通して、連鎖の概念を示しています。この概念では、各小さなステップの勾配を掛け合わせて、完全な連鎖の勾配を取得します。彼は、各ニューロンで異なる操作を実行する必要がある逆伝播には多くの種類があると述べていますが、最終的には勾配を計算して重みを調整し、エラーを効率的に減らすことが目標です。

  • 00:20:00 このセクションでは、インストラクターは、シグモイド関数や修正された線形単位などのニューラル ネットワークの要素を逆伝播して、誤差に対する特定の重みの調整の効果を計算する方法について説明しました。ネットワークをトレーニングするには、完全に接続されたネットワークから開始し、すべての重みにランダムな値を割り当て、バックプロパゲーションを使用して誤差を計算し、それらの重みをわずかに調整します。答えでわかっている入力によって、重みの正確さが決まります。このプロセスは、ほとんどの画像で真実に近いパフォーマンスを発揮する低い位置に重みが引き寄せられるまで、複数の入力で繰り返されます。ニューラル ネットワークは、入力変数と出力変数の間のこのような関係を推定し、継続的に学習し、データ間の非線形関係を評価する傾向があります。

  • 00:25:00 このセクションでは、線形回帰式をネットワークとして表現する方法をビデオで説明しています。これは、ニューラル ネットワークがどのように機能するかをよりよく理解するのに役立ちます。ネットワークはノードとエッジで構成され、入力ノードは x sub 0 と x sub 1、出力ノードは v sub 0 です。w sub 0 0 と w sub 1 で表される重みは、接続するエッジです。入力ノードと出力ノード。これは有向非巡回グラフと呼ばれ、エッジが一方向にのみ進み、ループを形成する方法がないことを意味します。入力ノードを追加すると、方程式を高次元にすることができますが、依然として線形方程式のままであり、入力と出力の間の関係を決定する重みがあります。

  • 00:30:00 このセクションのビデオでは、2 層線形ネットワークの概念と、それに層を追加することでネットワークがどのように複雑になるかについて説明します。 2 層ネットワークは、同じように機能する同一の層で構成されています。モデルをより柔軟にするには、非線形性を追加する必要があります。追加する一般的な非線形関数はロジスティック関数で、シグモイド関数とも呼ばれ、S のような形をしています。ネットワークにレイヤーと非線形性を追加すると、より複雑なモデルが作成され、より洗練された結果が得られます。

  • 00:35:00 このセクションでは、ロジスティック関数と、分類器として使用されるロジスティック回帰におけるその役割について学びます。ロジスティック回帰は、1 つのカテゴリの観測値がゼロとして扱われ、他のカテゴリの観測値が 1 として扱われ、それらすべての観測値に最もよく適合するロジスティック関数が見つかる、連続的でカテゴリカルな入力と出力の間の関係を見つけます。入力を追加することで、ロジスティック回帰は多くの入力変数で機能し、次元数に関係なく線形分類器になります。また、ロジスティック関数に関連する非線形関数である双曲線正接についても学びます。これらの非線形関数は、線形ネットワークの領域から抜け出すのに役立ち、単層ネットワークでこれまでに見られたよりも幅広い動作を提供します。複数の非表示ノードを持つレイヤーを積み重ねることで、ウィグル、ピーク、谷のあるより複雑な曲線を作成できます。

  • 00:40:00 このセクションのビデオでは、2 層ネットワークによって作成された曲線が、多層ネットワークを使用して作成された曲線と数学的に同一である方法について説明しています。多層ネットワークはより少ないノードを使用してより複雑な曲線を作成できますが、2 層ネットワークは十分な数の非表示ノードを使用して豊富な曲線を作成できます。ビデオでは、これらの曲線を使用して分類子を作成する方法を説明し、線形分類子とは異なり、非線形分類子がインターリーブされた分類領域を作成できることを示しています。このビデオは、多層パーセプトロンの完全なネットワーク図と、入力、出力、層、および隠れノードの数を指定することで完全に定義できる 3 層の単一入力単一出力ネットワークの一般的な図を示して締めくくります。

  • 00:45:00 ビデオのこのセクションでは、プレゼンターが 2 出力ニューラル ネットワークを使用して、2 つの出力関数が交差する場所に基づいて入力空間を領域に分割する分類器を作成する方法について説明します。このアプローチは、3 つ以上の出力関数で拡張できます。これにより、より多くのカテゴリを学習し、線形分類器が達成できるよりも複雑な方法で入力スペースを切り刻むことができます。ただし、優勝カテゴリが次点カテゴリよりも大幅に優れているとは限りません。制限はありますが、この方法は、使用される活性化関数による滑らかさを優先しながら、多様なカテゴリ境界を作成するニューラル ネットワークの力を示しています。

  • 00:50:00 このセクションのビデオでは、畳み込みニューラル ネットワーク (CNN) と、顔、車、さらにはビデオ ゲームなどの画像のパターンを学習して認識する能力について説明します。このビデオでは、CNN は魔法ではなく、巧妙な方法で適用された基本原則に基づいていることを説明しています。このビデオでは、入力画像が X か O かを判断する CNN の簡単なおもちゃの例を使用して、CNN がどのように機能するかを説明しています。 CNN の難しい部分は、画像が何であるかを識別しながら多くのバリエーションが可能であることです。このビデオでは、CNN がどのように分散を処理し、画像を小さなパターンに分割し、フィルターを使用してそれらのパターンを識別することで画像を識別できるかを説明しています。

  • 00:55:00 このセクションでは、畳み込みニューラル ネットワークが画像の一部を照合して、2 つの部分が同じかどうかを判断する方法について説明します。画像を小さな部分または特徴に分割することにより、畳み込みニューラル ネットワークは特徴が互いに一致するかどうかを識別できます。これらの特徴を照合する背後にある計算はフィルタリングと呼ばれ、特徴を画像のパッチと並べてから、1 つのピクセルを別のピクセルで乗算し、それをピクセルの総数で割ることが含まれます。この機能を画像全体に繰り返し適用すると、この機能が発生する場所のマップが作成され、ニューラル ネットワークが画像のどの部分が一致するかを識別できるようになります。


パート2

  • 01:00:00 このセクションでは、コースのインストラクターがディープ ニューラル ネットワークで使用される 3 つの主なトリックについて説明します。最初のトリックは、畳み込みレイヤーです。画像は一連のフィルターで畳み込まれ、フィルター処理された画像のスタックが生成されます。 2 番目のトリックはプーリングです。これは、ウィンドウ サイズとストライド値を取得して、ウィンドウ内の最大値を表すより小さい画像を取得することにより、画像スタックを縮小するために使用されます。最後に、3 番目のトリックは正規化です。これは、数学が爆発しないようにするために使用され、画像内のすべての負の値をゼロに変更することを含みます。これらのトリックは積み重ねられてディープ ニューラル ネットワークを形成し、その出力はさらに操作可能なピクセルの配列を形成します。

  • 01:05:00 このセクションの動画では、ニューラル ネットワークが畳み込みレイヤーとプーリング レイヤーのディープ スタック テクニックを使用して、各反復で画像をフィルター処理および削減する方法について説明します。最後の完全に接続されたレイヤーは、フィルター処理され縮小された画像の各リストを一連の投票に接続し、最終的な回答になります。これらの重みを取得するために、ニューラル ネットワークは逆伝播に依存して、出力層からの最終的なエラー信号に基づいて調整します。このプロセスは、勾配降下として知られています。

  • 01:10:00 深層ニューラル ネットワークの仕組みに関する初心者向けコースのこのセクションでは、インストラクターが勾配降下のプロセスを説明します。これにより、ニューラル ネットワークの重みを調整してエラーを最小限に抑えることができます。重みを上下に調整することで、ネットワークは下り坂の方向を見つけ、エラーが最小になる最小値に落ち着きます。ハイパーパラメーターは、設計者が操作できるノブであり、使用される機能の数、プーリング レイヤーのウィンドウ サイズとストライド、全結合レイヤーの隠れニューロンの数などの決定が含まれます。さらに、インストラクターは、データが互いに近いものほど密接に関連しているパターンに従っている限り、ニューラル ネットワークは 2 次元、さらには 3 次元または 4 次元のデータにも適用できると説明しています。これにより、ネットワークを音声やテキスト分析などの分野で使用できます。

  • 01:15:00 このセクションでは、畳み込みニューラル ネットワーク (CNN) の制限について説明します。これは、局所的な空間パターンをキャプチャするように設計されているため、画像として表現できないデータには適していない可能性があるためです。 CNN は、パターンの検出と画像の分類において非常に効率的ですが、列のいずれかを相互に交換した後にデータが同様に有用である場合、CNN は適切ではない可能性があります。一方、再帰型ニューラル ネットワーク (RNN)、特に長短期記憶 (LSTM) は、音声からテキストへの変換やある言語から別の言語への変換などのアプリケーションで、シーケンスからシーケンスへの変換に役立ちます。夕食の内容を予測するために LSTM がどのように機能するかの例を示します。ここでは、夕食のサイクルを観察することで投票プロセスが簡素化されます。

  • 01:20:00 このセクションでは、インストラクターがベクトルの概念を説明します。これは単なる数字のリストであり、機械学習でどのように役立つかについて説明します。ベクトルは可能なすべての値のリストの形式で表現され、それぞれに番号が割り当てられます。インストラクターは、ワンホット エンコーディングがエンコーディング ステートメントでどのようによく使用されるかを説明します。ニューラル ネットワークは、入力ベクトルの各要素を出力ベクトルの各要素に接続することによって設計されます。使用される例は、昨日の実際の情報と昨日の予測を考慮して、過去のデータを使用して夕食の内容を予測することです。インストラクターは後で、再帰型ニューラル ネットワークは、言語学習など、シリーズの次に来るものを予測するのに役立つ可能性があると説明しています。

  • 01:25:00 このセクションでは、スカッシング関数を使用してフィードバック ループを防止する方法について説明します。リカレント ニューラル ネットワークには、以前に使用された単語に基づいて、名前、時代、または「のこぎり」の投票が含まれます。ただし、このシステムは 1 つのタイム ステップしか記憶できないため、誤りや制限が生じます。これらを克服するために、要素ごとの加算と乗算のための平らな底、円内の「x」、および円内の十字を備えたスカッシング機能を含む追加のシンボルを介して、メモリ機能がネットワークに追加されます。これにより、ネットワークは多くの時間ステップ前に何が起こったかを記憶し、要素ごとの乗算を実行できるようになり、新しい機能と改善された機能が有効になります。

  • 01:30:00 このセクションでは、ビデオでゲーティングを紹介します。これにより、ニューラル ネットワークで通過するものとブロックするものを制御できます。このコンセプトは、さまざまなレベルの水流と蛇口を備えたパイプを使用して実証されています。値を 0 と 1 の間で押しつぶすロジスティック関数の導入により、常にこの範囲内の値を持つ方法が提供されます。次にビデオでは、ゲーティングを使用して記憶と予測を保持し、選択的に解放する方法を示します。ゲートのセットは、それぞれが独自のニューラル ネットワークとスカッシング機能によって制御されます。最後に、アテンション メカニズムが導入され、関係のない入力を脇に置いて、今後の予測と記憶が曇るのを防ぎます。

  • 01:35:00 このセクションでは、インストラクターが、訓練された LSTM ネットワークが文の次の単語の予測を生成する方法の例を示します。 LSTM が児童書の例でトレーニングされていると仮定すると、例文は「ジェーンはスポットを見た」です。 "Doug" という単語は最新の単語であり、LSTM は "Doug"、"Jane"、および "Spot" を実行可能なオプションとして予測します。次に、LSTM はこれらの予測を、予測を行うことを学習する 4 つの異なるニューラル ネットワークに渡し、LSTM は「saw」が次の単語である可能性が最も高いと予測します。この例では、LSTM が前の単語と予測に基づいて予測を生成し、メモリと選択ゲートを使用して特定のエラーを回避する方法を示します。

  • 01:40:00 このセクションでは、LSTM ニューラル ネットワークがデータのパターンを特定するために多くの時間ステップを振り返り、言語翻訳や音声テキスト変換ソフトウェアなどの実用的なアプリケーションで成功する方法についてインストラクターが説明します。彼はまた、LSTM ネットワークがロボティクスで特に有用である方法についても説明しています。ロボティクスでは、エージェントによって実行されるアクションが、何を感知し、何ステップ後に何を行う必要があるかに影響を与える可能性があります。 LSTM ネットワークは数学的に表現すると複雑に見えるかもしれませんが、インストラクターは、ディープ ラーニングを単純な飛行機と比較して高度に専門化された戦闘機になぞらえ、基本原理に集中するよう視聴者に促します。

  • 01:45:00 ビデオのこのセクションでは、インストラクターがニューラル ネットワークのニューロンの基本的な構造と機能について説明します。ニューロンの樹状突起は触手のように働き、電気的活動を拾い上げ、それが体細胞に蓄積され、信号として軸索を介して送られます。あるニューロンの軸索が別のニューロンの樹状突起に接触するシナプスを通過する信号の強度は、円の大きさで表され、円が大きいほど結合が強いことを示します。これらの接続に数値と重みを割り当てることで、複雑なニューラル ネットワークを、各棒が重みを表す円棒グラフに単純化できます。この図は、入力と出力の組み合わせを表すために使用され、各接続には独自の重みがあります。

  • 01:50:00 このセクションでは、ニューラル ネットワークが入力ニューロンと出力ニューロンへの接続を組み合わせることによって機能することをビデオで説明しています。このビデオでは、入力ピクセルを組み合わせて出力画像を作成する簡単な例を通して、入力ニューロンがピクセルや単語などの個々の要素をどのように表し、組み合わせてより複雑な概念を表すことができるかを示しています。このビデオでは、ニューラル ネットワークでの学習プロセスについても説明します。このプロセスでは、最初の接続の重みがランダムに割り当てられ、観測された入出力パターンに基づいて更新され、時間の経過とともにネットワークが改善されます。

  • 01:55:00 このセクションでは、バックプロパゲーションを伴う勾配降下を使用してニューラル ネットワークをトレーニングする方法をビデオで説明します。目標は、ニューロンの重みを調整して、実際の出力と期待される出力の間の誤差を減らすことです。小さな増分ステップを実行することにより、エラーが最小化されるまで重みが調整されます。このプロセスはデータ ポイントごとに繰り返され、複数のレイヤーがある場合は、1 つのレイヤーからの出力が次のレイヤーの入力として使用されます。これをディープ ニューラル ネットワークと呼びます。レイヤーが多ければ多いほど、学習できる機能が複雑になり、画像や自然言語のフレーズを識別することが可能になります。


パート3

  • 02:00:00 ビデオのこのセクションでは、インストラクターがディープ ニューラル ネットワークがさまざまなシナリオでどのように機能するかを説明します。顔や自動車の画像をトレーニングする場合、ニューラル ネットワークは目、鼻、車輪など、これらのオブジェクトの基本コンポーネントを認識することを学習します。ネットワークが深くなればなるほど、認識はより複雑になり、最終的には顔、クモ、テディベアなどの識別可能な画像につながります。さらに、ディープ ニューラル ネットワークを使用して、類似した音楽アーティストを学習し、グループ化することもできます。インストラクターは、深層ニューラル ネットワークを強化学習と組み合わせて、Atari ゲームを人間より上手にプレイする方法や、ビデオ表現を使用してロボットに料理を教える方法についても説明します。最後に、インストラクターは、ディープ ラーニングはパターンの学習に優れているが、魔法ではないことを明確にします。

  • 02:05:00 このセクションでは、知能の機能的定義を、多くのことをうまく行う能力として紹介します。この定義により、マシンの知能に関する科学的な議論が可能になり、さまざまなエージェントの相対的な知能を比較することができます。 「知性はパフォーマンスに一般性を掛けたものに等しい」という方程式を使用して、これを対数スケールでプロットして、パフォーマンスと一般性の人間レベルを表すことができます。限られた注意力や認知バイアスなどの人間の限界により、機械は一部の領域で人間のパフォーマンスを超える場合があります。

  • 02:10:00 このセクションでは、一般性を 1 つの軸に、パフォーマンスをもう 1 つの軸としてグラフ上でインテリジェンスを比較する方法について説明します。チェスをするコンピューターは、1989 年に IBM の Deep Blue が Gary Kasparov を破って、超人的なレベルで実行した最初のエージェントでした。どんな人間のプレーヤーよりも。ただし、Stockfish はチェス専用にプログラムされており、人間とは異なり一般性に欠けていることに注意してください。このビデオでは、Stockfish を、さらに複雑と見なされているボード ゲームの Go と比較し、知性における一般性の重要性を示しています。

  • 02:15:00 このセクションでは、チェスよりも指数関数的に多くの可能なボード構成があるにもかかわらず、囲碁のゲームが、畳み込みニューラル ネットワークと呼ばれる手法を使用して一般的な構成と強化学習を学習するプログラム AlphaGo によって打ち負かされた方法について説明します。人間のゲームのライブラリで、どの動きが良かったかを学びます。同様に、画像分類の分野では、ImageNet と呼ばれるデータベースが作成されました。このデータベースでは、機械が 5% 未満のエラー率で人間よりも優れた画像分類を行うことができました。機械はこのタスクで日常的に人間を打ち負かしており、機械学習の進歩は目覚ましいものがあります。

  • 02:20:00 このセクションでは、講師が画像分類における畳み込みニューラル ネットワーク (CNN) の限界について説明します。 CNN は、チェス盤のピクセルなど、データの 2 次元配列でパターンを見つけるように設計されていますが、トレーニング対象の画像セットの外では簡単に壊れることが示されています。 CNN の脆弱性は、画像が歪んでいる場合、単一のピクセルが変更されている場合、またはステッカーが追加されて CNN をだまして画像を誤分類させている場合に実証されます。講師は、画像分類の一般性は、ImageNet データセットで人間よりも優れているにもかかわらず、私たちが望んでいるものではないと説明しています。講義では、DeepMind のディープ q ラーニング アルゴリズムが、49 の古典的な Atari ゲームのうち 29 で人間のエキスパート レベルを達成し、世界に感銘を与えたことにも言及しています。

  • 02:25:00 このセクションでは、インストラクターが、ビデオ ゲームのプレイや言語の翻訳においてディープ ニューラル ネットワークがどのように機能するかについて説明します。畳み込みニューラル ネットワークを使用して、強化学習を使用してビデオ ゲームをプレイするためのピクセル パターンを学習した後、アルゴリズムは、長期的な計画を必要とする 20 のゲームで人間のパフォーマンスに匹敵することができませんでした。これは、アルゴリズムが、必要な接続を作成するためのいくつかのステップを事前に検討できなかったことを示唆しています。一方、言語翻訳では、長期短期記憶 (LSTM) を使用して、100 を超える言語を単一の中間表現に翻訳します。ただし、大量の計算が必要なため、翻訳には精度の制限と効率の問題があることに注意してください。したがって、機械翻訳には範囲がありますが、人間のパフォーマンスには及びません。

  • 02:30:00 このセクションでは、スピーカーはレコメンダーのパフォーマンスについて説明し、人間と比較した場合、レコメンダーは比較的問題ないと述べています。ただし、アルゴリズムは人の好みが変わる可能性があるという事実に適応せず、さまざまな製品がどのように関連しているかを考慮していないため、それらのパフォーマンスは完全ではありません。一般性に関して言えば、レコメンダーを適切に機能させるために必要な世界の知識は非常に深く、パフォーマンスに影響を与えます。ロボットの話に移ると、講演者は、自動運転車は、タスクがより複雑であるにもかかわらず、事故率が人間よりも低いため、印象的なパフォーマンスを発揮すると述べています。ただし、自動運転車は見た目ほど一般的ではありません。最大の秘訣はタスクの難易度を下げることであり、ソリューションに必要な一般性が低下します。

  • 02:35:00 このセクションでは、スピーカーは、自動運転車は見かけほど一般的ではなく、特定のセンサー セット、アルゴリズムの選択、および環境条件に基づいてカスタム エンジニアリングされていると説明しています。自動運転車の課題は、自動運転車が動作するすべての条件を網羅することです。現時点では、自動運転車は人間のドライバーよりもパフォーマンスが低くなります。これは主に、物理的な相互作用や、他の車や人との相互作用が原因です。次に、スピーカーはヒューマノイド ロボットと、ほとんどのアクティビティがハードコード化されており、非常に壊れやすいことについて説明します。システムの複雑化に伴い、一般的なアプリケーションが増えていますが、人間のエージェントと比較すると、パフォーマンスは笑えるほど低いままです。一般性とパフォーマンスの傾向が詳細に議論され、DeepMind で見られる AlphaZero プログラムの機能に関するスピーカーのポイントにつながります。

  • 02:40:00 このセクションでは、AI プログラムである AlphaZero がルールを与えられずに世界最高のボード ゲームのいくつかを打ち負かすことができた方法をビデオで説明します。 AlphaZero は、試行錯誤を通じてゲームのビジュアル パターンを学習するために作成されました。お互いに遊ぶ 2 人の AlphaZero の赤ちゃんが作成されましたが、学習できるのは 1 つだけで、もう 1 つは学習できませんでした。学習したものは、一方の学習とそうでないもので遊んでクローンを作成した後、なんとか進化して中間プレーヤーになりました。このアプローチにより、AlphaZero はわずか 4 時間で人間を打ち負かし、8 時間後には以前の最高のコンピューターを打ち負かしました。 AI ゲームはまた、最高のチェス ゲーム プログラムと最高の将棋プログラムを打ち負かしました。したがって、AlphaZero のインテリジェンス、汎用性、およびパフォーマンスの大幅な向上が示されました。このビデオでは、仮定がどのように一般性を制限し、AI システムのパフォーマンスを可能にするかについても強調しています。

  • 02:45:00 このセクションでは、講演者は、畳み込みニューラル ネットワークを含む人工知能で使用されるアルゴリズムによって行われるいくつかの一般的な仮定と、これらの仮定が人間レベルの知性を達成するには不十分である理由について説明します。仮定には、定常性、独立性、エルゴード性、および行動の効果がすぐに明らかになることが含まれます。これらの仮定は、あまり変化しない 2 次元配列の情報またはデータの分析には適していますが、世界との物理的な相互作用には当てはまらないため、ヒューマノイド ロボットや物理的に対話型のロボットには適していません。講演者は、物理的な相互作用に焦点を当てて、より一般的な一連のタスクに対応し、人間レベルの知性に一歩近づけるアルゴリズムを作成することを提案しています。このセクションでは、畳み込みニューラル ネットワークと、画像のビルディング ブロックを学習する能力についても紹介します。

  • 02:50:00 このセクションでは、画像のさまざまなサイズ、回転、重みを考慮して、画像が X か O かを分類できる畳み込みニューラル ネットワークの例をインストラクターが提供します。画像の特定の特徴を識別するために、ネットワークは画像の一部を特定の特徴と照合し、画像全体が適切に一致すると見なされるまでそれらをシフトします。このプロセスにはフィルタリングが含まれます。ここでは、フィーチャが画像と位置合わせされ、ピクセルごとに乗算され、ピクセルの総数で除算されます。この方法により、ネットワークは画像のパターンを認識し、正確な予測を行うことができます。

  • 02:55:00 このセクションでは、講師が畳み込みニューラル ネットワークで畳み込みがどのように機能するかを説明します。畳み込みは、機能を取得し、画像の可能なすべてのパッチをチェックして、それがどれだけ一致しているかを確認します。画像内のすべての場所で比較を行うことができ、その結果、フィーチャが画像と一致する場所のフィルター処理された画像マップが得られます。インストラクターは、プーリングがフィルター処理された画像を元の画像のより小さいバージョンに縮小する方法を説明します。このステップでは、ピクセルのウィンドウが選択され、最大化された値が選択されるため、元の信号を維持したまま画像が小さくなります。最後に、負の数を回避し、ネットワークで管理可能な値を維持するには、正規化が必要です。


パート 4

  • 03:00:00 ビデオのこのセクションでは、負の値をすべてゼロに変換する整流線形単位関数から始めて、畳み込みニューラル ネットワークが後続の層を通過するプロセスをインストラクターが説明します。 1 つのレイヤーの出力が次のレイヤーの入力のように見えるため、最終的な出力は、畳み込み、整流、およびプーリング レイヤーによって変換された画像のスタックです。サイズを縮小しました。さらに、インストラクターは、正しい答えが x または o である場合に強くなる傾向がある最終的なピクセル値は、それぞれ x または o カテゴリに強い票を与え、加重投票の合計を使用して入力を次のいずれかに分類すると述べています。 x または o は、特徴値のリストを取得し、各出力カテゴリの投票のリストになる全結合層によって決定されます。

  • 03:05:00 このセクションでは、スピーカーはニューラル ネットワークを使用して画像を分類する方法について説明します。画像は構成ピクセルに分解され、輝度値のリストに変換されます。各値は、黒の -1 から白の +1 までの範囲の異なる明るさのレベルに対応します。この輝度値のリストを使用して、4 つのピクセルから入力を取得し、加重合計を実行するニューロンを構築します。次に、ニューロンは「スカッシング」関数を適用して、結果が -1 から +1 の間になるようにします。ニューロンを使用して画像を分類するこのプロセスを複数回繰り返してレイヤーを作成できます。レイヤーは、人間の皮質に見られる生物学的レイヤーに大まかに着想を得ています。

  • 03:10:00 このセクションでは、ニューラル ネットワークの受容野が上位層でどのように複雑になるかについてインストラクターが説明します。入力層をニューロンの複数の隠れ層に接続することにより、各ニューロンは前の層からの入力を特定の重みで結合します。加重和の代わりに調整された線形単位が使用されると、ニューロンは正の場合は元の値を出力し、負の場合は 0 を出力します。このプロセスを通じて、ネットワークは目的の出力に似たパターンを認識することを学習し、その結果、入力を分類する最終的な出力レイヤーが作成されます。インストラクターは、水平バーのある画像の例を使用して、ネットワークが各レイヤーで画像を処理する方法を示します。

  • 03:15:00 このセクションのビデオでは、最適化プロセスと、深層ニューラル ネットワーク モデルが重みとフィルターの最適化を通じて適応することで学習する方法について説明しています。最適化プロセスは、お茶の温度を最適化して楽しみを最大化する例で説明されています。このプロセスには、数学関数の最小点を見つけることが含まれます。これは、最小値に達するまで反復を行い、入力をわずかに調整するプロセスである勾配降下法によって実行できます。このビデオでは、重みとフィルターが時間の経過とともに一連の例を通じて学習されることにも注意してください。これが機械学習の目的です。

  • 03:20:00 このセクションでは、スピーカーは勾配降下以外のモデルを最適化する他の方法について説明します。一般的な方法の 1 つは、曲率を使用して、さまざまな温度のお茶を作り、曲線の急峻さを観察することによって最適なパラメーターを見つけることです。ただし、この方法は、曲線の動作が適切でない場合に失敗する可能性があり、勾配が極小値にとどまる可能性があります。極小値に行き詰まるのを避けるために、遺伝的アルゴリズムやシミュレートされたアニーリングなどの他の方法を使用できます。これらの方法は、網羅的な探索よりもサンプル効率が高くなりますが、勾配降下ほど速くはありません。講演者は、これらの方法をさまざまな種類の車両と比較します。勾配降下法はフォーミュラ 1 のレースカー、遺伝的アルゴリズムとシミュレーテッド アニーリングは四輪駆動のピックアップ トラック、徹底的な探索は徒歩で移動するようなものです。

  • 03:25:00 このセクションでは、スピーカーは、数値最適化を使用して、間違いの少ない方法で質問に答える方法の例を示します。この例では、袋に入っている M&M の数を推測し、スピーカーは偏差測定を使用して推測をコスト関数に変換する方法を説明します。損失関数は、偏差の測定値を 2 乗したときに推測がどの程度間違っているかを計算し、範囲内の推測を徹底的に調べて、最小値を視覚的に見つけるのに役立ちます。あるいは、損失関数の導関数を取り、それを 0 に設定し、方程式を解くことによって、推測に対する勾配を見つけることができます。

  • 03:30:00 このセクションでは、スピーカーは最適化と、最適な重みと機能を見つけるためにニューラル ネットワークでどのように使用されるかについて説明します。勾配降下法を使用して、すべてのレイヤーのすべての重みを調整し、エラーを減らします。ただし、勾配を計算するには、下り坂の方向を判断するためにネットワークを何度も通過する必要があります。次に、勾配の問題の解析解を見つける方法としてバックプロパゲーションが導入され、より効率的な最適化プロセスが可能になります。講演者はまた、費用関数、具体的には偏差の二乗の使用についても説明します。これにより、偏差の合計の計算が可能になり、最良の推測を見つけることができます。

  • 03:35:00 このセクションでは、誤差関数の勾配または導関数の計算がニューラル ネットワークの重みの調整にどのように役立つかを講師が説明します。彼は、1 つの入力、1 つの出力、および 1 つのニューロンを含む 1 つの隠れ層を備えた単純なニューラル ネットワークの例を示し、単純な計算で誤差関数の勾配を見つける方法を示しています。重みの変化と誤差を分解して勾配を見つけるプロセスは連鎖と呼ばれ、ニューラル ネットワークの奥深くにある重みを調整することができます。このプロセスはバックプロパゲーションと呼ばれ、ネットワークの末端の値を使用して、ネットワークの深さを通るエラー伝搬の重みの導関数を計算する必要があります。

  • 03:40:00 ビデオのこのセクションでは、インストラクターがニューラル ネットワークのトレーニングにおける逆伝播ステップについて説明します。彼は、ニューラル ネットワークの各要素が微分可能なままであることの重要性を強調しているため、導関数を見つけるときにチェーン ルールを使用してチェーン内のリンクを計算できます。インストラクターは、チェーン ルールを完全に接続されたレイヤーに使用する方法を示し、畳み込みレイヤーとプーリング レイヤーに適用する方法についても説明します。効率的な答えを得るために何千回もの反復を繰り返してニューラル ネットワークの重みを調整するプロセスについても説明します。

  • 03:45:00 このセクションでは、講師が畳み込みニューラル ネットワーク (CNN) のハイパーパラメーターを最適化する方法を説明します。機能の数、サイズ、ストライド、プーリング ウィンドウ、隠れニューロンの数などのこれらのパラメーターは、次のレベルであり、以下のすべてがどのように発生するかを制御します。インストラクターは、研究者がうまく機能しているように見えるいくつかのレシピがあることを指摘していますが、これらのハイパーパラメータの組み合わせはまだ試していないことがたくさんあります。今まで見たものより。さらに、CNN は画像だけでなく、近くにあるものは遠くにあるものよりも密接に関連している 2 次元または 3 次元のデータにも役立つことに注意してください。ただし、CNN のパターン認識機能は空間パターンのみに制限されているため、データの空間構成が重要でない状況ではあまり役に立ちません。

  • 03:50:00 このセクションでは、スピーカーは、独自の畳み込みニューラル ネットワークをゼロから作成するのは大変な作業ですが、使用できる成熟したツールがすでに多数あることを説明しています。このセクションの要点は、ニューラル ネットワークを使用する場合、データの準備方法、結果の解釈方法、およびハイパーパラメーターの選択方法について、多くの微妙な決定を行うことが重要であるということです。データの処理内容とその背後にある意味を理解することは、利用可能なツールを最大限に活用するのに役立ちます。
How Deep Neural Networks Work - Full Course for Beginners
How Deep Neural Networks Work - Full Course for Beginners
  • 2019.04.16
  • www.youtube.com
Even if you are completely new to neural networks, this course will get you comfortable with the concepts and math behind them.Neural networks are at the cor...