機械学習とニューラルネットワーク - ページ 46

 

CS480/680 講義 3: 線形回帰



CS480/680 講義 3: 線形回帰

線形回帰に関する講義は、与えられた一連の点にできるだけ近づく最適な直線を見つける問題への導入から始まります。講師は、一次関数は重み付けされた入力の組み合わせで表現できると説明します。線形回帰は、重みベクトルを変更することでユークリッド損失を最小限に抑えることを目的とした最適化によって解決できます。これは、凸最適化問題を使用して効率的に実行できます。線形回帰方程式を解くプロセスには、目的関数のグローバル最小値を与える W 変数または重みを見つけることが含まれます。これは、逆行列や反復法などの手法を使用して実行できます。重みの大きさを制限して可能な限り小さくするために目的関数にペナルティ項を追加することで、過学習を防ぐための正則化の重要性についても説明します。講義は、線形回帰における過学習の問題に対処する重要性について説明して終了します。

  • 00:00:00このセクションでは、機械学習の標準的な回帰手法である線形回帰について講師が紹介し、問題を直感的に解説します。問題は、指定された一連の点にできるだけ近づく最適なラインを見つけることです。データは、入力特徴 X とターゲット出力 T で構成されます。目標は、H が線形であると仮定して、X を T にマッピングする仮説 H を見つけることです。線形関数は常に、入力の重み付けされた組み合わせを取得し、重みを入力で乗算してから加算する方法で表現できます。

  • 00:05:00このセクションでは、講演者は線形関数の空間と、損失関数を最小化する最適な線形関数を見つける目的について説明します。ユークリッド損失関数が使用され、二乗距離はターゲットから予測を減算することによって取得されます。話者は、Y は予測子の出力 (一次関数)、T1 は住宅の販売価格 (グラウンド トゥルース) であると説明します。住宅の評価では、バスルームや寝室の数などの複数の特徴が考慮され、サイズ 25 ~ 30 のベクトルが得られます。講演者は、スライドで使用されている表記法についても説明し、理論的には 2 で割る必要がないことにも言及しています。

  • 00:10:00講義のこのセクションでは、教授が線形回帰に言及する際にコース全体で使用する表記法について説明します。彼は、仮説に変数 H、データ点に X、すべてのデータ点の出力ベクトルに Y、重みベクトルに W を導入します。彼はまた、スカラー ポイントと連結されたデータ ポイントを表すために X バーを使用することについても言及しています。教授は続けて、線形回帰は W を変えることでユークリッド損失を最小限に抑えることを目的とした最適化によって解決できると説明しました。彼は、この最適化問題は凸型であるため簡単であり、最小値が 1 つ存在し、大域的な最適値を確実に見つけることができることを意味していると述べています。

  • 00:15:00線形回帰に関する講義のこのセクションでは、講演者は、最小値に到達するまで関数の曲率を追跡する勾配降下法を使用して凸最適化問題を効率的に解く方法を説明します。ただし、講演者は、非凸の目標には複数の最小値が存在する可能性があり、大域的な最適値を確実に見つけることが困難になることにも言及しています。線形回帰の目的は凸であるため、より効率的な解決策は、勾配を計算してゼロに設定し、この方程式を満たす単一点を求めることです。これは最小値を確保するために必要かつ十分です。

  • 00:20:00講義のこのセクションでは、教授は、目的関数の大域最小値を与える W 変数、つまり重みを見つけるために線形回帰方程式を解くプロセスを説明します。この一次方程式系は、W を分離することで W が B に等しいという形式に書き直すことができ、入力データを表す行列 A を反転して W を解くことができます。ただし、ガウス消去法などの他の手法もあります。共役勾配法と反復法を使用すると、より高速かつ効率的になります。教授はまた、データ ポイントと線の間の垂直距離を縮めることによって、出力 (Y 軸) に対するユークリッド距離を最小化する線を見つける概念を示す図を描きます。

  • 00:25:00このセクションでは、講師は、線形回帰で垂直距離を最小化し、単一の解を得る背後にある直感を説明します。目的関数は凸型であり、ボール型関数には単一の最小値があります。ただし、最小二乗目的を最小化することによって得られる解は安定しておらず、過学習につながる可能性があります。講師はこれを 2 つの例で説明します。そのうちの 1 つはイプシロンによって入力を乱します。この講義では、特異点または特異点に近いために行列 A を反転できないという重要な問題についても説明します。

  • 00:30:00講義のこのセクションでは、講師は、同じ行列 A を使用するがターゲット値 B が異なる線形回帰の 2 つの数値例を示します。最初の例では、最初のデータ ポイントのターゲット値がちょうど 1 です。一方、2 番目の例では、同じデータ ポイントに対して 1 にイプシロンを加えたターゲット値があります。イプシロンが非常に小さい値であるにもかかわらず、ターゲット値の違いにより出力が大きく変化します。インストラクターは問題をグラフィック表現で説明し、入力値の変化の重要性と、それが線形回帰において課題となる理由を強調します。

  • 00:35:00このセクションでは、講師が 2 つのデータ ポイントを使用して線形回帰について説明します。 X には 2 つのエントリがありますが、変化するのは 2 番目の次元であり、最初のエントリは無視されます。講師は 2 つのデータ ポイントを描画します。1 つは X が 0、ターゲットが 1 + イプシロン、もう 1 つは X がイプシロン、ターゲットが 1 です。これらの点を通る線は、ターゲットが変化すると傾きが 0 から -1 に変化します。最初のデータ ポイントの は 1 から 1 + イプシロンに増加し、不十分なデータとノイズによる過学習を示しています。より多くのデータやより高い次元がある場合でも、ソリューションは不安定です。

  • 00:40:00このセクションでは、線形回帰における正則化の概念を紹介します。正則化により、重みの大きさを制限するペナルティ項が追加され、重みが可能な限り小さくなるように強制されます。このペナルティ項は、出力とターゲットの間のユークリッド距離を最小化するという本来の目的に追加されます。正則化の使用は、数値的および統計的観点の両方から見ても理にかなっています。これについては、次の講義で説明します。問題によっては、ペナルティ項の重要性を決定するハイパーパラメータ ラムダを相互検証を通じて調整する必要があります。線形回帰における正則化により、線形方程式系がラムダ I + A 掛け W が B に等しい値に変更されます。正則化により、線形方程式の固有値が少なくともラムダになるように強制され、0 から遠ざけるように制限され、数値の不安定性やエラーが防止されます。

  • 00:45:00このセクションでは、講師は過学習を防ぐための線形回帰における正則化の適用について説明します。正則化のアイデアには、目的関数にペナルティ項を追加し、ペナルティ項に割り当てられる重みの量を制御するパラメータ ラムダを導入することが含まれます。講師は、この正則化手法がどのように機能するかを線形代数の観点から説明します。さらに、正則化によって線形回帰で得られた解がどのように安定化し、過学習を防ぐことができるかを示す例が提供されています。この例は、重みを最小化し、ペナルティ項を追加することで、より近い解が得られることを示しています。

  • 00:50:00このセクションでは、講師は線形回帰における過学習の問題を軽減するための正則化の重要性について説明します。過学習は、モデルがトレーニング データでは良好に動作するが、テスト データでは不十分に動作する一般的な問題です。正則化はこの問題に対処する 1 つの方法であり、このコースでは他のアプローチも取り上げます。次回の授業では、統計的な観点からこのトピックに取り組みます。
 

CS480/680 講義 4: 統計的学習



CS480/680 講義 4: 統計的学習

統計学習に関するこの講義では、周辺化規則、条件付き確率、同時確率、ベイズ規則、ベイズ学習などのさまざまな概念を教授が説明します。これらの概念には、確率分布の使用と、学習時の不確実性を軽減するための更新が含まれます。講義では、さまざまなアルゴリズムを正当化し説明するために、これらの概念を理解することの重要性を強調します。この講義では、特に大規模な仮説空間を扱う場合における、これらの概念の限界についても強調します。この制限にもかかわらず、事前分布が正しい限り、ベイジアン学習は最適とみなされ、ユーザーに有意義な情報が提供されます。

この講義では、ベイズ学習における扱いやすさの問題の解決策として、近似ベイズ学習の概念について説明します。最尤法と最大事後確率は、統計学習で一般的に使用される近似法ですが、過剰適合やベイジアン学習よりも精度の低い予測など、独自の弱点があります。この講義では、尤度の最大化から生じる最適化問題、さまざまな問題に必要なデータの量、コース課題における次の数枚のスライドの重要性についても説明します。講師は、たとえ一部の比率が実現不可能であっても、アルゴリズムは与えられた空間内で最良の仮説に収束することを強調して締めくくりました。

  • 00:00:00講義のこのセクションでは、教授は統計学習のトピックを紹介します。これには、統計と確率理論を使用して学習時の不確実性を捉え、軽減することが含まれます。このアイデアは、確率分布を使用して不確実性を定量化し、学習の進行に応じて不確実性を更新することです。この講義では、確率分布と複数の確率変数にわたる同時確率分布の概念についても説明します。最終的に、統計学習は、正則化を含むアルゴリズムを統計的な観点から説明し、正当化するのに役立ちます。

  • 00:05:00このセクションでは、講師が周辺化ルールを使用して結合分布から特定の分布を抽出する方法を説明します。彼は、気象条件、頭痛の状態、毎日の確率の 3 つの変数にわたる同時分布が与えられる例を示しています。彼は周辺分布を使用した確率の計算を実証し、結合確率や特定の天気や頭痛のシナリオの確率を見つけることがどのように可能であるかを示しています。この方法を使用することにより、彼は点 28 に来る頭痛または晴れのパーティーに到達し、結合分布から特定の分布を抽出する方法を示します。

  • 00:10:00このセクションでは、条件付き確率の概念について説明します。これは、ある変数が別の変数に与えられる確率によって表されます。垂直バーは分数の基準を表し、分子は両方の変数が真である世界を表します。この概念を説明するために、両方の変数を持つ人の数の比率を考慮したグラフ表示が使用されます。この概念は、インフルエンザで頭痛が起こる確率など、まれに起こる出来事を判断するために使用されます。

  • 00:15:00このセクションでは、講演者が計数法と視覚化法を使用して条件付き確率を計算する方法を説明します。条件付き確率の一般方程式は、特定の変数を持つ世界の数を表す 2 つの領域の分数です。結合確率と周辺確率の概念が導入され、結合分布を条件付き確率と周辺確率に因数分解できる連鎖則方程式が説明されます。講演者はまた、頭痛がある場合にインフルエンザにかかる確率は、インフルエンザがある場合に頭痛が生じる確率と同じであると仮定するというよくある間違いについて警告し、これがなぜ誤りであるかを説明します。

  • 00:20:00このセクションでは、講演者は症状に基づいて病気を診断するという文脈で条件付き確率を検討します。条件付き確率の引数の順序は、左側が推定対象で右側がコンテキストであるため、重要です。講演者は、頭痛がある場合にインフルエンザにかかる確率を計算する例でこれを説明します。インフルエンザと頭痛の同時確率は連鎖則を使用して計算され、その同時確率を頭痛の限界確率で割ることによって条件付き確率が得られます。別の例として、頭痛、晴れ、寒さの 3 つの確率変数を使用します。晴れの場合の頭痛と風邪の条件付き確率と、晴れの場合の頭痛と風邪の逆の条件付き確率が計算されます。

  • 00:25:00講義のこのセクションでは、講師は特定の状況に基づいて複数のイベントの同時確率の計算を説明し、特定の状況で確率の合計が 1 にならない理由について説明します。例としては、その日が晴れているかどうかにかかわらず、頭痛や風邪を引く確率が挙げられます。次にインストラクターは、確率の合計が 1 になるかどうかを判断するために、垂直バーの左側にあるすべての結果を考慮することの重要性を強調し、イベントのコンテキストを変更すると結果が生じると仮定するというよくある間違いに対して警告します。合計が 1 になる確率で。

  • 00:30:00このセクションでは、機械学習や推論に使用されるベイズ則について講師が説明します。ベイズ ルールを使用すると、引数を交換することで 2 つの条件付き確率間の関係を計算できます。これは、初期の不確実性を捕捉する事前分布とともに使用され、その後、事後分布を取得するために事前分布を修正するために使用される証拠またはデータセットが続きます。このルールは、特定のデータセットを取得する可能性を測定するためにも使用でき、不確実性を定量化する分布を修正することで学習するための効果的なツールとなります。ベイズ ルールの方程式には、事前確率を証拠で割るのではなく、確率と定数を乗算することが含まれます。

  • 00:35:00講義のこのセクションでは、学習の観点から、証拠の性質は正規化定数であると講演者が説明しています。これには、結果の数値が 0 と 1 の間になるように分子を正規化する目的があります。ベイジアン学習のプロセスでは事後分布が得られますが、実際に必要なのは、予測を行うために使用する仮説です。これを行うには、仮説の重み付けされた組み合わせを使用して、対応する事後確率に従って仮説を重み付けして予測を行います。

  • 00:40:00このセクションでは、事後分布を使用して機械学習のさまざまな仮説の重みを定義するという概念について説明します。ベイジアン学習を使用してキャンディーの袋内のフレーバーの比率を推定する例が示されています。この場合、事前分布は最初に行われた推測であり、証拠はキャンディーを食べることによって得られたデータに対応します。事後分布は、不確実性を軽減し、フレーバーの比率を知るために使用されます。最初の信念は主観的なものであり、知識に基づいた推測に基づいている場合があります。

  • 00:45:00講義のこのセクションでは、スピーカーはキャンディーの袋内のフレーバーの比率を推定するためのベイズ学習について説明します。尤度分布は、キャンディーが同一かつ独立して分布しているという仮定に基づいて計算されます。ベイズの定理を使用し、事前確率と尤度を乗算すると、事後分布が得られ、各仮説の事後確率が得られます。講演者は事後分布をグラフで示し、これまでに食べたキャンディーがすべてライムである場合に、すべてがライムであるという仮説の確率がどのように支配的になるかを説明します。

  • 00:50:00統計学習に関するビデオのこのセクションでは、発表者が袋からランダムにキャンディを取り出し、その風味を記録するキャンディ バッグ実験の結果について説明します。バッグの風味比率に関する仮説は観察に基づいて更新され、確率が計算されます。ライムが観察されると、袋の中にチェリーだけが入っているという仮説の確率はゼロに下がりますが、ライム 75% とチェリー 25% という仮説の確率は、ライムが増えると増加しますが、キャンディーが 4 個になると再び下がります。発表者はまた、各仮説に対して選択された初期確率は事前の信念を表しており、選択は専門家の信念に応じて主観的なものであると説明しています。最後に、発表者は、ユーザーに有意義な情報を提供するために、事後分布を使用して予測を行うことの重要性を強調しました。

  • 00:55:00講義のこのセクションでは、講演者がベイズ学習とその特性について説明します。ベイズ学習は、事前確率が正しく、予測を行うための原則的な方法を提供する限り、最適であると考えられます。さらに、一般に、機械学習における重要な問題である過学習の影響を受けません。ただし、ベイズ学習の主な欠点は、特に大規模な仮説空間を扱う場合、一般的に扱いにくいことです。このため、事後分布と予測の計算に問題が生じます。

  • 01:00:00このセクションでは、ベイズ学習の扱いやすさの問題の解決策として、近似ベイズ学習の概念を紹介します。最大事後確率は、事後確率が最も高い仮説を選択し、それに基づいて予測を行う一般的な近似の 1 つです。このアプローチは、過学習を制御することはできますが、排除することはできません。また、単一の仮説に依存するため、ベイズ予測よりも精度が低くなります。最尤法も、データに最もよく適合する仮説を選択する近似であり、事前確率を使用しないため、ベイジアン学習よりも単純になりますが、精度は低くなります。どちらの近似も難解な問題を解決しますが、それを最適化の問題に置き換えます。

  • 01:05:00ビデオのこのセクションでは、インストラクターが、データに最もよく適合する仮説である最尤の概念を説明します。ただし、これにはノイズを含むすべてのフィッティングが含まれる場合があり、オーバーフィッティングにつながる可能性があります。尤度を最大化すると計算が簡素化されますが、ベイジアン予測や MAP 予測よりも予測の精度が低くなります。尤度の最大化から生じる最適化問題は依然として扱いにくい場合がありますが、コース内の多くのアルゴリズムは統計的な観点から尤度を最大化します。最後に、講師は、さまざまな問題にどれだけのデータが必要になるかという問題について議論します。これは学習理論の分野に属し、仮説空間のサイズによって主観的に異なります。

  • 01:10:00このセクションでは、講演者は講義を終了しますが、課題にとって重要となるスライドを次の講義でさらにいくつか取り上げる予定であると述べています。彼はまた、一部の比率が実現不可能であっても、アルゴリズムは与えられた空間内で予測を行うのに最も適した仮説に向かって収束するとも述べています。
 

CS480/680 講義 5: 統計的線形回帰



CS480/680 講義 5: 統計的線形回帰

統計的線形回帰に関するこの講義では、教授はノイズの多い破損したデータの最尤度分布とガウス尤度分布の概念から始めて、数多くのトピックを取り上げます。彼らは、データセット内のすべてのデータ ポイントの最大確率を与える重みを見つける際の最尤技術の使用について説明しています。次に、講義では、最大事後確率 (MAP)、球面ガウス、および共分散行列の概念を詳しく説明します。講演者は、アプリオリ情報と正則化の使用についても説明します。線形回帰での予想誤差は 2 つの項に分解されます。1 つはノイズを考慮した項、もう 1 つは重みベクトル W に依存する項で、さらにバイアスと分散に分解できます。講義は、事後分布を計算するためのベイジアン学習の使用についての議論で終わります。全体として、この講義では統計的線形回帰に関連する幅広いトピックを取り上げ、予測誤差を減らすためのモデルの最適化に関する貴重な洞察を提供します。

この講義では、より多くのデータ ポイントが観察されるにつれて、真の重みセットに収束する事後分布を推定するベイジアン回帰に焦点を当てます。事前分布は、W naught と W1 のペアにわたる分布であり、直線の分布であることが示されています。データ ポイントを観察した後、事前分布と尤度分布を使用して事後分布が計算され、その結果、ラインの位置に対する確信度が更新されます。予測を行うには、事後分布に基づいて仮説の予測を重み付けして組み合わせて、特定の式で与えられる平均と分散を持つガウス予測を導き出します。実際のポイント予測を取得するコツは、ガウス予測の平均を取ることです。

  • 00:00:00このセクションでは、線形回帰のコンテキストにおける最大尤度および最大敵対者想定学習の概念が導入されます。データは、ノイズが多く破損した測定値から取得されたものであると想定されます。観察された出力は、基になる関数の出力にノイズが追加された破損したバージョンです。ガウスはノイズを表すものと仮定されます。尤度分布は、データセット内の各入力に対する特定の出力を測定する尤度を決定するために表現されます。この理解は、正則化についてより適切な選択をするのに役立ちます。

  • 00:05:00講義のこのセクションでは、教授は線形回帰の文脈でガウス分布について説明します。彼らは、基礎となる関数が線形で決定論的であると仮定すると、結果の分布は W 転置 X に等しい平均とシグマ二乗に等しい分散を持つガウス分布になると説明しています。次に、ガウス分布のグラフを描画して、平均値付近の値を測定する確率が高く、曲線の幅がシグマ二乗によって決定されることを示します。教授は、これが尤度関数であり、最尤法を使用してデータセット内のすべてのデータ ポイントの最大確率を与える W を見つけることができると指摘しています。

  • 00:10:00このセクションでは、講師が統計的線形回帰に最適なモデルを選択する方法を説明します。まず、特定の入力 X と分散シグマを伴うノイズ レベルで観測される Y の確率を最適化することから始めます。次に、講師は、自然対数を取得し、無関係な要素を削除することによって、この式を単純化して凸の目的に再スケーリングする方法の導出を示します。結果は元の最小二乗問題であり、線形回帰における点と線の間の距離を最小化する直感的なアプローチを示しています。

  • 00:15:00このセクションでは、講演者が統計的な観点と、ガウス ノイズのあるモデルを仮定することによって測定値を観測する可能性が最も高くなる W を見つける方法について説明します。最適化問題は数学的に同等であるため、このアプローチの信頼性が高くなります。合計のすべての項からシグマを削除することは、数学的には合計からシグマを取り出すことと同じであり、W が選択されている場合、すべての単一測定に同じノイズが存在するという仮定が可能になります。講演者は、最適な解決策を見つけるためにノイズのモデルを用意し、それを固定しておくために繰り返しの実験に基づいてシグマを推定することが重要であるとも述べています。事後分布は、尤度および正規化定数による事前分布の積として事後分布を計算することにより、事後分布で最も高い確率を持つ W を見つけることによって計算されます。

  • 00:20:00講義のこのセクションでは、インストラクターは最大事後確率 (MAP) の概念と、それが最尤法とどのように異なるかについて説明します。 MAP では、計算に事前分布を含めて仮説の分布を改良し、不確実性を低減します。インストラクターは、重みベクトル (W) のガウス事前分布を定義する方法と、多変量ガウスの PDF を計算する方法を説明します。講師は、ガウス分布の形状を示す等高線の描画例も提供します。

  • 00:25:00講義のこのセクションでは、講師が球面ガウスの概念とそれが共分散行列にどのように関連するかを説明します。共分散行列の対角のエントリは各重みの分散を表し、対角以外のエントリは重み間の共分散を表します。次に、講師は、共分散行列の逆数が単位行列のラムダ倍に等しいと仮定して、導出を使用して事後行列の最大値を見つける方法を示します。このように、この式は正則化最小二乗問題と等価であり、ペナルティ項は W の二乗ノルムのラムダ倍になります。正則化項は新しい方法で解釈できるようになり、事前分布から来ていることが明確になります。そして、W のノルムを最小化することは、重みを分布の平均に近づけることと同じです。

  • 00:30:00このセクションでは、講演者は、統計的線形回帰で共分散行列を選択するためのアプリオリ情報の使用について説明します。解がゼロに近いはずであることを示唆する情報がある場合は、一定の広がりを持つ釣鐘型分布で定義された共分散行列とともにゼロ平均の事前分布が使用されます。尤度を最大化することは、この事前分布を使用する場合、ペナルティ項を使用して正規化された目的を最小化することと同じです。ガウスが球形ではなく、より一般的な形状をしている状況では、各次元の半径が異なります。これは、対角要素に異なる値が存在することを意味します。共分散行列はどの方向でも同じ幅を持つ対角形式であると仮定するのが合理的であり、実際にはこれがうまく機能する傾向があります。

  • 00:35:00このセクションでは、講演者は、組織用語を使用して二乗損失を最小化し、事後仮説を最大化するアプローチが、どのように潜在的に異なる損失結果をもたらす可能性があるかを説明します。このセクションでは損失関数を分析し、予想損失を 2 つの異なる項に分類します。ラムダの選択は解に影響を与え、したがって予想される損失にも影響します。次に、講演者は、与えられた W がどのようにして予想される損失につながるのか、そしてこの損失が 2 つの異なる項にどのように分解できるのかについての数学的導出を示します。分析はサンプル データセットと基礎となる分布に基づいており、その結果を使用して、特定の W の予想損失とさまざまなラムダの影響を理解することができます。

  • 00:40:00講義のこのセクションでは、講演者が線形回帰モデルの予想誤差の導出について説明します。予想誤差は 2 つの項に分類されます。1 つはノイズを考慮する項、もう 1 つは重みベクトル W に依存する項です。この 2 番目の項はさらに拡張して、バイアス二乗と分散に分解できることを示します。 。バイアスは、モデルの出力と近似される真の基礎関数との間の平均差を測定し、分散は平均値付近のモデルの出力のばらつきを測定します。予想誤差に対するバイアスと分散の寄与を理解することで、データ サイエンティストはモデルをより適切に最適化し、予測誤差を削減できます。

  • 00:45:00講義のこのセクションでは、教授は、期待損失をノイズ、分散、バイアス二乗という 3 つの項に分解することを説明します。これにより、x 軸がラムダ、つまり割り当ての正則化項の重みであるグラフが得られます。ラムダが増加すると、誤差は最初は減少し、その後再び増加します。期待される損失は、ノイズと分散とバイアスの二乗で構成されます。このグラフは、分散とバイアスの二乗の曲線が分散とバイアスの二乗の個々の曲線の合計であることを示しています。相互検証は、達成される誤差を制御できる最適なラムダ値を見つけるために使用されますが、予想される損失と実際の損失の差は、すべての場合に存在するノイズとなります。

  • 00:50:00このセクションでは、講師は非線形回帰の例を示し、さまざまなデータセットで最大事後学習を適用することで得られたさまざまな曲線がどのようにバイアスと分散に関係するかを説明します。講師は、ラムダが減少するとバイアスが減少し、分散が増加すると説明します。目標は、曲線に示されているように、バイアスと分散の間で最適なトレードオフを与えるラムダを見つけることです。講師は、誤差が二乗距離で測定されること、ラムダが正則化に使用されるパラメータであることにも言及しています。

  • 00:55:00このセクションでは、講師は二乗距離を最小化し、ペナルティ項を追加するというアイデアについて説明します。ラムダはペナルティ項の重みです。ラムダの変化はバイアスと分散に影響を与え、最適な W 値が異なります。また、期待される損失はラムダの関数として考えることができます。ベイジアン学習では、事前分布から開始し、機械学習を通じて不確実性を低減することによって事後分布を計算します。事後分布は、ガウス事前分布とガウス尤度を乗算することによって計算され、ガウス事後分布が得られます。

  • 01:00:00このセクションでは、線を表すことができる w の空間におけるガウス事前分布を利用して、ベイジアン回帰の概念を説明します。事前分布は、wnaught と w1 のペアにわたる分布であり、直線の分布であることが示されています。次に、単一のデータ ポイントを観察した後、事前分布と尤度分布を乗算して事後分布が計算されます。結果として得られる事後分布は尾根に沿って細長く、やや丸みを帯びているため、ラインの位置に関する最新の信念となります。

  • このセクションの01:05:00では、講師は、より多くのデータ ポイントが観察されるにつれて、真の重みセットに向かって収束する事後分布をベイズ学習がどのように推定するかを説明します。赤い線は、対応する事後分布からのサンプルを表します。これは、データ空間内の対応する線を定義する重みに関する分布です。ただし、最終的な事後分布に基づいて予測を行う方法については依然として問題があります。

  • 01:10:00このセクションでは、スピーカーはベイジアン学習を使用して予測を行う方法を説明します。これには、各仮説によって行われた予測の重み付けされた組み合わせが含まれます。予測は新しい入力に対して行われ、重みは事後分布によって決定されます。話者は、ガウス事後分布と、特定の式で与えられる平均と分散を使用してガウス予測に到達する尤度を使用します。最後に、実際のポイント予測を取得するための一般的なトリックは、ガウス予測の平均を取ることです。
 

CS480/680 講義 6: 調査用ツール (パウロ パチェコ)



CS480/680 講義 6: 調査用ツール (パウロ パチェコ)

このビデオでは、Paulo Pacheco が調査用の 2 つの学術ツール、Google Scholar と RefWorks を紹介しています。彼は、Google Scholar を使用して学術論文を検索し、引用によって並べ替える方法を説明し、古い論文をフィルタリングして新しい論文を見つけることを提案しています。 Pacheco は、引用のエクスポートと管理の重要性を強調し、このタスクのためのツールとして RefWorks を紹介します。また、独創的なキーワード検索の使用や、場合によっては大学のネットワーク アクセスや VPN が必要になるなど、学術出版物にアクセスするためのヒントも提供します。

  • 00:00:00このセクションでは、Paulo Pacheco がアンケートを実施するための 2 つのツール、Google Scholar と図書館の RefWorks を紹介します。彼は、Google Scholar を使用して学術論文を検索し、引用順に並べる方法を説明します。また、古い論文を除外して、より最近の論文に焦点を当てる方法も提案しています。 Pacheco 氏は、学術研究の引用文献のエクスポートと管理の重要性を強調し、そのプロセスを支援できるツールとして RefWorks について言及しています。

  • 00:05:00このセクションでは、講演者が、特に Google Scholar とウォータールー大学図書館を通じて学術出版物にアクセスするためのさまざまなツールとヒントについて説明します。彼は、Google Scholar を使用して関連論文を検索し、年や引用数で並べ替える方法を説明し、全文にアクセスするには大学のネットワーク アクセスまたは VPN の使用が必要な場合があることにも言及しています。さらに、インスピレーションや高品質のリソースを見つけるために、「NLP 用の素晴らしいデータセット」や「コンピューター ビジョン用の素晴らしいリンク」などのクリエイティブなキーワード検索を使用することを提案しています。
 

CS480/680 講義 6: Kaggle データセットとコンテスト



CS480/680 講義 6: Kaggle データセットとコンテスト

この講義では、提供されたデータセットを使用して賞金を獲得するためのデータ サイエンス実践者向けのコミュニティである Kaggle について説明します。Kaggle は、機械学習モデルのトレーニングとデータ特徴抽出用のカーネル、およびアルゴリズムの設計に使用する約 17,000 の膨大なデータセットを提供します。講師はまた、企業の GitHub リポジトリが貴重なデータセット、コード、およびコンテストに公開された論文を提供できることにも言及しました。

  • 00:00:00このセクションでは、講師が Kaggle について話します。Kaggle は、データ サイエンスの実践者がデータセットと賞金を提供する民間企業のスポンサー付きコンテストに参加できるデータ サイエンス コミュニティです。参加者はデータをダウンロードし、機械学習アルゴリズムをトレーニングし、予測をコンテストに提出して、予測がデータセットにとって最適であれば勝つことができます。 Kaggle は、特徴抽出や一部のデータで特定のタイプのモデルをトレーニングするのに役立つ、さまざまなユーザーによって送信されたコードのスニペットであるカーネルも提供します。コンテストやカーネルに加えて、Kaggle は考えられるあらゆる分野をカバーする約 17,000 のデータセットを提供します。ユーザーは、アルゴリズムの設計に必要な前提条件を満たす可能性のあるデータセットを見つけるために、少し調べてみることができます。

  • 00:05:00このセクションでは、講演者がさまざまな競技会のデータセットを見つけることができるいくつかのソースについて説明します。彼は Kaggle をデータセットの優れたソースとして挙げています。同氏はまた、有料コードや公開論文がコードの実行に使用できるデータとともに入手できる企業の GitHub リポジトリを調査することも提案しています。これは、高品質のデータセットを取得するための貴重なリソースとなります。
 

CS480/680 講義 6: フローの正規化 (Priyank Jaini)



CS480/680 講義 6: フローの正規化 (Priyank Jaini)

このビデオでは、深層生成モデルにおけるフローの正規化について紹介します。これは、既知の分布を対象となる未知の分布に変換することを目的として、ある分布を別の分布に変換する関数を学習する手法です。このビデオでは、フローの正規化に関連するさまざまな論文や進歩の調査の実施、単一ガウスの混合ガウスへの変換の分析など、フローの正規化に関連する可能性のある研究プロジェクトについても説明しています。講師は、フローの正規化のさまざまな応用例を探求することを奨励します。

  • 00:00:00このセクションでは、講演者が深い生成モデルにおけるフローの正規化について紹介します。分布の学習は機械学習の重要な側面であり、フローの正規化はある分布を別の分布に変換する関数を学習する手法であると講演者は説明します。目標は、ガウス分布などの既知の分布を、対象となる未知の分布に変換することです。実際には、この変換にはニューラル ネットワークが使用され、研究の焦点は、望ましい分布を得るニューラル ネットワークの設計にありました。

  • 00:05:00このセクションでは、近年注目を集めている機械学習のホットトピックであるフローの正規化に関連する可能性のある研究プロジェクトについて講師が説明します。プロジェクトのアイデアの 1 つは、フローの正規化に関連するさまざまな論文や進歩に関する調査を実施することであり、それらは出版可能な可能性があります。もう 1 つのアイデアは、特定の関数を使用して単一のガウス分布の混合ガウス分布への変換を分析し、これを指数関数分布やスチューデント T 分布などの他の分布にどのように拡張できるかを分析することです。講師はまた、金融資本市場におけるヘビーテールの行動を捉える上で理論的に未解決の問題についても強調します。全体として、講師はフローの正規化のさまざまな応用例を探求することを奨励しており、興味のある学生が、より詳しい知識を得るために連絡することを歓迎しています。
 

CS480/680 講義 6: 教師なし単語翻訳 (キラ・セルビー)



CS480/680 講義 6: 教師なし単語翻訳 (キラ・セルビー)

このビデオでは、教師なし単語翻訳について説明しています。これには、言語間情報や辞書照合を行わずに、ある言語との間で翻訳する機械学習モデルのトレーニングが含まれます。 Muse モデルは、言語間の情報を一切使用せずに数百の言語で最先端の精度を達成でき、パフォーマンスにおいて教師ありモデルに近づくアプローチとして導入されました。教師なし単語翻訳のプロセスでは、GAN または敵対的生成ネットワークを使用して、さまざまな言語の単語の埋め込みスペースを翻訳するマトリックスが使用されます。これら 2 つのモデルを相互にトレーニングすることにより、2 つの分布を 1 つの空間にマッピングする方法が作成され、より良い変換結果が得られます。このモデルは、単語から単語への翻訳において 82.3% の精度を達成できます。

  • 00:00:00このセクションでは、講師は教師なし単語翻訳のトピックについて説明します。これには、言語間の情報や辞書の照合を行わずに、ある言語への、または言語からの翻訳を行う機械学習モデルのトレーニングが含まれます。講師は、単語をモデルの一部となるベクトルに変換する単語埋め込みの概念を説明します。講師は、線形変換によって異なる言語のベクトル空間を接続できるという単純な仮説を使用する Muse モデルを紹介します。 Muse は、言語間の情報を一切必要とせずに、数百の言語で最先端の精度を達成でき、パフォーマンスにおいては教師付きモデルに近づきます。

  • 00:05:00このセクションでは、Kira Selby が、異なる言語の単語の埋め込みスペースを翻訳するマトリックスを使用した教師なし単語翻訳のプロセスを説明します。この行列は、ある言語空間から別の言語空間に変換されたベクトル全体を比較できます。目標は、言語空間を一致させて翻訳を実現することです。このプロセスでは、GAN または敵対的生成ネットワークを使用します。このネットワークでは、ジェネレーターはソース空間ベクトルを取り込み、ターゲット空間ベクトルを提供する行列 u です。一方、ディスクリミネーターは、一連のベクトルが実際のフランス語データからのものであるか、モデルによって生成された近似フランス語データからのものであるかを識別することを学習します。これら 2 つのモデルを相互にトレーニングすることにより、2 つの分布を 1 つの空間にマッピングする方法が作成され、より良い変換結果が得られます。このモデルは、単語から単語への翻訳で 82.3% の精度を達成できますが、英語からペルシア語、ヒンディー語、日本語、ベトナム語へなどのいくつかの言語ではまだ収束していません。
 

CS480/680 講義 6: ファクトチェックと強化学習 (Vik Goel)



CS480/680 講義 6: ファクトチェックと強化学習 (Vik Goel)

コンピューター科学者の Vik Goel は、オンライン ニュースの事実確認における強化学習の応用について議論し、推奨システムを使用して裏付けとなる証拠をリアルタイムで挿入することを提案しています。彼は、引用が必要な場所を予測する分類器をトレーニングするためのデータ ソースとして学術論文の大規模なコーパスを使用することを提案しています。さらに、ゴエル氏は、プロセスを加速し、ビデオ ゲーム内のさまざまなオブジェクトを認識するために、研究者がどのようにして人間の事前分布を強化学習モデルにエンコードし始めたかについて説明します。これは、事前分布を追加することで学習プロセスを改善できる有望な研究領域を示しています。

  • 00:00:00講義のこのセクションでは、Vik Goel がオンライン ニュースのファクト チェックに強化学習を使用するというアイデアについて説明します。同氏は、Google がニュース記事の真実性を判断するための分類モデルをトレーニングするために使用できるファクトチェック Web サイトのデータセットを編集したと説明しています。しかし、ほとんどのニュース記事には本文中の引用が欠けているため、ゴエル氏は裏付けとなる証拠をリアルタイムで挿入する推奨システムを開発することを提案しています。彼は、学術論文の大規模なコーパスをデータ ソースとして使用し、各論文のどこで引用が必要かを予測するために分類器をトレーニングすることを提案しています。推奨システムを適用すると、どの情報源を引用すべきかを提案できるため、オンラインでの誤った情報の拡散を防ぐことができます。

  • 00:05:00このセクションでは、コンピューター科学者の Vik Goel が、エージェントが環境内の報酬を最大化することで目標を達成しようとする強化学習の概念について説明します。現在のモデルでは環境との何百万回ものインタラクションが必要なため、ビデオ ゲームのプレイ方法を学ぶことが困難になっています。このプロセスを加速するために、研究者らは人間の事前情報をモデルにエンコードして、エージェントがゲーム内のさまざまなオブジェクトを理解して認識できるようにする検討を開始しました。このアプローチは、科学者がより多くの事前分布を追加して学習プロセスを劇的に改善できる、広く開かれた研究領域を提供します。
 

CS480/680 講義 6: 和積ネットワーク (Pranav Subramani)



CS480/680 講義 6: 和積ネットワーク (Pranav Subramani)

この講義では、和と積で構成されるネットワークである和積ネットワーク (SPN) の概念について説明します。これは、非指数関数的な実行時間を生成する扱いやすい確率モデリングに使用され、解釈可能性や容易な限界密度計算などの多くの用途があります。このビデオでは、畳み込みニューラル ネットワークでの SPN の優れたパフォーマンス、GAN や変動水エンコーダーなどのモデルと組み合わせた場合のより優れた生成モデルの構築の可能性、敵対的堅牢性、強化学習シナリオ、予想されるユーティリティのモデリングなどの未開発の SPN の潜在的な研究分野についても言及しています。ゲームで。モデルを解釈する理論的な保証と、学者が機械学習の分野で重要な貢献をする機会も強調されました。

  • 00:00:00このセクションでは、講演者はいくつかの積ネットワークを使用した扱いやすい確率モデリングについて説明します。積ネットワークは和と積で構成されるネットワークであり、したがって「和積」と呼ばれます。これは、次の結果が得られる方法で確率関数をモデル化する扱いやすい方法です。非指数関数的なランタイム。そのサイズにもかかわらず、積和ネットワーク モデルは、表現力、解釈可能性、容易な限界密度計算、MAP クエリ計算、尤度計算の点で非常に便利であり、畳み込みニューラル ネットワークと組み合わせて優れたパフォーマンスを発揮します。これらのモデルは、最先端技術を約 10% 上回るパフォーマンスを発揮できることが示されており、Gans や変動水エンコーダなどの他のモデルと組み合わせて、より優れた生成モデルを作成できます。

  • 00:05:00このセクションでは、講演者がいくつかの製品ネットワーク (SPN) の潜在的な研究分野について説明します。講演者は最初に、「アムネスティ データセット」などのモデルやデータセットの解釈を可能にするいくつかの倫理的特性を紹介します。ニューラル ネットワークとは異なり、このモデルは、モデルが何を行っているかをある程度解釈できる理論的な保証を提供します。 SPN の潜在的な研究分野には、SPN のプライマリ ライブラリ上に機能を構築すること、敵対的な堅牢性、一部のプロダクト マックス ネットワークを使用した強化学習シナリオ、ゲームで期待されるユーティリティのモデリングなどが含まれます。これらの研究分野はほとんどが未開発であり、学者が機械学習の分野で多大な貢献をする機会を提供しています。
 

CS480/680 講義 6: EM および混合モデル (Guojun Zhang)



CS480/680 講義 6: EM および混合モデル (Guojun Zhang)

CS480/680 の講義 6 では、Guojun Zhang 教授が、混合モデルとデータのクラスタリングにおける使用に焦点を当てて、教師なし学習とクラスタリングの基本について説明します。この講義は、期待値最大化アルゴリズムとその Estep および Mstep プロセス、および最適化手法としての勾配降下法を中心に説明します。提案される可能性のあるプロジェクトには、混合モデルの学習において EM と勾配降下法がどのように動作するかを研究することが含まれており、最終的な目標は、悪い極小値を回避するためのより良いアルゴリズムを提案することです。プロジェクトに必要な数学的背景が記載されています。

  • 00:00:00このセクションでは、Cody が教師なし学習とクラスタリングの基本と、それが混合モデルにどのように関連するかを紹介します。混合モデルは、確率分布を条件付き分布の凸状の組み合わせとして記述する方法です。たとえば、ガウス分布の混合とベルヌーイ分布の混合を使用して、データをクラスター化できます。混合モデルの解を見つけるには、最小化する目的関数を定式化する必要があります。このための古典的なアルゴリズムは、期待値最大化アルゴリズムです。

  • 00:05:00このセクションでは、混合モデルの最適化における事後分布の評価と q 関数の最大化に使用される Estep プロセスと Mstep プロセスについて講師が説明します。勾配降下法は、説明されているもう 1 つの最適化アルゴリズムであり、最適化プロセスで取得できないクラスターがいくつかあることに注意してください。提案される可能性のあるプロジェクトは、混合モデルの学習において EM と勾配降下法がどのように動作するか、および悪い局所最小値を回避する方法があるかどうかを研究することであり、最終的な目標はより良いアルゴリズムを提案することです。講師は、このプロジェクトには数学的背景が必要であると指摘しています。