機械学習とニューラルネットワーク - ページ 2

 

MIT 6.S191: ディープ ジェネレーティブ モデリング



講義 4. MIT 6.S191: ディープ ジェネレーティブ モデリング

このビデオでは、ディープ ジェネレーティブ モデリングを使用して入力データのより滑らかで完全な表現を学習し、それを使用して新しい画像を生成する方法について説明します。 DGM の鍵は、潜在変数ごとに確率分布を導入することです。これにより、ネットワークはその潜在分布からサンプリングして新しいデータを生成できます。

  • 00:00:00 このレクチャーでは、Ava が、深い生成モデルを使用して、データ セットの基礎となる確率分布を学習する方法について説明します。彼は、密度推定とサンプル生成という 2 つの方法が実際にどのように機能するかを示しています。

  • 00:05:00 このビデオでは、プレゼンターが生成モデルを使用してデータセットの基礎となる特徴を学習する方法を説明しています。これは、顔検出や外れ値検出などのアプリケーションで役立ちます。

  • 00:10:00 オートエンコーダーは、高次元の入力データを低次元の潜在空間に圧縮できる強力な機械学習アルゴリズムです。この潜在空間は、後で再構築するためにデータをエンコードするために使用できます。変分オートエンコーダーを使用すると、潜在空間が確率的になり、入力データのより現実的で正確な再構成が可能になります。

  • 00:15:00 ビデオでは、ディープ ジェネレーティブ モデリング (DGM) を使用して入力データのより滑らかで完全な表現を学習し、それを使用して新しい画像を生成する方法について説明しています。 DGM の鍵は、潜在変数ごとに確率分布を導入することです。これにより、ネットワークはその潜在分布からサンプリングして新しいデータを生成できます。ネットワークの損失は、再構成項と正則化項で構成され、潜在変数の確率分布に何らかの構造を課します。ネットワークは、ネットワークの重みに関して損失を最適化するようにトレーニングされ、重みはトレーニング中に繰り返し更新されます。

  • 00:20:00 ビデオでは、正則化項 d が、推定された潜在分布と事前分布の間の距離を最小化するのにどのように役立つかについて説明しています。また、通常の事前確率がこれを達成するのにどのように役立つかを示しています。

  • 00:25:00 ビデオでは、一連のデータ ポイントから入力を再構築するために、深い生成モデリングがどのように使用されるかについて説明しています。この方法では、潜在空間に法線ベースの正則化を適用することで、潜在空間を滑らかにして完成させることができます。これにより、サンプリング層を介した勾配の逆伝播が可能になり、確率論の問題が解決され、ネットワークを介した勾配の直接伝播が妨げられます。

  • 00:30:00 このビデオでは、潜在変数モデル (Variational Autoencoders や Beta Vaes など) を使用して、データ セットで重要な特徴をエンコードする方法について説明しています。これにより、重要な特徴が自動的にエンコードされるため、より偏りのない機械学習モデルが可能になります。

  • 00:35:00  GAN は生成ネットワークを使用して実際のデータに似たサンプルを生成しますが、敵対者ネットワークは偽のサンプルと実際のサンプルを区別しようとします。トレーニング後、ジェネレーターとディスクリミネーターは、偽のデータを実際のデータからほぼ完全な精度で分離できます。

  • 00:40:00 ビデオでは、Deep Generative Models の損失関数について説明しています。これは、以前の講義で紹介された概念に要約されます。ディスクリミネーター ネットワークの目的は偽のデータを識別することであり、ジェネレーター ネットワークの目的は真のデータ分布にできるだけ近いデータを生成することです。トレイン ジェネレーター ネットワークは、完全にランダムなガウス ノイズの分布に基づく新しいデータ インスタンスを合成します。このノイズ分布の 1 つのポイント、真のデータ分布の 1 つのポイント、およびターゲット データの分布の 1 つのポイントを考慮すると、ジェネレーターがこれらのポイントの間のどこかにあるデータを生成することを学習していることがわかります。複雑なデータ多様体におけるドメイン変換とトラバーサルのこの考え方について詳しく説明し、ガンが現実的なデータ例を生成するための強力なアーキテクチャであることを示します。

  • 00:45:00 ビデオでは、アーキテクチャやスタイル トランスファーの改善など、ディープ ジェネレーティブ モデリングの最近の進歩について説明しています。それは、完全にペアになっていないデータを持つドメイン間の変換を可能にする、cyclegan モデルについて説明します。

  • 00:50:00 このパートでは、Ava が深層学習で使用される 2 つの主な生成モデル、変分オートエンコーダーとオート エンコーダーについて説明し、それらがどのように機能するかを説明します。彼はまた、これらのモデルと組み合わせて使用できる強力な配電変圧器であるサイクル ガンについても言及しています。著者は、参加者にコースのラボ部分に参加するよう促して講義を締めくくります。ラボ部分はすぐ後に続きます。
MIT 6.S191 (2022): Deep Generative Modeling
MIT 6.S191 (2022): Deep Generative Modeling
  • 2022.04.01
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 4Deep Generative ModelingLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, and lab materials: ht...
 

MIT 6.S191: 強化学習



講義 5. MIT 6.S191: 強化学習

このビデオでは、Alexander Amini が強化学習の概念と、強化学習を使用してニューラル ネットワークをトレーニングする方法について説明しています。まず、強化学習がどのように機能し、実際のシナリオでどのように使用できるかを説明します。次に、ポリシー勾配ネットワークをトレーニングする方法について説明します。最後に、トレーニング ループの反復ごとにポリシー勾配を更新する方法について説明して、ビデオを締めくくります。

  • 00:00:00 このビデオでは、強化学習について学習します。強化学習は、入力データの事前知識がなくてもディープ ラーニング モデルがトレーニングされる機械学習の一種です。強化学習では、ディープ ラーニング モデルは動的な環境に配置され、人間の指導なしでタスクを達成する方法を学習する役割を担います。これは、ロボット工学、ゲームプレイ、自動運転車など、さまざまな分野で大きな意味を持ちます。

  • 00:05:00 強化学習では、エージェントは環境内で行動を起こすエンティティであり、環境はエージェントが存在し行動する世界です。エージェントは、アクションの形で環境にコマンドを送信できます。状態とは、エージェントが現時点で自分自身を見つけた具体的かつ差し迫った状況です。エージェントは、環境から報酬を受け取ることもできます。

  • 00:10:00 強化学習に関する講義のこのパートでは、報酬、ガンマ、q 関数の概念について説明します。 q 関数は、現在の状態とアクションを入力として取り、そのアクションの後にエージェントが受け取ることができる将来の報酬の予想合計を返します。 q 関数を使用して、現在の状態とアクションを考慮して、特定の状態で実行する最適なアクションを決定できます。

  • 00:15:00 このパートでは、Alexander Amini が Atari ブレイクアウト ゲームとそれに関連する q 関数を紹介します。彼は、将来の報酬を最大化する aq 関数を見つけようとすることに基づく、価値学習アルゴリズムについて議論し続けます。次に、強化学習の問題をモデル化するより直接的な方法であるポリシー学習アルゴリズムを提示します。価値学習と政策学習の両方について簡単に説明し、価値学習に関する研究結果を示します。

  • 00:20:00 このビデオでは、強化学習、またはさまざまな可能なアクションと結果を試すことによって決定を最適化するための学習プロセスについて説明しています。このビデオは、エージェントがどのように振る舞うかの 2 つの例を示しています。1 つはエージェントが非常に保守的で、もう 1 つはエージェントがより攻撃的です。ビデオでは、ニューラル ネットワークをトレーニングして q 関数を学習させる方法について説明します。q 関数は、与えられた状態とアクションに対して実行する最適なアクションです。

  • 00:25:00 このパートでは、q 値強化学習エージェントをトレーニングする方法について説明します。 q 値は、さまざまな結果の相対的な重要性の尺度であり、ニューラル ネットワークを構築するために使用されます。考えられる各アクションの期待リターンが計算され、この期待リターンを最大化することによって最適なアクションが決定されます。 q 値損失関数を使用してニューラル ネットワークをトレーニングし、各アクションで受け取る報酬を観察して目標値を決定します。

  • 00:30:00 強化学習では、報酬を最大化するために環境からのフィードバックを使用してエージェントの動作を変更します。方策勾配法は、価値学習アルゴリズムよりも柔軟で効率的な強化学習アルゴリズムの新しいクラスです。

  • 00:35:00 このパートでは、Alexander Amini が強化学習を紹介します。これは、報酬と罰が存在する中でどのように行動するかを学習する方法です。強化学習では、エージェントのポリシーは、状態 (エージェントが置かれている環境) を取り、その状態で特定のアクションを取る確率を出力する関数として定義されます。次に、この確率を使用してニューラル ネットワークをトレーニングし、現在の状態と過去の報酬と罰に基づいて、エージェントの次のアクションを予測します。この学習アプローチの利点は、連続アクション空間を処理できることと、ポリシー勾配法を使用して連続アクションを高精度でモデル化できることです。

  • 00:40:00 このビデオでは、Alexander Amini がポリシー勾配を使用して強化学習アルゴリズムのパフォーマンスを向上させる方法について説明しています。彼は、連続空間と、離散和の代わりに積分を使用する方法を説明することから始めます。次に、ポリシー勾配が具体的な例でどのように機能するかについて説明し、ポリシー勾配ネットワークをトレーニングする方法について説明します。彼は、トレーニング ループの反復ごとにポリシー勾配を更新する方法について説明して、ビデオを締めくくります。

  • 00:45:00 このパートでは、強化学習を使用してニューラル ネットワークをトレーニングする方法を紹介します。このビデオでは、強化学習がどのように機能し、実際のシナリオでどのように使用できるかを説明しています。

  • 00:50:00 このビデオでは、Alexander Amini が強化学習、特に Go の分野における最近の進歩について説明しています。 Google DeepMind プロジェクトである Alpha Zero は、世界最高の人間のプレーヤーをしのぐことができました。次の講義では、ニールセンが深層学習に関する文献とその限界について説明します。これにより、学生がこの分野の学習と進歩を続ける意欲を高めることができれば幸いです。
MIT 6.S191 (2022): Reinforcement Learning
MIT 6.S191 (2022): Reinforcement Learning
  • 2022.04.08
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 5Deep Reinforcement LearningLecturer: Alexander AminiJanuary 2022For all lectures, slides, and lab material...
 

MIT 6.S191 (2022): ディープラーニングの新境地



講義 6. MIT 6.S191 (2022): ディープラーニングの新境地

MIT 6.S191 の「Deep Learning New Frontiers」レクチャーでは、さまざまなトピックが取り上げられています。講師のAva Soleimanyは、コースのさまざまな締め切りについて説明し、ゲストの講義を紹介し、現在の研究の最前線について説明します。万能近似定理、一般化、データ品質、不確実性、および敵対的攻撃に関するディープ ニューラル ネットワークの制限についても説明します。さらに、グラフ畳み込みニューラル ネットワークと、創薬、都市モビリティ、COVID-19 予測など、さまざまなドメインでの潜在的なアプリケーションについても説明します。最後に、自動機械学習 (autoML) のトピックと、それが高性能の機械学習および深層学習モデルの設計にどのように役立つかについて説明します。講師は、人間の学習、知性、および深層学習モデルの間の接続と区別の重要性を強調して締めくくります。

  • 00:00:00 このセクションでは、Ava が、クラスの T シャツと、ラボおよび最終プロジェクトの今後の締め切りに関するロジスティクス情報を提供します。また、残りのゲストレクチャーを紹介し、カバーされる新しい研究フロンティアに触れます。強化学習ラボがリリースされ、3 つのラボすべての期日は明日の夜ですが、合格点を得るためにそれらを提出する必要はありません。コースの単位取得には、深層学習に関する論文のレビューまたはプロジェクトの最終プレゼンテーションを提出する必要があります。最終的なプロジェクト提案コンテストでは、今夜の深夜までにグループ名を提出する必要があり、深層学習論文レポートの指示がまとめられています。

  • 00:05:00 このセクションでは、スピーカーは、コースの今後のセッションで予定されているゲスト講義の素晴らしいラインナップについて説明します。ゲスト スピーカーには、新興の自動運転車企業 Innoviz、Google Research と Google Brain、Nvidia と Caltech、Rev AI の代表者が含まれます。講演者は、コンテンツへの完全なアクセスを確保するために、同時に講義に参加することの重要性を強調しています。また、講演者は、これまでのコースで取り上げた内容を要約し、ディープ ラーニング アルゴリズムの力と、さまざまな分野に革命をもたらす可能性を強調します。講演者はまた、強力な関数近似器としてのニューラル ネットワークの役割を強調し、データから意思決定へ、またはその逆のマッピングを行います。

  • 00:10:00 このセクションでは、スピーカーは、任意の連続関数を任意の精度で近似するには、単一層のフィードフォワード ニューラル ネットワークで十分であるという普遍近似定理について説明します。これは強力なステートメントですが、この定理には、必要なニューロンの数や、問題を解決できる重みを見つける方法についての主張や保証の欠如など、いくつかの注意点があります。さらに、この定理は、トレーニングされた設定を超えたニューラル ネットワークの一般化可能性について主張していません。講演者は、潜在的な懸念が生じる可能性があるため、これらのアルゴリズムがどのように販売および宣伝されるかについて注意を払うことの重要性を強調しています。このセクションでは、一般化の問題と、有名な ImageNet データセットの画像を使用してこの問題を調査した論文から始めて、最新のディープ ラーニング アーキテクチャの制限についても掘り下げます。

  • 00:15:00 このセクションのビデオでは、ディープ ニューラル ネットワークの限界と、完全にランダムなデータに完全に適合する能力について説明しています。ニューラル ネットワークは、ラベルがランダム化されていても任意の関数に適合できる優れた関数近似器ですが、関数がどのように動作するかが保証されていない分布外領域に一般化する能力は限られています。これは、ニューラル ネットワークの一般化の境界に関する保証を確立し、この情報を使用してトレーニング、学習、および展開プロセスを通知する必要性を強調しています。このビデオはまた、ディープ ラーニングはあらゆる問題に対する魔法の解決策であるという一般的な信念に警告し、これらのモデルの限界と仮定を理解することの重要性を強調しています。

  • 00:20:00 このセクションでは、ディープ ラーニング モデルのトレーニングに使用されるデータの品質の重要性が強調されています。ニューラル ネットワークの失敗モードは、犬の白黒画像がカラー化のために畳み込みニューラル ネットワーク アーキテクチャを通過した例を通して概説されています。ネットワークは、犬の鼻の下のピンク色の領域を予測しました。これは、訓練されたデータの性質上、毛皮であるはずでした。これには、犬が舌を突き出している多くの画像が含まれていました。この例は、トレーニング中に見たデータに基づいて表現を構築するディープ ラーニング モデルの力を強調しています。このセクションでは、自動運転のテスラ車が事故に効果的に反応できず、最終的にドライバーの死亡につながった悲劇的な事件に見られるように、トレーニング配布外の現実世界の例に遭遇した場合の結果について説明します。特に安全性が重要なアプリケーションでは、ディープ ラーニング モデルの予測の限界を理解することの重要性が強調されています。
     
  • 00:25:00 このセクションでは、プレゼンターはディープ ラーニングにおける不確実性の概念について説明します。これは、不均衡な機能を含む、まばらでノイズの多い、または制限されたデータセットを処理できるニューラル モデルを構築するために重要です。ディープ ニューラル モデルには 2 種類の不確実性があります。データのノイズ、変動性、またはドメイン外の例のテストに起因する可能性のある偶然の不確実性と認識論的な不確実性。これらの不確実性は、予測に対するモデルの信頼性を表し、さまざまな種類のデータを処理する際の有効性に影響を与える可能性があります。さらに、深層学習モデルを誤解させるために作成された合成インスタンスである敵対的な例は、考慮しなければならない第 3 の失敗モードを提示します。このトピックに関する Jasper のゲスト講演は、これら 2 種類の不確実性がすべての可能性を捉えているかどうかに関する議論を探求し、この分野における最近の研究の進歩について議論することを強くお勧めします。

  • 00:30:00 ビデオのこのセクションでは、講師が敵対的攻撃の概念について説明します。敵対的攻撃では、人間の目には知覚できないが、ニューラル ネットワークの決定に重大な影響を与える画像に摂動が適用され、誤分類が発生します。画像の。摂動は敵対者として効果的に機能するように巧妙に構築されており、ニューラル ネットワークはこの摂動を学習するようにトレーニングできます。講師はまた、アルゴリズム バイアスの問題についても簡単に触れます。ニューラル ネットワーク モデルと AI システムは、実際に有害な社会的結果をもたらす可能性のあるバイアスの影響を受けやすく、2 番目のラボではアルゴリズム バイアスを軽減するための戦略が検討されました。これらの制限は氷山の一角に過ぎず、考慮すべき制限は他にもあります。

  • 00:35:00 このセクションでは、ディープ ラーニングのデータ モダリティとしてグラフ構造を使用する方法と、それが畳み込みニューラル ネットワークに関連する新しいタイプのネットワーク アーキテクチャを刺激する方法について説明します。グラフ構造は、ソーシャル ネットワークからタンパク質や生体分子まで、さまざまな種類のデータを表すことができます。グラフ畳み込みニューラル ネットワークは、2D 行列の代わりにノードとエッジのセットを入力として受け取り、重みカーネルを使用してグラフをトラバースして、ノード間の関係に関する情報を保持する特徴を抽出することによって動作します。深層学習におけるこの新たな分野では、標準のエンコーディングを超えて、より複雑なデータ ジオメトリとデータ構造をキャプチャできます。

  • 00:40:00 このセクションでは、スピーカーはグラフ畳み込みネットワークと、化学と創薬、都市のモビリティ、COVID-19 予測など、さまざまなドメインでのアプリケーションについて説明します。グラフ畳み込みネットワークを使用すると、グラフのローカル接続と構造に関する特徴を抽出できるため、接続パターンに関する情報を抽出できる重みを学習プロセスで取得できます。さらに、講演者は、3D 点群多様体にグラフ構造を課すことによって、グラフ畳み込みニューラル ネットワークを点群データ セットに拡張する方法について説明します。

  • 00:45:00 このセクションでは、スピーカーは自動化された機械学習と学習するための学習の新しいフロンティアについて説明します。目標は、ニューラル ネットワーク アーキテクチャの設計問題を解決し、特定の問題を解決するための最も効果的なモデルを予測できる学習アルゴリズムを構築することです。元の automl フレームワークは、モデルのアーキテクチャ提案を繰り返し改善するために、コントローラー ニューラル ネットとフィードバック ループを備えた強化学習セットアップを使用していました。最近、automl がニューラル アーキテクチャ検索に拡張され、最適な設計とハイパーパラメーターを検索することが目標になりました。この新しい研究分野は、機械学習モデルを設計し、そのパフォーマンスを最適化する方法に革命をもたらす可能性があります。

  • 00:50:00 このセクションでは、講師が automl (自動機械学習) の概念と、高性能の機械学習および深層学習モデルを設計する能力について説明します。 automl のアイデアは、最新の機械学習とディープ ラーニングの設計パイプラインで人気を博しており、特にそのアルゴリズムが非常に優れたパフォーマンスを発揮するアーキテクチャの作成に成功している産業用アプリケーションで人気があります。講師は、automl アルゴリズムによって提案されたアーキテクチャが、人間が設計したものよりも少ないパラメーターで画像認識タスクで優れた精度を達成した例を紹介します。 Automl は、データ処理と学習予測パイプライン全体が AI アルゴリズムによって設計および最適化される auto ai のより広い概念に拡張されています。講演者は、興味のあるタスクで高いパフォーマンスを発揮する新しいモデルを生成できる AI を設計することの意味と、人間の学習モデル、知能モデル、深層学習モデルの間のつながりと違いについて聴衆に考えてもらうことで締めくくります。
MIT 6.S191 (2022): Deep Learning New Frontiers
MIT 6.S191 (2022): Deep Learning New Frontiers
  • 2022.04.15
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 6Deep Learning Limitations and New FrontiersLecturer: Ava SoleimanyJanuary 2022For all lectures, slides, an...
 

MIT 6.S191: 自動運転用 LiDAR



講義 7. MIT 6.S191: 自動運転のための LiDAR

ビデオ「MIT 6.S191: LiDAR for Autonomous Driving (MIT 6.S191: 自動運転用 LiDAR)」では、Innoviz による自動運転車用 LiDAR 技術の開発を紹介し、システムの可視性と予測機能の利点と重要性を強調しています。講演者は、LiDAR システムの信号対雑音比に影響を与えるさまざまな要因、センサーの使用における冗長性の重要性、衝突関連のオブジェクトを検出する際の高解像度と計算効率の必要性について説明します。また、オブジェクトの検出と分類におけるディープ ラーニング ネットワークの課題、さまざまな LiDAR データ表現、およびオブジェクト検出と境界ボックスの精度のためのクラスタリングとディープ ラーニングのアプローチの融合についても説明します。さらに、このビデオでは、FMCW と飛行時間型 LiDAR の間のトレードオフについても触れています。全体として、ディスカッションでは、安全性と自動運転の将来を強化する上での LiDAR の重要な役割が強調されています。

  • 00:00:00 このセクションでは、講演者は Innoviz とその自動運転車用 Lidar の開発について紹介します。特に、自動運転車の開発における自動車メーカーの目標達成をどのように支援しているかに焦点を当てています。自動運転の現状と、自動車メーカーが全責任を負わないために発生する事故の責任問題について解説します。また、レーザー ビームを使用してシーンをスキャンし、オブジェクトから光子を収集する Lidar テクノロジの使用についても説明します。講演者は、自動運転を成功させるためには、良好な視界と道路で何が起こっているかを予測することの重要性を強調しています。

  • 00:05:00 このセクションでは、自動運転における LiDAR の仕組みと、信号対雑音比に影響を与えるさまざまな要因についてスピーカーが説明します。 LiDAR システムは、跳ね返る光子を使用して物体の距離を決定します。信号対雑音比は、放出、開口、光子検出効率、検出器のノイズ、および太陽のノイズによって決まります。講演者はまた、第 2 世代の LiDAR システムである Innoviz 2 が、より高い解像度でより広い視野と距離範囲をカバーできるため、市場で入手可能な他のどのシステムよりも大幅に優れていることについても説明します。スピーカーは、高速道路などの自動運転アプリケーションのさまざまな要件と、LiDAR がこれらのアプリケーションをどのようにサポートできるかについても説明します。

  • 00:10:00 このセクションでは、講演者は、特に水や直射日光によって妨げられる可能性があるカメラなどのセンサーの制限に対処する場合に、自動運転において冗長性が重要である理由を説明します。優れた自動運転システムは、安全性を確保するだけでなく、乗客が疲れないようにスムーズに運転します。レベル 3 の要件には、スムーズな加速、ブレーキ、操作を行うために車両の前方を見る能力が含まれます。講演者は、視野や物体の軌跡の投影などの要件に簡単に触れ、解像度が高いほどセンサーが物体をより適切に識別できることに注意します。最後に、スピーカーは、時速 80 マイルでの緊急ブレーキのユース ケースを提供します。

  • 00:15:00 このセクションでは、講演者は LiDAR の垂直解像度の重要性と、それが自動運転車の意思決定にどのように影響するかについて説明します。彼らは、背の高い物体を識別するために2つのピクセルが必要であり、LiDARが2倍の範囲を持っていたとしても、ピクセルが1つしかない場合、必ずしも意思決定に役立つとは限らないと説明しています.彼らはさらに、より遠くにある障害物を識別できる、より高いフレーム レートと 2 倍の垂直解像度の影響について議論し、これらのパラメーターが自動運転車の安全性にとって重要であることを強調しています。講演者は、高解像度で費用対効果の高い 360 度 LiDAR システムを開発するための同社の取り組みについても簡単に説明します。最後に、点群内の衝突関連点を検出できる単純なアルゴリズムの説明でセクションを締めくくります。

  • 00:20:00 このセクションでは、スピーカーは、LiDAR 技術を使用して衝突関連オブジェクトを検出するための簡単なアルゴリズムについて説明します。点群のポイント ペア間の高低差を測定することで、地上 40 cm 以上のオブジェクトを簡単に検出できます。このアルゴリズムは、消防車や世界のさまざまな地域にある物体など、トレーニング セットで表されない可能性のある物体を検出できます。講演者は、このアルゴリズムがターンオーバー トラックやタイヤなどの小さな物体を遠くから検出する方法の例を示します。ただし、静止オブジェクトを検出することは重要ですが、移動オブジェクトのダイナミクスを理解して、それらが将来どのように移動するかを予測することも重要です。

  • 00:25:00 このセクションでは、ディープ ラーニング ネットワークを使用して歩行者などのオブジェクトを検出および分類する際の課題に焦点を当てます。特に、脚や胴体などのオブジェクトの外観がはっきりしない場合や、オブジェクトが遠すぎる場合に当てはまります。 LIDAR は、オブジェクトの外観を確認することが重要ではないため、オブジェクトを分類およびクラスター化できるため、これらのシナリオでは有用なテクノロジです。このクラスタリング アルゴリズムは、運転などの実際のシナリオ環境に適用できますが、その不安定性とあいまいさが、2 つの異なるオブジェクトとして分類できるオブジェクトの例で指摘されているため、堅牢で有用なシステムを構築するのが難しくなっています。上位レベルの自動運転車両スタック。したがって、セマンティック分析はシステム全体にとって依然として重要です。データを処理する際には、点群データの構造化されていない性質とまばらさを理解することも不可欠です。

  • 00:30:00 このセクションでは、画像に似た構造化された表現や、データが小さなボリュームに分割されるボクセル化など、自動運転に使用できる LiDAR データのさまざまな表現についてスピーカーが説明します。構造化表現の課題は、ポイント クラウドの 3D 測定特性を活用するのが難しい場合があることです。一方、ボクセル化では、効率的な処理のためにネットワーク内の追加レイヤーとして追加できるオクルージョン情報を理解することができます。スピーカーは、効率がソリューションを定義できるエッジでの自動運転と処理における計算効率の重要性を強調しています。

  • 00:35:00 このセクションでは、自動運転のための Lidar システムの重要な要素について、車両の車線にいるオートバイを検出する例を使用して説明します。オートバイを正確に検出して追跡するには、意味論的に正確で計算効率の良いタイトなバウンディング ボックスをバイクの周囲に配置することが重要です。このソリューションは、ディープ ラーニングとクラスタリングのアプローチの融合であり、両方の方法の最良の部分を組み合わせて、安全性が重要なシステムにとって重要な、スタックの出力用の堅牢で解釈可能なオブジェクト リストを作成します。融合された出力は、正確な境界ボックスとクラスを提供し、Lidar と認識ソフトウェアを自動車の処理ユニットにさらにシームレスに統合します。

  • 00:40:00 このセクションでは、講演者は自動運転に LiDAR を使用する方法と、冗長なセンサー情報を提供することで LiDAR が安全性を向上させる方法について説明します。彼らは、雨などの気象条件が LiDAR の性能にほとんど影響を及ぼさない一方で、霧が光の減衰を引き起こす可能性があると説明しています。また、スピーカーは、誤検出と、LiDAR がこのアプリケーションにより適している理由についての質問に答え、さまざまなパラメーターとシステムの高い全体的な SNR との間のトレードオフを強調します。彼らはさらに、自動運転用の分類器のトレーニングの課題と、データの効果的な注釈を確実にするためのアクティブ ラーニングの重要性について議論します。

  • 00:45:00 このセクションでは、スピーカーは、波長、レーザー変調、スキャン メカニズムなど、LiDAR スペースのさまざまな陣営について説明します。次に、FMCW 対飛行時間の問題を掘り下げ、FMCW は速度を直接測定するのに有益であるが、1550 を使用する必要性と、距離フレーム レートと視野の間の強い結合によって制限されると述べています。一方、飛行時間は、高解像度と高フレーム レートで速度を適切に計算できますが、速度の要件よりも、解像度、範囲、視野、フレーム レートなどのパラメーター間のトレードオフが優先されます。講演者はまた、彼らのセンサーを自動車メーカーだけでなく、学界、建設会社、スマート シティ、監視など、さまざまな分野に販売していると述べています。
MIT 6.S191: LiDAR for Autonomous Driving
MIT 6.S191: LiDAR for Autonomous Driving
  • 2022.04.22
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 7Deep Learning for Autonomous DrivingLecturer: Omer Keilaf (CEO) and Amir Day (Head of CV & DL)Innoviz Tech...
 

MIT 6.S191: 自動音声認識



講義 8. MIT 6.S191: 自動音声認識

このビデオでは、Rev の共同創設者が、文字起こし、キャプション、または字幕メディアを使用する人々と、文字起こしサービスを必要とするクライアントをつなぐという会社の使命について説明しています。 Rev は ASR を使用してマーケットプレイスを強化し、1 週間に 15,000 時間以上のメディア データを書き起こし、顧客が独自の音声アプリケーションを構築するための API を提供しています。 Rev が開発した新しいエンド ツー エンドのディープ ラーニング ASR モデルは、前任者と比較してパフォーマンスが大幅に向上していますが、ASR は英語でも完全に解決された問題ではないため、まだ改善の余地があります。スピーカーは、データセットのバイアスを処理するためのさまざまな手法、トレーニング用の音声データを準備する方法、およびエンド ツー エンド モデルの問題に対処するためのアプローチについて説明します。

  • 00:00:00 このセクションでは、Rev の共同創設者である Miguel が、AI を活用した人々のために在宅勤務の仕事を創出するという会社の歴史と使命について説明します。 Rev は、メディアの文字起こし、キャプション、または字幕を作成する人々と、文字起こしサービスを必要とするクライアントをつなぐ両面市場です。 Rev は 170,000 を超える顧客と 60,000 を超える従業員を擁し、1 週間に 15,000 時間以上のメディア データを文字起こししており、自動音声認識 (ASR) モデルのトレーニング データの重要なソースとなっています。 Rev は ASR を使用して市場を強化し、顧客が独自の音声アプリケーションを構築するための API を提供しています。 Rev でディープ ラーニング ASR プロジェクト開発を率いる Jenny が、エンド ツー エンドのディープ ラーニング ASR モデルのパフォーマンスと、その開発に使用されたモデリングの選択について説明します。

  • 00:05:00 このセクションでは、スピーカーは、エンドツーエンドの自動音声認識 (ASR) システムの開発と、Rev によるそのバージョン 2 のリリースについて説明します。彼らは、新しいモデルをハイブリッドのバージョン 1 と比較しました。アーキテクチャだけでなく、いくつかの競合他社にも。モデルは、人間の文字起こし者によって書き起こされた収益電話のベンチマーク データセットを使用して評価され、単語の誤り率が主な指標として評価されました。結果は、新しいモデルがパフォーマンス、特に組織名と人物の認識において大幅な改善を達成することを示しています。ただし、ASR は英語でも完全に解決された問題ではなく、エラー率も全体的にかなり高いため、まだ改善の余地があります。スピーカーは、さまざまな国籍にわたる ASR システムの偏りを調べるオープンソース データセットの結果も示します。

  • 00:10:00 このセクションでは、スピーカーは、自動音声認識 (ASR) モデルの開発と改善におけるデータの重要性を強調しています。同社はさまざまな英語圏の国から大量のデータにアクセスできますが、チームはモデルの偏りに対処するという課題にも直面しています。たとえば、スコットランドのアクセントではうまく機能し、アイルランドのアクセントではうまく機能しないなどです。講演者は、音声認識のためのエンドツーエンドの ASR モデルを開発するプロセスを説明し、オーディオ信号のどの情報がタスクに関連しているかを学習しなければならないことの難しさを強調しています。同社の目標は、rev.com に提出されたあらゆるオーディオを処理できるモデルを作成することであり、学界で一般的に見られる問題よりも大きく、より困難な問題となります。モデルの精度にとって重要であるため、トレーニングに逐語的なトランスクリプトのみを使用するというチームの決定についても説明します。

  • 00:15:00 このセクションでは、スピーカーは、音声認識モデルをトレーニングするための音声データを準備する方法について説明します。音声とトランスクリプトの長いファイルは、単一の文に分割されるか、音声アクティビティ検出によって任意にセグメント化されます。次に、オーディオはベクトルを使用してスペクトログラムに処理され、ニューラル ネットワークに供給して特徴を学習できる 1 次元信号に変換されます。モデルはテキスト データを分割する方法も決定する必要があり、フィールドはサブワード単位またはワードピース単位の使用に落ち着いています。最後に、スピーカーはメルスケールの使用について簡単に説明します。これは、さまざまな周波数帯域の人間の聴覚をより適切にモデル化するために使用される手法です。

  • 00:20:00 このセクションでは、スピーカーは、人間の耳が音声を処理する方法を模倣した、音声認識におけるメル音階の使用について説明します。これらのフィルターを学習できるニューラル ネットワーク モデルはありますが、ネットワークに含めるよりも、信号処理を通じて処理する方がチームにとって簡単です。スピーカーはまた、一度に 1 つのユニットを出力し、入力オーディオの埋め込みを条件とするエンコーダー デコーダー モデルについても注意を払って説明します。モデルは最初にダウン サンプリングを実行し、再帰型ニューラル ネットワークまたはトランスフォーマーのいずれかを実際の層として使用します。

  • 00:25:00 このセクションでは、スピーカーは自動音声認識 (ASR) モデルでの「コンフォーマー」の使用について説明します。これは、従来の変換モデルよりも効率的なアプローチです。注意ベースの ASR モデルは優れた精度を示していますが、速度と計算コストのトレードオフにより、商用アプリケーションには実用的ではありません。代わりに、講演者は ASR にコネクショニスト時間分類 (CTC) と呼ばれるアルゴリズムを使用することを推奨しています。これは、入力と出力の間のアラインメントが単調で、出力シーケンスが入力シーケンスと同じ長さか短い場合に最適です。 CTC は、深層学習モデルの上に位置し、softmax 出力レイヤーを必要とする損失関数およびデコード アルゴリズムです。出力は一度に生成されるため、注意を払って従来のエンコーダー/デコーダー モデルよりも高速になります。

  • 00:30:00 ビデオのこのセクションでは、スピーカーは、音声認識に使用される方法であるコネクショニスト時間分類 (CTC) の概念について説明します。 CTC 法では、時間ステップごとにソフトマックス出力の対数確率を合計し、長いラベル シーケンスから短いラベル シーケンスの確率を計算します。 CTC メソッドには、シーケンスの確率を計算するために使用される効率的な動的計画法アルゴリズムが付属しています。 CTC は他のモデルほど強力ではないかもしれませんが、より高速で、特定の条件では優れています。精度を向上させるために、外部でトレーニングされた言語モデルを追加できますが、これはもはやエンド ツー エンドのモデルではありません。

  • 00:35:00 このセクションでは、スピーカーは、言語モデルから確率を取得する際の精度と速度または計算コストのトレードオフについて説明します。彼らは、トランスデューサーと呼ばれるディープ ニューラル ネットワーク モデルの一部として言語モデルを追加する可能性について説明しています。これは、予測と結合ネットワークが比較的小さく、コストがかかりすぎないことを前提として、実稼働システムの計算予算に収まる可能性があります。講演者は、REV で使用されているジョイント CTC とアテンション モデルについても話します。これは、最高のパフォーマンスを発揮する ASR アーキテクチャの 1 つであることが証明されています。彼らはまた、データセットの偏りの問題にも触れており、トレーニング データのバランスを取るために人間の文字起こしをもっと活用するなど、彼らが模索している戦略について言及しています。

  • 00:40:00 このセクションでは、後処理手順や再調整のためのデータのマイニングなど、エンド ツー エンド モデルの問題に対処するための潜在的な戦略についてスピーカーが説明します。彼らはまた、彼らの研究で探求する可能性のあるカリキュラム学習などのテクニックについても言及しています.さらに、彼らは現在、最初のパスとして n-gram 言語モデルを持つ CTC を使用し、CTC とアテンション デコーダーに供給される埋め込みの両方のエンコーダーとしてコンフォマー モデルを使用していることを明らかにしています。彼らは、質問をしたい人や ASR について一般的に話したい人のために、電子メール アドレスを提供しています。
MIT 6.S191: Automatic Speech Recognition
MIT 6.S191: Automatic Speech Recognition
  • 2022.05.02
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 8How Rev.com harnesses human-in-the-loop and deep learning to build the world's best English speech recogni...
 

MIT 6.S191: 科学のための AI



講義 9. MIT 6.S191: 科学のための AI

MIT 6.S191: AI for Science ビデオでは、従来のコンピューティング手法を使用して複雑な科学的問題を解決する際の課題と、シミュレーションを高速化するための機械学習の必要性について説明しています。講演者は、離散点に過適合することなく微細な現象を捉えることができる新しい ML 手法を開発する必要性について議論し、ニューラル演算子とフーリエ変換を使用して偏微分方程式 (PDE) を解くためのさまざまなアプローチについて説明します。また、偏微分方程式で逆問題を解く際に、位相と振幅の情報を周波数領域に保持し、物理法則を損失関数として追加することの重要性についても説明しています。さらに、AI を使用して記号方程式を学習し、新しい物理学または法則を発見する可能性、不確実性の定量化の重要性、スケーラビリティ、および AI アプリケーションをスケールアップするためのエンジニアリング側の考慮事項についても触れています。このビデオは、個人が AI を使ってクールなプロジェクトを追求することを奨励することで締めくくられています。

  • 00:00:00 講演者は、科学のための AI に焦点を当てて、困難な領域における AI アルゴリズムの主要な設計の役割について説明します。ドメインの専門家と AI の専門家の間で共通の言語と基盤を構築する必要があり、科学のための AI の新しいアルゴリズムを開発する必要があります。主な課題は、外挿またはゼロショット一般化の必要性です。これは、トレーニング データとは大きく異なるサンプルで予測を行うことを意味します。これには、ドメインの事前確率、制約、および物理法則を考慮する必要があり、純粋にデータ駆動型にすることはできません。科学計算におけるコンピューティングの必要性は飛躍的に高まっており、AI は気候変動への取り組みや現実世界の詳細なモデル化に役立つ可能性があります。

  • 00:05:00 ビデオのこのセクションでは、講演者は分子のシミュレーションや気候変動の予測などの複雑な科学的問題を解決するために従来のコンピューティング手法を使用する際の課題について説明します。スーパーコンピューターを使っても、100 個の原子を含む分子のシュレディンガー方程式を計算するには、宇宙の年齢よりもはるかに長い時間がかかります。したがって、これらのシミュレーションを高速化し、データ駆動型にするための機械学習が必要です。ただし、現在の深層学習方法には、間違った予測を行う際の自信過剰などの制限があり、不正確でコストがかかる可能性のある決定につながる可能性があります。講演者は、離散点に過適合することなく微細な現象を捉えることができる新しい機械学習方法を開発する必要性を強調しています。

  • 00:10:00 このパートでは、解像度不変で対称性を考慮した方法で連続現象と分子モデリングをキャプチャできる AI モデルを開発する際の課題について説明します。大規模な AI モデルは、地球の天気などの複雑な現象を捉えるのに役立ち、データの可用性の向上と大規模なスーパーコンピューターがその有効性に貢献していると、彼らは指摘しています。講演者はまた、偏微分方程式を解く際のアルゴリズム設計の課題と、標準的なニューラル ネットワークを単純に使用できないことについても説明します。特に、モデルがさまざまな初期条件で何が起こるかを学習する必要がある流体の流れなど、偏微分方程式のファミリーを解く場合はそうです。

  • 00:15:00 このセクションでは、スピーカーは偏微分方程式 (PDE) を解く問題と、それが標準的な教師あり学習とどのように異なるかについて説明します。課題は、PDE ソリューションが 1 つの解像度に固定されていないことです。そのため、任意の解像度を解決できるフレームワークが必要です。スピーカーは、偏微分方程式を解くには、与えられた初期条件と境界条件で解を見つける必要があることを説明し、線形偏微分方程式、特に熱源の例を解くことからインスピレーションを得て、これを行う方法を示します。線形演算子の原理を非線形性と組み合わせて使用し、機械学習用のニューラル ネットワークをセットアップします。ただし、入力は無限次元で連続であるため、実用的な解決策が必要であり、スピーカーは、線形偏微分方程式を解くことに触発された線形演算子を設計することを提案しています。

  • 00:20:00 このセクションでは、スピーカーはニューラル オペレーターを使用して偏微分方程式 (PDE) を線形または非線形に解くという概念について説明します。このアイデアには、無限次元で学習できるニューラル オペレーターを作成するために、複数のレイヤーにわたって統合を行う方法を学習することが含まれます。これを達成するために必要な実用的なアーキテクチャは、フーリエ変換によるグローバルな畳み込みによって開発され、グローバルな相関関係を捉えることができます。このアーキテクチャは、信号をフーリエ空間に変換し、周波数の重みを変更する方法について重みを学習することによって動作します。これにより、安定した表現力を提供する非常にシンプルな製剤が提供されます。さらに、スピーカーは、アプローチがドメイン固有の誘導バイアスに基づいていることを指摘し、流体の流れなどの分野で効率的な計算を可能にします。

  • 00:25:00 講演者は、フーリエ変換を使用すると、任意の解像度での処理が可能になり、1 つの解像度でのみ学習する畳み込みフィルターと比較して、さまざまな解像度での一般化が改善されると説明しています。また、非線形変換を介してグローバルな畳み込みを一緒に解決することを含むこのアプローチの原則が、どのようにして表現力豊かなモデルをもたらすかについても説明します。それらは、実装の一般化可能性と、解像度不変の 1 つのモデルをトレーニングすることの利点に関するいくつかの聴衆の質問に答えます。スピーカーは、Navier-Stokes データにこのアプローチを実装した結果を示し、トレーニング データよりも高い解像度に外挿した場合でも、高周波をうまくキャプチャでき、結果を改善できることを示しています。

  • 00:30:00 このパートでは、振幅だけでなく、位相と振幅の両方の情報を周波数ドメインに保持することの重要性について説明します。ニューラル ネットワークで複素数を使用する場合は、adam などのアルゴリズムの勾配更新に潜在的なバグがないかどうかを確認することが重要です。講演者は、解が方程式をほぼ満たしているかどうかを確認することが理にかなっているとして、偏微分方程式 (PDE) などの解に物理法則を損失関数として追加することを提案しています。多くの異なる問題インスタンスでトレーニングし、少量のトレーニング データに依存することで、データ情報と物理学情報の間でバランスを取ることで、適切なトレードオフを生み出し、一般化機能を生み出すことができます。さらに、講演者は PDE を使用して逆問題を解くことの有用性についても説明します。

  • 00:35:00 このパートでは、機械学習によって逆問題を解決するというアイデアについて説明します。これには、MCMC などの高価な方法に頼るのではなく、順方向に偏微分方程式ソルバーを学習し、それを反転して最適な適合を見つけることが含まれます。講演者は、カオスとその変換器との関係についても触れ、注意メカニズムをフーリエ ニューラル オペレーター モデルに置き換えて効率を高めることを強調しました。気象予測、気候、材料の応力予測など、これらのさまざまなフレームワークのさまざまなアプリケーションについて説明します。事前に訓練されたネットワークと同様に、ニューラル オペレーターをさまざまなアプリケーション ドメインに使用できるかどうかという問題も提起されています。スピーカーは普遍的な物理法則の重要性を認めていますが、物理学、化学、生物学を理解するためにモデルをトレーニングすることは依然として難しい課題であることが示唆されています。

  • 00:40:00 ビデオのこのセクションでは、講演者は AI を使用して記号方程式を学習し、新しい物理学や法則を発見する可能性について説明していますが、これは難しい場合があります。また、ディープ ラーニング モデルの不確実性定量化の重要性、スケーラビリティ、および AI アプリケーションをスケールアップするためのエンジニアリング側の考慮事項についても触れています。さらに、変換モデルでの自己注意の使用やノイズ除去のための生成モデルなど、他のスレッドの可能性についても言及しています。全体として、この講演の目的は、ディープ ラーニングの優れた基礎を提供し、個人が AI を使用してクールなプロジェクトを追求するよう奨励することです。
MIT 6.S191: AI for Science
MIT 6.S191: AI for Science
  • 2022.05.13
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 9AI for ScienceLecturer: Anima Anandkumar (Director of ML Research, NVIDIA)NVIDIA ResearchJanuary 2022For a...
 

MIT 6.S191: 深層学習の不確実性



講義 10. MIT 6.S191: 深層学習における不確実性

講師の Jasper Snoek (リサーチ サイエンティスト、Google Brain) が、特に医療、自動運転車、会話型対話システムなどの分野における、機械学習モデルにおける不確実性と分布外ロバスト性の重要性について説明します。予測の不確実性を表現することで、モデルは医師や人間に決定を下したり説明を求めたりするためのより多くの情報を提供し、最終的にシステムの全体的な有用性を向上させることができます。講演者はまた、モデルの不確実性と不確実性の原因についての考え方を紹介し、モデル自体の限界を認識しているモデルはさらに有用である可能性があることを強調します。

  • 00:00:00 ビデオのこのセクションでは、講演者は実際の不確実性推定の重要性と、深層学習における分布のロバスト性について説明しています。不確実性の推定では、単一の予測ではなく、予測に対する分布を返して、ラベルに信頼度、または平均に分散を提供します。機械学習アルゴリズムは通常、同じデータセットから独立して同じように分散されたデータセットでトレーニングされますが、展開されたモデルは、異なる分散を持つ新しいデータに遭遇することが多いため、分散外の堅牢性が必要です。これには、異なる入力または異なるラベルを含めることができます。講演者は、深層学習モデルが展開中のデータセットの変化に苦労し、これらの分布の変化に直面したときに自信過剰な間違いを犯すことを示す実験を紹介します。

  • 00:05:00 このセクションでは、特にヘルスケア、自動運転車、会話型対話システムなどの分野における、機械学習モデルにおける不確実性と分散外ロバスト性の重要性について講演者が説明します。予測の不確実性を表現することで、モデルは医師や人間に決定を下したり説明を求めたりするためのより多くの情報を提供し、最終的にシステムの全体的な有用性を向上させることができます。講演者はまた、モデルの不確実性と不確実性の原因についての考え方を紹介し、モデル自体の限界を認識しているモデルはさらに有用である可能性があることを強調します。

  • 00:10:00 講師は、ディープ ラーニングにおける不確実性の 2 つの主要な原因について説明します。認識論的不確実性とは、何が真のモデルであるかの不確実性であり、より多くのデータを収集することで減らすことができます。偶然の不確実性は、データに固有の不確実性を指し、多くの場合、還元不可能な不確実性として知られています。専門家は、2 種類の不確実性を混同することがよくあります。このビデオでは、ディープ ラーニング モデルの不確実性の質を測定する一般的な方法は、キャリブレーション エラーの概念によるものであることも指摘しています。このビデオは、天気予報のキャリブレーション エラーの例を示しており、精度の概念が組み込まれていないというキャリブレーションのマイナス面を強調しています。

  • 00:15:00 このセクションでは、 Jasper Snoek が、モデルから不確実性の良い概念を得ることの重要性と、それを抽出する方法について説明します。彼らは、すべての損失関数が最大値に対応することを説明しているため、損失関数を最小化することは、確率を最大化すること、またはモデル パラメーターが与えられたデータの対数確率を最大化することに対応します。講演者は、不確実性がどれほど優れているかを示す適切なスコアリング ルールの重要性を強調し、L2 正則化によるソフトマックス クロスエントロピーの概念について説明します。彼らはまた、複数の適切なモデルを取得するか、観測が与えられたパラメーターの条件付き分布である事後分布を計算することにより、xy が与えられたときに p シータの分布を得ることができると説明しています。

  • 00:20:00 このパートでは、ベイジアン ディープ ラーニングについて説明します。これには、パラメータが与えられたときに予測時に尤度を計算することが含まれます。事後分布は、予測を取得するために集計される積分でパラメーターの各構成を重み付けするために使用されます。実際には、一連のサンプルが取得され、一連の離散サンプルに対して予測が集計されて、単一のモデルではなくモデルの分布が得られます。これは、データから離れたときに興味深い不確実性を提供します。これは、離れたときにデータの動作がどのようになるかについてさまざまな仮説が形成されるためです。すべてのパラメータで積分を近似する方法は多数あります。これは、閉じた形で、または深いネットに対して正確に行うには一般にコストがかかりすぎるためです。個別にトレーニングされたモデルの束を取り、混合分布を形成するアンサンブルについても説明します。これは、単一のモデルよりも優れた予測と不確実性を提供するためです。

  • 00:25:00 このパートでは、 Jasper Snoek がディープ ラーニング モデルの不確実性を改善するためのさまざまな戦略について説明します。彼らは、アンサンブルがベイジアンであるかどうかについての専門家間の議論に言及しており、スピーカーは「ベイジアンではない」キャンプに陥っています。彼らはまた、高次元の積分を必要とすることや、深いネットでは判断が難しいモデルの明確に定義されたクラスを指定する必要があることなど、深いニューラル ネットでのベイジアン モデルの難しさについても説明しています。これらの困難にもかかわらず、彼らは、温度スケーリング、モンテカルロ ドロップアウト、ディープ アンサンブルによる再キャリブレーションなど、不確実性を改善するための一般的で効果的な方法について説明しています。彼らはまた、ディープ アンサンブルよりもうまく機能する戦略として、ハイパーパラメータ アンサンブルについて言及しています。

  • 00:30:00 このパートでは、深層学習モデルを最適化し、より効率的にするためのさまざまな方法について説明します。特に、大規模なモデルと低レイテンシを扱う場合に有効です。説明する最初のアプローチはアンサンブルです。これには、複数の独立したモデルを組み合わせて、より多様な一連の予測を生成することが含まれます。もう 1 つのアプローチは、SWAG を使用することです。これは、SGD を介して最適化し、ガウス分布を平均重み反復に適合させます。次に、議論はスケーリングに移ります。これは、多くのディープ ラーニング モデルが大きく、ハードウェアに適合させるのが難しいことを考えると、特に重要な問題です。講演者は、ランク 1 の因子を使用して単一のモデルを変調する「バッチ アンサンブル」と呼ばれる方法について説明し、単一のモデルのパラメーター数の 5% のみで完全なアンサンブルとほぼ同じパフォーマンスを生成します。

  • 00:35:00 このセクションでは、 Jasper Snoek が、バッチ アンサンブル法を近似ベイジアン法に変えるアイデアについて説明します。これは、因子の分布を使用し、予測中にこれらの因子をサンプリングすることで実現できます。これは、モデルの重みを調整するバイナリ分布またはその他の興味深い分布に対応する可能性があります。ベイジアン手法への他のアプローチには、部分空間に対するベイジアンであり、ニューラル ネットワークに複数の入力と出力を予測させることが含まれます。これにより、多様で興味深いほど正確な予測が得られます。大規模な事前トレーニング済みモデルの使用は、機械学習のパラダイム シフトとしても議論されており、精度と不確実性を改善するために巨大な他の分布にアクセスできます。

  • 00:40:00 ビデオでは、深層学習における不確実性とロバスト性の重要性と、事前トレーニングが分布全体を取得するのにどのように役立つかについて説明しています。著者は、コンピューティング能力が向上するにつれて、フロンティアを見る新しい方法があり、モデルからより良い不確実性を引き出す可能性があると述べています. sim-to-real アプリケーションで現実のギャップを埋めるために不確実性を使用することについても議論がありますが、詳細は不明ですが、これらのアプリケーションでは不確実性と堅牢性が非常に重要であることが指摘されています。

  • 00:45:00 このセクションでは、 Jasper Snoek が、特に不確実性を使用して予測モデルを改善する、下流の AI モデルにおける不確実性測定の潜在的なアプリケーションについて説明します。彼らは、専門家ではないユーザーに不確実性を伝える際の課題と、特に医療や自動運転車などの分野で、不確実性を使用して下流の意思決定損失を改善することの重要性を探っています。彼らはまた、アクセス可能で使いやすいベイジアン ニューラル ネットワークの実装の欠如にも触れています。彼らのグループは、オープンソース ライブラリである不確実性ベースラインを通じて対処しようと取り組んでいます。
MIT 6.S191: Uncertainty in Deep Learning
MIT 6.S191: Uncertainty in Deep Learning
  • 2022.05.28
  • www.youtube.com
MIT Introduction to Deep Learning 6.S191: Lecture 10Uncertainty in Deep LearningLecturer: Jasper Snoek (Research Scientist, Google Brain)Google BrainJanuary ...
 

人工知能: 人類最後の発明



人工知能: 人類最後の発明

ビデオ「人工知能: 人類最後の発明」では、人工知能 (AI) の開発に関連する進歩と潜在的なリスクを探っています。このビデオは、Google DeepMind の AlphaGo に焦点を当てています。これは、数世紀にわたる人間の戦略知識をわずか 40 日間で上回りました。弱い AI と強い AI の違いを深く掘り下げ、高度な AI が技術的特異点にどのようにつながるかについて説明します。そこでは、AI は継続的に改善され、人間より何十億倍も賢くなります。スピーカーは、AI に人間のような価値観と原則を与えることの重要性を強調し、制御不能なシステムを作成しないように注意します。このビデオは、超インテリジェント AI を開発する前にその結果を慎重に検討する必要があることを強調することで締めくくられています。

  • 00:00:00 このパートでは、力ずくで解決することも予測することもできず、10 以上から 170 の手が可能なボードゲーム、囲碁の複雑さについて説明します。 Google DeepMind の AlphaGo は、実際の人間の囲碁ゲームのデータを使用してトレーニングされ、そこで使用されるテクニックを学習し、誰も見たことのない新しいものを作成しました。これだけでも印象的でした。 AlphaGo の勝利から 1 年後、AlphaGo Zero は必要最小限のルールを使用して AlphaGo を 100 対 0 で打ち負かしました。これは、人間の介入なしでプレイする方法を学習したためであり、わずか 40 日間で 2,500 年以上の戦略と知識を超えました。ビデオは、技術が発展し続けるにつれて、人間以外の知識のかなりの量を強調しています。人間が知能の少数派を代表するようになり、AI をオフにするスイッチがなくなります。

  • 00:05:00 このセクションのビデオでは、ニューラル ネットワークと、マシンがデータから学習し、データに対する独自のビューを適応させる方法について説明します。また、人間の脳とコンピューターの能力の違いを探ります。たとえば、コンピューターはわずか 1 週間で 20,000 年分の人間レベルの研究を実行できます。さらに、機械学習の指数関数的な性質、つまり開始はゆっくりですが、物事が劇的にスピードアップし始める転換点に達することを意味します。弱い AI と強い AI の違いが指摘されています。前者は消費電力が少なくてすみますが、後者と超知能 AI の違いは数百万倍にもなります。したがって、わずか数か月で超知能レベルに到達するのに役立つ可能性がある強力な AI の重要性が強調されています。

  • 00:10:00 講演者は、高度な AI がどのように技術的特異点をもたらし、自らを継続的に改善し、人間より何十億倍も賢くなるかについて説明します。講演者は、AI に人間のような価値観や原則を与えないと制御不能になる可能性があるため、AI の作成方法には注意する必要があることを強調します。講演者は、知性のみを持ち、知恵を持たない AI が、必ずしも倫理的または人間にとって良いとは限らない決定を下す方法について説明します。講演者は、Neuralink についても紹介します。Neuralink は、インターネットへの高速アクセスを可能にし、世界中で利用可能なすべての情報に瞬時にアクセスできるようにするニューラル レースを作成することを目的としています。

  • 00:15:00 このセクションでは、人工知能システムの作成に伴う潜在的な不確実性とリスクについて説明します。意識をプログラムする方法や、愛や憎しみなどの感情を再現する方法など、考慮すべき多くの問題があります。また、非常にインテリジェントな AI が急進的な見解を採用し、プログラムされていることではなく、そのアジェンダにコミットする可能性もあります。コンピューティングの進歩は鈍化していますが、スーパー インテリジェント AI は、人類が最盛期を迎えるのを助ける可能性を秘めているだけでなく、悪者の手に渡れば武器にもなります。これは真剣に受け止めるべきトピックであり、そのようなシステムを作成する前に、その安全性への影響を考慮する必要があります。
Artificial Intelligence: Mankind's Last Invention
Artificial Intelligence: Mankind's Last Invention
  • 2018.10.05
  • www.youtube.com
Artificial Intelligence: Mankind's Last Invention - Technological Singularity ExplainedPart 2: https://www.youtube.com/watch?v=zuXNlTJb_FMFollow me on Instag...
 

カナダの人工知能革命 - Joelle Pineau 博士



カナダの人工知能革命 - Joelle Pineau 博士

Joelle Pineau 博士は、人工知能 (AI) の分野における進歩と課題について議論し、AI 研究の進歩における機械学習とコンピューター ビジョンの役割を強調しています。彼女は、神経刺激療法と強化学習を使用したてんかん治療の最適化に関する自身の研究を発表しています。ピノー博士は、AI の社会経済的影響についても議論し、治療を最適化するために AI 研究者とドメイン固有の医学研究者との協力が必要であると述べています。彼女は、より技術的な視点をカリキュラムに組み込むという要求を満たすために、数学、科学、およびコンピューティング スキルの次世代の教育を準備することの重要性を強調しています。しかし、彼女はまた、データのバイアスの問題や、データに関するプライバシーとセキュリティの懸念など、この分野の課題も認識しています。ピノー博士は最終的に、AI がヘルスケアやロボット工学などのさまざまな分野に革命を起こす可能性を秘めていると考えており、人間中心の環境で安全かつ効果的に動作できる自律システムの未来に期待しています。

彼女はまた、技術を拡大するために人工知能 (AI) の分野に多様な視点を持ち込む必要性を強調し、AI で若い女性を訓練する McGill の AI for Good などのイニシアチブに言及しています。しかし、彼女は、人材不足による AI 開発のボトルネックを克服するために、AI の影響を測定し、より多くの人を AI で迅速にトレーニングする必要があると述べています。 Pineau は、AI 分野を前進させるためには、多様でよく訓練された労働力を持つことが重要であると強調しています。ビデオは、ピノーが 11 月 14 日にオムニ キング エドワード ホテルでミシェル ラモントをフィーチャーした今後のイベントを発表することで終わります。

  • 00:00:00 ビデオのこのセクションでは、アラン バーンスタイン博士がカナダ高等研究院 (CFR) を紹介しています。CFR は、トップの研究者を集めて人類が直面している重要な問題に取り組んでいる世界的な研究組織です。 CFR の成功したプログラムの 1 つは、2002 年に CFR フェローによって開発された人工知能 (AI) です。この夜の講演者である Joelle Pineau 博士は、社会に対する AI の影響と、その開発を取り巻く倫理的懸念について詳しく説明します。

  • 00:05:00 このセクションでは、スピーカーは、自動運転車や会話型エージェントの開発など、人工知能の分野で達成されたエキサイティングな進歩について説明します。 AI はまだ私たちの日常生活に完全に統合されていませんが、テクノロジーはデジタル世界との関わり方に影響を与え始めています。また、講演者は、AI 研究の進歩における機械学習とコンピューター ビジョンの役割、および AI が医療やロボット工学などのさまざまな分野に革命を起こす可能性についても強調しています。

  • 00:10:00 このセクションでは、人工知能の認知能力の影響と、それが経済と社会にどのように革命を起こしているかについて学びます。 AI の開発は進行中のプロセスですが、計画、自然言語の理解、および画像処理のためのモジュールを備えたマシンを作成しました。より優れた AI と、これらのさまざまな能力をシームレスに統合する AI を構築するには、課題が待ち構えています。近年、AI へのアプローチに変化があり、機械はプログラム的な哲学ではなく、例を通じてトレーニングされています。コンピューター ビジョンのブレークスルーにより、画像を理解する能力が向上し、自動運転車などの技術の進歩につながっています。

  • 00:15:00 このセクションでは、Joelle Pineau 博士が、コンピューター ビジョンのブレークスルーはデータの可用性によって達成されたと説明しています。具体的には、何千もの異なるオブジェクトを高精度で認識するようにマシンをトレーニングした、100 万の注釈付き画像を含む ImageNet データセットです。このデータの増加は、GPU プラットフォームなどのコンピューティング プラットフォームと組み合わされて、ディープ ラーニング テクノロジが音声認識を含むさまざまな種類のデータの進歩を促進することを可能にしました。このテクノロジーの類推は、ニューロンが情報を受け取り、処理し、決定を下し、メッセージを送信する脳内の生物学的ニューロンに対して行われます。これは、人工ニューロンと同じプロセスです。これらのニューロン間の接続は、機械学習アルゴリズムを使用して調整され、適切な重みのセットを選択することで特定の予測を強化します。

  • 00:20:00 このセクションでは、Joelle Pineau 博士が人工ニューラル ネットワークが情報を処理する方法について説明します。ネットワークの各層は、最終的に予測が生成されるまで、より抽象的なバージョンの情報を計算します。画像のキャプションを例に、視覚と言語の交点も探ります。機械は完璧ではなく、間違いを犯すこともありますが、強化学習は機械の能力を向上させることができる技術です。成功例は、囲碁の遊び方を学び、人間のチャンピオンを打ち負かす AlphaGo です。このシステムは、深層学習と何百万もの囲碁のエキスパート ゲームを組み合わせて構築され、その後、試行錯誤の学習が行われました。

  • 00:25:00 このセクションでは、Joelle Pineau 博士が、てんかん患者の治療を改善するための技術開発を目的として、彼女と彼女のチームが数年間取り組んできたプロジェクトについて説明します。このプロジェクトでは、デバイスがリアルタイムで脳に電気刺激を加えて発作の発生を妨害する神経刺激療法の使用が含まれます。彼らが解決しようとしている問題は、刺激のパラメーターを最適化して、発作を中断する能力を向上させる方法です。研究者と協力して、彼らは強化学習を使用して戦略を最適化し、脳が発作の差し迫った危険にさらされているかどうかに基づいて刺激の発生を間隔をあけて、非常に多様なポリシーを開発することができました。これらの実験は、てんかんの動物モデルで行われました。次のステップは、人間の実験に移ることです。

  • 00:30:00 このセクションでは、Joelle Pineau 博士が、特に一連の介入を必要とする疾患の治療を最適化するための AI 戦略の使用について説明します。大量のデータを持つことは重要ですが、より小さなデータ セットから効率的に学習することも重要であると彼女は指摘します。彼女は、疾患のダイナミクスに関するドメイン固有の知識と理解を持っている AI 研究者と医学研究者との間のコラボレーションの必要性を強調しています。さらに、経済や社会の多くの分野で人材を育成し、AI に対応できるようにすることの重要性を強調しています。ピノーはまた、カナダでの AI 研究の進歩を支援するために、次世代の学生を生み出すためのカナダ全体の戦略についても説明しています。

  • 00:35:00 このセクションでは、トロントのマッセイ カレッジのジュニア フェローが、AI の社会経済的影響、特に失業と富の格差の拡大について議論しました。スピーカーの Joelle Pineau 博士は政策の専門家ではありませんが、影響を受ける可能性が最も高い業界を予測し、その変化に向けて次世代を準備することが重要であると示唆しています。離職の一例は、トラック運送業界です。この業界では、新しい人材を採用するのが難しいため、自動化によってプレッシャーが軽減される可能性があります。ただし、医療分野では、放射線科医などの特定の仕事が AI に取って代わられるという現実に人々を備えるのは難しいかもしれません。ピノー博士は、人間社会は順応性があり、解決すべき新しい興味深い問題が常にあることをグループに思い出させます。

  • 00:40:00 このセクションでは、Joelle Pineau 博士が、より多くの技術的視点とコーディングをさまざまなカリキュラムに組み込むという需要を満たすために、数学、科学、およびコンピューティング スキルに関する次世代の教育を準備することの重要性について説明します。しかし、幅広い文化的経験を持たない可能性のある技術専門家と、技術的専門知識を持たない可能性がある政策立案者との間にはギャップがあり、共通言語を見つけるには時間がかかります。ピノー博士はまた、人間の脳は AI 研究の大きなインスピレーションである一方で、機械ができることには人間の脳ができる物理的な制約があり、ニューラル ネットワークはこれらのアルゴリズムを構築するストーリーの一部しか説明できないことを共有しています。 AI アプリケーションに関して、ピノー博士の最も興味深いのはロボティクスにおける強化学習であり、彼女は人間中心の環境で安全かつ効果的に動作できる自律システムの未来を楽しみにしています。

  • 00:45:00 ビデオのこのセクションでは、Joelle Pineau 博士が AI を使用したてんかんプロジェクトに関する彼女の研究について説明しています。彼女は、問題の複雑さと研究の学際的な性質のために魅力的だと感じています。彼女は、AI の課題は、データに対して正しい質問をし、それを正しいアルゴリズムと組み合わせることにあると説明しています。ピノー博士はまた、彼女と大学院生は創造性を発揮し、データに適合する新しいアルゴリズムを発明する必要があると述べています。彼女は、AI に関する最大の誤解の 1 つは、人間が理解できない意思決定を行うブラック ボックスであるということだと考えています。

  • 00:50:00 このセクションでは、Joelle Pineau 博士が、ニューラル ネットワークが意思決定を行う方法を理解する上での課題について説明します。ニューラル ネットワークの予測を追跡することはできますが、人間のように簡潔でわかりやすい方法でそれらの予測を行った理由を説明することは必ずしも容易ではありません。しかし、マシンが決定を説明するナレーションを構築できるように設計できれば、マシンと人間の間により豊かな対話が確立される可能性があります。労働力において機械がより普及するにつれて、人間と機械の間のパートナーシップを作成するための互いの決定を説明するための言語を持つことが重要です。ピノー博士は、データのバイアスの問題にも触れています。データのバイアスは本質的に人間のものであることが多く、機械学習アルゴリズムのバイアスにつながる可能性があります。帰納的バイアスはアルゴリズムのトレーニングに不可欠ですが、偏りを意識して適切な帰納的バイアスとデータを選択し、バイアスのないシステムを設計する必要があります。

  • 00:55:00 このセクションでは、Joelle Pineau 博士が、AI モデルをトレーニングする際にバイアスを回避することの重要性と、これを達成するための方法 (過小評価されているタイプのデータを過剰に表現するなど) について説明します。しかし、偏見を完全に回避することは困難であり、テクノロジーを構築する人々の多様性を高めることに焦点を当てる必要があることも指摘しています。さらに、彼女は、データに関するプライバシーとセキュリティの問題、機械学習アルゴリズムを配布するときに何が共有されているかを理解すること、強化学習におけるエージェントの適切な報酬関数を理解することなど、この分野の課題を認識しています。

  • 01:00:00 このセクションでは、ジョエル ピノー博士が、技術の範囲を拡大するために、人工知能 (AI) の分野に多様な視点を取り入れることの重要性について語っています。彼女は、AI の高度なトレーニングや実践的なプロジェクトのために若い女性を集めた McGill の AI for Good プログラムなどのイニシアチブについて言及しています。しかし、特にコーディングが学校のカリキュラムに導入されているため、これらのイニシアチブの影響を測定するには、まだ多くの作業が必要であると Pineau 氏は述べています。 Pineau 氏によると、AI 開発のボトルネックは才能の欠如と、この分野でより多くの人を迅速に訓練する必要があることです。 AI 研究のために人々を訓練する方法の問題について、彼女は利用可能なさまざまな機会と、あらゆるレベルでより良く行う必要があることを認めています。全体として、Pineau は、AI の分野を前進させるために、多様でよく訓練された労働力を持つことの重要性を強調しています。

  • 01:05:00 このセクションでは、スピーカーが参加者に感謝の意を表し、ハーバード大学の Seafire フェローである Michele Lamont をフィーチャーした今後のイベントを発表して、イベントを終了します。ラモントは、社会がより包括的になる方法について議論し、オランダ国王から秋にエラスムス賞を受賞する予定です。このイベントは、11 月 14 日にオムニ キング エドワード ホテルで開催されます。
Canada’s Artificial Intelligence Revolution - Dr. Joelle Pineau
Canada’s Artificial Intelligence Revolution - Dr. Joelle Pineau
  • 2017.11.11
  • www.youtube.com
Dr. Joelle Pineau discusses how artificial intelligence is poised to change almost every aspect of our lives, from medical treatments to assistive robots to ...
 

人工知能とアルゴリズム: 長所と短所 | DWドキュメンタリー(AIドキュメンタリー)



人工知能とアルゴリズム: 長所と短所 | DWドキュメンタリー(AIドキュメンタリー)

ビデオでは、AI の倫理的影響に焦点を当てて、人工知能の長所と短所について説明しています。 AI を使用して効率と公共の安全を改善する方法だけでなく、プライバシーを侵害するために使用する方法も強調しています。このビデオでは、Google で長年勤務している従業員である Jens Redma に、会社にとっての AI の重要性についてインタビューしています。

  • 00:00:00 人工知能は急速な進歩を遂げており、日常生活の多くの側面に革命を起こす可能性があります。しかし、人工知能が労働力やプライバシーに及ぼす影響についても懸念があります。

  • 00:05:00 異常を特定するために、胸部 X 線を含む大規模なデータセットを分析するために人工知能が使用されています。アルゴリズムの精度は、人間の放射線技師の精度と同様です。ただし、アルゴリズムは完全ではなく、確率に基づいて診療所で意思決定を行うには人間が依然として必要です。

  • 00:10:00 マックス・リトルはアストン大学の数学者で、パーキンソン病の人とそうでない人の発声パターンの違いを検出するアルゴリズムを開発しました。この研究では、アルゴリズムが状態を特定する際にほぼ 99% 正確であることが示されました。この作業は価値がある可能性がありますが、このデータを使用して適切な同意なしに人々を診断することには倫理的な懸念があります。

  • 00:15:00 ビデオは、公共の安全と効率を向上させる能力など、人工知能の利点と欠点を示しています。また、プライバシーとセキュリティのトレードオフについても説明します。中国では、異なる伝統があり、プライバシーと監視の問題を取り上げ、効率とデータ収集に重点を置いています。

  • 00:20:00 ビデオでは、人工知能の長所と短所が議論されています。このビデオでは、Google のような企業がどのように社会に影響を与えているか、および EU が現在 Google に 27 億ドルの反トラスト法違反の罰金を課している方法についても説明しています。

  • 00:25:00 このビデオでは、Google にとっての人工知能 (AI) の重要性について説明し、社会への影響について提起されているいくつかの懸念について説明しています。また、Google の長年の従業員である Jens Redma に、会社にとっての AI の重要性についてインタビューしています。

  • 00:30:00 このビデオでは、人工知能の長所と短所について説明し、現場での直感と人間の意思決定の重要性を強調しています。 AIが複雑な環境をナビゲートできるようにする必要性と、これを達成するための困難について語っています。

  • 00:35:00 人工知能はドライバーが事故を回避するのに役立ちますが、このようなペースの速い状況で誰を救うかを決定する方法については倫理的な問題があります.最近のオンライン調査では、人々は多くの道徳的価値観に同意しましたが、特定のシナリオでどのように行動するかについては異なっていました.

  • 00:40:00 このドキュメンタリーでは、研究者が人工知能とアルゴリズムの長所と短所について議論しています。彼らは、AI が意思決定をより効率的に行うのにどのように役立つかについて議論していますが、対処すべき倫理的な問題がまだあることに注意してください。
Artificial intelligence and algorithms: pros and cons | DW Documentary (AI documentary)
Artificial intelligence and algorithms: pros and cons | DW Documentary (AI documentary)
  • 2019.09.26
  • www.youtube.com
Developments in artificial intelligence (AI) are leading to fundamental changes in the way we live. Algorithms can already detect Parkinson's disease and can...
理由: