機械学習とニューラルネットワーク - ページ 18

 

講義 7. 制約: 線画の解釈



7. 制約: 線画の解釈

このビデオでは、単純なオブジェクトを見ることができるコンピューターを作成する試みから始まった、線画を解釈するための制約充足問題の開発について説明しています。実験家のグズマンの研究が分析され、デビッド・ハフマンが、グズマンのプログラムよりも優れた理論を開発できる制約付きの単純な数学的世界で作業するというアプローチにつながった。このビデオでは、図面のラインとジャンクションをカタログ化および分類するために使用される語彙、5 つの八分円を要素で埋める可能性、およびオブジェクトの構築可能性をテストするための制約の使用について説明します。このビデオでは、ラベルを使用して線画を解釈する際の課題、Waltz のアルゴリズム、および描画分析でフォークの頂点を処理するプロセスについても説明しています。このプロジェクトで開発された制約には、マップの色分けやスケジューリングなど、制約の多い問題を解決するためのアプリケーションがあります。

  • 00:00:00 線画を解釈し、線画内のオブジェクトの数を決定します。このアイデアは、Dave Huffman、Dave Waltz、および Jane Floydter によってさらに洗練されました。このプロジェクトの作業は、当初、子供のブロックのような単純なオブジェクトから始めて、見ることができるコンピューターを作成する試みによって動機付けられました。トランスクリプトのこのセクションでは、Patrick Winston が、この分野で最も強力な方法の 1 つを開発するための闘争の背後にある物語を共有しています。これには、制約充足問題が含まれます。また、コンピュータに視覚を持たせる試みからすべてがどのように始まったかを共有しています。

  • 00:05:00 このセクションでは、スピーカーは、線画を研究したグズマンの作品とその解釈方法について説明します。 Guzman は、これらの図には矢印タイプのジャンクションとフォーク タイプのジャンクションが多く含まれる傾向があることを発見し、これらを証拠として使用して、どの面が同じオブジェクトに属しているかを推測しました。 Guzman は、この問題を解決するための証拠の量子として「リンク」を使用するという理論を思いつきました。彼は 1 リンク理論を拒否し、2 リンク理論が保守的すぎることを発見し、2 つの長さを繰り返す第 3 の理論に導きました。しかし、この方法ではうまくいかない場面が多く、なぜうまくいくのか、いつうまくいかないのかという問題が提起されました。世界は 3 つの面の接合点、または頂点でいっぱいであるため、それが機能することがわかりました。

  • 00:10:00 このセクションでは、ビデオでは、実験家グズマンのプログラムを分析した後、線画の解釈に関する理論を開発するためのデビッド ハフマンのアプローチについて説明します。ハフマンは、3 つの平面の交点から形成された三面体の頂点のみを含む一般的な位置の世界など、いくつかの特徴を持つ単純な数学的世界で作業し、4 種類の線を区別することにしました。それぞれプラス、マイナス、矢印。これらの制約により、グズマンのプログラムとは異なり、より優れた理論を開発しながら、問題を手動で管理することができました。

  • 00:15:00 このセクションでは、Patrick Winston 教授が、頂点、エッジ、ジャンクション、およびラインを含む、図面内のラインとジャンクションをカタログ化および分類するために使用される語彙について説明します。彼は続けて、ジャンクションの周囲にラベルを配置する方法は 18 通りしかなく、それ以外はすべて除外されると説明しています。彼はまた、6 つの L、5 つのフォーク、4 つの T、および 3 つの矢印の例を示しており、これらはジャンクションのラベル付けに適しています。ジャンクションにラベルを付けるさまざまな方法はオクタントに依存し、埋められたオクタントの数によってジャンクションのタイプが決まります。

  • 00:20:00 このセクションでは、話者は 5 つのオクタントを物で満たす可能性について説明し、観察されたものを分析するために 3 つの異なる視点からオブジェクトを表示する方法を説明します。紫色のチョークの視点からオブジェクトを見ると、2 つの凹面と 1 つの凸面がある矢印のジャンクションがあります。青いチョークからは、凹んだ線と境界があり、反対側は
    青の視点の対称的な反対。話者はさらに、フォーク スタイルと L スタイルのジャンクションを作成できる頂点と、残りの線を境界として T 字型を作成できるオブジェクトを覆い隠します。最後に、話者は、オブジェクトが一点に集まると、6 つの面を持つ頂点も作成できると述べています。

  • 00:25:00 このセクションでは、スピーカーは制約と、それらを使用して特定のオブジェクトが構築可能かどうかを判断する方法について説明します。ジャンクション周辺の線と矢印の配置を調べることで、考えられるすべての配置のカタログが作成されます。スピーカーは、このカタログを使用して、ホーム プレートに似たオブジェクトの周りに線と矢印にラベルを付ける方法を実演します。ただし、カタログに収まらないジャンクションに直面した場合、オブジェクトは構築不可能と判断されます。このメソッドは、オブジェクトの構築可能性をテストする方法を提供しますが、テストに合格しても構築可能性を保証するには不十分です。

  • 00:30:00 このセクションのビデオでは、コンピュータ ビジョンにおける線画の解釈の問題について説明します。最初のアプローチでは、4 つの面を持つジャンクションにラベルを付ける必要がありましたが、面がないために一部の図面にラベルを付けることができませんでした。大学院生の David Waltz は、この問題の解決に着手し、亀裂、影、非三面体頂点などの考慮事項を追加しました。その結果、ラベルの枚数が 4 枚から 50 枚以上に増え、手作業での作業が困難になりました。 Waltz の研究は、問題、機能する方法、および一般化可能な原則を持つことの重要性を示しました。

  • 00:35:00 このセクションでは、スピーカーはラベルを使用して線画を解釈するという課題について説明します。彼は線画の例を共有し、深さ優先検索を使用してすべての可能なラベルとその組み合わせを探索することを含む Waltz のアルゴリズムを使用してそれを解釈する方法を説明しています。しかし、このアルゴリズムは計算コストが高いことが判明しており、1 年半後、Waltz は指数探索空間を処理できる新しい方法を考え出さなければなりませんでした。講演者は、このアルゴリズムの有効性は、Waltz のラベル セットと彼の新しい方法の組み合わせによるものであると述べています。

  • 00:40:00 このセクションでは、スピーカーはワルツのアルゴリズムと、隣接するジャンクションをチェックして、ジャンクション 2 に配置されたラインが隣接するジャンクションのラインと互換性があるかどうかを確認する方法について説明します。最初の 6 つの可能性のうち、ジャンクション 1 と 2 の間の境界線が許可されていないため、それらの半分が除外されます。残りの可能性はジャンクション 3 に対してチェックされ、そこから、ジャンクションに対するその他の制約がチェックされ、すべてのジャンクションとそれらの間のラインに対して 1 つの解釈のみが行われます。

  • 00:45:00 このセクションでは、スピーカーは図面解析でフォーク頂点を処理するプロセスについて説明します。それらを配置した後、話し手は、すべてのジャンクションについて独自の解釈を持っていると結論付け、どの線が凸または凹であるかを識別します。次にスピーカーは、よりあいまいな図面のプロセスを示し、制約伝播アクティビティが人間が線画を解釈する方法に似ていることを指摘し、視覚で使用する制約伝播装置を持っている可能性があることを明らかにします。最後に、スピーカーは、このタイプのメカニズムを、多くの制約を伴う問題、特にスケジューリングに適用されるマップの色付けを解決するためにどのように使用できるかについて説明します。
7. Constraints: Interpreting Line Drawings
7. Constraints: Interpreting Line Drawings
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonHow can we recognize the number o...
 

講義 8. 制約: 検索、ドメイン削減



8. 制約: 検索、ドメイン削減

このビデオでは、問題解決における制約の概念、特に検索とドメイン削減のコンテキストについて説明します。スピーカーは、地図上の州に色を割り当てる例を使用して、検索を開始する前に制約を使用して可能性を絞り込む方法を説明します。また、スピーカーは、割り当てのみをチェックする、またはすべてを考慮するなど、制約を処理するためのさまざまなアプローチを探り、制約に基づく問題解決の別のアプリケーションとしてリソース計画の概念を紹介します。全体として、このビデオは、複雑な問題を効率的に解決するために制約を使用する方法の包括的な概要を提供します。

  • 00:00:00 ビデオのこのセクションでは、スピーカーは 26 の州がある地図の例を使用して、地図の色付けの問題の難しさについて説明します。彼は、色の選択をローテーションする深さ優先検索では、適切な色を見つけるのに非常に長い時間がかかると指摘し、図を使用して問題を示しています。ただし、検索を開始する前に、各状態の色の可能性を絞り込むことができる制約伝播の概念を導入しています。次にスピーカーはテキサス問題に取り組み、制約の伝播が不可能な検索で行き詰まるのを回避するのにどのように役立つかを示します。

  • 00:05:00 このセクションでは、スピーカーは制約を使用してマップ上の州に色を割り当てる問題を解決する方法を実演します。武道の原則を使用し、局所的な制約を調べることによって、話者は隣接する州が同じ色を持たないようにします。スピーカーは、変数、値、ドメインなど、いくつかの重要な語彙も紹介します。ドメインの概念は、変数が取ることができる値の袋であり、話者はこの語彙を使用して、下流の問題を引き起こさない選択を行う方法を示します。

  • 00:10:00 このセクションでは、スピーカーは検索とドメイン削減のコンテキストで制約がどのように機能するかを説明します。制約は変数値のペアに対する制限であり、マップの色付けの問題でよく使用されます。各状態は変数、色は値、残りの色の可能性はドメインです。この場合の制約は、境界を共有する状態が同じ色を持つことはできないということです。次にスピーカーは、深さ優先検索と削減へのアプローチを疑似コードに書き留めて形式化します。疑似コードには、割り当てごとに変数を考慮し、残りのすべての選択肢を考慮し、ドメインに残っているものはすべて、他の状態での選択に問題がないことを確認する必要があります。

  • 00:15:00 このセクションでは、スピーカーは検索アルゴリズムの制約を処理する方法について説明します。彼らは、検索の各値について、アルゴリズムが配置された制約を満たしているかどうかを確認する必要があると説明しています。制約を満たす隣接値がない場合、アルゴリズムはその値をドメインから削除します。ドメインが空になると、アルゴリズムはバックトラックする必要があります。スピーカーは、何も考慮しない、すべてを考慮する、割り当てのみをチェックするなど、問題にアプローチするさまざまな方法を探ります。最終的に、割り当てをチェックするだけでは高速ですが、ミスが発生する可能性があることがわかります。

  • 00:20:00 このセクションでは、スピーカーは、カラー マッピングの問題を解決するコンテキストでドメイン削減アルゴリズムについて説明します。彼らは、割り当ての近隣をチェックすること、つまり、近隣の州で使用できる色のオプションを確認することが、問題を解決するために不可欠であると説明しています。講演者は、プロセスをより効率的にするために、ドメインを減らした変数を介して伝播することも提案しています。さらに、隣人の隣人をチェックすることで、問題解決プロセスをさらに合理化できます。講演者は、ドメイン縮小アルゴリズムが複雑な問題の解決に役立つことを指摘していますが、制限と行き止まりの可能性も認めています。

  • 00:25:00 このセクションでは、スピーカーはドメイン削減と、伝播する変数を決定する方法について説明します。縮小されたドメインを持つすべての変数を介して伝播する代わりに、アルゴリズムは、単一の値まで、最大の収縮を持つ変数のみを伝播します。これにより、チェックされる制約の数が減り、解決時間が短縮されます。講演者はまた、問題を解決するのをより困難にするために特定の順序で並べ替えるなど、いくつかの「汚い小さな秘密」を紹介します.最も制約のある変数または最も制約の少ない変数から開始するかどうかの選択は、ユーザーの好みに任されています。

  • 00:30:00 ビデオのこのセクションでは、スピーカーは、最初に最小の制約に取り組み、最初に最も制約の少ない状態になるように並べ替えた方法について説明します。彼らは 1732 の制約のみをチェックし、59 の行き止まりがあったため、最も制約の多い最初の割り当てのみをチェックするという別の方法を試みました。ただし、状態が最も制約の多いものから最も制約の少ないものに配置されている場合、通常の深さ優先検索はうまく機能すると述べています。次にスピーカーは、新しい航空会社である Jet Green のリソース プランニングの問題を紹介し、それが地図の色付けの問題にどのように類似しているかについて説明します。 Jet Green は、主にボストンとニューヨークの間を飛行したいと考えており、飛行機の数を最小限に抑えながら、時々ロサンゼルスに飛行したいと考えています。

  • 00:35:00 このセクションでは、話者は都市間のフライトのスケジューリングの例を示します。これは、地図の色付け問題の概念を適用することで解決できます。課題は、4 機の航空機を編成して、目的のルートを効率的に運用することです。スピーカーは、問題の制約を強調しています。2 つの飛行機が同時に飛行することはできず、各飛行機は等しく使用されるべきであり、地上時間の制約があります。さらに、スピーカーは、検索戦略、ドメイン削減、近隣チェック、および最も制約のある最初のタイプの選択がソリューションの効率に影響を与える可能性があることを示しています。

  • 00:40:00 このセクションでは、タスクに必要なリソースの適切な数を決定するために最小および最大の制約を使用するという概念をインストラクターが紹介します。リソースの最小数と最大数を設定することで、アルゴリズムは検索に時間がかかる狭い範囲にすばやく収束し、その範囲内にあることを確認できます。インストラクターはまた、最初にほとんどの制約を使用し、単一のアルゴリズムに縮小されたドメインを介して伝播して、適切なリソース割り当てを達成することをお勧めします。一度に複数のことを行うことで、タスクに必要なリソースをすばやく決定できます。
8. Constraints: Search, Domain Reduction
8. Constraints: Search, Domain Reduction
  • 2021.04.23
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010Instructor: Patrick WinstonView the complete course: https://ocw.mit.edu/6-034F10YouTube Playlist: https://www.yo...
 

講義 9. 制約: 視覚オブジェクト認識



9. 制約: 視覚オブジェクト認識

このビデオでは、Patrick Winston がオブジェクト、サーフェス法線、および一般化された円柱のエッジ ベースの記述を形成するという David Marr のアイデアを含む、視覚オブジェクトを認識することの課題について説明します。講演者は、アライメント理論や相関アルゴリズムを使用して中間サイズの特徴の位置を計算するなど、視覚オブジェクト認識のさまざまな方法についても詳しく説明します。ウィンストンは、猫の飲酒の例を使用して、同一の寸法を持たない自然物を認識することの難しさと、視覚認識におけるコンテキストとストーリーテリングの重要性を強調しています。ビデオ全体を通して、彼はさまざまな概念を説明するためにデモンストレーションと例を提供します。全体として、講演者は視覚認識の難しさを強調し、学生がこの分野で研究を続けることを奨励しています。

  • 00:00:00 このセクションでは、パトリック ウィンストンが、顔などの視覚オブジェクトを認識する際の課題について説明します。彼は、政治家の画像がどのように見えるかを変えることができるプログラムを紹介し、保存された画像をどのように補間するかを示します。ウィンストンはその後、視覚認識の最初のステップは、オブジェクトのエッジベースの記述を形成することであると提案したデビッド・マーのアイデアから始めて、オブジェクト認識の歴史を掘り下げます。次に、マーは、オブジェクトの向きを示すために表面法線でプライマル スケッチを装飾することを提案し、それを 2.5 D スケッチと呼んだ。これに続いて、2.5 D スケッチが一般化された円柱に変換され、視覚オブジェクトの認識に一歩近づきました。

  • 00:05:00 このセクションでは、スピーカーは、軸に沿って移動する円形領域としての正円柱のアイデアから始めて、視覚的オブジェクト認識へのさまざまなアプローチについて話し、アライメント理論の概念について説明します。認識の位置合わせ理論は、オブジェクトの 3 つの写真があれば、そのオブジェクトの任意のビューを正投影で再構成できるという考えに基づいています。これを使用して、ライブラリ内のオブジェクトを認識することができます。話者は、異なるオブジェクトの対応する場所を選択でき、写真と未知のオブジェクトの位置合わせを使用して、未知のオブジェクトが元のオブジェクトと同じかどうかを判断できると主張します。

  • 00:10:00 このセクションでは、Patrick Winston が、アルファ、ベータ、ガンマ、およびタウを定数として使用して、さまざまなオブジェクトの方程式を生成する方法を説明します。彼は、この方程式が 4 つの異なる色の点に対してどのように機能するかを示し、すべての点に同じアルファ、ベータ、ガンマ、タウの値を選択することで、線形演算を使用して異なるオブジェクトの点を関連付けることができます。次に、座標はオブジェクトの図面への 2D 投影であると説明し、視覚オブジェクト認識で曲面をどのように識別できるかについての質問に答えます。

  • 00:15:00 このセクションでは、Patrick Winston が、オブジェクトの位置を予測して認識を支援するために制約がどのように役立つかについて説明します。彼は、4 つの線形方程式と 4 つの未知数から導出できるアルファ、ベータ、ガンマ、およびタウ変数を使用することで、対応する点を正しく特定して、未知のオブジェクトの位置に関する貴重な情報を提供できると説明しています。ウィンストンはこの方法を実演し、対応する点が正しく識別されれば、オベリスクやオルガンなどのオブジェクトが正しいものであるという強力な指標を提供すると説明しています。

  • 00:20:00 このセクションでは、スピーカーは、z 軸を中心に回転する 3D オブジェクトの画像の x 座標の動きを計算する方法を実演します。まず、標準位置を定義し、その位置の x 座標と y 座標を特定します。次に、オブジェクトを回転させて 3 つの異なる位置 (a、b、c) を作成し、それぞれの回転角度を決定します。次に、スピーカーはベクトル回転を使用して、オブジェクトが z 軸を中心に回転するときに x 座標がどのように変化するかを計算します。このプロセスでは、余弦関数と正弦関数を使用し、ベクトルが回転するときにベクトルの x 座標と y 座標の射影を考慮する必要があります。

  • 00:25:00 このセクションでは、話し手は正射投影による視覚オブジェクト認識を説明する方程式を単純化します。これは、透視図を使用せずに x 軸に沿った投影です。彼は、角度シータのコサインやサインなどの未知の要素は定数であり、x sub a と x sub b のアルファ乗数とベータ乗数として表すことができると主張しています。並進と回転を可能にするシナリオが与えられた場合、話者は、追加の定数タウを 2 つの方程式を引くことによって特定する必要があることに注意します。

  • 00:30:00 このセクションでは、Patrick Winston がオブジェクト認識のさまざまな方法について説明します。彼は、認識のために写真を撮り、いくつかの点の座標を記録できる製造されたオブジェクトとは異なり、同じ寸法を持たない自然オブジェクトを認識する問題について語っています。次に、相関に基づくシモン・ウルマンの理論を提示します。この理論では、2 つの画像を取得し、一方を相関マスクとして他方の画像に適用し、主要なオブジェクトを特定します。ただし、このアイデアには制限があります。これは、一般的でない機能を特定できず、一般的な機能のみを特定できるためです。ウィンストンは、2 つのカボチャの顔の例を描くことによってアイデアをさらに探求し、目や鼻などの特定の特徴の識別に基づいてオブジェクトを認識するというアイデアの問題について説明します。

  • 00:35:00 このセクションでは、スピーカーは、視覚オブジェクト認識がどのように機能し、認識される特徴のサイズにどのように依存するかについて説明します。小さすぎたり大きすぎたりする画像は有益な情報を提供しませんが、2 つの目と鼻の組み合わせなど、中間サイズの特徴は役立つ場合があります。課題は、画像の海でこれらの中間の特徴を見つけることになります。スピーカーは、相関アルゴリズムを使用して、特徴が発生する画像内のオフセットを決定することを提案しています。パラメーター x を最大化することにより、顔と画像の積分を計算して特徴の位置を特定できます。

  • 00:40:00 ビデオのこのセクションでは、プレゼンターは、ノイズのある画像を例として使用して、視覚オブジェクト認識で相関がどのように機能するかを説明します。相関には、オフセットのある面の範囲での乗算と積分が含まれます。オフセットが等しい場合、プログラムは画像をそれ自体で乗算し、面上で統合します。変換パラメーター x と y を最大化することで、ノイズが追加されているにもかかわらず、人物の顔など、画像の特定の特徴を抽出することができます。このデモンストレーションは、ノイズが追加されても、プログラムが適切な機能を選択できることを示しました。

  • 00:45:00 このセクションでは、パトリック ウィンストンが視覚認識の課題、特にさまざまな角度から人を認識する能力について説明します。顔をさまざまな角度からどのように認識できるかは明らかではありませんが、顔を逆さまにしたり伸ばしたりすると、相関理論が破られる可能性があると彼は指摘します。しかし、彼は、何が起こっているのかを視覚的に判断する方法に、より困難な問題があると示唆しています。彼は、コンピューター ビジョンにおける現在の課題を強調しながら、実験で実行しているアクションを決定するように学生に要求します。

  • 00:50:00 このセクションでは、話者は猫の飲酒の例を使用して、ストーリーテリングの力が視覚認識にどのように影響するかを示します。かなりの視覚的な違いにもかかわらず、人間は画像に示されている物語を理解することで、猫が飲酒していることを簡単に識別できます。私たちの視覚システムの下部は、ストーリー装置が猫の飲酒行動を認識するのに十分な情報を提供し、視覚オブジェクト認識におけるコンテキストとストーリーテリングの重要性を証明しています。
9. Constraints: Visual Object Recognition
9. Constraints: Visual Object Recognition
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWe consider how object recognitio...
 

講義 10. 学習の概要、最近隣



10. 学習入門、最近傍

この YouTube ビデオでは、ウィンストン教授が学習のトピックを紹介し、規則性に基づく学習とフィードバックに基づく学習の 2 種類の学習について説明しています。彼は、最近傍学習、ニューラル ネットワーク、ブースティングなどの規則性に基づく学習手法に焦点を当てています。最近傍学習では、値のベクトルを生成する特徴検出器が使用されます。次に、値のベクトルを可能性のあるライブラリからのベクトルと比較して、最も近い一致を見つけ、オブジェクトが何であるかを判断します。講演者は、この方法をどのように適用できるかについて、さまざまな例を挙げています。彼はさらに、決定境界を使用してオブジェクトのカテゴリを識別する方法についても説明しています。異なる症例間の相似性の原理を紹介し、学習に大きな影響を与える睡眠管理の重要性を強調しています。最後に、彼は不均一性の問題、「何が重要か」の問題、および統計手法を使用してデータを正規化することの重要性について触れています。

  • 00:00:00 このセクションでは、ウィンストン教授が学習のトピックと、規則性に基づく学習とフィードバックに基づく学習の 2 種類の学習を紹介します。彼は前者に焦点を当て、最近傍学習、ニューラル ネットワーク、ブースティングなどの規則性ベースの学習手法について説明しています。最近傍学習は、パターン認識の分野で確立された手法であり、学習問題を解決するときに最初に試すものです。教授はまた、考慮すべき 2 つのパズルを提示します。つまり、コーヒーを飲むことができるコンピューター プログラムを作成する方法と、犬がダイエット コーラを何のために使用すると考えるかです。最後に、睡眠は学習に大きな影響を与えるため、睡眠のトピックに取り組み、適切に管理することの重要性について言及しています。

  • 00:05:00 このセクションでは、スピーカーはパターン認識の一種である最近傍学習の概念を紹介します。これには、値のベクトルを生成する特徴検出器が含まれます。次に、値のベクトルを可能性のライブラリからのベクトルと比較して、最も近い一致を見つけ、オブジェクトが何であるかを判断します。講演者は、この方法を使用して、組み立てラインで電気カバーの面積と穴の面積を測定することによって分類する例を示します。これは規則性に基づく学習の一形態であり、情報を処理するブルドーザーのようなものです。講演者は、これが制約に基づくアイデアを含み、ワンショット学習と説明ベースの学習を可能にする人間の学習にとって必ずしも最良のモデルではないことに注意します。

  • 00:10:00 このセクションでは、インストラクターは、穴の面積が異なるカバーを組み立てる例を使用して、決定境界の概念を説明します。彼は、垂直二等分線を使用して空間を分割する方法を示しています。これは、最も近い理想化された記述に基づいてオブジェクトのカテゴリを識別するのに役立ちます。さらに、決定境界を使用して、その属性の 1 つを測定し、それを決定境界によって作成されたカテゴリと比較することによって、新しいオブジェクトのカテゴリを識別することもできます。

  • 00:15:00 このセクションでは、話者は異なるケース間の類似性の原則を紹介し、何かが特定の側面で類似している場合、他の点でも類似している可能性が高いと述べています。この原則は、おとぎ話、法律やビジネスのケース、さらには医療のケースであろうと、ほとんどの学習の基礎です.アイデアは、現在の状況との類似点を認識して、前例や知識を適用することです。この原理はさまざまな分野に応用できます。たとえば、細胞の識別に使用できます。この場合、細胞を高次元空間に配置し、さまざまな特性に基づいて類似性を評価できます。同様に、この原理は情報検索にも使用できます。この場合、雑誌の記事を単語数に基づいて比較して、特定の質問に対処することができます。

  • 00:20:00 このセクションでは、どのアーティクルが未知のアーティクルに最も近いかを判断しようとする際に、最近傍を使用するという概念について説明します。この問題は、すべての町と国の記事が最も近いと判断されたときに発生します。代わりに、ベクトル間の角度など、別の測定基準を使用して問題を解決する方法について説明します。 2 つのベクトル間の角度の余弦は、簡単な計算で計算できます。これは、ロボット アームの制御など、多くの状況で役立ちます。目標は、アームを動かして特定の速度と加速度でボールの軌道を制御することです。これには、シータ 1 とシータ 2 の 2 つの角度を決定することが含まれます。

  • 00:25:00 このセクションでは、スピーカーは、ボールの目的の (x,y) 座標を、目的の位置、速度、および加速度を使用して θ1 および θ2 空間に変換する際に発生する問題について説明します。彼らはコリオリの力の概念を導入します。これは、運動の方程式に含まれる複雑な幾何学の結果です。この問題を解決するために、講演者は、腕の動きの組み合わせの大きな表を作成し、次に目的の軌道を小さな断片に分割し、関連するトルクを含めて表から最も近いものを見つけることを提案しています。この方法は、以前はコンピュータの処理能力が不十分であるために却下されていましたが、最近再検討され、同様の動きにはうまく機能します。

  • 00:30:00 このセクションでは、スピーカーは、ロボットが「子供時代」を経て、タスクが徐々に良くなるにつれて、学習プロセスがどのように機能するかを説明します。この改善は、ロボットが後で参照できるように、必要な動作のより良いバージョンを記録するテーブルを使用することで達成されます。次にスピーカーは、ロボットの学習速度を示すグラフを表示します。野球のピッチを記録するために同じメモリ記録方法を使用するトピックについても簡単に説明します。

  • 00:35:00 このセクションでは、パトリック ウィンストン教授が、運動制御に関連する脳、特に小脳のニューロンとシナプスの数、およびそれが運動技能学習の巨大なテーブルとしてどのように機能するかについて説明します。次に、機械学習における正規化されたデータの問題と、それがさまざまな次元でのデータの広がりにどのように影響するかを探ります。解決策は、分散を計算し、統計の手法を使用してデータを正規化することです。

  • 00:40:00 このセクションでは、学習に最近傍を使用するときに発生する可能性がある潜在的な問題について説明します。そのような問題の 1 つは、データが新しい変数に依存しない場合の不均一性の問題です。 2 番目の問題は、アルゴリズムが答えを混乱させる距離を測定する可能性がある「何が重要か」の問題です。最後に、問題 3 は、小麦粉を使わずにケーキを焼こうとするのと同じように、利用可能なデータが質問から独立している場合です。次にスピーカーは、睡眠の重要性と、特に陸軍レンジャーのような個人にとって、良い睡眠習慣がいかに重要であるかについて触れます。さらに、戦後の分析で観察されたように、睡眠不足がターゲットを区別する際のエラーにつながる可能性があることを彼は説明しています。

  • 00:45:00 このセクションでは、スピーカーは睡眠不足が人間の心と体に与える影響について説明します。彼は、72 時間後には、個人の能力とパフォーマンスが開始時と比べて 30% 低下すると説明しています。睡眠不足が蓄積し、1 時間の睡眠不足が 20 日続くと、能力は 25% に低下します。講演者はまた、カフェインと昼寝の有効性を調べ、カフェインが何らかの効果をもたらすことを強調しています。彼は、原因と相関関係を混同しないように警告し、犬や猫のような動物がダイエットドリンクが体重増加を引き起こすという間違いを犯す可能性があることを警告しています。
10. Introduction to Learning, Nearest Neighbors
10. Introduction to Learning, Nearest Neighbors
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture begins with a high-l...
 

講義 11. 学習: 識別ツリー、障害



11. 学習: 識別ツリー、障害

MIT の Patrick Winston 教授が、データを使用して吸血鬼を識別する認識メカニズムを構築するという概念と、Occam's Razor を満たす小さくて費用対効果の高い識別ツリーを作成することの重要性について説明しています。考えられるすべてのツリーを計算することは NP 問題であるため、彼はツリーを構築するために発見的メカニズムを使用することを提案しています。ウィンストンは、シャドーテスト、ガーリックテスト、顔色テスト、アクセントテストを使用して、どの個人が吸血鬼であるかを特定することを提案し、セットで障害を測定して、障害の測定に基づいてテストの全体的な品質を見つける方法を説明しています.このビデオでは、識別ツリーを数値データで使用する方法、およびツリーを一連のルールに変換して、ルールベースの動作に基づく単純なメカニズムを作成する方法についても説明します。

  • 00:00:00 このセクションでは、マサチューセッツ工科大学 (MIT) のパトリック ウィンストン教授が、吸血鬼を識別するための認識メカニズムを構築するためにデータを使用するという概念を紹介します。彼は、このデータセットと前のクラスで使用した電気カバー データセットの違いを指摘し、このデータセットは数値ではなく象徴的であり、最近傍法が使用できないことを指摘しました。彼はまた、特定のテストのコストや、どの特性が実際に重要であるかの不確実性など、吸血鬼を特定する際の他の課題も強調しています。

  • 00:05:00 このセクションでは、パトリック ウィンストンが識別ツリーまたは決定ツリーの概念を説明し、コスト効率が高く、データの均一なサブセットを生成する小さなツリーを構築することの重要性を強調しています。目的は、最も単純な説明がしばしば最良の説明であると述べている Occam の Razor を満たす、単純で小さな説明を生成するためのテストの可能な限り最良の配置を見つけることです。彼はまた、考えられるすべてのツリーを計算することは NP 問題であるため、ツリーを構築するためにヒューリスティックなメカニズムを使用することを提案しています。最後に、Winston は、教室で使用される小さなサンプル セットは実際のアプリケーションには適していないと警告しています。

  • 00:10:00 このセクションでは、影テスト、ニンニク テスト、顔色テスト、およびアクセント テストを使用して、どの個人が吸血鬼であるかを特定します。テストは小さなサンプル母集団に適用され、テストがデータをどのように分割するかを見ることで、どのテストが最も均一なグループを生成するかを判断できます。最終的な目標は、サンプル集団内のすべての吸血鬼を正確に識別できるテストを見つけることです。影のテストでは、人口を影を落とす人と影を落とさない人に分けます。影を落とさないのは 1 人だけで、彼らが吸血鬼であることを示します。にんにくテストでは、サンプル母集団のすべての吸血鬼がにんにくを食べることに否定的な反応を示したことがわかりました。顔色テストとアクセント テストは、どの個人が吸血鬼である可能性が最も高いかを特定するのにも役立ちます。

  • 00:15:00 このセクションでは、ビデオは、いずれかのグループに固有の特性を選択することにより、個人のグループを均質なセットに分割することにより、識別ツリーを作成する方法の例を説明しています。この例には、吸血鬼と非吸血鬼、および各グループを識別するために使用されるテストが含まれます。このビデオでは、この概念をより大きなデータセットに適用する方法に関する質問にも対処し、教室の例の限界を強調しています。

  • 00:20:00 このセクションでは、セットで障害を測定するという概念が紹介されています。木の枝の一番下にある集合の乱れを測定する方法を見つけるために、情報理論家に指導を求めます。情報理論家によると、セットの無秩序は、正と負の合計数を考慮し、正の数に正の数を合計数で割った対数を掛けて、2 を底として計算されます。この方法は、障害の測定に基づいてテストの全体的な品質を見つけるのに役立ちます。
     
  • 00:25:00 このセクションでは、スピーカーは、正と負の比率を使用して、データ セット内の障害を測定する式を説明します。完全に混同されたデータ セットと完全に肯定的なデータ セットの値を計算した後、スピーカーは、これらの曲線に注意を払い、クイズの質問を迅速に処理することの重要性を確認します。最後に、L'Hopital の規則を使用して、話者は合計に対する否定の比率が 0 に近づくと 3 番目の値を計算し、3 つの点を持つ曲線のグラフ化を可能にします。

  • 00:30:00 このセクションでは、スピーカーはテスト全体の品質を測定する方法と、テストによって生成された各セットの障害を測定する方法について説明します。スピーカーは、テストによって生成された各セットの無秩序を合計することを提案しますが、この方法は、ほとんど何も下にない枝にほとんどすべてが下にある枝と同じ重みを与えるため、最善ではない可能性があることに注意してください。この問題を解決するために、スピーカーは、最終的にその分岐に至るサンプルの割合に基づいて合計を重み付けすることを提案しています。スピーカーはサンプル問題を使用してこの方法を説明し、同種集合の無秩序はゼロであると結論付けます。

  • 00:35:00 このセクションでは、特定のデータを特定してサブセットに分割するテストの品質に焦点を当てています。セットの無秩序または乱れは、すべてのサンプルが同じ場合はゼロであり、サンプルが 2 つのタイプの均等な混合物である場合は 1 です。サブセットの確率にセットのそれぞれの障害を掛けることによって、各テストの品質を計算できます。次に、この品質メトリックを使用して、データを均質なサブセットに分割するのに最適なテストを決定します。これは、できるだけ単純なツリーを構築するために不可欠です。ただし、情報理論やエントロピーよりも、データ分析の背後にある直感に重点が置かれています。

  • 00:40:00 このセクションでは、データにしきい値を設定することで、識別ツリーを数値データで使用する方法について説明します。これにより、カテゴリ データで使用されるテストと同様に、バイナリ テストを作成できます。コンピュータはさまざまなしきい値を試すことができ、データを同種のグループに分離するのに最適なしきい値を決定します。最近隣などの他の方法とは異なり、決定境界は、データ自体の形状に従うのではなく、1 つの軸または別の軸に平行です。

  • 00:45:00 このセクションでは、識別ツリーとその利点、および識別ツリーを一連のルールに変換して、ルール指向のユーザー向けに単純化する方法について学びます。ツリーは、各枝を下って葉まで進むことで一連のルールに変換できます。ルールが影とニンニクの両方をテストする場合、いくつかの句を削除して、ルールベースの単純なメカニズムを作成できます。行動。
11. Learning: Identification Trees, Disorder
11. Learning: Identification Trees, Disorder
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonIn this lecture, we build an iden...
 

講義 12a: ニューラルネット



12a: ニューラルネット

このビデオでは、ニューラル ネットワークに関連するさまざまなトピックについて説明します。スピーカーは、ニューラル ネットワークの歴史について議論することから始め、この分野を変革した Geoff Hinton によって行われた極めて重要な仕事に焦点を当てます。次に、ニューロンの構造と、入力が収集および処理される方法について説明します。ビデオでは、ニューラル ネットワークが関数近似器としてどのように機能するか、およびヒル クライミングと勾配降下法を使用してパフォーマンスを向上させる方法について詳しく説明します。部分導関数の計算を容易にするために連鎖則が導入され、講演者は、このアプローチを使用して世界で最も単純なニューラル ネットワークをトレーニングする方法を実演します。ニューラル ネットワークの最適な速度定数についても説明し、スピーカーは 2 つの入力と出力を持つより複雑なニューラル ネットワークを紹介します。最後に、再利用の原則を導入して、大規模なネットワークを介したパスの指数関数的なブローアップの可能性の問題に対処します。全体として、このビデオは、ニューラル ネットワークの優れたアイデアは、その分野に大きな影響を与える可能性があるにもかかわらず、多くの場合単純で見落とされやすいことを強調しています。

  • 00:00:00 このセクションでは、教授はニューラル ネットワークの歴史について説明し、当初、当時のニューラル モデルは人間の脳の正確なモデルではなく、誰もニューラル モデルを作成できなかったと多くの人が信じていたと述べています。何の価値もありませんでした。教授は続けて、その 2 年後、トロント大学の Geoff Hinton が写真の認識と分類に関して行った神経学的研究で世界を驚かせ、いくつかの例を含む論文を発表したと述べています。このビデオは、トロントのニューラル ネットワークが認識できた画像と、認識が困難だった画像の例をいくつか示しています。

  • 00:05:00 このセクションでは、スピーカーがニューラル ネットワークについて説明し、努力と関心の高まりにより過去 3 年間でニューラル ネットワークがどのように大幅に改善されたかについて説明します。彼は、私たちが自分自身の神経系にどのように触発されたかを説明し、軸索、樹状突起、およびそれらの間のシナプス接続を含むニューロンの構造について説明しています。次にスピーカーは、結合の強度を反映するバイナリ入力と重みを使用して、ニューラル ネットワークでシナプス結合がどのようにモデル化されるかについて説明します。

  • 00:10:00 このセクションでは、スピーカーは、シナプスの重み、サマー、およびニューロンが発火するかどうかを決定するしきい値ボックスを使用する単純なモデルを通じて、ニューロンで入力が収集される方法をモデル化する方法を説明します。このモデルは人間の脳の働きに着想を得たものですが、神経生物学者によってまだ完全には理解されていない未知の要素や複雑な要素がまだたくさんあります。このモデルは、ニューロンがどのように機能し、ネットワークとしてどのように集合的に機能するかという一般的な本質を理解するための 1 つの方法にすぎません。

  • 00:15:00 このセクションでは、入力がネットワークを流れて出力になる関数近似器としてニューラル ネットワークがどのように機能するかについてスピーカーが説明します。出力ベクトルは、入力ベクトル、重みベクトル、およびしきい値ベクトルの関数です。パフォーマンス関数は、目的の出力ベクトルと実際の出力ベクトルを比較することによって構築され、常にパフォーマンス関数を最小化することを目的としています。講義では、山登り法を使用して単純なニューラル ネットワークの重みとしきい値を最適化するプロセスについて説明しますが、この方法は、6,000 万個のパラメーターを持つヒントンのニューラル ネットワークなど、膨大な数のパラメーターを持つニューラル ネットワークには適していないことを認識しています。

  • 00:20:00 このセクションでは、ナレーターは、勾配降下法を使用して、特定の重みに関して関数の偏導関数を取得することにより、パフォーマンス関数をわずかに改善する方法について説明します。ただし、この方法は連続サーフェスに対してのみ有効であり、ニューラル ネットワークの場合のように不連続サーフェスに対しては有効ではありません。このソリューションは、1974 年に Paul Werbos によって導入されました。これは、常に -1 である入力に接続された、重み W0 を持つニューロンに別の入力を追加することを含みます。この入力により、しきい値が効果的にゼロに移動し、ニューラル ネットワークの遷移関数がよりスムーズになります。

  • 00:25:00 このセクションでは、ビデオでシグモイド関数と、それがニューラル ネットワークでどのように使用されるかについて説明します。シグモイド関数は、ニューロンの活性化関数として使用され、数学に必要な正しい外観と形状を提供します。次に、問題のあるしきい値が削除されたので、偏微分が計算され、ニューラル ネットワークのトレーニングが試行されます。世界で最も単純なニューラル ネットワークは、2 つのニューロンとパフォーマンス関数を与えるいくつかのパラメーターで構成されると説明されています。次に、このビデオでは、チェーン ルールを導入して、偏微分を中間変数の計算に書き直して、それらが他の変数に対してどれだけ小刻みに動くかを判断し、最終的にニューラル ネットワークをトレーニングします。

  • 00:30:00 このセクションでは、話者は連鎖律を使用して偏導関数を消去および書き換え、単純なニューラル ネットワークを解くための式を提供します。導関数は便宜上積の形式に変換され、話者は w2 に関する p2 の偏導関数 (Y に等しい) を見つけます。 p2 に関する Z の偏導関数は、閾値機能。それを理解するために、スピーカーはニューロンを破壊し、関数 beta を使用します。これは、1 に 1 を加えた e にマイナス alpha を足したものに等しくなります。

  • 00:35:00 このセクションでは、スピーカーはアルファ ベータに関する導関数を検討し、何もしないようにトレーニングすることによって、動作中の世界最小のニューラル ネットワークを示します。シグモイド関数の出力は、導関数が出力に関して排他的に記述できるため、単純化されます。ニューラル ネットワークは、出力が入力と同じになるようにトレーニングされますが、結果として何も起こりません。

  • 00:40:00 ビデオのこのセクションでは、スピーカーはニューラル ネットワークの最適な速度定数を決定するプロセスについて説明します。スピーカーは、ランダムな重みを持つニューラル ネットワークから始めて、さまざまな速度定数をテストし、ネットワークのパフォーマンスに対する影響を観察します。速度定数が小さすぎると、最適なパフォーマンスに達するまでに長い時間がかかりますが、大きすぎると、ネットが飛びすぎて不安定になる可能性があります。スピーカーは、速度定数が最適なパフォーマンスに向けての進行に応じて変化する必要があることに注意します。講演者はまた、2 つの入力と出力を持つより複雑なニューラル ネットワークを紹介し、ストリームと重みの間の相互作用について説明します。

  • 00:45:00 このセクションでは、多数のニューロンを含むネットワークを通る経路が指数関数的に膨張する可能性について学びます。ただし、パフォーマンスに対する P の変化の影響は、ニューロンの固定された列を介してのみ発生する可能性があるため、指数関数的な爆発は発生せず、計算を再利用できます。つまり、既に実行された計算を再利用することを意味します。固定幅の列に必要な計算量は線形で深さですが、列の幅の 2 乗に比例します。また、この原則が 25 年間見過ごされてきたことにも言及しています。

  • 00:50:00 このセクションでは、スピーカーは、ニューラル ネットワークの優れたアイデアが単純であることが多いことについて説明しますが、私たち人間は、奇跡的な何かを作成するためにいくつかをカスケードするのではなく、1 つのトリックまたは観察のみを思いつくことがよくあります。この場合、奇跡は 2 つのトリックと 1 つの観察の結果であったため、再利用の原則が機能しています。全体として、優れたアイデアは単純で見落とされやすく、四半世紀にわたって見過ごされてきたというメッセージが込められています。
12a: Neural Nets
12a: Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

講義 12b: ディープ ニューラル ネット



12b: ディープ ニューラル ネット

このビデオでは、関連する計算プロセス、畳み込みニューラル ネット、自動コーディング アルゴリズム、出力層のパラメーターの調整、ソフトマックス、畳み込みネットを使用した逆伝播など、ディープ ニューラル ネットに関連するいくつかのトピックについて説明します。このビデオでは、画像処理でディープ ニューラル ネットワークがどのように機能するかを実演しながら、局所的最大値、拡張ネットワーク、ニューラル ネットワーク学習などの概念についても説明します。全体として、このビデオでは、ディープ ニューラル ネットワークに関連する主な概念の包括的な概要を、その長所と制限を含めて提供します。

  • 00:00:00 このセクションでは、スピーカーは小さなニューラル ネットワークでの計算プロセスについて説明し、このネットワークのパフォーマンスが有限数の出力変数に依存しているという事実を強調します。講演者は続けて、パフォーマンスが特定の重みに依存することを示す方程式を示し、計算プロセスには多くの冗長性があることを指摘します。出力から入力にさらに戻ると、以前に実行された計算の多くが再利用され、その結果、下流の重み変更で実行されたいくつかの計算が再利用されます。

  • 00:05:00 このセクションでは、スピーカーはニューラル ネットワークに関連する計算について説明し、ニューラル ネットワークでも使用される内積という、頭の中で行われる基本的な計算を指摘します。彼はまた、画像処理に使用される畳み込みニューラル ネットワークの概念についても説明し、ニューラル ネットワークの分野で再現される傾向があるコンポーネントの特定のアセンブリで構成されていることを指摘しています。講演者は、2012 年のディープ ニューラル ネットワークのパフォーマンスについても言及しています。このネットワークのエラー率は、「正しい答え」の定義に応じて約 15% または 37% でした。

  • 00:10:00 ビデオのこのセクションでは、スピーカーがニューラル ネットワークで畳み込みとプーリングがどのように機能するかを説明します。このプロセスでは、画像全体でニューロンを実行し、画像内の特定の場所に関連付けられた出力を生成します。これは畳み込みと呼ばれ、結果のポイントを使用してローカル近傍の最大値を見つけ、その最大値を使用して画像のマッピングを作成します。これは最大プーリングと呼ばれます。複数のカーネルを使用して多くの出力を生成し、それをニューラル ネットワークに入力して、画像内にオブジェクトが存在する可能性を示すことができます。この方法は、ピクセルの小さなグリッドをニューロンの入力として使用する古い方法よりもはるかに高度です。

  • 00:15:00 このセクションでは、講師は、目的の値が互いに一致するまで、ニューラル ネットワークが入力と出力を比較する自動コーディングのアイデアを説明します。講師は、自動コーディング アルゴリズムがどのように機能するかを示す簡単な例で、黒板上の影の高さに基づいてネットワークが動物を識別することができるアルゴリズムについて説明します。ネットワークは、入力値を小さな隠れ層に圧縮し、それを展開して出力値を作成することにより、動物の影を認識することを「学習」します。このアルゴリズムは、かなりの数のクラスと各クラスの例を含む大規模な入力データ セットを処理する場合でも、驚くほど効果的な結果を達成します。

  • 00:20:00 このセクションでは、スピーカーは、ランダムな入力と単純なバックプロパゲーションを使用して単純なニューラル ネットワークを実行する方法を示します。わずか 1000 回の反復の後、エラー率は大幅に低下し、ネットは影の高さのみに基づいて、環境内で見えるオブジェクトの性質を認識できるようになります。しかし、隠れ層のニューロンによって一般化が行われているのではなく、ある種のコード化された一般化が行われているようであり、ニューラル ネットワークが特定のオブジェクトをどのように認識できるかを研究者が理解することは困難です。この謎にもかかわらず、レイヤーごとのトレーニングを含む自動コーディングは、ディープ ニューラル ネットワークをトレーニングするための有望な手法を提供します。

  • 00:25:00 ビデオのこのセクションでは、講演者はディープ ニューラル ネットワークの最終層と、サンプルの分類を最適化するためにしきい値と重みの値を調整することの重要性について説明します。しきい値を変更するとシグモイド関数がシフトし、重み値を変更すると曲線の急峻さが変化します。これらの調整は、データセット内の正例と負例の確率に影響します。データを正しく分類する可能性を最大化するには、T 値と W 値を偏微分によって最適化する必要があります。

  • 00:30:00 このセクションでは、インストラクターが出力レイヤーのパラメーターを調整して、サンプル データの確率を最大化する概念について説明します。これには、出力値をクラスが表示される確率に関連するものとして表示し、それに応じてパラメーターを調整することが含まれます。インストラクターは、シグモイド曲線と勾配降下アルゴリズムを使用してプロセスを実演します。目標は、最も可能性の高いものを見つけることができるように、ある種の確率を各クラスに関連付けることです。クラスの実際の確率は、そのクラスのシグモイド関数の出力をすべての関数の合計で割ることによって計算されます。これは、正規化係数による除算と呼ばれ、各出力値を確率に変換します。

  • 00:35:00 このセクションでは、スピーカーはソフトマックスを使用してさまざまな分類を行い、それぞれに確率を関連付けて画像を分類するプロセスについて説明します。講演者はまた、入力レイヤーを凍結し、シグモイド曲線を使用して出力レイヤーをトレーニングすることにより、ソフトマックスのアイデアを自動コーディングのアイデアと組み合わせる方法についても説明します。さらに、彼らは、ニューラルネットが極大値状態で動けなくなるのを防ぐためのドロップアウトのアイデアに言及しています。このセクションは、高度な出力レイヤーと自動コーディングまたはボルツマン マシンを使用したトレーニングにもかかわらず、畳み込みネットを使用したバックプロパゲーションも同様に機能するように思われることを指摘して締めくくります。動物。

  • 00:40:00 このセクションでは、ビデオは、ニューラル ネットワークが極大値でスタックする方法と、ネットワークを拡張することで、スタックすることなく広大なスペースをクロールする方法を示しています。講演者は、ニューラル ネットワーク学習にブレークスルーがあったと説明しています。これは、極大値を鞍点に変換できるようになり、より効率的に学習できるようになったためです。このビデオでは、ニューラル ネットワークが人間のように「見る」ことができるかどうかを探るために、ピクセルのわずかな変化でもニューラル ネットワークが高い信頼レベルでオブジェクトを区別できる方法の例を示しています。このデモンストレーションは、ニューラル ネットワークがだまされて、イメージが実際のイメージとは異なるものであると考えるようになる可能性があることを示しています。

  • 00:45:00 このセクションでは、画像にキャプションを付ける方法に関する Google の論文の例を使用して、ディープ ニューラル ネットワークが画像処理でどのように機能するかについて説明します。ニューラル ネットは、画像内の局所的な特徴とテクスチャを検出することで、スクール バスや野球ボールなどのオブジェクトを識別します。しかし、ニューラルネットが画像の文脈を理解できないことは、誤認の他の例で示されているように、技術の限界として示されています。次に、スピーカーは、画像のニューラル ネットワークの印象を保持しながら、画像から長方形をノックアウトするラボの作業について説明します。オブジェクトを識別するニューラル ネットワークの能力は、さまざまなレベルの切断の写真でも紹介されており、画像の一部が削除された場合でも、ニューラル ネットワークは見事に機能します。
12b: Deep Neural Nets
12b: Deep Neural Nets
  • 2016.04.20
  • www.youtube.com
*NOTE: These videos were recorded in Fall 2015 to update the Neural Nets portion of the class.MIT 6.034 Artificial Intelligence, Fall 2010View the complete c...
 

講義 13. 学習: 遺伝的アルゴリズム



13. 学習: 遺伝的アルゴリズム

このビデオでは、進化を模倣して複雑な問題を解決できる遺伝的アルゴリズムの概念について説明します。染色体を介した遺伝的継承のプロセスは、突然変異と交叉の選択肢を持つバイナリ染色体を使用して分解およびシミュレートされます。候補の生存確率と順位付けを例を挙げて説明し、正しく実行した場合の有効性を示します。極大値を克服するという課題とシミュレーテッド アニーリング技術の導入について説明します。ルールベースのエキスパート システムの構築に関するプロジェクトや、ブロック状のオブジェクトで構成される生物の進化など、遺伝的アルゴリズムの実用的なアプリケーションが紹介されています。講師は、遺伝的アルゴリズムの起源と成功を振り返り、多様性が成功の重要な要素であることに注目します。

  • 00:00:00 このセクションでは、MIT のパトリック ウィンストン教授が、遺伝的アルゴリズムによる進化の模倣について語っています。彼は、有糸分裂と生殖の基本について話すことから始めます。次に、進化を模倣する素朴な試みである遺伝的アルゴリズムの概念を紹介します。これらのアルゴリズムにより、進化のパターンを模倣することで、複雑な問題を解決することができます。彼によると、学生は次のクイズでこれを見ることはありませんが、最終試験でそれに関連する質問をして、クラスに出席し、目を覚ましているかどうかをテストします.

  • 00:05:00 ビデオのこのセクションでは、スピーカーは、染色体を介した遺伝的継承のプロセスを分解することにより、遺伝的アルゴリズムの基本を説明しています。彼は、遺伝的継承のプロセスを遺伝的アルゴリズムと比較し、バイナリ染色体を使用して遺伝的継承プロセスを模倣するシステムを構築する目的で、染色体を単純化およびシミュレートする方法を説明しています。彼は、染色体ごとに許容される突然変異または交差の数など、このプロセス内でどのように選択を行うことができるかを説明し、変更された染色体の集団につながります.次のステップは、遺伝子型から表現型への移行です。

  • 00:10:00 このセクションでは、遺伝子型がどのように表現型を決定するか、および各個人に伴う適応度の変化について学びます。フィットネスがスコアリングされると、コンピューター サイエンティストは数値を使用して次世代への生存確率を計算できます。確率の合計が 1 になるようにするには、適応度から生成される確率測度が必要です。 x と y の関数を使用して空間内の最適値を検索する遺伝的アルゴリズムを構築する場合、適合度は、ある定数 x の正弦 (量の 2 乗) に定数 y の正弦 (量の 2 乗) を掛けたものによって決定されます。プラス x プラス y を定数で割ったもの。

  • 00:15:00 このセクションでは、パトリック ウィンストンが遺伝的アルゴリズムの仕組みと進化について説明します。彼は、突然変異と交叉のプロセスと、それらを使用して適合度グラフで集団を上方に進化させる方法を概説しています。例を使用して、彼は遺伝的アルゴリズムがその基本的な山登りメカニズムのために極大値に行き詰まる可能性があることを示しています。生徒たちはクロスオーバーを使うことを提案していますが、それでもうまくいかないようです。それにもかかわらず、Winston は、最初は効果がないように見えるかもしれないアイデアに対して、心を開いておくことの重要性を指摘しています。

  • 00:20:00 このセクションでは、講師はフィットネスを生存確率に変換する概念を探り、実際のフィットネス特性を使用することが必ずしも効果的ではないことを強調します。したがって、フィットネスレベルに基づいて候補者をランク付けすることがより良いアプローチである可能性があると彼は提案しています。彼はこのメカニズムを詳しく説明し、最高位の個体が次の世代に入る確率は一定の定数で決まると述べています。さらに、彼はこの方法をテストするために 100 世代を実行し、その結果を説明しており、正しく実行された場合の戦略の有効性を示しています。

  • 00:25:00 このセクションのビデオでは、遺伝的アルゴリズムが局所的な最大値でスタックすることがあり、より良い解を見つけるために多様性を高める方法が必要になることについて説明しています。これは、一部の種が何百万年も進化せずに立ち往生するのと似ています。次に、シミュレーテッド アニーリング技術を導入して、ステップ サイズを徐々に小さくし、解決策を見つけられるようにします。ただし、このビデオは、シミュレートされたアニーリングでは極大値を回避できない場合があり、母集団内の多様性を高めるには新しいメカニズムが必要であることを示しています。このビデオは、母集団の多様性を測定し、適応度だけでなく、既に選択された他の個人との独自性にも基づいて個人を選択することを提案しています。

  • 00:30:00 このセクションでは、スピーカーはフィットネス ランクと多様性ランクの組み合わせを使用して、小さいステップ サイズを使用して 100 世代にわたって実行する遺伝的アルゴリズムの仕組みを示します。ダイバーシティ ピースは右上隅まで這い上がることで、高い適合性を見つけながら物事を分散させます。多様性をオフにすると、6 億年かかります。ただし、x と y の最良の部分を組み合わせるクロスオーバー メカニズムがあるため、堀の問題を処理する場合にはうまく機能します。話者は、突然変異が基本的に山登りをどのように行うか、またどの程度のクロスオーバーを行うかなど、それを処理する方法には選択肢があることを説明します。しかし、講演者は、遺伝的アルゴリズムは、遺伝子型から表現型への移行にはまだ多くの魔法があり、誰も完全に理解していないという非常に素朴な進化の考えを捉えるだけであり、設計者に多くの介入を任せている.

  • 00:35:00 このセクションでは、スピーカーは遺伝的アルゴリズムの実用的なアプリケーションについて説明します。 1 つの例は、2 つの一連のステップを組み合わせて新しい計画を作成できる計画です。もう 1 つの例は、ミューテーションとクロスオーバーを使用してルールを進化させ、競馬の勝者を予測するルールベースのエキスパート システムを構築するという学生のプロジェクトです。話者はまた、ブロック状のオブジェクトで構成される生物の進化を示します。ここでは、染色体のさまざまなビットが、オブジェクトの数、サイズ、構造、および制御として解釈されます。生物の多様性は、次の世代のすべての候補の距離を計算することによって測定されます。

  • 00:40:00 このセクションでは、パトリック ウィンストンが、次世代の個人との違いに基づいて生存確率とランク付け確率を組み合わせることで、遺伝的アルゴリズムがどのように機能するかを説明します。次に、これらのアルゴリズムの例を、泳ぐ生き物のビデオを使って実演し、陸上での移動速度と移動方法に応じて進化させました。ビデオは、生き物が一緒に進化し、食物を奪い合う様子を示しています。一部のクリーチャーはエキゾチックな方法を開発しましたが、他のクリーチャーは混乱して食べ物を忘れました.このビデオは、ビデオを作成した会社が使用しているような超強力なコンピューターで実現できることの一例です。

  • 00:45:00 このセクションでは、講師が遺伝的アルゴリズムの起源と、さまざまな問題に対する解決策を生み出す成功について考察します。彼は、アルゴリズムは印象的ですが、真の功績はソリューション空間の豊富さとプログラマーの創意工夫にあるかもしれないと述べています。多様性は、遺伝的アルゴリズムの計算を成功させるための重要な要素としても強調されています。
13. Learning: Genetic Algorithms
13. Learning: Genetic Algorithms
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonThis lecture explores genetic alg...
 

講義 14. 学習: まばらなスペース、音韻論



14.学習:スパーススペース、音韻論

ビデオのこのセクションでは、ウィンストン教授が、人間の学習方法に関する研究に関連するメカニズムとして、疎空間と音韻論の概念を紹介しています。彼は、言語学習に関して、私たちが見るものと聞くものとの相互作用について議論し、例を使用して、視覚的な手がかりが言語で知覚するものにどのように影響するかを説明します.講演者は、レジスタ、一連の単語、制約、音素のバッファなど、音声を認識して生成するように設計されたマシンの要素と接続について説明します。彼はまた、「猫」と「犬」という言葉に関連する独特の特徴を見る教室の例を使用して、肯定的な例と否定的な例を使用して音韻論のパターンを一般化する手法についても説明しています。最後に、メカニズムの機能に一致する制約を作成し、問題をよりよく理解して解決するために視覚的な表現を組み込むことの重要性について説明します。

  • 00:00:00 ビデオのこのセクションでは、ウィンストン教授が学習に関連する 2 つのメカニズムまたはアイデア、スパース スペースと音韻論を紹介します。これらについて説明する前に、最近傍法や識別ツリーなどの基本的な方法と、ニューラル ネットワークや遺伝的アルゴリズムなどの生物学的模倣法について簡単に説明します。後者は必ずしも効果的ではありませんが、学ぶ価値はあると彼は説明します。次に、ウィンストン教授は、人間がどのように学習するか、特に後年学習した言語で複数の単語をどのように識別して作成できるかについての研究に関連するメカニズムに焦点を当てます。彼は例を挙げて、クリシュナのような個人が英語で単語を複数形にすることができ、それが正しく行われていることを認識していないことを説明し、エンジニアリングの観点からそのような現象にどのようにアプローチできるかについて話します.

  • 00:05:00 このセクションでは、音韻規則と、それらが機械によってどのように取得されるかについて学びます。音韻論は音節音とサブ音節音を扱い、音韻規則は、人がどの単音またはバイナリ機能の組み合わせを話しているかを決定します。どの電話が話されているかを判断できる約 14 の特徴があり、1 つの言語で約 16,000 の可能な組み合わせが生成されます。ただし、電話番号が 100 を超える言語はなく、一部の選択肢は物理的な理由で除外されています。これらの特徴的な機能の多くが幻覚を起こしたり、他のモダリティからのフィードバック ループに注入されたりするのを見るのは興味深いことです。McGurk 効果は、音声とビデオの間にしばしば断絶があることを示しています。

  • 00:10:00 このセクションでは、スピーカーは、言語学習に関して、私たちが見ているものと聞いているものの相互作用について説明します。彼は、ドイツ語と英語の牛の鳴き声の例を使用して、視覚的な合図が私たちが知覚するものにどのように影響するかについて説明します。次に、「りんご」などの単語の音素シーケンスを形成する独特の特徴について、音韻学者が知っていることへの洞察を提供します。列の下には、有声、音節、耳鳴りなどの機能が含まれており、時間があります。話者はまた、音と人々が目にするものを解釈して言語の音を生成する機械についても話します。それは、名詞、動詞、複数形などの概念の値を保持するレジスターに格納されたリンゴが 2 つあると判断します。

  • 00:15:00 このセクションでは、音声を認識して生成するように設計された機械の要素と接続についてスピーカーが説明します。このマシンは、レジスタ、一連の単語、制約、および音素のバッファで構成されています。複数の制約は主な焦点であり、複数のことを観察するときにそれ自体を作動させる能力を持っています。情報は、要素を接続するポートを介して複数の方向に流れることができます。次にスピーカーは、「2 つのリンゴ」という概念が提示されたときにマシンがどのように反応するかを実演し、ビジョン システムから単語辞書と複数レジスタへの情報の流れを説明します。

  • 00:20:00 ビデオのこのセクションでは、話者は機械が音韻規則を使用してリンゴが見えているという考えを表現する方法を説明しています。このマシンは、制約で表現された可逆接続とプロパゲータを使用するため、情報を任意の方向に流すことができます。ただし、大きな問題は、これらのルールをどのように学習するかです。このために、スピーカーは、これらのルールを学習するための肯定的な例と否定的な例を提供するために、音節、有声、連続、耳鳴りなど、「猫」と「犬」という単語に関連する特徴を調べる簡単な教室の例を提供します。

  • 00:25:00 このセクションでは、ビデオで英語の複数形の単語の形成について説明し、一部の単語が「s」の音をとり、他の単語が「z」の音をとる理由を調べます。ビデオは、これが音素空間の希薄性によるものであり、14,000 の可能な選択肢のうち 40 の可能な音素しかないことを説明しています。さらに、このビデオでは、問題がどのように計算的にアプローチされ、最終的には正と負の例を収集して学習するアルゴリズムにまで絞り込まれたかを説明しています。

  • 00:30:00 このセクションでは、スピーカーは、シードと呼ばれる正の例を使用して音韻のパターンを一般化し、負の例がカバーされるまで、いくつかの要素をドントケア記号に徐々に変換する方法を説明します。この手法は、重要ではなく、複数形の結果に影響を与える可能性が最も低い音素マトリックス内の場所を選択することです。検索手法を使用して、これらの一般化のどれを作成するかを決定します。隣接する音素が最も影響力があります。音韻の例は、14 の独特の特徴を持つマトリックスを使用して提供されます。ここで、肯定的な例と否定的な例を分離する決定的な特徴は、複数形化される単語の最後の単音の無声および非耳鳴りの特徴であり、結果として「ss」になります。音。

  • 00:35:00 このセクションでは、スピーカーはシステムを使用したさらなる実験について説明し、ビーム検索を使用して高次元の疎空間を制御することを説明します。この手法は、肯定的な例のセットを否定的な例から分離し、音声学におけるさまざまな複数形のシナリオを処理する方法をシステムに教えるために使用されます。このアプローチは、1 次元、2 次元、3 次元空間などのさまざまな例を使用して説明され、そのような例の超平面を使用してさまざまなデータ セットを分離する方法について説明します。

  • 00:40:00 このセクションでは、Sussman と Yip は、人間の言語がまばらな音素空間を使用していることを示唆しています。これは、学習性が向上するためであり、言語がランダムに均等に配置されると、音素が簡単に分離されます。ただし、母音は定音に比べて特徴が 1 つしかないため、分離が困難です。この例では、問題から始め、その問題に独自の機能をもたらし、アプローチを考案し、アルゴリズムを作成し、最後に実験を行うことで、マーのカテキズムと一致する方法で AI を実行する方法を示します。

  • 00:45:00 ビデオのこのセクションでは、スピーカーは、ニューラル ネットワークのようなメカニズムに、その機能と一致しない特定の問題を解決するように強制する方法がうまくいかないことを説明しています。適切な表現を見つけるための鍵は、表現によって公開される制約を作成することです。これにより、より良い処理とソリューションへのより明確なパスが可能になります。さらに、局所性基準を組み込んだ表現が不可欠です。つまり、答えの説明がソーダ ストローのようなアプローチで表示され、問題を理解しやすくなります。最終的に、優れた表現を持つことで、エンジニアや科学者はより賢いものになり、満足のいく解決策に決してつながらない素朴な方法でメカニズムを研究することを避けることができます。
14. Learning: Sparse Spaces, Phonology
14. Learning: Sparse Spaces, Phonology
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonWhy do "cats" and "dogs" end with...
 

講義 15. 学習: ニアミス、フェリシティ条件



15.学習:ニアミス、フェリシティ条件

このビデオでは、Patrick Winston 教授が、ニアミスとフェリシティ状態から学習するという概念について説明しています。彼は、アーチの構築や、アーチと見なされるために必要な特定の制約の特定など、さまざまな例を使用しています。彼はまた、コンピューター プログラムがヒューリスティック学習を使用して列車の主要な特徴を特定する方法についても説明しています。スピーカーは、自己説明とストーリーテリングの重要性を強調しています。特に、プレゼンテーションに両方を組み込むことで、アイデアが際立って有名になる方法を強調しています。究極的には、アイデアをパッケージ化することは AI だけでなく、優れた科学を行い、自分自身をより賢くし、より有名になることでもあると彼は信じています。

  • 00:00:00 このセクションでは、Patrick Winston 教授が、1 つの例から一発で学ぶ新しい方法を説明します。アーチの教室での例は、モデルと彼が「ニアミス」と呼ぶものを使用することで、すべての例から明確なものを学ぶことができる方法を示すために使用されます.このプロセスには、高さや素材など、重要ではないすべての詳細を抽象化して、表面の傷に関する情報を抑制し、構造を明確にすることが含まれます。このアプローチは最終的により効率的な学習につながり、人間の学習とより賢くなることに影響を与えます。

  • 00:05:00 このセクションでは、ニアミスとフェリシティ状態からの学習の概念について説明します。話し手は、アーチを作る例を使って要点を説明します。アーチやニアミスのさまざまな例を見ていくうちに、何かが真にアーチと見なされるために必要な特定の制約を特定し始めます。支持関係の存在から接触関係の禁止まで、スピーカーはアーチ構築の重要な要素を概説します。さらに、アーチの上部の色は必須事項として識別されます。必要なものとそうでないものを識別するこのプロセスを通じて、スピーカーは、無数の試行ではなく、段階的に制約を学習する方法を強調します。

  • 00:10:00 このセクションでは、話者は自分が取り組んでいる世界の性質を考慮して新しいモデルを作成する方法を説明します。見られるように、進化するモデルはそれに応じて調整されます。講演者は、子のブロックの例を提示し、部分の階層をどのように表現して保守的な一般化を行うことができるかを説明します。次にスピーカーは、このタイプの学習をニューラル ネットワークと対比し、人間が実行するタスクの例を提示します。これには、最下部のトレインと区別して分離するトップ トレインの説明が含まれます。

  • 00:15:00 このセクションでは、コンピューター プログラムがヒューリスティック学習のプロセスを通じて、屋根が閉じた列車の主要な特徴をどのように識別することができるかをスピーカーが説明します。プログラムには一連の正例と負例が与えられ、「シード」例を選択して、負例を除外しながらできるだけ多くの正例をカバーする記述の構築を開始します。シードに適用されるヒューリスティックまたはルールをさまざまな方法で組み合わせて、可能性のあるソリューションの大きなツリーを形成できます。これは、ビーム サーチなどの手法を使用して制御する必要があります。スピーカーはまた、モデルの本質的な特徴を識別するのに役立つ「require link」ヒューリスティックを含む、彼の友人によって開発されたヒューリスティックの語彙を紹介します。

  • 00:20:00 このセクションでは、パトリック ウィンストン教授が、「リンクを禁止する」、「セットを拡張する」、「リンクをドロップする」、「ツリーを登る」などのさまざまなヒューリスティックを使用して、学習を専門化または一般化する方法について説明します。 .彼はまた、ニアミスと例の考え方、およびそれらが一般化と専門化にどのように関連しているかについても触れています。これらのヒューリスティックの使用は、より少ないまたはより多くのものを一致させるのに役立ち、問題に応じて、人間またはより大きなメモリを備えたコンピューターにより適したものになる可能性があります。どちらの方法が優れているかを判断する方法は、解決しようとしている特定の問題によって異なります。

  • 00:25:00 学習過程におけるヒヤリハットとフェリシティ条件の重要性。このセクションでは、パトリック ウィンストン教授が、生徒の最初の知識状態を新しい知識状態に変えるために、教師と生徒がどのように契約を結ぶ必要があるかを説明します。生徒の知識の状態を表すネットワーク モデルを使用して、教師は生徒が犯した間違いの種類を特定し、それに応じてフィードバックを提供できます。そうすることで、教師は生徒の知識の波面を効果的に押し出し、新しい情報を学び適用する生徒の能力を高めることができます。

  • 00:30:00 このセクションでは、スピーカーは、学生に教える際に学生の計算能力を理解することがいかに重要であるかについて説明します。これには、コンピューターと比較して 3 年生の情報を保存する能力が限られていることを考慮に入れることも含まれます。また、生徒が効果的に学ぶためには、教師のスタイルに対する信頼や理解などの聖約がいかに必要であるかについても述べています。話者はさらに、自分自身と話すこと、または説明を作成することが学習にとっていかに重要であるかを説明します。ミケレン・チーが行った実験では、初等物理学を学ぶ際に独り言を言うことの利点が示されました。

  • 00:35:00 このセクションでは、自己説明が問題解決能力にどのように影響するかに焦点を当てています。最も頭の良い人は、知能の低い人の 2 倍のスコアを獲得し、スコアの低いグループの参加者の 3 倍も独り言を言いました。自己説明は、物理学に関連するカテゴリと、物理学ではなく監視に関連するカテゴリの 2 つのカテゴリに分けることができます。誰かが自分自身に話しかけるほど、問題解決の点数が高くなるようです。より良いスコアを奨励するために自分自身に話すことが効果的であるという明確な兆候はありませんが、事例証拠は、自分自身にもっと話すことが役立つかもしれないことを示唆しています.最後に、議論はパッケージのアイデアに移ります。これは、自分のアイデアをよく知ってもらいたい場合に特に役立ちます。また、プロセスを支援する 5 つの性質について説明します。まず、作品に関連付けられたシンボルまたは視覚的なハンドルの必要性から始めます。

  • 00:40:00 このセクションでは、Patrick Winston 教授が、アイデアを広く知られるようにするための驚きと重要な点について説明します。彼は、有名になるためには、優れたアイデアには突出した何かが必要であり、聴衆にアピールできるプレゼンテーションにストーリーを組み込むことが不可欠であると説明しています。さらに、彼は「際立った」という用語を明確にするために、それは重要性を示していますが、明確に「突出している」ことを意味しています。彼は、教育とは本質的にストーリーテリングに関するものであり、プレゼンテーションをより効果的にするために、これらの資質をプレゼンテーションに組み込むことを検討するよう個人に促しています。最終的に、成功の可能性を最大限に高めるためにアイデアが適切にパッケージ化されている限り、有名であることは不道徳ではないと彼は信じています.

  • 00:45:00 このセクションでは、スピーカーはジュリア・チャイルドの隣に座って、彼女に有名になったことについて尋ねた話をします。子供は慣れると答えたので、話者は無視されるという反対の経験について考えさせられました。彼は、アイデアをパッケージ化することの重要性と、それが AI だけでなく、優れた科学を行うこと、自分自身をより賢くすること、より有名にすることの重要性を強調しています。
15. Learning: Near Misses, Felicity Conditions
15. Learning: Near Misses, Felicity Conditions
  • 2014.01.10
  • www.youtube.com
MIT 6.034 Artificial Intelligence, Fall 2010View the complete course: http://ocw.mit.edu/6-034F10Instructor: Patrick WinstonTo determine whether three blocks...