機械学習とニューラルネットワーク - ページ 23

 

細胞画像セグメンテーションのための深層学習 - 講義 20



細胞イメージングセグメンテーションのためのディープラーニング - 講義 20 - MIT ML in Life Sciences (Spring 2021)

このビデオでは、講演者は、タイムラプス イメージングで細胞の動きを決定することを含む、細胞追跡のための深層学習の使用について説明します。彼らは、従来の手動追跡方法は費用と時間がかかり、ディープラーニング方法はプロセスを大幅に高速化すると同時に、より高い精度を提供できると説明しています.講演者は、U-Net、StarDist、DeepCell など、細胞追跡のためのさまざまな深層学習アーキテクチャについて説明します。彼らはまた、細胞追跡における課題の 1 つは、近接または重複している細胞を区別することであり、複数オブジェクトの追跡やグラフベースのアプローチなどの方法がこの問題の解決に役立つ可能性があることにも注目しています。講演者は、細胞追跡のためのさまざまな深層学習手法のベンチマークを実施し、再現性と比較のためにオープン アクセス データセットを提供することの重要性を強調しています。彼らはまた、がん研究や創薬など、さまざまな分野での細胞追跡の潜在的なアプリケーションを強調しています。

  • 00:00:00 このセクションでは、Juan Casado が画像ベースの表現型解析の概念について説明します。これは、顕微鏡やその他の画像技術を使用して生物学的システムを理解する方法です。彼は、細胞のような生物学的構造の画像を、細胞サイズや DNA 含有量などのさまざまな表現型について定量化し、治療や創薬に関する決定を導くために使用する方法について説明しています。 Casado は、顕微鏡画像を使用した細胞サイズの正確な測定を通じて発見され、最終的に FDA による承認につながった白血病の治療薬候補の成功例を挙げています。彼は、生物学および医薬品開発の分野における画像ベースのプロファイリングの潜在的な影響を強調しています。

  • 00:05:00 このセクションでは、異なる特性を持つ細胞集団を比較し、どの治療法が効果的かを特定するという課題に焦点を当てています。これには、細胞画像から情報を抽出するためのより多くの情報と戦略が必要であり、画像ベースのプロファイリングの出番です。これには、画像を使用して細胞の形態または細胞の状態を拡張し、創薬および機能ゲノミクスのための定量的情報を抽出することが含まれます。このアプローチに関連する 2 つの計算上の問題は、細胞セグメンテーションと単一細胞表現学習です。目的は、さまざまな画像タイプのセグメンテーション アルゴリズムを調整する時間とエネルギーを費やすことなく、単一細胞が画像内のどこにあるかを特定することです。最終的には、自然画像の位相検出器と同様に機能する細胞のセグメンテーション アルゴリズムを作成することが目標です。

  • 00:10:00 このセクションでは、講演者が BioImage Challenge 2018 について話します。これは、コンピューター ビジョン技術を生物学のセグメンテーションに機能させることを目的としていました。この課題には、注釈付きデータセットの作成、それをトレーニング パーティションとテスト パーティションに分割し、成功の指標を定義し、和集合に対する交差に基づくスコアリング システムを通じて参加者にフィードバックを提供することが含まれていました。参加者は、教師あり機械学習モデルを使用して入力と出力の関係を学習し、入力として提供した画像のセグメンテーション マップを生成することが期待されていました。勝者は、使用されたメトリックに従って、最終的なテスト セットをより正確にセグメント化できた人です。

  • 00:15:00 このセクションでは、講演者は、細胞イメージング セグメンテーション コンテストのトップ 3 の競合他社と、機械学習モデルにさまざまなアーキテクチャを使用していることについて説明します。 3 位のチームはマスク RCNN アーキテクチャを使用しました。これは、画像を領域に分解し、ネットワークによってレビューされる候補を生成して、それらが実際のオブジェクトであるかどうかを判断してから、正確なバウンディング ボックスとマスクを特定して、オブジェクトをオブジェクトから分離します。バックグラウンド。 2 位のチームは、複数の特徴マップを計算して中間出力を生成し、すべての異なる解像度からの情報を集約して最終出力を生成する画像ピラミッド ネットワークを使用しました。講演者は、細胞セグメンテーションの高精度を実現する上でアーキテクチャが重要な役割を果たしているが、定期的なキャリブレーションと相互検証実験を実行する方法も重要であると述べています。

  • 00:20:00 このセクションでは、スピーカーは画像セグメンテーションへの斬新なアプローチについて説明します。このソリューションでは、バイナリ マスクを使用して画像内のオブジェクトの位置を特定するのではなく、セルの中心からさまざまな方向の距離を測定する距離マップまたは角度マップを予測します。出力は、オブジェクトの位置をより正確に測定できるように手動で設計されたもので、その結果、コンテストで 2 位になりました。このアイデアは当時は斬新でしたが、その後の研究でその価値が評価され、特に多くのオブジェクトを含む混雑した画像に対して堅牢であることがわかりました。使用されたエンコーダー/デコーダー アーキテクチャは革新的ではありませんでしたが、目新しさは、32 の異なるモデルで正確なアーキテクチャを複製し、アンサンブルを形成して、競争に勝つのに役立ちました。

  • 00:25:00 このセクションでは、スピーカーは、アンサンブル アプローチと細胞画像セグメンテーションの単純なモデルのパフォーマンスについて説明します。彼らは、アンサンブルアプローチは計算集約的である可能性がありますが、より単純なモデルが実際には依然として効果的である可能性があると説明しています.彼らはまた、コンペティションの限界についても議論し、最も正確なモデルのみに絞り込むために、アンサンブル内の個々のモデルを分析することが役立つことに注目しています.次に講演者は、セグメンテーションによって生物学研究を促進する上で実現できる改善点を評価し、特定の画像タイプのアルゴリズムを最適化するには時間がかかり、精度が画像タイプによって異なる可能性があることを示します。彼らはまた、注釈の不均衡と特定の画像タイプのセグメント化の難しさが、現実の状況で課題を提示する可能性があることにも注意しています.

  • 00:30:00 このセクションでは、スピーカーは、小さな蛍光からセグメント化が難しいピンクや紫の画像まで、さまざまな種類の画像技術を解析する際の課題について説明します。画像の種類ごとに 1 つのモデルをトレーニングしたり、パラメーターを調整した従来のアルゴリズムを使用したりするなど、画像のセグメント化にはさまざまなアプローチがあります。さらに、Nucleizer、CellPose、Mesmer など、セルのセグメンテーションに使用できる事前トレーニング済みのモデルが利用できるようになりました。ただし、より大きなデータセットを収集し、専門家がオブジェクトの識別に費やす時間を最適化するなど、セグメンテーションにはまだ未解決の課題があります。講演者はまた、従来の形態測定を超えた特徴を学習できる機械学習法を使用して細胞の表現型を測定することの重要性についても簡単に触れています。

  • 00:35:00 このセクションでは、スピーカーは創薬のための細胞画像セグメンテーションにおける機械学習手法の使用について説明します。細胞を化合物で処理する摂動実験が使用されますが、バッチ効果によりノイズが発生し、表現型の理解が混乱する可能性があります。グラウンド トゥルースがないため、ニューラル ネットワークを使用して適用された化合物を分類する弱教師あり学習法が使用されます。目標は、化合物が類似しているかどうかを知らせることができる意味のある方法でセルを編成するための機能を取得することです。評価には、探索空間を有用な化合物に絞り込むことを目的として、同様の生物学的効果を共有する化合物のクラスターを観察することが含まれます。ディープ ラーニング機能と従来の機能を比較すると、大きな違いが見られます。

  • 00:40:00 このセクションでは、講演者は、特に化合物間の生物学的に意味のある関係を決定し、癌における変異の影響を特定する際に、細胞イメージングのセグメンテーションにディープラーニングを使用することについて説明します。遺伝子の元のタイプを変異体と比較することにより、研究者はそれらの間の表現型の類似性を測定して、変異体ががんを引き起こしているかどうかを判断できます。ただし、バッチ補正は画像から学習した特徴に影響を与える可能性があるため、深層学習では依然として課題です。講演者は、ドメイン適応を使用することを提案しています。この場合、化合物分類とバッチ決定のために 2 つのヘッドを備えたニューラル ネットワークが使用されます。負の勾配は、バッチに関連付けられている潜在的な情報を破壊するために使用され、より明確な表現型の決定をもたらします。全体として、講演者は、画像は生物学的発見のための優れた情報源であると結論付けていますが、表現学習と説明可能なモデルにおける未解決の課題も認めています。
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
Deep Learning for Cell Imaging Segmentation - Lecture 20 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Juan C...
 

深層学習による画像の登録と分析 - 講義 21



深層学習の画像登録と分析 - 講義 21 - 生命科学における MIT ML (2021 年春)

この講義では、エイドリアン・ダロックが医用画像の位置合わせとその背後にある最適化問題について詳しく説明します。彼はボクセル モーフと呼ばれる新しい方法を提案しています。これは、ラベル付けされていないデータ セットを使用して、画像登録用のニューラル ネットワークをトレーニングすることを含みます。講演者はまた、ニューラル ネットワークがこれまで見たことのない新しいデータとシーケンスに対するロバスト性の課題についても説明し、ロバストなモデルをトレーニングするために多様で極端な条件をシミュレートすることを提案します。スピーカーは、従来の登録モデルをボクセル モーフおよびシンセモーフ モデルと比較しますが、後者は非常に堅牢です。最後に、スピーカーは、テンプレートを直接学習するのではなく、目的のプロパティに基づいてテンプレートを生成する機能の開発と、結腸の異常を検出するためのカプセル ビデオ内視鏡の潜在的な使用について説明します。

この講義のスピーカーは、特にポリープ検出のための大腸内視鏡検査ビデオのコンテキストで、医療データの不足を克服するためのさまざまな機械学習アプローチについて説明します。彼らは、事前トレーニング済みの重みとランダムな初期化を利用してドメインシフトに対処し、パフォーマンスを向上させるディープラーニング画像登録および分析アーキテクチャを導入しています。この講義では、弱教師あり学習、自己教師あり学習、弱教師ありビデオ セグメンテーションについても説明します。スピーカーは、医療データ分析で機械学習アプローチを使用する際に直面する課題を認識し、これらのアプローチを実際の医療処置でテストして作業負荷を軽減することを奨励しています。

  • 00:00:00 講義のこのセクションでは、Adrian Dalock が医用画像の位置合わせの重要性とその背後にある最適化の問題について説明します。彼は、画像を共通の参照フレームに合わせることは、構造や疾患の識別、および被験者間の比較を可能にするため、医療画像の分析の中心であると説明しています。しかし、従来の位置合わせステップは非常に時間がかかり、脳ごとに最大 2 時間かかるため、洗練されたモデルの開発が妨げられていました。 Dalock は、CPU で 1 分未満、GPU で 1 秒未満という大幅に高速な方法を導入し、この分野でより高速で効率的な研究を可能にします。彼は位置合わせまたはレジストレーションを、画像に一致する変形フィールドを見つけることと定義しており、コンピューター ビジョンや計算生物学など、さまざまな分野で広く研究されています。

  • 00:05:00 このセクションでは、スピーカーは、古典的なモデルから始まり、3 年前に出現した学習ベースの方法へと進む、画像登録方法の進化について説明します。ただし、後者の方法は効果的ではありますが、教師ありデータに使用するグラウンド トゥルース変形フィールドがないために妨げられています。講演者は、ラベル付けされていないデータセットを使用してニューラル ネットワークをトレーニングすることを含む新しい方法を提案し、画像登録のためのよりエレガントで効率的なエンドツーエンド ソリューションを実現します。このフレームワークでは、従来のモデルの損失関数を使用して新しいニューラル ネットワーク全体を最適化し、精度と速度を向上させます。

  • 00:10:00 このセクションでは、スピーカーはディープ ラーニング技術を使用した画像レジストレーションの方法について説明します。これは、従来の方法から借用していますが、フィールドを直接最適化するのではなく、変形フィールドを出力するようにニューラル ネットワークを最適化します。変形フィールドはデータ セット内のすべての画像に適用され、確率的勾配法を使用してネットワークが最適化されます。スピーカーは、微分可能な損失を使用して変形場の滑らかさを確保する方法を説明し、ワーピング プロセスの前後の解剖学的構造を比較し、ボリューム オーバーラップを測定することによって結果を評価します。ボクセルモーフと呼ばれる提案された方法は、最適化手順の出力を推定することができ、確率モデルの近似を提供し、画像、変形フィールド、および不確実性推定の間のエレガントな接続を提供します。

  • 00:15:00 このセクションでは、スピーカーはボクセル モーフ ニューラル ネットワークを数枚の画像でトレーニングした分析について説明し、たった 10 枚の画像でも、ネットワークから出力される変形フィールドが最先端に近いことを明らかにしています。 .さらに、スピーカーは、脳内の海馬などの特定の関心領域の概要を説明する問題と、ネットワークに「ソフトセグメンテーション」を実行させることで、実際にラベル付けすることなく、この領域を識別するように教えることができた方法についても触れています。トレーニング。最後に、講演者は、多様な医用画像の課題と、1 つのモダリティのみでネットワークをトレーニングすると、他のモダリティと連携する能力がどのように制限されるかについて説明し、この問題を解決するプロジェクトを提示します。

  • 00:20:00 このセクションでは、講演者は、これまでに見たことのない新しいデータやシーケンスに対して堅牢なニューラル ネットワークを作成するという課題について説明します。彼らは、多様で極端な条件をシミュレートして、ネットワークを大幅な変動にさらすことを提案しています。これにより、ネットワークはいくつかの外れ値を無視することを決定し、現実世界のデータへのより良い一般化を可能にします。これを実現するために、画像をランダムに変形し、さまざまなノイズ パターンを追加し、値と強度をランダムに入力し、さまざまな効果をシミュレートしてデータを生成します。彼らは、登録とセグメンテーション ペーパーのさまざまなデータをシミュレートし、ランダムな形状をシミュレートする実験を行いました。これにより、情報の品質をテストするために使用できる変形フィールドが得られました。

  • 00:25:00 このセクションでは、スピーカーは、画像のレジストレーションと分析のためにさまざまなモデルをトレーニングした結果について説明します。彼らは、ボクセル モーフ モデルと 2 つのバージョンのシンセモーフ モデルを、トレーニングに異なるメトリックを使用してトレーニングしました。従来のモデルはうまく機能しますが、可変性とロバスト性を備えたボクセル モーフ モデルはさらに優れたパフォーマンスを発揮します。シミュレートされた脳またはブロブの画像でトレーニングされたモデルは、ボクセル モーフ モデルとほぼ同じであり、従来のモデルよりも優れています。ただし、モダリティ間の登録に関しては、同じコントラスト メトリックでトレーニングされたモデルは崩壊します。一方、シンセモーフ モデルは、実際の画像でも非常に堅牢です。ただし、モデルの容量によっては、実際の画像の特徴がキャプチャされない可能性があるという問題が発生する可能性があります。

  • 00:30:00 講義のこのセクションでは、講演者は機械学習モデルの能力と、この分野がより多くのパラメーターを使用する方向に進んでいる方法について説明します。彼らは、さまざまなモダリティで脳スキャンをシミュレートし、古典的なモデルであるボクセルモーフとその方法であるシンセモーフのパフォーマンスを比較します。彼らは、コントラストを完全に無視し、必要な解剖学的構造のみを抽出できるため、この方法が堅牢であることを発見しました。これは、ネットワークの特徴におけるコントラストの変化に対する応答を無視することを学習することによって行われます。彼らはまた、登録フィールドに対するハイパーパラメータの効果を学習する新しい方法であるハイパーモーフも紹介しています。この方法の可能性は、1 つのモデルをトレーニングして後で調整するだけで済み、複数のモデルをトレーニングする必要がないことです。

  • 00:35:00 このセクションでは、スピーカーはハイパー ネットワークと呼ばれる手法について説明します。これには、ハイパー パラメーター値を入力として取り、画像レジストレーション用の変形フィールドを生成するより大きなネットワークの重みを出力する小さなネットワークをトレーニングすることが含まれます。ハイパー パラメーター値を調整することで、再トレーニングを必要とせずに変形フィールドを調整でき、単一のハイパーモーフ モデルで幅広い変形フィールドのバリエーションをキャプチャできます。この手法は、画像登録を超えたさまざまな機械学習設定に適用でき、モデルのインタラクティブな調整や検証データに基づく調整を可能にするのに役立ちます。最適なハイパー パラメーター値は、データ セット、患者の年齢、登録タスクなどの要因によって異なります。

  • 00:40:00 講義のこのセクションでは、スピーカーは、画像登録を実行する際に、脳のさまざまな領域に対してさまざまなハイパーパラメーター値を選択することの重要性について説明します。また、実際のデータでトレーニングされたモデルとランダムなデータでトレーニングされたモデルを比較し、前者がさまざまな地域でノイズの影響を受けやすいことを説明しています。次に、重心脳を構築したり、テンプレートを使用したりせずに、データを共通の参照フレームに合わせるというアイデアに焦点を当てたプロジェクトを紹介します。代わりに、彼らは画像の登録と同時にアトラスを推定することを提案しており、結果として得られるツールは柔軟であり、異なる母集団に対して個別のテンプレートを作成するなど、以前は解決が困難であった多くの問題を解決できることが示されています。

  • 00:45:00 このセクションでは、ディープ ラーニングの画像登録と分析における「条件付きテンプレート」の概念について説明します。これには、目的のプロパティ (年齢、性別、遺伝など) に基づいてテンプレートを生成する関数の学習が含まれます。テンプレートを直接学習するのではなく、情報)。患者データと年齢情報を入力することで、ネットワークは、心室サイズの変化など、異なる脳間の特定の影響を捉えるスムーズな年齢依存アトラスを学習できます。スピーカーは、同様の方法を使用した遺伝学関連の分析の可能性、およびこの分野での変分エンコーダやその他の機械学習の概念の使用についても説明します。

  • 00:50:00 講義のこのセクションでは、ノルウェー科学技術大学とノルウェーの病院との共同研究である、カプセル ビデオ内視鏡検査の自動病理検出に関する研究の背後にある動機についてスピーカーが説明します。人間の結腸は結腸直腸癌や潰瘍性大腸炎などの病気にかかりやすく、結腸壁の滑らかさを侵食し、出血やその他の合併症を引き起こす可能性があります。大腸内視鏡検査は、50 歳以上の個人に対して医師によって推奨されていますが、患者には受け入れられない場合があります。カプセルビデオ内視鏡検査は、結腸壁を視覚化し、約 50,000 フレームを送信して大量のデータを生成する小さな錠剤サイズのカメラを使用して異常を検出する代替方法を提供します。

  • 00:55:00 このセクションでは、スピーカーはカプセル ビデオ内視鏡検査を使用した画像処理の課題について説明します。カプセル ビデオ内視鏡検査では、摂取可能なカプセルが消化管を移動するときに画像をキャプチャします。カプセルは空腹時に服用する必要があり、結腸のひだの特徴を見逃す可能性があります。さらに、カプセルが小腸を通過する際にカプセルが詰まったり、幾何学的な障害に直面したりする可能性があり、手術につながる可能性があります。結果として得られるビデオの品質は、HD 画質ほど良くなく、色や遷移の滑らかさが制限されます。これらの制限にもかかわらず、カプセルビデオ内視鏡検査は憩室炎などの状態の診断に役立ち、医師は治療を導くためにビデオの異常を探します.

  • 01:00:00 講義のこのセクションでは、講演者は、特にポリープ検出のための大腸内視鏡ビデオのコンテキストで、医療データ分析に機械学習アプローチを使用する際の課題について説明します。主な問題は、医療データ取得の高価で遅い性質によるデータの不足と、さまざまな病理学者によるラベル付けの取得の難しさです。講演者は、転移学習や教師あり学習など、データの不足を克服するためのいくつかの機械学習アプローチの概要を説明し、RGB 画像、幾何学的特徴、および 3D 畳み込みを使用した現在の深層学習アプローチについて説明します。最後に、登壇者はポリープ検出のためのワイン イット アプローチを紹介します。これには、レジストレーションを使用して大腸内視鏡画像を整列させ、ポリープ検出のパフォーマンスを向上させることが含まれます。

  • 01:05:00 講義のこのセクションでは、事前トレーニング済みの重みとランダムな初期化を利用してドメイン シフトに対処し、オブジェクト検出と画像セグメンテーションのパフォーマンスを向上させるディープ ラーニング画像登録および分析アーキテクチャについて説明します。アーキテクチャは 2 つのエンコーダーで構成され、1 つは ImageNet から事前にトレーニングされ、もう 1 つはランダム化された重みで、入力画像への拡張が行われます。各エンコーダーの学習率は、トレーニングしているレイヤーに依存し、バイナリ クロス エントロピーとサイコロ損失関数が利用されます。このアーキテクチャは、ポリープを含むビデオのデータセットでテストされ、同じ入力の複数のバリエーションを使用して 85.9 の F1 スコアを達成しています。最後に、講演者はアーキテクチャの有効性を紹介するビデオを紹介します。

  • 01:10:00 このセクションでは、講師が画像登録問題のためにラベル付きデータを収集するという課題について説明し、弱い教師による複数インスタンス学習の概念を紹介します。対象となる病状のインスタンスが少なくとも 1 つあるポジティブ バッグがあり、ネガティブ バッグには常にネガティブ インスタンスがあると仮定します。問題は、病状を含むフレームを見つけることとして定式化され、各フレームからの個々の寄与を予測し、集約の最終的なビデオ ラベルの損失を最適化することによって最適化できます。この問題は、ラベル付けされたデータが限られていること、および個々のコンポーネントに関するデータが存在しないことから困難であり、弱い教師付きアプローチが必要であることに注意してください。

  • 01:15:00 このセクションでは、スピーカーは、病状のあるビデオと正常なビデオからレゾナンス 50 特徴をどのように抽出し、それらをスキップ接続の双方向 LSTM を含む残りの LSTM ブロックに渡したかについて説明します。彼らは、最終的なビデオ分類問題への各フレームの寄与であるアルファを見つけることが目標であると説明しています。また、アテンション値の高いフレームを利用して病状を特定し、それらをネガティブなクラスから分離することについても議論しています。最終的な損失関数は、ビデオ分類の交差エントロピーと、ポジティブ バンクとネガティブ バンク間のバッグの分離です。次に、スピーカーは、最終的な隠れた表現に注意を払い、それを最終的な出力に適用することによって達成された最良の結果で、どこに注意を向けるべきかを決定するためにアペラシオン研究をどのように実行したかを共有します.このアプローチは、メトリック学習を使用する他の方法に対してテストされました。

  • 01:20:00 このセクションでは、スピーカーは医用画像処理における自己教師あり学習の使用とそれがもたらす課題について説明します。彼らは、ある程度の成功を収めたアプローチの 1 つは、画像をパッチに分割して再構築するジグソー問題を使用することだと述べています。ただし、医用画像処理の問題は、回転不変条件がないため、意味のあるクラスターを見つけるのが難しいことです。講演者は、さまざまな疾患がどのように現れるかを理解するなど、ドメインの知識を通じてビデオ フレームのローカリゼーションを改善することが、病理分類を改善するための有用なアプローチになる可能性があることを示唆しています。

  • 01:25:00 このセクションでは、講演者は、医療環境でより適切な説明を提供するために、弱い教師付きビデオ セグメンテーションと、フレームがローカライズされている場所を検出する必要性について説明します。彼らはまた、この分野における新しく刺激的なアプローチとして、自己管理型の事前テスト タスクと対照学習の設計についても言及しており、新しい研究が毎日公開されています。講演者は icomet プロジェクトを認め、作業負荷を軽減するために実際の医療処置でこれらのアプローチをテストすることを奨励します。主催者は、医療問題を解決する実際の開業医に感謝の意を表し、有益な講義についてスピーカーに感謝します.
Deep Learning Image Registration and Analysis - Lecture 21 - MIT ML in Life Sciences (Spring 2021)
Deep Learning Image Registration and Analysis - Lecture 21 - MIT ML in Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecturers: Adri...
 

電子健康記録 - 講義 22



電子カルテ - 講義 22 - 生命科学における深層学習 (2021 年春)

ヘルスケアにおける機械学習の出現は、病院での電子医療記録の採用と、意味のあるヘルスケアの洞察に利用できる膨大な量の患者データによるものです。高次元の縦断的データ、欠落、および左右の検閲が原因で問題が生じる可能性がある、疾病登録に見られる縦断的データを利用して、病気の進行モデリングについて説明します。この講義では、ディープ マルコフ モデルなどの非線形モデルを使用して、これらの課題を処理し、長期的なバイオマーカーの非線形密度を効果的にモデル化する方法について説明します。さらに、スピーカーは、遷移関数用の新しいニューラル アーキテクチャを開発するためのドメイン知識の使用と、より一般化するためにドメイン知識をモデル設計に組み込むことの重要性について説明します。治療効果関数に関するモデルの複雑さに関する実験もあり、講演者は、さらなる調査結果を決定するために、より大きなコホートでこの質問を再検討する予定です.

  • 00:00:00 このセクションでは、Microsoft Research の上級研究員である Rahul Krishnan が、電子医療記録データのデジタル化による医療における機械学習の出現について説明しています。病院での電子医療記録システムの採用により、意味のあるヘルスケアの洞察に利用できる膨大な量の患者データが生まれました。クリシュナンは、研究者が研究して質問に答えるために非営利組織によってリリースされた、単一の疾患に焦点を当てたデータセットである疾患登録の使用を強調しています。教師なし学習などの機械学習手法を使用して、これらのデータセットの下部構造を調査し、臨床医を支援するツールを構築しています。プレゼンテーションでは、疾患進行モデリングと、この分野の研究者によって行われているいくつかの研究に焦点を当てています。

  • 00:05:00 このセクションでは、講演者は、疾病登録で見つかった長期データを利用した疾病進行モデリングについて説明します。疾患進行モデリングは何十年も前から存在しており、ベースライン共変量、長期的なバイオマーカー、治療情報など、疾患登録に見られる複雑で乱雑なデータを取得できる統計モデルの構築が試みられています。この問題は、多くの場合、教師なし学習として提起されます。モデルは、ベースライン情報と一連の介入に基づいて調整された患者の縦断的なバイオマーカー シーケンスを観察する対数確率を最大化することを目的としています。講演者は、今年の ICML で発表される疾患進行モデリングの新しいアプローチを紹介します。

  • 00:10:00 このセクションでは、骨髄のまれながんである多発性骨髄腫の状況で、電子健康記録を使用して疾患の進行をモデル化する際の課題について講演者が説明します。この疾患は非常にまれであるため、学ぶべき患者の数が少ないことが多く、適切なモデリングと密度推定を行うことが困難です。さらに、医療データには、非線形変動、欠損、左右の検閲を伴う高次元の縦断データなどの課題があります。講演者は、ディープ マルコフ モデルなどの非線形モデルを使用して、これらの課題を処理し、長期的なバイオマーカーの非線形密度を効果的にモデル化することを提案しています。

  • 00:15:00 このセクションでは、電子カルテの潜在変数モデルについて説明します。このモデルでは、潜在変数と経時的に取得された観察によってデータが生成されます。このモデルは、医師が処方する薬の選択が、以前の観察から得られた臨床バイオマーカーの値に依存していると仮定しています。スピーカーはまた、最尤推定中に欠落している変数を周辺化することによって克服できる、欠落しているデータの問題にも対処します。ただし、推論ネットワークを使用した変分推論の場合、モデルには欠落データを推定するための近似が必要であり、欠落が近似事後分布のバイアスにどのように影響するかを理解するには、さらなる研究が必要です。

  • 00:20:00 このセクションでは、医師とのやり取りを時間の経過とともにモデル化することで、モデルを使用して患者の病歴を予測する方法について説明します。このモデルは、時間とともに変化する潜在的な表現を使用して、患者の病状を予測します。スピーカーは、非線形性と特定の疾患の希少性による医療データのモデル化の課題を強調しています。彼らは、ドメイン知識を使用して、遷移関数の新しいニューラル アーキテクチャを開発する方法を探っています。講演者はまた、グローバル クロックとローカル クロックを使用して、治療期間と主要な進行イベントまでの経過時間をそれぞれ追跡することについても説明します。彼らは、薬物のメカニズム効果を概算し、この知識をモデルに組み込む方法を説明しています。

  • 00:25:00 このセクションでは、スピーカーは薬物動態学と薬力学を使用して、がん治療のために処方された薬が患者の腫瘍に及ぼす影響を概算する方法について説明します。彼らは、複数の薬が患者に共同投与された場合の効果をモデル化するための 3 つの新しい神経アーキテクチャを提案し、注意メカニズムを使用してそれらを組み合わせて単一の機能を作成します。目標は、ドメイン知識を使用してオーバーフィッティングと戦うことで、条件付き密度推定を行うことです。 SSNPK と呼ばれるこのモデルは、現在の標準治療に従って治療された多発性骨髄腫患者のコホートに適用され、経時的に 16 の臨床バイオマーカー、9 つの治療適応症、および 16 のベースライン機能を備えています。

  • 00:30:00 このセクションでは、講演者はさまざまなモデルを使用して臨床データを分析した結果、特に深層学習と状態空間モデルの使用に焦点を当てて説明します。彼らは、新しいデータを一般化する際のさまざまなモデルの有効性を比較し、ssnpkpd を使用すると、線形および非線形のベースライン全体で一貫してパフォーマンスが向上することを発見しました。彼らはまた、アブレーション分析を実施して、モデルで見られるゲインに最も貢献するバイオマーカーを特定し、ローカルおよびグローバルクロックの使用がデータのダイナミクスのモデル化に役立つことを発見しました。さらに、トレーニング済みモデルの潜在空間を使用して、時間の経過に伴うデータの動作をさらに調査および理解します。

  • 00:35:00 講義のこのセクションでは、ベースライン バイオマーカーに基づいて患者の将来の臨床バイオマーカーを予測するために SSNPKPD モデルを使用した結果について講演者が説明します。このモデルは、線形ベースラインと比較してデータへの適合性が高いことを示しており、SSNPKPD によってキャプチャされた潜在的な表現が、将来の臨床バイオマーカーを予測するために関連する患者の病歴を保持していることを示しています。講演者は、より一般化するためにドメイン知識をモデル設計に組み込むことの重要性である講演からの主なポイントを要約し、医療におけるさまざまなデータモダリティの組み合わせにおける将来の研究の機会を強調します。講演者は、より大きなコホートにおける結果の継続的な検証と、モデルを臨床意思決定支援ツールおよびモデルベースの強化学習フレームワークに組み込む可能性についても言及しています。

  • 00:40:00 このセクションでは、スピーカーは治療効果関数に関するモデルの複雑さに関する実験について説明します。彼らは、3 から 12 の範囲の処理効果関数のコピーを作成することによって、モデルのバリエーションを試しました。その結果、複雑さを追加してもパフォーマンスが大幅に向上せず、低下さえするポイントがあることがわかりました。ただし、治療効果関数の一部を削除すると、パフォーマンスが低下することがわかりましたが、それでも線形モデルよりも優れていました。スピーカーは、これらの調査結果の範囲を決定するために、VA を使用したより大きなコホートで一般化の問題を再検討する予定です。
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
Electronic health records - Lecture 22 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.16
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest lecture: Rahul ...
 

ディープラーニングと神経科学 - 講義 23



深層学習と神経科学 - 講義 23 - 生命科学における深層学習 (2021 年春)

講義では、深層学習と神経科学、特に視覚科学の分野の相互作用について説明します。目標は、人間の視覚知性をリバース エンジニアリングすることです。これは、目に当たる光子に反応して人間が示す行動能力を指します。スピーカーは、シミュレートされたニューロンのネットワークなどのメカニズムの言語でこれらの機能を説明することを強調し、脳科学と人工知能の両方に利益をもたらす予測構築システムを可能にします。講義では、深層学習モデルが、脳が感覚系プロセスを実行する方法の仮説であり、脳の進化を模倣するだけでなく、潜在的なアプリケーションについて説明します。さらに、講義では、ニューラル ネットワークがどのように記憶を操作し、何かの意味を変えることができるかについての実用的な例を示します。

このビデオでは、脳の認知機能を理解し、この理解をエンジニアリング目的に活用する際のディープ ラーニングの可能性について説明します。講演者は、この分野におけるリカレント ニューラル ネットワークとその記憶および内部ダイナミクス機能との関連性を強調しています。この講義では、神経系が模倣を通じて学習する能力と、これを使用して作業記憶の表現、計算、および操作を学習する方法について説明します。このビデオでは、学習条件としてのフィードバック学習の証拠を見つけることの難しさと、システムを調整するためのエラー修正メカニズムの可能性についても取り上げています。講義は、コースでカバーされるトピックの多様性と、深層学習が将来の認知システムの解釈にどのように役立つかを考察することで締めくくられます。

  • 00:00:00 このセクションでは、講演者は深層学習と神経科学の相互作用、特に視覚科学の分野について説明します。彼は、深層学習モデルが、脳機能の側面がどのように機能するかについての科学的仮説としてどのように見なされるか、および神経科学者と認知科学者がデータに関してこれらの仮説の質をどのように評価するかについて説明します。カルロの講演は、人間の視覚知性をリバース エンジニアリングするという目標に焦点を当てています。これは、目に当たる光子に反応して人間が示す行動能力を指します。彼は、シミュレートされたニューロンのネットワークなどのメカニズムの言語でこれらの機能を説明することの重要性を強調し、脳科学と人工知能の両方に利益をもたらす予測構築システムを可能にします。

  • 00:05:00 このセクションでは、講師が視覚的知能について説明し、車や人を識別するなど、脳がシーン内にあるものをどのように推定するかについて説明します。ただし、次に何が起こるかを予測することや、その他の物理学に起因する問題は、科学者が理解するための課題です。それにもかかわらず、科学者たちは、200 ミリ秒ごとにシーンを垣間見るたびに処理する基本的なビジュアルのモデル化において大きな進歩を遂げました。これはコア オブジェクト認識とも呼ばれます。講師は、オブジェクトを認識する能力を測定し、コンピューター ビジョン システムやアカゲザルのような人間以外の霊長類などの他の種と比較するテストの例を提供します。

  • 00:10:00 このセクションでは、スピーカーは、人間と霊長類が物体を区別する能力について説明します。彼は、人間と霊長類は視覚認識タスクで同様のパフォーマンスを発揮し、人間のパフォーマンスはわずかに優れているだけだと指摘しています。さらに、講演者は、深層学習システムと、それらが人間や霊長類の視覚認識能力とどのように比較されるかについて説明します。次にスピーカーは、視覚認識タスクに関与するアカゲザルの脳の領域の議論に切り替え、最高レベルの領域として側頭下皮質を強調します。最後に、スピーカーは、神経活動パターンが側頭下皮質に出現する典型的な時間スケールと、それが明白な行動サンプリングスキルに必要な時間とどのように一致するかを指摘します。

  • 00:15:00 ビデオレクチャーのこのセクションでは、研究者が侵襲的記録電極を使用して、サルなどの動物の視覚野の個々のニューロンの画像に対する反応を研究する方法について説明します。さまざまな画像に反応するニューロンからの電気的活動のパターンを測定することにより、研究者は平均スパイク率を使用して反応を定量化できます。これらの活動パターンは、選択性の類似性によってひとまとめにすることができ、顔などの特定のタイプのオブジェクトのクラスター化の特別な領域が視覚野で特定されています。慢性記録アレイを使用すると、研究者は同じ神経部位から数週間または数か月間記録し、何千もの画像に対する反応を測定できます。

  • 00:20:00 このセクションでは、スピーカーは、動物が凝視している、タスクを実行している、または画像を観察している間に神経データが記録された実験について説明します。データの小さなサンプルで線形デコーダーをトレーニングすることにより、人間やサルで見られるパターンと区別がつかないパターンが明らかになりました。これにより、ブレイン マシン インターフェイス アプリケーションで特定の知覚を視覚化するために使用できる、強力な一連の特徴空間の開発が可能になりました。次に、スピーカーは、神経活動と画像の間で発生する非線形変換について説明し、この領域がディープ ラーニングとビジョン サイエンスが融合する場所であることを示唆しています。

  • 00:25:00 このセクションでは、スピーカーは、エッジ検出、フィルタリング、出力非線形性、ゲイン制御の概念など、神経科学で知られている原則に基づいて、最初に深い畳み込みネットワークがどのように構築されたかについて説明します。しかし、これらのモデルは脳の視覚領域の神経データに対してテストされたため、不十分であり、V4 の個々のニューロンの応答パターンを予測することができませんでした。これらのモデルは神経科学者向けに構築された仮説でしたが、視覚系がどのように機能するかを説明するには不十分でした。これらの初期のモデルは失敗しましたが、深いネットワークで学習したフィルターを V1 で観測されたものから分離する作業を継続するためのインスピレーションとして役立ちました。

  • 00:30:00 このセクションでは、神経科学と深層学習のコラボレーションにより、人工ニューラル ネットワークの未知のパラメーターの最適化がどのように可能になり、霊長類の脳の神経応答パターンを厳密に模倣するモデルが得られたかについて、スピーカーが説明します。講演者は、エンジニアが深い畳み込みニューラル ネットワークでフィルターのマイクロ パラメーターを最適化できるようにするループを実装することでブレークスルーがもたらされたことに注目しています。これにより、生成されたモデルは、視覚系で何が起こっているのかについての新しい仮説と見なされ、脳内の生物学的ニューラル ネットワークとの比較が可能になりました。スピーカーは、これらの比較がどのように行われたかの例を示し、脳機能に関する初期の機械的仮説をもたらしました.全体として、この共同作業により、生物学的な腹側ストリームに見られるものを厳密に模倣する in silico 腹側ストリーム ニューロンの開発が可能になり、脳が視覚情報をどのように処理するかについての洞察が深まりました。

  • 00:35:00 このセクションでは、スピーカーは、彼らが開発した深層学習モデルは、特に視覚オブジェクト認識の領域で、脳が感覚系プロセスをどのように実行するかについての仮説であると説明しています。彼らは、これらのモデルは完全ではなく、いくつかの不一致があることを指摘しており、将来的に最適化して改善することを目指しています.講演者はまた、エンジニアリングと AI におけるディープ ラーニングのより広範なアプリケーションについても説明し、これらのモデルをツールとして使用して、科学的な理解と最適化をさらに進めることができることを強調します。彼らは、脳のプロセスをより正確に表現するには、より多くのデータとモデルが必要であると述べて結論付けています。

  • 00:40:00 このセクションでは、講演者は、脳の進化を模倣するだけでなく、ディープラーニングと人工知能のイノベーションの可能性について説明します。彼らは、革新のほとんどはアーキテクチャの選択からもたらされ、その最適化を可能にする最適化ツールが利用可能になることを示唆しています。繰り返される質問は、認知の潜在意識の要素への洞察を与える可能性があり、脳の解剖学は再発のアイデアを結び付け、認知にもっと関与する下流の領域につながる可能性があります.スピーカーはまた、スキップ接続、灰色の領域、および現在行われている作業がこの問題にどのようにアプローチしようとしているかについても触れています。

  • 00:45:00 ビデオのこのセクションでは、スピーカーは、ネオテニーの概念と、それがさまざまな種の視覚野のハードコードされた機能とフィルターの割合にどのように影響するかについて説明します。システムが上がるにつれて、脳にはより多くの可塑性があり、サルは特定のレベルまでの領域を持っていますが、人間はより多くの脳組織を持っているため、より柔軟になります.話者は、脳には柔軟な余地が十分にあると信じています。それは私たちの霊長類のシステムの一部ですが、脳の一部はそれを超えており、それは問題ありません。次の講演者は、脳をリカレント ニューラル ネットワークとして考えることに関する彼らの研究と、人工のニューラル システムと実際のニューラル システムの交差を研究することが、それらがどのように機能するかを理解するのにどのように役立つかについて説明します。

  • 00:50:00 このセクションでは、効率的でスパースなコーディングを使用して、人工および実際のニューラル システムで効率的な表現の基礎を学習する方法に焦点を当てています。リカレント ネットワークにおける脳のような動作を研究することで、人工リカレント ネットワークの機能を拡張し、実際のリカレント ネットワークがどのように機能するかを理解するのに役立つ原理を見つけることができます。リカレント ニューラル ネットワークは、内部表現と記憶を保存および変更することを学習し、カクテル パーティー効果と同様の方法で重複する信号を分離できるようにします。実際のニューラル システムは、リカレント ネットワークのワーキング メモリと呼ばれる脳領域に見られるように、表現の保存と操作に優れています。目標は、人工再帰型ネットワークの機能を拡張し、実際の再帰型ネットワークがどのように機能するかを理解するのに役立つ原則を見つけることです。

  • 00:55:00 講義のこのセクションでは、場所細胞と呼ばれるニューロンからラットの位置を解読します。このニューロンは、空間内を移動するラットの動きを追跡します。ラットは、神経表現を操作して、移動する前に将来の軌道を計画することもできます。次に、鳴き鳥が大人の真似をして歌を学ぶ能力など、ニューラル ネットワークがどのように記憶を操作できるかについて説明します。講義では、例を観察することによってニューラル ネットワークがどのように情報を操作する複雑なプロセスを学習できるかについて説明し、記憶モデルとしてのカオス アトラクタの概念と、ニューラル ネットワーク モデルとしてのリザーバーと呼ばれる単純な非線形力学系を紹介します。リザーバーの制御パラメーターは、ネットワークが学習した記憶の表現を変更するために使用されます。この講義では、この制御によって何かの意味がどのように変化するかについて、実際の例を示します。

  • 01:00:00 このセクションでは、スピーカーはコンテキスト変調能力が学習とニューラル ネットワークの能力にどのように影響するかについて説明します。彼らは、コンテキスト変数でネットワークにバイアスをかけることは、共通のパラメーターを学習するためのトレーニングに、より多くのデータが必要であることを意味すると説明しています。講演者はまた、リザーバー コンピューティング法を使用してニューラル ネットワークに記憶を保存すること、および観察された入力を模倣することを学習する単純なスキームで記憶を保存するのに十分であることについても話します。次に、x1 方向のアトラクタの翻訳を調べ、各翻訳のコンテキスト パラメーター c の値を変更することによって、ニューラル ネットワーク内のメモリを変更する方法について説明します。

  • 01:05:00 このセクションでは、スピーカーは、アトラクタ多様体の内部表現で変換操作を内挿および外挿することを学習するリザーバーの能力について説明します。チームは、x1 方向に圧縮されたローレンツ アトラクタの 4 つのトレーニング例を提供し、トレーニングとフィードバックを実行しました。リザーバーは、ストレッチやマルチバリエーションなど、任意の変換操作を補間および推定することを学習することがわかりました。チームはまた、リザーバーがローレンツ アトラクタの全体的な分岐構造を予測し、サドル モードや超臨界ピッチフォーク分岐など、他のいくつかの動的正規形の分岐図を予測できることも発見しました。ニューラル ネットワークは、修正されたヤンセン リンケージの例のように、非動的な運動学的軌跡を予測することも学習できます。

  • 01:10:00 講義のこのセクションでは、スピーカーは可逆一般化同期と呼ばれる方法について説明します。これは、刺激を神経系の神経力学にマッピングするというアイデアを形式化する方法です。スピーカーは、表現を形成するために、入力刺激の特定の部分を個別にエンコードするのではなく、ニューロンが分散表現を形成する必要があると説明します。また、入力をメモリとして保存するための重要なメカニズムである、独自の表現で自分自身を駆動できなければなりません。最後に、講演者は、再帰型ニューラル ネットワークが混沌とした記憶を維持し、記憶を翻訳および変換できることを示します。

  • 01:15:00 このセクションでは、スピーカーは、見た例を模倣することによって学習するニューラル システムの能力と、これを使用して作業記憶の表現、計算、および操作を学習する方法について説明します。その後、会話はフィードバック学習の問題と、それが提示されたモデルにどのように適用されるかという問題に移ります。視覚野の特定の部分における用語の線形分離可能性と再構築可能性の証拠がありますが、話者はフィードバック学習の証拠を見つけることの難しさを指摘しています。エラー訂正メカニズムを使用してシステムを調整するという提案がありますが、結果が外界の期待に照らして判断される固定された一連のパラメーターのアイデアと、期待が大幅に逸脱した場合の顕著な記憶の形成についても議論されています。

  • 01:20:00 このセクションでは、講師は、脳の認知機能を理解し、それらを操作する際のディープラーニングの可能性を強調します。記憶力と内部ダイナミクスを備えたリカレント ニューラル ネットワークは、この分野で特に重要です。講師は、これらのシステムを単なる関数近似ではなく、生きて呼吸する実体として考えるよう奨励します。これらのコグニティブ システムのコアは RNN にありますが、入力と出力を畳み込みニューラル ネットワークで拡張することもできます。海馬とそれが神経系のさまざまな側面に接続することは、同時発火ニューロンの相互作用システム全体で記憶がどのようにエンコードされるかを示す魅力的な例として挙げられています。講義は、コースでカバーされるトピックの多様性と、深層学習が将来の認知システムの解釈にどのように役立つかを考察することで締めくくられます。
Deep Learning and Neuroscience - Lecture 23 - Deep Learning in Life Sciences (Spring 2021)
Deep Learning and Neuroscience - Lecture 23 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.05.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

MIT 6.S192 - 講義 1: 計算美学、デザイン、アート |生成による学習



MIT 6.S192 - 講義 1: 計算美学、デザイン、アート |生成による学習

この講義では、計算美学、デザイン、アートに関連するさまざまなトピックを扱います。アート制作へのアクセスの民主化、デザインの自動化、アートの限界の押し上げにおける AI の役割、および美学を定量化し、高レベルおよび低レベルの表現を使用してデザインの視覚的バランスを達成する際の課題について説明します。講師はまた、色のセマンティクスや雑誌の表紙デザインを例に挙げて、パターンを明らかにし、効果的にメッセージを伝えるコンピュテーショナル デザインの可能性を強調します。クラウドソーシング実験は、さまざまなトピックとの色の関連付けを決定するために使用され、さまざまな分野でのこの方法の潜在的なアプリケーションが調査されています.全体として、この講義では、創造的なアプリケーションにおける AI の役割と、アート、デザイン、およびその他の形式の創造的な表現を作成する方法に革命を起こす可能性について紹介します。

このビデオでは、StyleGAN や DALL-E などの生成モデルを使用して創造的な作品を生成するための計算美学、デザイン、アートの使用について説明しています。講師はまた、生成による学習の重要性を強調し、視聴者が問題を分析し、データを使用して革新的で創造的な解決策を考え出すように促します。ただし、スピーカーは、偏ったデータや一般化して枠にとらわれずに考える能力など、生成モデルの制限にも対処します。それにもかかわらず、講師は学生に提供されたコードを確認し、審美的に満足のいく画像を生成するためのさまざまな手法を試すように割り当て、計算美学とデザインに関するバークレーと MIT の間のソクラティックな議論への参加を奨励します。

  • 00:00:00 講義のこのセクションでは、講演者は芸術、美学、創造性に AI を実装する動機について説明します。彼らは、芸術は人間の進化とコミュニケーションの重要な側面であり、AI は芸術作品へのアクセスを民主化し、創造性を育み、芸術の境界を押し広げる可能性があると説明しています。毎日数百万枚の写真がアップロードされ、1 日あたり 650 の広告が公開される中、AI は優れたデザインを自動的に設計し、何が良いデザインか悪いデザインかを理解するのに役立ちます。最後に、講演者は、AI が映画や演劇などを毎秒作成する未来において、AI が重要な役割を果たすと主張し、その未来を形作りたいかどうかという問題につながります。

  • 00:05:00 このセクションでは、スピーカーは芸術、美学、創造性における AI の役割について説明します。彼は、畳み込みニューラル ネットワーク (CNN) はテクスチャに偏る可能性がありますが、さまざまなスタイルを生成してデータに組み込むことで偏りをなくすことができると説明しています。さらに、彼は、2018 年にジェネレーティブ モデルを使用して作成された絵画が 50 万ドルで販売されたと述べています。彼はまた、哲学者や芸術家が何世代にもわたってこのトピックについて議論してきたと述べて、美学を定量化できるかどうかという問題にも取り組んでいます.最後に、AI アルゴリズムを創造的なアプリケーションに適用する方法を学び、興味深い問題を解決することを含む、コースの目標に触れています。

  • 00:10:00 ビデオのこのセクションでは、コースに深層学習の予備知識が必要かどうかについて、講師が質問に答えています。彼は、このコースではディープ ラーニングに触れますが、それは主要な焦点ではなく、トピックを学習するための他のリソースがあると説明しています。彼はその後、美学の定量化に関する彼の以前の研究について議論し、美学の測定は新しい概念ではなく、20 世紀初頭のバーコフのモデルのように、さまざまな文脈で美学を定量化するために使用できるモデルがすでに確立されていることを指摘しました。ビジュアルデザイン、詩、さらにはインターフェースとして。

  • 00:15:00 このセクションでは、スピーカーは美学の定量化と、これを達成するための課題について、視覚的なバランスを例に挙げて説明します。高レベルと低レベルの両方で、適切な表現が必要です。高レベルの表現には視覚的なバランスとリズムを含めることができますが、低レベルの表現はニューラル ネットワークを使用して抽出された特徴に依存します。また、どのようなデータがどこから来ているのかなど、美学を定量化するためにもデータが必要です。スピーカーは、バランスが直感によって設計者に教えられることが多いことを説明しますが、エンジニアはそれを定量化し、設計におけるその意味を決定したいと考えています。

  • 00:20:00 このセクションでは、調和とも呼ばれるデザインにおける視覚的な正しさとバランスの概念について話します。彼は、デザイン要素を特定のホット スポットに配置することで視覚的なバランスが取れることを示唆した Arnheim の研究について語っています。講演者は、この仮説がデータ駆動型分析によって確認できるかどうかを調べ、顕著性アルゴリズムを使用して画像の顕著な部分を研究し、その結果を構造ネットに重ねます。彼は、クローラーを使用して写真 Web サイトから 120,000 を超える画像を収集し、これらの画像の特徴のパターンを研究しています。

  • 00:25:00 このセクションでは、肖像画、建築物、ファッションなどのさまざまなカテゴリの集約された画像のパターンを見つけるために、顕著性アルゴリズムを備えたデータセットを使用してガウス分布の混合物を適合させました。重心と三分割法に関するアーンハイムの理論に類似する、顕著性のホット スポットが分析されました。ただし、三分割法の有効性に関する研究で示されているように、写真家が画像をトリミングする方法によって結果が影響を受ける可能性があります。

  • 00:30:00 このセクションでは、講師が計算美学とデザインのトピックについて説明します。彼らは、美学、セマンティクス、および写真スタイルの注釈を含む AVA データセットの可用性について言及しています。次に講師は、深層学習アルゴリズムが美的評価を学習および予測する方法を示し、これを使用して画像を強調および微調整できることを提案します。次に、コンピュテーショナル デザインの可能性と、デザインのパターンを明らかにし、自分自身をよりよく表現する上でのその重要性について説明します。

  • 00:35:00 講演のこのセクションでは、講演者はコンピュテーショナル デザインの概念を紹介し、デザインとアートの違いについて説明します。デザインには問題が与えられ、その問題を解決するメッセージを伝えるのがデザイナーの仕事であり、アーティストは自ら問題を定義し、芸術的な手法を用いて解決するものです。装飾を超えたコミュニケーションなどのデザインの原則を機械に伝えるのは難しい場合がありますが、さまざまな理論、指標、ルール (ゲシュタルトや色の調和など) を使用して、コンテンツを自動的に作成および推奨することができます。講演者は、特定の背景画像の上にテキストやデザイン要素をレイアウトできる自動デザイン ソフトウェアの例も示しています。

  • 00:40:00 ビデオのこのセクションでは、補色を選択し、30 年間色の組み合わせを研究してきた小比足とともに、一天と松田の研究を研究して、雑誌の表紙の自動デザインをどのように作成したかについて話します。色は、ロマンチック、ソフト、きちんとしたなどの言葉に関連付けることができます。この作業に基づいて、スピーカーは、ユーザーが選択した色に基づいて推奨し、雑誌の表紙のスタイルを作成できる自動デザイン システムを作成しました。さらに、スピーカーは、プロのデザイナーからのデータが雑誌の表紙のカラー パレットのパターンを抽出できるかどうかを調べました。

  • 00:45:00 ビデオのこのセクションでは、講演者は、表紙で使用されているテキスト、ジャンル、色の組み合わせを同時に見つけるために、12 の異なるジャンルから雑誌の表紙のデータ セットを収集するプロジェクトについて説明しています。講演者は、トピック モデリングを使用して、単語と色の組み合わせであるさまざまなトピックを抽出し、ワード クラウドとカラー パレットを使用してこれらのトピックを視覚化する方法を示しました。講演者はまた、プロジェクトの結果が普遍的かどうかを判断するためにクラウドソーシングを使用することについても話しました。

  • 00:50:00 このセクションでは、スピーカーは、さまざまな文化や人口統計がさまざまなトピックとの色の関連付けに同意するかどうかを理解するために実施したクラウドソーシング実験について説明します.この実験では、トピックからランダムに選択されたカラー パレットを示し、次にさまざまなワード クラウドを示し、被験者にそれらを一致させるように求めました。さまざまな国から 1,000 人を超える参加者が参加し、結果として得られた相関または関連性マトリックスから、いくつかの興味深いパターンが明らかになりました。実験では、いくつかの例外はありましたが、ほとんどの場合、参加者はさまざまなトピックとの色の関連付けに同意したことが示されました。講演者はまた、さまざまな種類の製品のカラー パレットをデザインする際に、この方法を応用できる可能性があることを強調しました。

  • 00:55:00 講義のこのセクションでは、スピーカーは、カラー パレットの推奨、画像検索、再配色、さらには Web デザインなどのタスクにおけるカラー セマンティクスのさまざまなアプリケーションについて説明します。彼女は、アルゴリズムを使用して、特定のコンセプトやテーマに基づいて色や雑誌の表紙を推奨したり、時間の経過に伴う Web デザインのパターンを分析して視覚化したりする方法を示しています。畳み込みニューラル ネットワークの使用は、特定の時代のカラー パレットや Web サイト デザインのトレンドを特定する際にも実証されています。

  • 01:00:00 このセクションでは、講演者は、設計の年を予測する際の計算設計と美学の使用について説明します。モデルが考慮に入れるのは色だけではなく、タイポグラフィなどの高度な機能も含まれていると彼らは説明しています。分類の精度については言及されていませんが、偶然よりも高いことが指摘されました。また、広告の分析、ロゴやアイコンの作成、ファッション カラー パレットのデザインにもコンピューテーショナル デザインが使用されています。

  • 01:05:00このセクションでは、ファッション、プロダクト デザイン、アートにおけるジェネレーティブ モデルの使用について説明します。彼は、色やタグなどのファッション要素を理解するために使用されるデータセットの例を示し、同様のデータセットを使用して製品デザインを推奨している同僚に言及しています。講演者はまた、入力スケッチを取得して製品デザインを出力したり、イメージを別のファッション アイテムのように変更したりできるジェネレーティブ モデルについても話します。さらに、スタイル転送やコンテンツ生成ツールなど、計算芸術と創造性に関連するトピックにも触れています。

  • 01:10:00ビデオのこのセクションでは、教授は、画像とスタイルの転送、コンテンツの生成、ビデオの生成モデルなど、創造的な作品を生成する際の計算芸術と人工知能の使用について説明しています。ディスカッションには、StyleGAN、OpenAI による DALL-E、ビデオ ポーズ修正の生成モデルなど、これらの分野における最近の研究の例がいくつか含まれています。これらの進歩にもかかわらず、機械が本当に芸術家になれるのか、それとも創造性と芸術は人間だけのものなのかという疑問が残ります。

  • 01:15:00このセクションでは、スピーカーは生成による学習の方向への興奮について話し合い、いくつかの結果を共有します。彼らは、生成による学習は、人間が問題を解決する方法を学習する方法に基づいて AI を訓練し、アルゴリズムを開発する方法であるため、興味深いと説明しています。スピーカーは、美学の定量化についての質問にも答え、人間の言語の高レベルの用語と計算用語の間のギャップを埋める 1 つの方法は、データとモデルを使用し、文化的概念を取り入れ、クラウドソーシングを通じて人々の意見を求めることであると述べています。

  • 01:20:00ビデオのこのセクションでは、バイアスを回避して興味深い結果を得るために、機械学習でデータを使用することの重要性について講演者が説明しています。彼はリスナーに、革新的で創造的なソリューションにつながるアルゴリズムや表現を設計する方法について考えるよう勧めています。講演者は、創造性と革新性が人工知能の不可欠な要素であると信じており、それらがオブジェクトや概念の設計にどのように使用されてきたかの例を挙げています。彼は、生成による学習が問題解決スキルを開発する効果的な方法であることを強調し、リスナーが大きな問題を小さなサブセットに分解し、一度に 1 つずつ解決することを奨励しています。

  • 01:25:00ビデオのこのセクションでは、スピーカーは一般化の概念と、創造性と AI における既成概念にとらわれない考え方について説明します。講演者は、生成モデルが一般化と分布外思考が可能かどうかという問題を提示します。このトピックを探求するために、講演者は敵対的生成ネットワーク (GAN) の操縦可能性の概念を紹介し、ジェネレーターの潜在空間でウォークを見つけることによって画像を操作する能力を示します。それらは、現在の GAN モデルがズームインとズームアウト、シフトと回転などの変換を示すことができることを示しています。講演者は、イメージを操作するための潜在的なベクトルを見つけるプロセスを説明し、これを使用して、創造性と革新における生成モデルの可能性を示します。

  • 01:30:00ビデオのこのセクションでは、講演者は BigGAN などの生成モデルの制限と、それらが存在する理由について説明します。彼は、クラスのセマンティクスにも存在するバイアスがモデルに導入される可能性があると説明しています。これは、モデルは一般化できるが、人間ほど一般化できないことを意味します。講演者は続けて、モデルがデータセットの分布から外れて、画像の見え方をある程度変えることができることを示しますが、それは基礎となるデータセットが多様である場合に限られます。この論文は、偏ったデータの限界を克服する方法の 1 つは、画像を拡大したり回転させたりすることでデータを補強することだと示唆しています。

  • 01:35:00ビデオのこのセクションでは、講師が潜在空間を使用して、変換によって美的に魅力的な画像を生成する方法について説明します。画像の色、ズーム、回転、カメラのような変更などを変更するために、潜在空間を歩いたりハンドルを操作したりすることで、変換を行うことができます。講師は、画像の美学を検出するためのニューラル ネットワークの使用についても説明し、歩行方向または変換がより美的に魅力的な画像を生成するかどうかに関するフィードバックを提供します。この講義では、計算の美学とデザインに関するバークレーと MIT の間で開催されるソクラティックな討論に学生が参加することを奨励しています。さらに、講師は学生に、提供されたコードを確認し、審美的に満足できる画像を生成するためのさまざまな手法を試すように割り当てます。

  • 01:40:00ビデオのこのセクションでは、講演者が作品のリポジトリについて説明し、提供されたノートブックを実行するために TensorFlow ではなく PyTorch を使用することを視聴者に勧めています。また、コードの結果を視覚化するために使用される Colab システムについても説明し、画像を生成して結果を報告することの重要性を強調しています。また、講演者は視聴者に、質問があればメールで送信できることと、コースへの参加に感謝することを伝えます。
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
MIT 6.S192 - Lecture 1: Computational Aesthetics, Design, Art | Learning by Generating
  • 2021.01.21
  • www.youtube.com
First lecture of MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity, by Ali Jahanian.In this lecture, I start introducing the course and discuss C...
 

MIT 6.S192 - 講義 2: ソクラテス論争、Alyosha Efros と Phillip Isola



MIT 6.S192 - 講義 2: ソクラテス論争、Alyosha Efros と Phillip Isola

このビデオでは、Alyosha Efros と Phillip Isola が、画像を使用して共有体験を作成するというアイデアについて話し合います。彼らは、これが記憶を呼び戻し、懐かしさを生み出すのに役立つと主張しています.

このビデオは、MIT の 2 人の教授による、人工知能におけるデータの役割に関する討論です。 Efros はデータが AI にとって不可欠であると主張し、Isola はデータが AI 開発の妨げになる可能性があると反論しています。

  • 00:00:00 このレクチャーでは、Alyosha Efros と Phillip Isola が、新しいタイプのデータとしての生成モデルの見方について説明します。 Efros は、現在の生成モデルの時代はデータと同じですが、より優れていると主張しています。 Isola は、生成モデルがどのように機能するか、またそれらを使用して興味深いコンテンツを作成する方法について説明します。

  • 00:05:00 このレクチャーでは、Alyosha Efros と Phillip Isola が生成モデルの力について議論します。生成モデルを使用すると、画像の変更に使用できる潜在変数などの追加機能で装飾されたデータ ポイントを作成できます。これにより、創造性と科学的視覚化の多くの可能性が開かれます。

  • 00:10:00 ビデオでは、潜在空間を介して画像を操作するというアイデアについて説明しています。彼らは、画像空間で意味のある変換にマッピングされる方向を検索することで、これを行う方法を説明しています。彼らは、画像を拡大することで画像をより記憶に残るようにする例を挙げています。最後に、この手法の使用方法について説明します。
    何かが記憶に残るとはどういう意味かという概念を視覚化すること。

  • 00:15:00 このビデオでは、新しい画像を作成するために操作できるデータの一種である生成モデルの概念について説明しています。ビデオは、これらのモデルが異なる画像の異なる部分を一緒に追加することによって新しい画像を構成的に作成する能力を紹介しています.ビデオでは、特定のオブジェクトに対するバイアスや、特定のシーンを正確に描写できないことなど、生成モデルの限界についても説明しています。

  • 00:20:00 Alyosha Efros と Phillip Isola が、データ プラス プラスの概念について説明します。これは、データ自体とそれを生成するために使用される方法の両方を含むデータについての考え方です。 Efros は、データ ポイント間のより意味のある補間を可能にするため、この観点が有用であると主張しています。 Isola は、2 つのデータ ポイント間のパスをどのように選択するかについて質問し、Efros は、モデルが最も自然に見える最短パスを選択することを説明します。

  • 00:25:00 このビデオでは、Phillip Isola と Alyosha Efros が「Dall-E」アルゴリズムのメリットについて議論しています。 Efros 氏は、このアルゴリズムは言語を理解できるという点で優れていると主張しています。 Isola は、アルゴリズムが実際には言語を理解しているのではなく、単語や文法を理解していると反論しています。

  • 00:30:00 講演者は、GAN は高度に精選されたデータでのみトレーニングされているため、実際には創造的ではないと主張しています。彼は、余裕があれば双方向マッピングが最善の方法であると示唆しています。

  • 00:35:00 この講義では、Alyosha Efros と Phillip Isola が、人工知能研究に対するデータ駆動型とモデルベースのアプローチのメリットについて議論します。 Efros は、ますますモデルがデータへの主要なインターフェースになり、データ サイエンティストはデータ セットではなくモデルの操作方法を学ぶ必要があると主張しています。 Isola 氏もこれに同意し、これらのモデルのトレーニングに使用されるデータ セットはますます大規模かつ複雑になっていると付け加えています。

  • 00:40:00 このビデオは、アリョーシャ エフロスとフィリップ イゾラによるアートの文脈に関する講義です。 Efros は、Malls Across America と呼ばれる Michael Galinsky のアートワークの写真がどのように彼に深い印象を与えたか、そして写真が表示されるコンテキストがその意味にどのように影響するかについて語っています。イゾラは、海を見つめる少女の写真が、それが撮影された時代に生きていた人々の記憶や感覚をどのように呼び戻すことができるかについて語っています。

  • 00:45:00 このビデオは、ノスタルジアの概念と、ノスタルジアを芸術の鑑賞にどのように利用できるかについて、2 人の教授が話し合うものです。彼らは、ドアの前にいる 2 人の友人の写真の例を使用しています。彼らは、この種の懐かしさはさまざまな形で見られ、記憶を思い出すことができる人にとっては楽しい経験になる可能性があると主張しています.

  • 00:50:00 このビデオでは、Alyosha Efros と Phillip Isola が、画像を使用して特定の都市の人々の間で共有された経験を呼び起こすというアイデアについて話し合います。彼らは、これが記憶を呼び戻し、懐かしさを生み出すのに役立つと主張しています.

  • 00:55:00 エドゥアール・モネの絵画「オリンピア」は、1865 年に発表されたとき、その裸体と平らな肌の色合いが原因で、大きなスキャンダルになりました。絵の中の手の配置が人々を狂気に駆り立てたものだと信じている人もいます.

  • 01:00:00 このレクチャーは、芸術がどのように見られるかによって、異なる方法で解釈される方法についてです。使用された例は、アメデオ・モディリアーニの絵画「横たわるヴィーナス」で、最初に展示されたとき、有名なヌード女性の絵画のパロディと見なされたため、怒りを引き起こしました.しかし、他のヌード女性の絵画との関連で見ると、それは有効な芸術作品と見なすことができます.

  • 01:05:00 YouTube ビデオ「MIT 6.S192 - 講義 2: ソクラテスの討論、アリョーシャ エフロスとフィリップ イゾラ」では、ロシアの画家ズロトニコフとアメリカの画家ハーストの絵画の背後にある意味について 2 人が議論しています。エフロスは、絵画の方向性は、それらが呼び起こす自由と混雑の感情によって決定されると主張しています。イゾラは、マレーヴィチの黒い正方形の絵によって方向性が決定されていると反論し、彼はそれを特定の方向性の究極の解像度と見なしています。

  • 01:10:00 Phillip Isola と Alyosha Efros がアートの意味、特にマレーヴィチの黒い正方形の絵について議論します。イゾラは、この絵は何の意味もない記号であると主張し、エフロスは、それはマレーヴィチにとって自然な進歩であると主張している.

  • 01:15:00 このビデオの要点は、機械の複雑さを過大評価している可能性があること、そして私たちにとって魔法のように見えるものは単純なプロセスの結果にすぎない可能性があるということです. Braiterberg の著書「Vehicles」は、単純な相互作用から複雑な動作がどのように発生するかを示す例として使用されています。

  • 01:20:00 このレクチャーでは、エフロスとイゾラが創造性と斬新さの性質について議論します。 Efros は、どちらも漸進的な変化の結果であり、創造的なプロセスは通常非常にスムーズであると主張しています。 Isola は、目新しさは偶然性と運の結果であることが多いと反論します。

  • 01:25:00 これは、芸術と科学における文脈の役割についての 2 人の人物による討論です。ある人は芸術が有意義であるためには文脈が必要であると主張し、他の人は文脈は必要ではなく、文脈がなくても芸術は斬新であると主張します.

  • 01:30:00 この講義では、Efros と Isola が科学的成功における運の役割について議論します。 Efros は運が重要な役割を果たしていると主張し、Isola は偉大さを計画する方法があると主張しています。

  • 01:35:00 この講演では、Alyosha Efros と Phillip Isola が、創造性における運の役割について議論し、Efros は運以上のものがあるに違いないと主張しています。 Isola は、データ プラス プラス (データと操作の組み合わせ) が創造性の鍵であり、適切なデータがあれば可能性は無限大であると主張しています。

  • 01:40:00 この YouTube ビデオでは、Alyosha Efros と Phillip Isola が、データとモデルの操作の違いと、データが時代遅れになるかどうかについて議論しています。 Efros は、モデルが高度化するにつれてデータの重要性はすでに低下しており、最終的にはモデルが知性において人間を超えるだろうと主張しています。 Isola は、データは依然としてゴールド スタンダードであり、モデルはデータに基づいた以上のことはできないと主張しています。

  • 01:45:00このディベートでは、MIT の Alyosha Efros 教授と Phillip Isola 教授がアートと AI の関係について話し合います。 Efros は、計算が関係を考える最良の方法であり、芸術と進化の間には強いつながりがあると主張しています。 Isola は、この 2 つの間に関連性があることに同意しますが、現在のモデルはデータから新しい情報を推定することができず、これが真に創造的な AI の鍵であると主張しています。

  • 01:50:00 Phillip と Alyosha とアートと計算について話せてよかったです。二人とも、アートは新しい思考パラダイムの最前線にあり、コンピューターを使用して新しいアイデアを探求できると考えています。

  • 01:55:00 この講義では、Alyosha Efros と Phillip Isola が、人工知能におけるデータの役割についてソクラテス論争を行っています。 Efros はデータが AI にとって不可欠であると主張し、Isola はデータが AI 開発の妨げになる可能性があると反論しています。
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
MIT 6.S192 - Lecture 2: A Socratic debate, Alyosha Efros and Phillip Isola
  • 2021.01.21
  • www.youtube.com
First, Phillip Isola: "Generative Models as Data++" Then, Alyosha Efros: "Nostalgia to Art to Creativity to Evolution as Data + Direction" 39:14The debase go...
 

MIT 6.S192 - 講義 3: Jun-Yan Zhu による「効率的な GAN」



MIT 6.S192 - 講義 3: Jun-Yan Zhu による「効率的な GAN」

講義では、大規模なトレーニング セッションを必要とする高度な計算、大量のデータ、複雑なアルゴリズムの必要性など、GAN モデルのトレーニングの課題について説明します。ただし、講師は、GAN 圧縮の汎用フレームワーク、微分可能な拡張、およびデータ拡張を使用して教師モデルを圧縮するなど、GAN の学習を高速化し、より少ないデータセットでトレーニングする新しい方法を紹介します。この講義では、GAN を使用したインタラクティブな画像編集についても説明し、GAN トレーニングを成功させるための大規模で多様なデータセットの重要性を強調します。モデルを実行するためのコードは GitHub で入手でき、さまざまな種類のデータでモデルを実行するための段階的な手順が示されています。講義は、実用的な目的のためのモデル圧縮の重要性を議論することで締めくくられます。

  • 00:00:00 このセクションでは、講演者は効率的な GAN の概念と、GAN がいかに高価であるかを紹介します。 GAN はさまざまなコンテンツ作成や創造性タスクに使用されてきましたが、新しいアルゴリズムの開発やリアルタイム パフォーマンスの実行には、ハイエンドの GPU が必要です。 GauGAN プロジェクトの開発では、研究者はトレーニングのために何百ものハイエンド GPU を必要とし、1 年間の開発の後でも、チームはプロジェクトを実行するために高価なラップトップを購入する必要がありました。 GAN のトレーニングとアルゴリズムの開発のコストは高く、現在、大学が NVIDIA や DeepMind などの大企業と競争するのは困難です。

  • 00:05:00 このセクションでは、スピーカーは、より多くのユーザーが GAN を効果的に利用するための 3 つの主な障害、つまり、高度な計算、大量のデータ、および多くのトレーニング セッションを必要とする複雑なアルゴリズムの必要性について説明します。彼は、モデルのトレーニングに必要な高品質の画像と前処理ステップのために、GAN は計算コストが高いと説明しています。さらに、大規模なデータセットとラベルの必要性により、GAN のトレーニングがさらに困難になります。ただし、彼は、GAN の学習を高速化し、より少ないデータセットでトレーニングできる新しい方法を紹介しています。これにより、リソースへのアクセスが制限されているコンテンツ クリエーターやアーティストが独自のモデルをトレーニングおよびテストするのに役立ちます。

  • 00:10:00 講義のこのセクションでは、Jun-Yan Zhu が GAN 圧縮の汎用フレームワークを使用して教師モデルを圧縮する方法を紹介します。目標は、教師モデルと同じ種類の出力を生成できるフィルターの少ない生徒モデルを見つけることです。この方法では、損失関数を作成して、学生のゼブラ出力の分布が教師の出力に非常に似ていること、学生の中間特徴表現が教師の出力に非常に似ていること、学生の出力が敵対的損失に応じてシマウマのように見えることを確認します。 .このプロセスには、最適なチャネル数の検索も含まれます。これにより、モデルのサイズとトレーニング時間を削減しながら、同じ結果を得ることができます。異なる構成間で重みを共有するプロセスにより、個別にトレーニングすることなく複数の構成をトレーニングできるため、トレーニング時間が短縮されます。

  • 00:15:00 このセクションでは、Jun-Yan Zhu が、さまざまな構成で GAN モデルをトレーニングおよび評価するプロセスと、さまざまな損失関数を使用して教師モデルを模倣し、さまざまな構成で重みを共有する方法について説明します。モデルを圧縮してモバイル デバイスでリアルタイムのパフォーマンスを実現するというアイデアとともに、さまざまなサイズと計算コストのモデルの結果が提示されました。このアイデアの StyleGAN2 への適用も紹介され、元のモデルからの最終出力を適用する前に、低コストのモデルを画像編集に使用する方法が示されました。

  • 00:20:00 このセクションでは、講演者が GAN を使用したインタラクティブな画像編集のデモを実演します。デモの目的は、ユーザーが笑顔の追加や髪の色の変更などのさまざまな属性で画像を編集し、変更に基づいてすぐにフィードバックを得られるようにすることです。システムは、大きなモデルと一貫した出力を生成する小さなモデルを採用して、プレビューが有益なままであることを保証します。編集が完了すると、元のモデルを実行して高品質の出力を生成できます。インタラクティブな編集は、既存の非深層学習コンテンツ作成ソフトウェアと比較して高速で高品質の結果を提供します。

  • 00:25:00 講義のこのセクションでは、Jun-Yan Zhu 教授が GAN モデルのトレーニングの課題について説明し、効果的なパフォーマンスのために大量の高品質データが必要であることを挙げています。レンダリング ソフトウェアやその他のツールを使用してプロセスを高速化し、プレビューを生成することは可能ですが、カスタム モデルをトレーニングするには、大量の注釈付きデータを収集する必要があります。 Zhu は、わずか 50 個または 100 個の顔のデータセットで stylegan2 モデルをトレーニングする例を挙げています。これにより、画像が歪んでしまいました。この講義では、GAN トレーニングを成功させるための大規模で多様なデータセットの重要性を強調しています。

  • 00:30:00 このセクションでは、スピーカーは GAN モデルに十分な量のトレーニング データを用意することの重要性について説明します。彼らは、小さなデータセットでトレーニングする場合、ディスクリミネーターがすべての画像を簡単にオーバーフィットして正しく分類できることを示していますが、実際の画像への一般化には問題があります。これにより、ジェネレーターは多くのガベージ イメージを生成したり、崩壊したりします。講演者は、GAN を独自の目的で使用したり、小さなデータ セットで使用したりすると、オーバーフィッティングがはるかに深刻になり、効率的な GAN を作成するには十分なデータを取得することが重要であることを強調します。

  • 00:35:00 このセクションでは、教授は、新しいサンプルを収集せずにデータセットを増やすために単一の画像の複数のバージョンを作成することを含む、機械学習のオーバーフィッティングに対抗するためのデータ拡張のアイデアについて説明します。ただし、この方法を GAN トレーニングに適用することは、生成された画像にも実際の画像に適用された同じ変換または拡張の効果があり、複製されたアーティファクトにつながる可能性があるため、より複雑です。この問題を回避するために、教授は、本物の画像と偽の画像の両方を拡張し、ジェネレーターとディスクリミネーターの間の拡張されたデータの違いをバランスさせるためにディスクリミネーターのトレーニングのためにのみ行うことを提案しています.

  • 00:40:00 このセクションでは、スピーカーは、GAN のジェネレーターとディスクリミネーターの目的の間のギャップを埋めるアプローチとして、微分可能な拡張の概念について説明します。主なアイデアは、識別器からの勾配をジェネレーターに逆伝播できるように、偽の画像と実際の画像の両方を微分可能な方法で拡張することです。講演者は、微分可能な拡張により、最小限のトレーニング データでより良い結果が得られるため、大規模なデータセットの必要性が軽減されることを例を通して示します。講演者は、GAN をトレーニングするときに、微分可能な拡張は覚えておくべき重要な手法であると結論付けています。

  • 00:45:00 このセクションでは、講師は、モデルを実行するためのすべてのコードが GitHub で入手可能であり、個人の顔画像であっても、さまざまな種類のデータでモデルを実行するための段階的な手順を説明しています。また、デザイナーやアーティストが利用できる特定のツールについても説明し、講師は、David Bau が内部ユニットを視覚化および監視するためのオンライン ツールについて話すと述べています。モデル圧縮プロセスについても説明します。これは、モデルを一度圧縮して複数のデバイスに展開する機能を開発することを目的としています。これは、ユーザーがモデルにアクセスするのに必要な時間を短縮しながら、開発者の時間を節約するため、実用上重要です。 .
MIT 6.S192 - Lecture 3: "Efficient GANs" by Jun-Yan Zhu
MIT 6.S192 - Lecture 3: "Efficient GANs" by Jun-Yan Zhu
  • 2021.01.21
  • www.youtube.com
Jun-Yan Zhu Assistant Professor, School of Computer Science, Carnegie Mellon Universityhttps://www.cs.cmu.edu/~junyanz/More about the course: http://deepcrea...
 

MIT 6.S192 - 講義 5:「GAN のニューロンを使ったペイント」David Bau 著



MIT 6.S192 - 講義 5:「GAN のニューロンを使ったペイント」David Bau 著

David Bau が、機械学習の進化と、自己プログラミング システムを作成する可能性について説明します。彼は敵対的生成ネットワーク (GAN) を紹介し、現実的な画像を生成するためにそれらを訓練する方法を説明しています。プログレッシブ GAN 内の特定のニューロンと、生成された画像内の特定の意味的特徴との間の相関関係を特定するプロセスについて Bau が説明します。彼は、GAN の助けを借りて、ドア、草、木などのさまざまな要素を画像に追加する方法を示しています。さらに、GAN に新しい要素を追加する際の課題と、世界の現実的なレンダリングを取り巻く倫理的な懸念についても説明します。

  • 00:00:00 このセクションでは、David Bau が機械学習の進化について、そのルーツである統計分析からセルフ プログラミング システムを作成する可能性までについて説明します。学術研究者として、彼は今がこの分野の方向性と機械学習モデルの意味について質問する興味深い時期であると信じています.彼が講演で扱う主な問題は画像生成であり、実際の画像のデータセットを収集し、生成ネットワークをトレーニングしてそれらを再作成するプロセスを紹介します。

  • 00:05:00 このセクションでは、David Bau が敵対的生成ネットワーク (GAN) を紹介し、リアルな画像を生成するように訓練する方法を説明します。彼は、GAN の秘訣は、まず画像が本物か偽物かを分類するように弁別器をトレーニングし、次にこの弁別器をジェネレータに接続して、弁別器を欺く画像を作成することであると説明しています。ただし、ジェネレーターは現実的な画像に似ていない単純なパターンで弁別器をだますことを学習できるため、GAN のトリックはプロセスを繰り返し、ジェネレーターと弁別器の間を行ったり来たりすることであると彼は指摘します。リアルな画像。最後に、実際の画像と区別するのが難しいことが多い、GAN によって生成された画像の例を示しています。

  • 00:10:00 このセクションでは、スピーカーは、透かしなど、GAN で生成された画像に見られるいくつかのアーティファクトと、トレーニング セットに由来するそれらの起源について説明します。講演者は、透かしの印象に接続されたニューロンを発見した方法と、それらをオフにする方法を説明しました。透かしニューロンをオフにすることで、ジェネレーターから得られる出力に透かしや関連するアーティファクトがなくなり、刺激的な発見となり、生成された画像のさまざまな機能を制御するスイッチがネットワーク内にあることが証明されます。

  • 00:15:00 このセクションでは、David Bau がプログレッシブ GAN の特定のニューロンと生成された画像の特定の意味的特徴との間の相関関係を特定するプロセスについて説明します。彼は、これは各ニューロンを個別にテストして、最も活性化されている場所を確認することで達成されたと説明しています。これは、特定の機能に関連していることを示しています.このプロセスを通じて、彼は樹木と相関するニューロンを特定し、窓やドア、椅子、さらにはドームなどの部品を構築することができました. Bau 氏は、これは監視されたトレーニングやラベルなしで達成されたことを指摘し、ネットワークがこれらの機能のさまざまな例を区別することをどのように学習したかを示し、それらを個別のコンポーネントで表しています。

  • 00:20:00 このセクションでは、David Bau が、キッチンを生成するためのモデルですべての異なるニューロンをマッピングするという目標について説明します。これにより、さまざまなタイプの相関ニューロンのカタログが作成されました。 Bau は、モデルの中間層にはセマンティック オブジェクトと高度に相関するニューロンがあり、後の層にはより物理的な相関関係があることを発見しました。 Bau は、相関関係が非常に顕著であるため、画像生成でさまざまなオブジェクトのオンとオフを切り替えるなど、興味深いアプリケーションにつながることを発見しました。 Bau は、いくつかの木のニューロンをオフにすると、シーンから木が削除され、ジェネレーターが木の背後にあるものを埋める方法を示しました。逆に、ニューロンをオンにすると、ドアがシーンに表示され、ジェネレーターによってドアの適切なサイズ、向き、スタイルが入力されました。

  • 00:25:00 ビデオのこのセクションでは、David Bau が GAN を使用して、ドア、草、木などのさまざまな要素を画像に追加する方法を示しています。特定のオブジェクトまたは要素と相関する特定のニューロンのみを活性化することにより、彼は画像のセマンティクスを操作できます。彼はまた、ランダムに生成された画像しか編集できないなど、GAN の制限についても説明しています。これは、モデルを逆方向に実行する方法を学習する必要がある反転問題で解決できます。

  • 00:30:00 このセクションでは、David Bau が Generative Adversarial Network (GAN) を使用して画像を生成することの限界について説明します。ただし、ネットワークの重みを微調整して、ターゲット画像に正確にヒットする非常に近いネットワークを生成することができますが、ネットワークを比較的変更せずに編集を可能にします。 Bau は、ネットワークを介して写真を反転し、開始イメージを取得し、ネットワークを微調整してターゲット イメージを出力し、イメージを編集することにより、実際の写真を変更するためにこの手法を使用することを示しています。このプロセスでは、ドームやドアなど、イメージの建築様式に一致するオブジェクトを追加または削除できます。

  • 00:35:00 ビデオのこのセクションでは、David Bau が GAN テクノロジを使用して、微調整されたネットワークを使用して特定の画像にオーバーフィットすることで画像を変更する方法を説明しています。コア スクリーン レイヤーをあまり変更しないようにネットワークの事前トレーニング済みの重みを変更することで、Bau は画像を編集し、ターゲット画像の大まかな近似値を作成することができました。ただし、ネットワークはこの知識を一般化しないため、ターゲット画像以外の画像に対して意味のある変更を生成することはできません。

  • 00:40:00 このセクションでは、David Bau が敵対的生成ネットワーク (GAN) に新しい要素を追加するという課題について説明します。特定のオブジェクトの画像を生成するようにシステムをトレーニングすることはできますが、以前のデータセットやエンコードされたルールがない場合、新しい概念をシステムに教えることは困難です。したがって、バウは、モデルを再トレーニングせずに、塔の頂上に木を追加したり、建物の前にキャデラックを描いたりするなど、新しいルールに対応するために事前トレーニング済みのモデルの重みを変更する手法を開発しました。彼は StyleGAN2 でアプリケーションをデモンストレーションします。ユーザーはルールを指定し、好みに応じて出力を操作できます。

  • 00:45:00 このセクションでは、David Bau が、生成した画像からいくつかの例を選択し、GAN を使用してその形状に関与する共有ニューロンを見つける方法について説明します。選択すると、彼はそれらの表現を再定義し、たとえば先のとがった塔の頂上を木に変えるなど、GAN のモデルへの適切な変更を計算することによって新しい画像を生成できます。 Bau は、このプロセスが彼の検索結果にある尖った塔のすべての画像の影響を受け、尖った塔の画像のまったく新しい表現につながることを示しています。さらに、バウ氏は、GAN の各レイヤーは、コンテキスト表現のメモリとして使用されるキーと値のペアを一致させるという単純な問題を解決するものと考えることができると説明しています。彼は、重み行列が最小二乗問題の解であり、1 つの層のキーと値のペアでルールを変更することも最小二乗問題であり、比較のために同じように書くことができると述べています。

  • 00:50:00 このセクションでは、David Bau が、ルール全体を変更せずに、ネットワークが記憶した 1 つのことを変更する方法について説明します。これにより、まだ存在しないものを表すモデルを作成できます。これは、キーを見つけて新しい値を書き込み、ランク 1 の更新を特定の方向に使用してキーの値のみを変更することによって実現されます。これにより、ユーザーは GAN 内のルールを変更し、それらを使用して、トレーニング データだけではなく、想像力に基づいて何かを作成できます。この方法は、十分なデータがない場合にも使用でき、機械学習を使用して新しい世界を作成するための潜在的な道筋を提供します。

  • 00:55:00 このセクションでは、David Bau が、世界のルールをより見やすく、人間が操作できるようにすることで世界のルールを変更し、人々がより良い世界を構築できるようにする彼の方法の可能性について説明します。彼はまた、この方法が複数の異なるモデルで機能するのか、それともこのモデル内から帽子を取り出して角に装着する場合にのみ成功するのかという質問にも答えています。彼は、現在、この方法で再配線できるのは 1 つのモデルのみであると説明していますが、計算の一部をあるニューラル ネットワークから別のニューラル ネットワークに移動できるようにすることは明らかな目標です。最後に、彼は世界の現実的なレンダリングをめぐる倫理的懸念と、それがすでにどのように悪用されているかについて語り、ディープ フェイク現象とフェイス ジェネレーターを使用した何百万もの偽の Facebook プロフィールの作成を引用しています。

  • 01:00:00 このセクションでは、David Bau が、ディープ ニューラル ネットワークを使用してリアルな画像を生成することの意味と潜在的な結果について説明します。フォレンジックによる偽造画像の検出作業は必要ですが、内部構造を理解し、これらのモデルが内部でどのように機能しているかを知ることは、より興味深いことだと彼は強調します。これらのニューラル ネットワークは、なぜ特定の決定を下すのかという質問にうまく答えられないため、ディープ ネットワークを理解する上で透明性が不可欠です。バウの目標は、ネットワーク内で適用されるルールを分解して意思決定を行い、その理由を尋ねる方法を開発することであり、ディープ ニューラル ネットワークの重要な倫理的側面として透明性を定義するのに役立ちます。さらに、バウのスキャン解剖に関する研究は、見栄えの悪いアーティファクトに寄与するニューロンを特定できることを示しています。これにより、これらのネットワークの出力の質が向上します。

  • 01:05:00 このセクションでは、David Bau が、一部の GAN が生成した画像にアーティファクトや歪みを持ち、特定の学習方法で除去または削減できる場合があることについて説明します。現在の世代の GAN は、彼が実験したものよりも進んでいるかもしれませんが、この現象がまだ発生しているかどうかを調査する価値はあると彼は示唆しています。デビッドは、この分野では正しい質問をし、それを学ぶことが不可欠であると述べており、彼の仕事に興味のある人は誰でも彼に連絡することを勧めています.
MIT 6.S192 - Lecture 5: "Painting with the Neurons of a GAN" by David Bau
MIT 6.S192 - Lecture 5: "Painting with the Neurons of a GAN" by David Bau
  • 2021.01.27
  • www.youtube.com
https://people.csail.mit.edu/davidbau/home/More about the course: http://deepcreativity.csail.mit.edu/Information about accessibility can be found at https:/...
 

MIT 6.S192 - 講義 7:「機械の目で見た美術史の形」アーメド・エルジェマル



MIT 6.S192 - 講義 7:「機械の目で見た美術史の形」アーメド・エルジェマル

コンピューター サイエンスの教授であり、Art and Artificial Intelligence Lab の創設者である Ahmed Elgamal が、人間レベルのクリエイティブな製品を理解して生成するための AI の使用について説明します。 Elgamal は、美術史への科学的アプローチと、AI を進化させて人間と同じように芸術を理解することの重要性について説明します。彼はまた、機械学習を使用してアート スタイルを分類し、内部表現を分析し、アート スタイル間の違いを特定し、AI を介してアートの創造性を定量化することについても説明しています。 Elgamal はまた、美術史における主要なオブジェクトの概念を提案し、AI が芸術を生成する可能性を探り、創造的な追求における現在の AI アプローチの限界を認識しています。ただし、Elgamal は、AI ネットワークの境界を押し広げて抽象的で興味深いアートを作成するための進行中の実験についても説明しています。

Ahmed Elgammal は、アートワークをベースラインとして使用して、人間が GAN によって作成されたアートと人間のアートを区別できるかどうかを判断するチューニング テストの結果についても説明しています。人間は、GAN マシンによって作成されたアートは 75% の確率で人間によって作成されたと考えており、スタイルのあいまいさの概念と、コンピューター ビジョンと機械学習を美術史や芸術的関心と結び付ける上でのその重要性を強調しています。

  • 00:00:00 このセクションでは、ラトガース大学のコンピューター サイエンス学部の教授であり、Art and Artificial Intelligence Lab の創設者である Ahmed Elgammal 教授が、芸術への情熱と、AI と芸術を組み合わせる重要性をどのように認識したかについて説明します。 .彼は、芸術は物体認識以上のものであり、文脈の層、感情の理解、人間と同様の認知能力と知的能力を必要とする歴史的および社会的文脈を含むと説明しています。彼は、人間レベルの創造的な製品を理解して生成することが、AI アルゴリズムがインテリジェントであることを示すための基本であると信じており、美学と主観性を客観性と科学と組み合わせる問題について議論しています。 Elgammal 教授は美術史への科学的アプローチを提唱し、AI を進化させて人間と同じように芸術を理解することの重要性を強調しています。

  • 00:05:00 このセクションでは、Ahmed Elgemal が、創造的で主観的な要素であっても、芸術のあらゆる側面を機械の目を通して客観的に研究できるという考えについて説明します。彼の目標は、AI を通してアートを見ることの意味を理解し、それが AI と美術史の理解をどのように進歩させることができるかを理解することであると彼は説明します。 Elgemal は、時間の経過に伴うアート スタイルの変化の順序と進化をどのように特徴付け、どのような要因がこれらの変化に影響を与えるかなど、アートとスタイルのさまざまな要素と原則を定量化する作業について語っています。彼はまた、アートにおけるスタイルの概念を理解する上での現在の AI アプローチの限界についても説明しています。

  • 00:10:00 このセクションでは、スピーカーは教師あり機械学習の問題について説明し、ビジュアル エンコーディングを使用してさまざまなレベルの機能をキャプチャして、さまざまなアート スタイルを分類します。この種の研究の進歩は、豚の年から深層学習まで比較されます。このマシンは、1年生の美術史の学生と同じレベルで美術スタイルを分類できます。講演者は、スタイルの特徴とスタイルの変化を促進するものを理解するために、機械によるアートの分類が重要であると主張します。これらのスタイルのマシンの内部表現を解釈するのは困難ですが、マシンがスタイルを識別する方法と、美術史家がスタイルについて考える方法との関係を研究すると、有用な情報が得られます。たとえば、スタイルに関する Heinrich Wolfflin の理論は、さまざまなスタイルの要素を区別する視覚的スキーマを示唆しています。

  • 00:15:00 このセクションでは、Elgemal が機械学習を使用してアート スタイルを分類し、機械の分類の内部表現を分析する方法について説明します。彼らは、VGGNet や ResNet などのいくつかの CNN モデルをトレーニングして、教師付きの方法でスタイル分類を行いました。内部表現を分析することで、少数の要因が西洋美術史のほとんどのバリエーションを説明できることがわかりました。最初の 2 つのバリエーション モードは、使用するネットワークに関係なく、分散の最大 74% を説明します。彼らはまた、アート スタイルの分類に関しては、オブジェクトや構成が重要ではないことも発見しました。このアプローチは、機械が芸術を分類する方法を理解するデータ駆動型の方法を提供し、美術史の構造への洞察を提供します。

  • 00:20:00 このセクションでは、講師が、さまざまなアート スタイルのタイムラインについて機械が知らされていなくても、提供された画像を通じてこれらのスタイルを自分で分類する方法を学習する方法について説明します。これは、スタイルの進行と時間の間に 0.7 の相関関係があるため、マシンがアートを歴史的な順序に並べるという事実によって確認されます。講師は、美術史の 75% を説明するのに役立つ 2 つの要因を詳しく説明します。平面的か不況的か、直線的か絵画的かということです。彼は、西洋文明の過去 500 年間に美術史が 360 度のサイクルをたどったことを指摘しており、これは機械がアート スタイルを見て学習した表現から作成された 1 つの図に捉えられています。

  • 00:25:00 このセクションでは、スピーカーはアート スタイルの違いを判断する際の AI の使用について説明します。ルネッサンスやバロックなどの一部のスタイルは、色やテクスチャなどの特定の要因を使用して区別できますが、印象派などの他のスタイルはこれらの要因では識別できません。 AI ネットワークのアクティベーション マニホールドは、印象派とキュービズムや抽象化などの 20 世紀初頭のスタイルとの間の架け橋として機能したセザンヌの作品に特に重点を置いて、芸術運動が時間の経過とともにどのように変化したかを示しています。さらに、特定のルネッサンスの芸術作品は、ルネサンスの雲から引き離され、エル グレコやデューラーなどの特定の芸術家が現代美術に影響を与えています。その後、AI を使用してアートの創造性を数値化することについての議論に移ります。

  • 00:30:00 このセクションでは、Elgemal が、文脈と美術史を考慮して絵画の創造性を評価するアルゴリズムの開発について説明します。クリエイティビティを評価する能力は、アートを作成する機械にとって重要であり、アルゴリズムはクリエイティビティを定量化できる方法で定義する必要があると彼は主張します。 Elgemal は、製品がクリエイティブであると見なされるには、主に 2 つの条件があると示唆しています。それは、以前の作品と比較して斬新である必要があることと、何らかの価値があり、影響力を持つことを意味する必要があることです。クリエイティビティを説明するさまざまな方法を検討し、クリエイティビティを評価するアルゴリズムの限界を探り、美術史の文脈を考慮する必要があると主張しています。

  • 00:35:00 このセクションでは、Ahmed Elgamal が美術史におけるアルゴリズムの制限について説明しています。これには、利用可能なデータの「閉ざされた世界の制限」や、使用されるビジュアル エンコーディングの「芸術的概念の定量化の制限」と彼が呼ぶものも含まれます。彼は、アルゴリズムのパラメーターを使用して創造性スコアを解釈し、それらが結果にどのように影響するかを理解できることを示唆しています。 Elgamal は、視覚的な類似性を反映した重みを持つ絵画間の有向グラフを提案し、これを使用して、影響力と新規性に基づいた創造性の定式化を作成します。結果として得られる式は、ネットワークの中心性の問題のインスタンスであり、アルファが 1 に設定されたマルコフ連鎖のランダム ウォークとして解釈できます。

  • 00:40:00 このセクションでは、講師は固有ベクトルの中心性を使用して、ページ ランクの加重バリアントを逆にすることで、ソーシャル ネットワークのネットワークの中心性を測定する方法について説明します。これは、オリジナリティと影響力を分離するために拡張することもでき、アルゴリズムの精度は、管理されていないウィキアートやアーカイブなどのセットを使用して評価できます。講師は、テストの結果、ピカソの「アルジェの女性」などのさまざまな創造的な芸術作品をキュービズムの始まりとして機械が識別できることが示されたと説明しています。

  • 00:45:00 このセクションでは、アーメド エルジェマルが、モンドリアンの作品の年代測定の誤りが原因で発生した、アーカイブ マシンを使用した作品の創造性の評価について説明します。この方法では、ルネッサンスまたはバロック期のアートワークを後の時代に移し、現代のアートワークをルネサンス期に戻します。その結果、ルネッサンス期とバロック期のアートワークを前に進めると創造性が一貫して低下し、現代のアートワークをルネサンス期に戻すと創造性が高まることがわかりました。使用されたアルゴリズムは、創造性を定量化し、斬新さと影響力を捉えたスコアを与えることができ、アートワークの創造性を評価するアルゴリズムの能力を検証しました。

  • 00:50:00 このセクションでは、Ahmed Elgemal が、美術史における主要なオブジェクトの概念と、それらがどのように新しいスタイルを生み出すことができるかについて説明します。彼は素数オブジェクトを数学の素数と比較し、それらの予測不可能な性質とその後の作業に影響を与える能力との間の類似点を描きます。 Elgemal はまた、AI がアートを生成する可能性を探り、クリエイティブな敵対的ネットワークと、スタイルについて学び、規範から逸脱する能力について議論します。ただし、Elgemal は、GAN のジェネレーターは、創造性の動機なしに、識別器をだますサンプルを作成するように訓練されているため、制限があることを認識しています。

  • 00:55:00 このセクションでは、スピーカーはアーティストが習慣化に対抗するために常に革新しなければならない方法について説明しますが、革新しすぎると、人々がそれを楽しむのが難しくなります.彼らは、ネットワークを革新的にすることを目指していますが、境界を押し広げるために同じディストリビューション内に維持することを目指しています.話者は、ジェネレーターが作成するアートがスタイルに適合するかどうか、または分類の観点からあいまいであるかどうかを確認するために、ディスクリミネーターにスタイルのあいまいさの損失を追加したと説明しています。これにより、マシンはさまざまな境界を探索するのに役立ちます。彼らは実験を行い、スタイルのあいまいさを追加することで、機械は魅力的なものの分布にある新しい構成と色の組み合わせで興味深い抽象的なアートワークを生成したと結論付けました.

  • 01:00:00 このセクションでは、Ahmed Elgammal が調整テストの結果を調べて、人間が GAN によって作成されたアートと人間のアートを区別できるかどうかを判断します。有名な展覧会のアートワークがベースラインとして機能し、人間が GAN マシンによって作成されたアートは 75% の確率で人間によって作成されたと考えていることが発見されましたが、抽象アートの場合は 85%、アートからのアートの場合はわずか 48% でした。バーゼルコレクション。 Elgammal はまた、スタイルの曖昧さの概念と、特定のスタイルのないアートに属するアートの作成を可能にするその能力についても説明しています。彼は、コンピューター ビジョンと機械学習を美術史や芸術的関心と結びつけることの重要性を強調しています。
MIT 6.S192 - Lecture 7: "The Shape of Art History in the Eyes of the Machine " by Ahmed Elgemal
MIT 6.S192 - Lecture 7: "The Shape of Art History in the Eyes of the Machine " by Ahmed Elgemal
  • 2021.01.28
  • www.youtube.com
Abstract: In this talk, I will argue that teaching the machine how to look at art is not only essential for advancing artificial intelligence, but also has t...
 

MIT 6.S192 - 講義 8: 「機械学習が人間のクリエイターにどのように役立つか」レベッカ フィーブリンク著



MIT 6.S192 - 講義 8: 「機械学習が人間のクリエイターにどのように役立つか」レベッカ フィーブリンク著

音楽と AI の分野の研究者である Rebecca Fiebrink 氏は、創造的な目的で機械学習を使用および開発する際に、人間の相互作用と人間のループを維持することの重要性を強調しています。彼女は自分のツールである Wekinator について説明します。このツールは、人間の創造のためにリアルタイムの音楽で機械学習を使用できるようにします。彼女は、ドラム マシン、Blotar と呼ばれるサウンド合成アルゴリズム、blowtar と呼ばれる管楽器など、さまざまなジェスチャー制御の楽器を構築する方法を示しています。彼女は、クリエイターが複雑でニュアンスのあるサウンド パレットを探索し、センサーやリアルタイム データのデータ分析を容易にするために、機械学習がどのように役立つかを強調しています。彼女はまた、トレーニング データをインタラクティブに操作する利点についても説明し、創造的な作業プロセスに驚きと挑戦を加えるだけでなく、機械学習によってコンピューターとより自然な方法で通信できるようにする方法についても説明しています。

  • 00:00:00 ビデオのこのセクションでは、音楽と人工知能 (AI) の分野の研究者である Rebecca Fiebrink が、機械学習の開発と使用における人間の相互作用の重要性と、人間を最新の状態に保つことの重要性について説明しています。創造的な目的。彼女は、機械学習を使用して人間のようなクリエイティブなアウトプットを自律的に生成すること自体が、人間のクリエイターをサポートするという前提に疑問を投げかけています。 Fiebrink 氏の研究は、アートの実践やゲームなどの他の分野にも拡大しており、人間のクリエイターにとっての機械学習の理論的および実践的な有用性について考える必要性を強調しています。

  • 00:05:00 このセクションでは、スピーカーは、音楽やアートの分野でデータや機械学習を使用したいと考えているクリエイターが利用できるツールセットのギャップについて説明します。何人かが c プラス ライブラリまたは Python を使用していましたが、リアルタイムで使用したり、メディア データ、特にサウンド データを操作したりするための利用可能なツールはほとんどありませんでした。多くのクリエーターはすでにコンピューター サイエンスや電気工学の博士号を取得しており、データを操作したいクリエーター向けに、よりアクセスしやすいツールを提供する余地がありました。機械学習は、オンライン リポジトリや、Google 画像、バイオセンサー、ソーシャル メディア データなどのオンライン ソースなど、周囲のさまざまな種類のデータを理解したいクリエイターにとって優れたツールとなります。

  • 00:10:00 このセクションでは、Rebecca Fiebrink が、人間の作品のリアルタイム音楽で機械学習を使用できるようにする Wekinator と呼ばれるソフトウェアの構築における彼女の仕事について説明します。彼女は、ジェスチャーに反応する新しい機器を構築することは、既製のグラウンド トゥルース トレーニング セットを使用することとは異なることを強調しています。作業を簡単にするために、Wekinator では、ユーザーがリアルタイムでトレーニングの例を示してから、モデルをテストしてどこが間違っているかを確認できます。 Wekinator では、ユーザーがその場でトレーニング例を変更することもできます。彼女は次に、Web カメラを使用してモーションをキャプチャし、入力を 10 x 10 のカラー グリッドにダウンサンプリングする Wekinator ソフトウェアを使用して、非常にシンプルなジェスチャー制御のドラム マシンを構築する方法を示しました。

  • 00:15:00 このセクションでは、スピーカーは Wekinator と回帰を使用して、Blotar と呼ばれる音声合成アルゴリズムを制御する楽器を作成する方法を示します。このインストゥルメントを使用すると、ユーザーは、9 つのコントロール パラメータを変更して、多くの異なるプリセットを含む大きな空間のサウンドをコントロールできます。講演者は、複雑でニュアンスのあるサウンド パレットを探索できるようにすることで、機械学習がプロの作曲家にどのように役立つかを示します。

  • 00:20:00 このセクションでは、Rebecca Fiebrink が機械学習を使用して、ゲーム コントローラーを使用してブローターと呼ばれる管楽器を制御する方法を示します。彼女は、機器の 9 次元空間で適切な位置を手動で見つけることは、専門のプログラマーにとって難しいことであると説明していますが、機械学習を使用すると、複雑な関数を簡単に記述できます。彼女は、システムをトレーニングすることで、望ましい結果が得られるまで楽器を改良し、保存して演奏中や作曲作業に使用する方法を示しています。このツールの研究者である Fiebrink は、クリエイターが作品を改善するために機械学習を使用してきたさまざまな方法と、それが何を教えてくれるかについて説明しています。

  • 00:25:00 このセクションでは、スピーカーは機械学習がどのようにクリエイターに利益をもたらし、より多くの人々がデータを効果的に操作できるようにするかについて説明します。特にセンサーとリアルタイム データ分析を使用して、Wekinator を使用した Anne Hege の構成や Michelle Nagai の構成などの例を使用します。楽器。また、アート、人形劇、障害者向けの技術、インタラクティブなプロトタイプの設計などの分野で Wekinator を使用することで、機械学習がどのようにインタラクションを創造的かつ簡単に構築できるかについても強調しています。著者は、機械学習を通じて創造的に相互作用を構築するには、信頼できる出力を生成するモデルを構築するという目標のために、通常、従来の機械学習とは異なるアプローチが必要であり、目的を満たさない場合にモデルがどのように動作するかが課題になると説明しています。

  • 00:30:00 このセクションでは、Fiebrink が、正確な予測を行うことを目的とした機械学習モデルの構築と、何か便利なものや楽しいものを構築することを目的としたインタラクティブな機械学習モデルの構築の違いを探ります。インタラクティブな機械学習モデルを構築する場合、データは作成者とコンピューター間の通信のインターフェイスと見なされます。つまり、データは主観的に選択され、一般的な仮定である独立した同一分布 (iid) である可能性は低いことを意味します。機械学習で。これにより、戦略的に配置された非常に少数の例から学ぶことができます。 Fiebrink は、k 最近隣法のような単純なアルゴリズムを対話的に使用すると、少量のデータで適切な決定境界を生成できることを示し、実践的な実験とデータ キュレーションを可能にします。

  • 00:35:00 このセクションでは、Rebecca Fiebrink が、クリエイティブな領域でトレーニング データをインタラクティブに操作する利点について説明します。彼女は、設計要件を満たすものを作成するためには、人々が多くの代替案を検討できるようにすることが不可欠であると説明しています。 Fiebrink は、Wekinator などの機械学習アルゴリズムを使用すると、モデルを非常に迅速に再トレーニングして結果をすぐに確認できるため、ラピッド プロトタイピングを非常に効果的にサポートできることを発見しました。彼女はまた、絵を描いたり楽器を演奏したりする分野では、熟練したプログラマーであっても、人間の慣行や行動をコードに取り込むのは難しいと述べています。

  • 00:40:00 このセクションでは、Rebecca Fiebrink が、機械学習を使用することで、より自然な方法でコンピューターと通信できるようにする方法について説明しています。お互いの創作活動。機械学習はまた、ビッグデータセットを活用して標準に準拠することで、初心者でも簡単に作成できるようにします。しかし、Sound Control と呼ばれる Fiebrink の最近のプロジェクトは、より多くの人々がインターフェイスをパーソナライズし、機械学習を使用して自分自身や他の人のために物を作ることができるようにする可能性を示しています。音楽教師やセラピストと協力して、Sound Control は子供向けのオーダーメイドの楽器を作ることを可能にしますが、リスニング ゲーム、即興ゲーム、パフォーマンス活動など、他の予想外で役立つことも彼らにもたらしました。

  • 00:45:00 このセクションでは、Rebecca Fiebrink が、創造的な作業プロセスにおいて機械学習が生産的な驚きと課題をどのように提供できるかについて説明します。 Wekinator のようなツールを使用して、彼女は作業プロセスに予期しないアイデアを追加する創造的なツールを持つことの重要性を強調しています。したがって、彼女は、他のタイプの機械学習や、機械学習以外のデータ操作方法を見落とさないように警告しています。彼女は、データと機械学習を使用して構築することで、人々が以前はできなかったことができるようになることを示唆し、創造的なアプリケーションがケーススタディとしてどのように役立つかを探り、データと機械学習を使用した人々の他の経験をより力強くする.

  • 00:50:00 このセクションでは、音声で機械学習を使用する際の課題について、スピーカーが聴衆からの質問に答えます。話者は、文化的主観性の観点からサウンドがいくつかの固有の課題を提示していることを認めていますが、全体として、典型的な機械学習プロセスを使用してサウンドにアプローチし、他のメディアと同様の結果を得ることができます。講演者は、データと、それを問題領域に対処するためにどのように使用するかが、媒体自体よりも重要であることを強調しています。講演者はまた、機械学習をものを作成するためのインターフェイスとして使用する方法と、人間と機械の連携について議論することの重要性と、誰が目的を定義する必要があるかについても説明します。

  • 00:55:00 このセクションでは、スピーカーは、機械学習の目的を定義することの難しさと、作成者がデータセットを作成し、何かを試してから、データを使用してモデルを操作するという実験プロセスがどの程度のものであるかについて説明しますある方向に向かって。プロセスの経験的な側面により、作成者は試行錯誤を通じて特定のコンテキストで機械学習について学ぶことができます。この側面は、人々が機械学習について学ぶための強力なツールになる可能性があります。 Carrie Cai 氏らによる最近の研究では、機械学習の専門知識がなくても、同様の実験的な探索的手順を使用することで、人々が信頼を築き、モデル化されているものを理解するのに役立つことが示されています。
MIT 6.S192 - Lecture 8: "How Machine Learning Can Benefit Human Creators" by Rebecca Fiebrink
MIT 6.S192 - Lecture 8: "How Machine Learning Can Benefit Human Creators" by Rebecca Fiebrink
  • 2021.01.28
  • www.youtube.com
Speaker title: Dr. Rebecca Fiebrink, Reader at the Creative Computing Institute, University of the Arts Londonhttps://www.doc.gold.ac.uk/~mas01rf/homepage/Mo...