機械学習とニューラルネットワーク - ページ 22

 

遺伝子発現予測 - 講義 09 - 生命科学における深層学習 (2021 年春)



遺伝子発現予測 - 講義 09 - 生命科学における深層学習 (2021 年春)

このビデオでは、遺伝子発現予測におけるディープ ラーニングの使用と、高次元性やノイズなどの生物学的データ セットの分析に伴う課題について説明しています。講義では、クラスター分析、行列の低ランク近似、圧縮センシングなどの方法論について説明します。スピーカーはまた、遺伝子発現予測とクロマチンのための深層学習の使用、およびエンハンサー活性部位を予測するための弱教師あり学習についても話します。この講義では、danq、djgx、factory mat、sc fin など、主に深層学習手法を使用して開発されたいくつかのツールについて説明します。プレゼンターは、ゲノミクス データ セットを研究するための生成モデルの使用についても説明し、近似推論方法論、特に変分推論と呼ばれる一般的な方法論を紹介します。

講演の第 2 部では、講演者は生命科学、特に遺伝子発現予測とゲノム解釈における深層学習の応用について説明します。最初のトピックでは、バリエーション オートエンコーダー モデルを喘息データセットの RNA 発現解析に適用することに焦点を当てています。講演者は、条件付き生成モデルを使用して実験的アーティファクトを削除するためのフレームワークを提案します。 2 番目のトピックでは、ゲノム解釈、特にスプライシングのための配列から機能へのモデルを特定するための深層学習ネットワークへのイルミナの投資について説明します。同社は、ヌクレオチドがスプライスのドナー、アクセプター、またはどちらでもないかを予測するディープ畳み込みニューラル ネットワークである SpliceAI を開発しました。 3 番目のトピックは、特定の変異が潜在的なスプライス機能を持ち、フレーム シフトや病気につながるかどうかを予測するというスピーカーの研究についてです。講演者はまた、研究職、インターンシップ、およびポスドクについての質問と応募を求めています。

  • 00:00:00 講義のこのセクションでは、講演者は遺伝子発現解析と、RNA 発現を測定するために使用される 2 つの方法、ハイブリダイゼーションとゲノム配列決定について紹介します。後者は、過去 20 年間でゲノム配列決定のコストが大幅に低下したため、より一般的になりました。結果は、何百もの条件でどの遺伝子がどのレベルで発現しているかを示すマトリックスです。このマトリックスは垂直または水平に見ることができ、対象の実験条件全体でゲノム内のすべての遺伝子、または選別された特定の細胞タイプに対して 20,000 の長いベクターを提供します。

  • 00:05:00 このセクションでは、講師がディープラーニングを遺伝子発現予測に使用する方法について説明します。基本的な入力マトリックスには、さまざまな条件、組織、細胞型、実験、年齢、および性別にわたる特定の遺伝子の発現ベクターの類似性など、複数の次元にわたって比較を行うためにすべての細胞をプロファイリングすることが含まれます。クラスター分析を使用して、列または行全体で互いに類似した条件または類似した遺伝子を見つけることができます。関連アプローチによる罪悪感は、発現の類似性に基づいて、注釈のない遺伝子の注釈を完了するためにも使用できます。さらに、講師は、自己教師あり学習、非線形性と高次の特徴を使用した予測、マルチタスク学習などの深層学習アプローチを使用して、関心のあるさまざまなクラスを共同で予測することを提案し、最後に、講師は深層学習が重要であることを強調します。唯一のアプローチではなく、生物学的な質問をしたり、これらのシステムの表現を学習したりするために使用できる一連のツールが存在します。

  • 00:10:00 このセクションでは、講師が遺伝子発現パターンの分析に使用できる次元削減手法について説明します。そのような手法の 1 つが主成分分析 (PCA) であり、遺伝的圧力パターンの変動の主要な次元を特定するために使用できます。行列の低ランク近似を使用して、データの最適な低ランク近似を効果的に取得することもできます。 t-SNE や自動エンコーダーなどの他の手法も適用できます。さらに、講師は、遺伝子発現の線形結合を捕捉するプローブの組み合わせを使用して、複合測定を構築するための圧縮センシングの使用について言及しています。最後に、講師はクロマチン情報を使用して遺伝子発現レベルを予測する可能性について説明します。これについては、最初のゲストレクチャーで説明します。

  • 00:15:00 このセクションでは、講演者はディープラーニングを使用してさまざまな特徴から遺伝子発現とクロマチンを予測し、トランスフォーマー モデルとリカレント ニューラル ネットワークについて以前に説明したのと同様に、注意メカニズムを使用してそれらを体系的に組み合わせることについて説明します。レポーター コンストラクトとハイスループット テストの使用について説明し、機械学習またはディープ ラーニング アプローチを使用して特定のフラグメントが発現を促進するかどうかを予測する機能について説明します。講演者はまた、ニューラル ネットワークと配列内の特定の機能を使用して配列からスプライシングを直接予測するという概念を紹介し、彼のチームがディープ ラーニングを使用して、毎週の教師ありフレームワークを使用してヒトゲノムのエンハンサーを予測するために行った作業を強調します。

  • 00:20:00 ビデオのこのセクションでは、スピーカーは、レポーター実験と一連のクロマチン機能を使用した遺伝子発現予測の方法について説明しています。ゲノム内の数千の場所にまたがるさまざまなマークで構成される入力マトリックスは、遺伝子ごとに構築され、近くのクロマチンの特徴がスターシークの結果に対してテストされ、発現が予測されます。出力レベルはバイナリ分類子であり、モデルの中間表現を使用してゲノム シーケンス内の特定の位置を予測します。このより高い解像度により、データ分析をより効率的に使用できます。これは、連続した信号の特定の曲線をより高度な表現に適合させることによって達成されます。

  • 00:25:00 このセクションでは、スピーカーは、物体検出と同様の方法を使用してエンハンサー アクティビティ サイトを予測するための弱教師あり学習のアイデアについて説明します。元の画像を畳み込みフィルターに渡すことで、ヒート マップの作成に使用されるアクティベーション マップが生成されます。モデルはエンハンサーの存在の大まかな注釈のみを必要とし、ヒート マップの同じ方法を使用して正確な位置を予測しました。クロスセルラインおよびクロス染色体検証の結果は、モデルが starseek エンハンサーを正確に予測できることを示しています。予測を行いながら無関係な領域を削ぎ落とすことによって得られた洗練されたセットは、転写開始部位の割合が高く、100 の異なる種でより保存されています。講演者は、モデルを以前の最先端のモデルでベンチマークし、神経前駆細胞のケーススタディを実行して、神経特異的なエンハンサーを発見しました。

  • 00:30:00 YouTube ビデオ「遺伝子発現予測」のこのセクションでは、講演者は、生物学的データ セットを解釈する際の課題と、高次元性やノイズなどの複数の要因を考慮に入れた方法論を開発することの重要性について説明します。彼の研究室での講演者の研究は、単一細胞ゲノミクスを含むさまざまな種類のゲノム技術を組み合わせて、ゲノミクスを研究する方法を開発することに焦点を当てています。講演者はまた、ディープ ラーニングを遺伝子発現解析に適用し、それを使用してノイズの多いデータ セットからシグナルを抽出することに関心があることについても説明します。

  • 00:35:00 このセクションでは、スピーカーは、根底にある生物学の検査を可能にするマルチモダリティ データセットを組み合わせた方法論の開発について説明します。彼らは、視覚信号と自然言語処理を組み合わせてシステムをよりよく理解する機械学習の分野における最近の提案を強調しています。次にスピーカーは、DNA 配列の機能を定量化する danq や遺伝子発現を予測する djgx など、主に深層学習手法を使用してラボが開発したツールをいくつか挙げます。講演者はまた、転写因子結合を予測する他の 2 つのツール、factory mat と sc fin についても簡単に説明します。sc fin は、単一細胞予測用の factory mat の拡張です。

  • 00:40:00 ビデオのこのセクションでは、プレゼンターがライフ サイエンスにおけるディープ ラーニング モデルの使用に関連するいくつかの方法論について説明します。具体的には、RNA 構造の二次構造予測のための UFO 方法論、深層ニューラル ネットワークを利用して発現を予測する DGX モデル、深層生成モデルを利用して単一細胞の運動失調データセットを研究するための SAILOR 方法論について、不変表現のアイデアに焦点を当てながら議論します。学ぶ。ディスカッションでは、ゲノミクスと RNA 発現データを研究するための VAE モデルの使用、タクシー分析のための深い生成モデルの拡張、共有表現を学習するためのモデルとマルチモダリティ データセットの組み合わせについても説明します。発表者は、開発されたすべてのツールがオープン ソースであり、Github で利用できることを指摘しています。

  • 00:45:00 このセクションでは、講師が遺伝子のサブセットを使用した遺伝子発現予測の方法について説明します。 Luminex テクノロジー プラットフォームを使用して少数の遺伝子 (1,000) をプロファイリングすることにより、研究者は何百万ものサンプルからプロファイルを生成でき、生物学的プロセスと創薬を理解するための費用対効果の高い方法につながります。残りの 20,000 個の遺伝子は、ディープ ニューラル ネットワークなどの計算技術を使用して推測できます。 978 次元のベクトルを多層知覚フィードフォワード ニューラル ネットワークに入力することで、研究者はマルチタスク方式で 20,000 のターゲットを共同で予測し、バックプロパゲーションを通じてモデルをトレーニングし、線形回帰よりも優れた精度を達成できます。遺伝子のコレクション全体を含む発現プロファイルを含む geo データ セットを使用して、モデルをトレーニングします。

  • 00:50:00 講義のこのセクションでは、講師がゲノミクス データ セットを研究するための生成モデルの使用について説明します。ほとんどのゲノミクス データ セットにはラベルがないため、多くの場合、教師なし学習の方が適切です。目標は、高次元のデータ セットを低次元の埋め込みにマッピングすることです。これは、基になるパターンを特定するのにより役立ちます。この目的のための従来の方法はオートエンコーダーであり、入力を出力に一致させることでトレーニングできますが、オーバーフィッティングの影響を受けやすく、サンプルを生成できないなどの問題があります。解決策として、インストラクターは、潜在変数を持つ確率論的フレームワークを通じてデータをモデル化する深い生成モデルを提案します。潜在変数の分布に事前分布を割り当てることにより、モデルはそれらを周辺化して、入力の周辺分布を取得できます。

  • 00:55:00 このセクションでは、教授は一般的なフレームワークに基づく学習データの問題について説明し、近似推論方法論、特に変分推論と呼ばれる人気のある方法論を紹介します。バツ。次に、補助分布を使用した対数尤度限界の下限は、データと分布間の ko 距離とのバランスによって最小化されます。これにより、観測可能なデータ セットをモデル化するのに十分な検出力を持ちながら、事後分布が事前分布に十分近くなることが保証されます。 .これは、負の対数尤度の変動を最小限に抑えるようにトレーニングすることにより、与えられた z とニューラル ネットワークを介した補助分布の両方をモデル化できる変分オートエンコーダーの開発につながりました。ただし、これらの期待値の計算には問題があり、特にガウス積を適用する場合は、再パラメータ化のトリックを使用して対処できます。

  • 01:00:00 このセクションでは、スピーカーは変動オートエンコーダー モデルの RNA 発現解析への適用、特に喘息データセットについて説明します。 RNA-seq データセットの離散的で定量的な性質により、研究者はゼロ膨張負の二項分布を使用して読み取りカウントをモデル化します。これは、このモデルと組み合わせたオートエンコーダーを使用して、深い生成モデルを作成するというアイデアにつながります。ただし、学習された潜在的な表現は、バッチ効果や読み取りカバレッジなどの実験的なアーティファクトを反映している可能性があります。これらの影響を取り除くために、話者は、学習した表現とその根底にある交絡因子との間の相互情報を最小限に抑える条件付き生成モデルを使用するフレームワークを提案します。

  • 01:05:00 このセクションでは、イルミナの AI ラボの主任研究員が、ヒトゲノムのすべてのバリアントを理解し、ゲノム配列決定を誰にとっても役立つものにするという同社の目標について語ります。焦点は、ほとんどの臨床シーケンシングが現在スキップしている非コード遺伝的変異の解釈にあります。これが、イルミナが深層学習ネットワークに多額の投資を行って、ゲノム解釈、特にスプライシングのための配列から機能へのモデルを特定する理由です。 SpliceAI は、ヌクレオチドがスプライス ドナーかアクセプターか、またはどちらでもないかを純粋にシーケンスから予測し、一連のシーケンスから遺伝子のイントロン - エクソン パターンを再構築できるディープ畳み込みニューラル ネットワークです。

  • 01:10:00 このセクションでは、プレゼンターは、エクソン スプライス ジャンクションを予測することの難しさと、彼らのディープ ラーニング ネットワークが、ヌクレオチド レベルの精度で大きな CFTR 遺伝子の 30 個のエクソンすべてを予測できた方法について説明します。彼らは、長距離配列決定基がスプライス調節の鍵であることを発見し、ネットワークは、ヌクレオソームの配置やエクソンのクラスター化など、配列データからこれらの決定基を自動的に導き出すことができました。このネットワークは、分岐点、ポリパー ムーン トラクト、ag、および gt、イントロンおよびエクソン スプライス エンハンサーなどのさまざまな機能を使用し、長距離コンテキストでローカル モチーフの冗長性を補償しました。プレゼンターはまた、ネットワークの精度がより大きなコンテキストサイズでどのように向上するか、および非タンパク質コード配列でも機能することを示しました.

  • 01:15:00 ビデオのこのセクションでは、スプライシング AI を希少疾患患者、具体的にはエクソンを延長してタンパク質をフレーム シフトした単一ヌクレオチド変異によって引き起こされた早期発症の心不全患者に適用する方法について説明しています。モデルは GTEx の RNA-seq でも検証され、検証率はスプライス AI スコアに依存していました。スピーカーは、正常なスプライシングを維持する可能性があるため、低スコアのスプライスバリアントを解釈することの複雑さを強調し、対処する必要がある人間のバリエーションの段階的な解釈があります.潜在的なスプライス機能を持つバリアントに対する自然選択の影響も調べられ、自然選択は、スパイシー i によって予測される潜在的なスプライス変異がフレームシフトまたはナンセンスタンパク質コード変異と本質的に同等であることを示していることがわかりました。最後に、このモデルは、自閉症スペクトラム障害と知的障害を持つ患者の大規模な臨床データ セットに適用されました。

  • 01:20:00 講義のこのセクションでは、スピーカーは、特定の突然変異が潜在的なスプライス機能を持つかどうかを予測する研究について話します。彼らは RNA シーケンスを使用して、予想される異常なスプライス ジャンクションを確認し、これらのバリアントがどのようにして間違った場所でスプライシングを引き起こし、フレーム シフトや疾患につながるかの例を示しました。講演者はツールをオープン ソース化し、質問を募集したり、研究職、インターンシップ、ポスドクの応募を募ったりします。講演は、講演者への感謝と、最終的なプロジェクトにご期待くださいというリマインダーで終了します。
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.20
  • www.youtube.com
6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://youtube...
 

単一細胞ゲノミクス - 講義 10



単一細胞ゲノミクス - 講義 10 - 生命科学におけるディープラーニング (2021 年春)

単一細胞ゲノミクスに関するこの講義では、スピーカーは、セルソーティングやマイクロフルイディクスなど、個々の細胞のプロファイリングに使用されるさまざまな方法と技術について説明します。 Smart-seq、drop-seq、およびプールされたアプローチの 3 つの特定の単一細胞シーケンシング技術に焦点を当てています。講演者は、前処理、可視化、クラスタリング、注釈などの単一細胞トランスクリプトームの分析プロセス、およびコミュニティ クラスタリングにおけるオートエンコーダー アーキテクチャの使用についても説明します。深層学習法は、ドメインの適応と刺激された方法で細胞型を再構築するために適用されます。講義では、単一細胞ゲノミクス データの分析に伴う課題についても説明し、生成モデルを使用してこれらの問題にスケーラブルかつ一貫した方法で対処することを提案します。

ビデオの 2 番目の部分では、単一細胞ゲノミクスとディープ ラーニングに関連するさまざまなトピックを取り上げます。議論されるトピックには、変分推論、単一細胞 RNA 配列決定データの生成プロセス、細胞型データセットを混合するための SCVI モデル、ラベルを伝播するための CanVAE、および CVI ツールと呼ばれる単一のコード ベースでのさまざまな深層学習アルゴリズムの実装が含まれます。講演者はまた、事後確率を使用して遺伝子発現の測定値を計算する際の課題に取り組み、事後期待値を正確に計算して完全な発見率を制御する方法を提示します。

  • 00:00:00 「Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)」のトランスクリプトのこのセクションでは、スピーカーはなぜ単一細胞プロファイリングが必要なのかを説明しています。体内の個々の細胞は互いに非常に異なっており、環境刺激、相互作用、細胞周期段階、および転写バーストのために変化する可能性があります.単一細胞プロファイリングは、細胞タイプ、シグナル伝達、および遺伝子型の個人差も捉えますが、これらはバルク データでは捉えられないことがよくあります。講演者は、単一細胞データ解析における現在の爆発に先行するいくつかの技術について概説しますが、個々の RNA を増幅して転写の多様性を捉える基本的な技術を強調します。

  • 00:05:00 このセクションでは、スピーカーは、細胞選別、マイクロフルイディクス、ピペッティングなど、個々の細胞のプロファイリングに使用されるさまざまな技術と方法について説明します。研究者は、異なる時点での個々の細胞と細胞全体の遺伝子を観察することで、個々の遺伝子がどのようにオンとオフを切り替えているか、特定の時点内でも不均一性がどのように存在するかを確認できます。単一細胞分析は、技術的ゼロ値と生物学的ゼロ値を区別するのに課題をもたらしますが、これらの技術によって得られたデータは、生物学で見られるものを再現することができます.また、細胞ベースのテクノロジーを使用するスマートシーク、液滴を使用するドロップシークと 10x、および個々の細胞を分離せずにバーコード化する方法であるスプリットシークについても説明します。

  • 00:10:00 このセクションでは、マイクロフルイディクスや採血など、単一細胞ゲノミクスで使用されるさまざまな方法について説明し、プロセスで使用される基本的なパイプラインについて説明します。 Smart-seq、drop-seq、およびプールされたアプローチの 3 つの特定のテクノロジーに焦点が当てられています。スマート seq はセルソーティングを使用し、細胞あたり最大 10,000 の遺伝子をキャプチャしますが、ウェルごとに個別のシーケンス反応が必要なため、費用がかかります。ドロップ seq は、ウェルを液滴に置き換え、個々の細胞をビーズ内のバーコードでキャプチャするため、費用対効果が高くなります。最後に、プールされたアプローチでは、対応する細胞のアイデンティティでラベル付けされた単一のチューブですべての個々の RNA 分子を捕捉します。

  • 00:15:00 このセクションでは、スピーカーは 3 つの異なるタイプの単一細胞 RNA シーケンス技術について説明します。 1 つ目はウェル シーケンシングで、各単一細胞がウェルまたは液滴に分類され、各ウェルは固有のバーコードでラベル付けされて細胞を互いに区別します。 2 つ目は 10X Genomics で、異なる細胞からのすべての標識 RNA を 1 回のシーケンス反応に組み合わせます。 3 つ目の技術は Split-Seq で、反復ごとに異なるバーコードが追加された異なるウェル間で細胞がシャッフルされ、各細胞の RNA に固有のバーコードの組み合わせが生成されます。これにより、すべての RNA 分子に 100 万の一意のアドレスが割り当てられ、どの細胞から来たかが示されます。

  • 00:20:00 このセクションでは、講師が、ウェル内の細胞、液滴、コンビナトリアル インデックスなど、単一細胞シーケンス技術について説明します。単一細胞 DNA メチル化プロファイリング、単一細胞ゲノム配列決定、単一細胞 DNA アクセシビリティなど、さまざまなタイプのアッセイを使用できます。もう 1 つの広く使用されているアッセイは、個々の細胞のクロマチンへのアクセス可能性を調べる単一細胞 ATAC-seq です。ただし、個々の細胞からのデータはまばらである可能性があり、転写因子について話すには、複数の場所にまたがってデータを集約する必要があります。講師は、単一細胞マルチオミクス法の出現が増加していることにも言及していますが、ノイズやアーティファクトを処理する際の計算上の課題について警告しています。このセクションの最後に、ヨーロッパと西海岸からそれぞれ 2 人のゲスト講演を紹介し、単一細胞ゲノミクスにおけるディープ リプレゼンテーション ラーニングについて説明します。

  • 00:25:00 単一細胞ゲノミクスに関する講義のこのセクションでは、スピーカーは単一細胞トランスクリプトームを分析するプロセスについて説明しました。これには、前処理、視覚化、クラスタリング、および注釈のさまざまなステップが含まれます。情報は個々のセルではなく、セル アンサンブルでのみ利用できるため、このプロセスは教師なしです。講演者の研究室は、これらの手順を実行するためのツールとモジュールのライブラリを提供する Python での成功したスキャンピー単一細胞分析を含む、このプロセスを支援するツールとフレームワークを提供しました。視覚化と下流の分析には、潜在空間学習が含まれます。最も一般的に使用される方法は、akn グラフです。講演者の研究室は、細胞分化プロセスを理解するために、単一細胞トランスクリプトームの時系列情報の研究にも投資しています。

  • 00:30:00 このセクションでは、講演者は、ディープ ニューラル ネットワークを使用したコミュニティ クラスタリングにおけるオートエンコーダ アーキテクチャの使用について説明します。このアプローチは、データセットのサイズの増加と遺伝子時間セル マトリックスのノイズに対処するために使用されます。オートエンコーダー アーキテクチャのボトルネック層は重要であることがわかり、生物学的プロセスについて学習できます。スピーカーのチームは、この情報を活用して、平均二乗誤差を負の二項分布に置き換えることでノイズ関数に適応するディープ カウント オートエンコーダーを開発しました。 PBMC データセットに対するこのアプローチの 2 次元プロットは、ボトルネック層が事前知識なしで細胞型グループを認識することを示しており、これは生物学的知識の活用に役立つ可能性があります。このニューラル ネットワーク手法のスケーリング動作も、Kn アルゴリズムと比較して大きな利点として識別されます。

  • 00:35:00 このセクションでは、講演者は次世代の畳み込みフィルターを開発するためのゲノミクスと単一細胞データのディープラーニングの可能性について説明します。彼は、細胞内の摂動や薬物刺激など、特定の設定を新しい設定に移すことを目的としたドメイン適応に焦点を当てたプロジェクトについて言及しています。彼らはこのプロジェクトを「scgen」と呼んでおり、細胞の摂動効果をモデル化し、新しい細胞タイプがどのように振る舞うかを予測しようとしています。すべてのデータセットをエンコードすることで、計算とサンプル外予測を実行できる線形化された潜在空間を実現したいと考えています。彼らはまた、より複雑な分解のためにこのモデルを拡張しています。

  • 00:40:00 このセクションでは、スピーカーは、単一細胞ゲノミクスでディープラーニングを使用して細胞型を再構築する機能について説明します。目標は、CD4 陽性 T 細胞などの細胞タイプを刺激された方法で再構築することです。予測は、平均だけでなく、分散の分布にも基づいています。この再構築は、CD4 陽性 T 細胞だけでなく、すべての異なる細胞タイプに対しても行われ、細胞特異的な応答が学習されるため、ゲノミクスの強力なツールになります。スピーカーは、潜在空間学習で拡張された単純な生成モデルである SCGen についても話します。大きなサンプルに関するすべての情報をモデルに詰め込むことにより、スタイルの転送を行うために使用できます。最後に、スピーカーは、分散データを処理し、これらのマップにアクセスしやすくするために不可欠な転移学習について説明します。

  • 00:45:00 このセクションでは、スピーカーは、組織内の細胞の異なる機能を理解することを目的とした、単一細胞データへのベイジアンモデリングと変分オートエンコーダー (VAE) の適用について説明します。このプロセスでは、組織を単一の細胞に分離し、単一の RNA シーケンス パイプラインを実行して、転写産物が各細胞の遺伝子と一致する回数を示すマトリックスを作成します。講演者は、大学院生および修士課程の学生および教授との共同研究の重要性を強調し、VAE を単一細胞データに適用することの重要性から、VAE の拡張および故障モードの議論まで、プレゼンテーション全体でカバーするいくつかのトピックを提示します。 .

  • 00:50:00 このセクションでは、スピーカーは、細胞および遺伝子レベルのクエリの分析を含む、単一細胞ゲノミクスに関連するさまざまなタスクと課題について説明します。タスクの一部には、細胞の層別化、軌跡分析、データセットの調和、注釈の転送、正規化、および差次的発現テストが含まれます。分析は、可変シーケンス深度やバッチ効果などの技術的なノイズ、およびデータの高次元で非ガウス的な性質のために複雑になる可能性があります。これらの問題に対処するために、講演者は、潜在変数モデルとスケーラブルな方法を使用して、関連する何百万ものサンプルを分析することを提案しています。

  • 00:55:00 このセクションでは、講演者は、単一細胞のゲノム データにアルゴリズムを適用する際の制限と、プロセス全体の統一的なモデリングの仮定の必要性について説明します。彼らは、スケーラブルで一貫した方法で単一細胞データを分析するために使用できる、ベイジアンモデリング手法に基づいて構築された生成モデルのアイデアを提示しています。講演者は、グラフィカル モデルを読み取る方法と、さまざまなノードとエッジを使用して、独立した複製や条件などの確率的プロパティをエンコードする方法について説明します。目標は事後分布を計算することであり、これはベイズの規則を使用して達成できますが、確率的 PCA を使用する場合を除いて、限界尤度はしばしば扱いにくいものです。

  • 01:00:00 このセクションでは、スピーカーは、観測の事後確率分布を近似するために scVI で使用される変分推論の概念について説明します。この方法では、分布のファミリを配置し、事後への K 発散を最小化する点 q を見つけます。これは本質的に最適化問題です。条件付き密度の定義を使用すると、最適化問題が扱いやすくなり、変分推論が魅力的な方法になります。スピーカーはまた、ガウス分布の平均と分散を指定するためにニューラル ネットワークを使用できる、確率的 PCA の拡張を提示します。ただし、VAE で変分推論を使用するには、証拠を最大化してモデル パラメーターを学習する必要があります。これは、2 つのニューラル ネットワークを使用して変分事後変数のすべてのパラメーターを結び付けることで達成できます。最後に、講演者は scVI について説明します。scVI は、技術的効果をグラフィカル モデルに組み込み、特定の細胞および遺伝子の遺伝子発現数を生成します。

  • 01:05:00 このセクションでは、講演者は、条件付き変分オートエンコーダー (CVA) を使用した単一細胞 RNA シーケンス データの生成プロセスについて詳しく説明し、このモデルを層別化、調和化、正規化、代入、および微分発現。講演者は、このアプローチがバッチ効果を処理し、スケーラビリティを向上させる方法を強調しています。スピーカーはまた、モデルが埋め込みの階層クラスターと発達勾配を回復できること、およびバッチ効果が深刻で多くのバッチがある場合にバッチ効果を処理できることを示すことにより、モデルの有用性を示しています。

  • 01:10:00 このセクションでは、プレゼンターは、細胞タイプを区別しながら、細胞タイプのデータセットを混合するという課題について説明します。彼らは、細胞型を見る能力を失うことなくデータセットを混合できる SCVI モデルを提示します。プレゼンターは、発現差解析のための Rao 潜在変数の刺激的な使用についても話します。チームは、遺伝子のランキングをSCVIおよびマイクロアレイ技術の他の方法と比較し、SCVIが同等またはわずかに優れていることを発見しました.最後に、プレゼンターは SCVI++ モデルを紹介します。これは、注釈の目的で使用される SCVI の拡張であり、あるデータセットから別のデータセットへのラベルの転送を可能にします。 SCVI++ モデルは混合モデルに基づいており、z の事前確率を変更し、セル タイプの割り当てにニューラル ネットを使用します。

  • 01:15:00 このセクションでは、スピーカーは、T 細胞のサブセットが存在するが、低発現のいくつかのマーカー遺伝子に基づいてそれらのサブ細胞タイプを特定できないユースケースでの CanVAE と呼ばれるフレームワークの使用について説明します. CanVAE を使用してラベルを伝播することにより、すべてのセルに関する知識を利用するため、単なるクラスタリングや分類よりもうまく機能する半教師付き学習方法になります。さらに、話者は、潜在空間から連続情報または共変量を因数分解するという問題を提示します。これは、変分分布のパラメーター化に使用されるニューラル ネットワークでは処理が困難です。彼らは、HC 制約 VAES を導入します。これは、集約された事後分布で独立ステートメントを強制する方法であり、より適切なプロパティを持つより緩やかな下限が得られます。最後に、発現差と、CanVAE フレームワークを使用して発現差を決定するためのしきい値として尤度比を使用できるベイジアン モデル選択問題としてそれをどのように考えることができるかについて説明します。

  • 01:20:00 このセクションでは、スピーカーは事後確率を使用して遺伝子発現の尺度を計算することに関連する課題と制限について説明します。事後確率が正しくない場合、アプローチに偏りが生じる可能性があり、多くの人は、基本因子よりも誤検出率の尺度を制御することを好みます。この問題を解決するために、スピーカーは、変分分布からのサンプルを使用して事後期待値を正確に計算する方法を提案します。それらは、分散を過大評価するさまざまな上限を導入します。これは、分散を過小評価するよりも重要なサンプリングに役立ちます。さらに、講演者は、複数の提案を組み合わせて、CVI で完全な発見率を制御する手順を提示します。この作業に関連する論文には、濃度限界を使用して重要なサンプリングのエラーを定量化する理論的分析も含まれています。

  • 01:25:00 このセクションでは、スピーカーは、CVI ツールと呼ばれる単一のコード ベースでのさまざまな深層学習アルゴリズムの実装について説明します。これには、単一細胞のオミクス データを分析するためのツールと、確率的プログラミング言語へのインターフェイスが含まれています。コード ベースには約 10 ~ 13 個の生成モデルの実装が含まれており、ユーザーはコードの 1 行で条件付き変分オートエンコーダーを簡単に変更したり、新しいものを作成したりできます。講演者はまた、分子生物学における変分オートエンコーダーと生成的敵対ネットワークの影響について論じたレビュー論文についても言及しています。
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.28
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Fabian Theis, Romain LopezDeep Learning in the Life Sciences / Computa...
 

次元削減 - 講義 11



次元削減 - 講義 11 - 生命科学における深層学習 (2021 年春)

ライフ サイエンスにおけるディープ ラーニングに関するビデオ講義では、単一細胞データ解析におけるクラスタリングと分類のための次元削減手法について説明します。講義では、教師あり学習と教師なし学習を区別し、遺伝子の発現差を評価するための統計的仮説検定フレームワークの使用を探ります。講義では、主成分分析、固有値分解、特異値分解を使用した線形次元削減のための多様体学習の概念を紹介し、クラスタリング データ保存のための t 分布確率近傍埋め込みと分散確率近傍埋め込みの方法について説明します。講演者は、ゲノムデータへの非負行列因子分解の適用と、単一細胞およびマルチオミックデータセットの統合についても説明します。これらの技術の最終的な目標は、公平で定量的な方法で細胞の種類とアイデンティティを再定義することです。

第 2 部では、次元削減に関連するいくつかのトピック、特に生命科学への応用について説明します。統合非負行列因子分解 (iNMF) を使用して、トランスクリプトームとエピゲノムのプロファイルをリンクし、さまざまなコンテキストで細胞のアイデンティティをよりよく理解します。また、特に大規模なデータセットの場合に、ディープ ラーニングでミニバッチ アプローチを使用する利点と、オンライン アルゴリズムを活用して大規模なデータセットを分析するための次元削減方法を改善する方法についても説明します。さらに、RNA-seq や ATAC-seq データなど、さまざまな種類のデータを統合するアルゴリズムが導入されています。最後に、スピーカーは、この分野に関心のある学生の指導者としての役割を果たす意欲を表明します。全体として、講義は有益で好評でした。

  • 00:00:00 このセクションでは、ビデオ講義で単一細胞データ分析に関する議論を続け、クラスタリングと分類のための次元削減手法に焦点を当てます。数千回の実験で数千個の遺伝子を測定する遺伝子発現マトリックスは、遺伝子や細胞のクラスター化、または遺伝子発現に基づく細胞型の分類に使用できます。講義では、教師あり学習と教師なし学習を区別し、遺伝子の発現差の可能性を評価するための統計的仮説検定フレームワークの使用を探ります。このビデオでは、データの根底にある分布を考慮し、データ セット内の観察された分布に最も適したものを見つける必要性についても言及しています。

  • 00:05:00 このセクションでは、講師は、教師あり学習アプリケーションと教師なし学習アプリケーションの両方における次元削減のさまざまな理由について説明します。これらには、データの視覚化、データの削減、データの分類、およびデータ セットのノイズの削減が含まれます。講師は、次元削減は、変動を引き起こし、異なるクラスを区別し、データの興味深いサブセットを特定する要因を理解するのに役立つと説明しています。さらに、講師は、次元削減が高次元データを低次元多様体にマッピングする方法を説明します。

  • 00:10:00 講義のこのセクションでは、低次元表現を可能にする高次元データの真の次元性を理解する方法として、多様体学習の概念を紹介します。多様体学習には、高次元データを取得し、データセットでは調査できない可能性があるデータの真の次元を理解することが含まれます。主成分分析 (PCA) を使用した線形次元削減は、これらの多様体を学習する最も一般的な方法の 1 つとして説明されています。 PCA では、データを一連の線形座標に射影します。これは、元の空間の変換です。元のデータの固有ベクトルを PCA で使用して、変換に対して不変なベクトルを見つけます。

  • 00:15:00 生命科学における深層学習に関する講義のこのセクションでは、固有分解の概念が、データの大きな行列を主な変動ベクトルに分解する方法として紹介されています。対称行列の場合、固有ベクトルは直交し、実対称行列の場合、固有ベクトルは直交かつ実数になります。固有分解は、データセットの最も自然な線形次元削減をキャプチャし、対角行列は独立した主成分の効果を表します。非対称行列の場合、特異値分解を使用して、遺伝子と条件の固有ベクトル、およびデータを最もよく説明するそれらの組み合わせを見つけます。

  • 00:20:00 このセクションでは、講師が特異値分解 (SVD) の概念と、それを線形次元削減に使用する方法について説明します。 SVD は、データの変動の最も重要な次元を見つけるために、行列を 2 つの回転とスケーリングを含む一連の操作に分解する方法です。結果の行列を使用して、元のデータの最適な低ランク近似を計算し、低次元空間でのデータの表現を可能にします。これは、機能が制限されている線形次元削減に役立ちますが、非線形次元削減では、これらの制約の一部を排除できます。主成分分析は、データの主要な線形次元の変動を捉える線形次元削減の 1 つの方法です。

  • 00:25:00 このセクションでは、さまざまなスケールで距離を維持しながら次元削減のためにデータをクラスタリングする手法として、t 分布確率的近隣埋め込み (t-SNE) の方法について説明します。すべての距離を同等に扱う PCA に頼る代わりに、t-SNE は、新しい空間内の同様のデータ ポイントの近接性を維持しながら、高次元空間を低次元にマッピングします。特定の帯域幅を適用することにより、高次元空間で同様の発現パターンを持つ個々の細胞を低次元空間で互いに近接させ、両方の空間間の KL 発散を最小限に抑えることができます。段階的な方法を使用して、2 つの空間間の KL 発散のコスト関数を最小化する埋め込みを見つけることができます。

  • 00:30:00 このセクションでは、スピーカーは、勾配を検索して低次元空間の座標を最適化することにより、分散確率的近隣埋め込み (d-SNE) がデータのローカル類似性構造をどのように保持するかについて説明します。このアプローチは、グローバル距離ではなくローカル距離を保持し、ポイントが離れて広がっているが近くのポイントが互いに接近している場合にペナルティを課す非線形埋め込みです。この方法は、単一セル データ セットを取り巻く視覚化に一般的に使用され、考慮される近傍の数と元のクラスターのサイズが埋め込みの品質に影響を与える可能性があります。

  • 00:35:00 このセクションでは、スピーカーは、単一細胞データ分析のための細胞タイプの特定のクラスターの学習に焦点を当てた、データの低次元投影の概念について説明します。彼らは、複数のタイプのオミクス データを、相互に一致させることができる低次元のデータセットに共同射影することを可能にする方法について話しています。講演者は、統合的な非負行列因数分解を使用する LIGER アプローチや、オンライン学習を使用して INMF アルゴリズムをスケールアップする方法など、彼が開発したいくつかのアプローチを紹介します。講演は、部分的に重複する機能を持つデータセットを統合し、変分オートエンコーダーと生成的敵対ネットワークを組み合わせて単一細胞 RNA プロファイルを生成するための進行中のプロジェクトについて議論することで締めくくります。

  • 00:40:00 このセクションでは、スピーカーは、遺伝子発現、ヒストン修飾、転写因子結合、クロマチンアクセシビリティ、DNA メチル化、およびクロマチン立体構造など、単一細胞で実行できるさまざまな種類の測定について説明します。彼らはまた、空間座標を知り、分子情報を組織のコンテキストにマッピングすることの重要性を強調しています。講演者は、細胞の同一性を定量的に定義するという課題に言及しています。そこでは、単一細胞の解像度を持つ分子およびその他のタイプの情報を使用して、偏りのない方法で細胞タイプを再定義します。これらの課題に対処するために、講演者は統合的な非負行列因子分解に基づいてライガーと呼ばれるツールを開発し、さまざまな測定のデータセット全体で統合的な単一細胞分析を実行しました。彼らはまた、非負行列因数分解の「部分ベースの分解」アプローチの利点についても説明しています。

  • 00:45:00 このセクションでは、トランスクリプトはゲノムデータへの非負行列因子分解 (NMF) の適用について説明し、NMF 因子を共発現または共調節遺伝子をグループ化するメタ遺伝子として解釈できるようにします。これらの要因は、生物学的経路または細胞型固有の遺伝子を表し、技術的要因を捉えることができます。遺伝子をメタ遺伝子にグループ化し、これらのメタ遺伝子を使用して細胞発現を要約することにより、NMF は、細胞の同一性の定量的定義と、複数のデータセットにわたる細胞の種類と状態の識別を可能にします。メタ遺伝子の解釈可能性により、技術的シグナルの識別と、データセット内の生物学的シグナルからのデコンボリューションも可能になります。

  • 00:50:00 このセクションでは、スピーカーは、アイテム f の最適化問題を数学的に解決し、ブロック座標降下に基づいて新しいアルゴリズムを導出した方法について説明します。これには、いくつかの重要な利点があり、収束の保証が提供されます。効率的なアルゴリズムを使用して非負最小二乗問題を解き、下流の手順を実行して分析の全体的な堅牢性を高めます。次に講演者は、ドナーごとではなく細胞タイプごとに細胞をクラスター化するために、ヒトドナー全体の単一細胞 RNA-seq データをどのように統合したかの例を示し、実質の主要な細胞タイプを特定し、細胞がどのように類似しているか、どのように異なるかについての洞察を示します。人間のドナー。

  • 00:55:00 このセクションでは、スピーカーは単一細胞データ統合のさまざまなアプリケーションについて説明します。一例として、空間データ セットと単一細胞データ セットの統合が挙げられます。これは、組織内の細胞型の空間位置を特定し、組織構造への洞察を提供するのに役立ちます。講演者は、マウス脳のデータセットを使用して、異なる空間位置を持つアストロ サイトの 2 つのサブタイプを識別する例を示し、神経回路がどのように連携しているかについての洞察を提供します。もう 1 つの重要なアプリケーションは、単一細胞からのマルチ オミック データ セットの統合です。これは、データ セットがインスタンスも機能も共有しないため、困難です。講演者は、エピゲノム データを遺伝子レベルの特徴に変換し、それらを遺伝子発現と相関させることによって、これらのデータ セットをリンクするための戦略を説明します。

  • 01:00:00 このセクションでは、講演者は、統合的非負行列因子分解 (iNMF) を使用してトランスクリプトーム プロファイルとエピゲノム プロファイルをリンクし、さまざまなコンテキストで細胞のアイデンティティをよりよく理解する方法について説明します。スピーカーは、マウス皮質とヒト骨髄からのデータを使用して、遺伝子発現とメチル化データを関連付けることで、細胞タイプをより明確に理解し、あいまいなラベルを持つ細胞タイプを特定する方法を示します。さらに、講演者は、オンライン学習アルゴリズムを利用して、新しいデータがストリーミング方式で到着するたびに計算を段階的に更新することにより、ますます大規模なデータセットで iNMF 問題を解決する方法について説明します。

  • 01:05:00 このセクションでは、特に大規模なデータセットに対して、深層学習でミニバッチ アプローチを使用する利点について講師が説明します。このアプローチにより、重みの反復更新が可能になり、データセット全体をメモリに格納する必要がなくなるため、収束が速くなります。講師は、ミニバッチが特に役立つ 3 つのシナリオを概説します。重要な利点は、以前のデータ セットを再分析する必要なく、新しいデータ セットが到着したときに組み込むことができることです。講師は、このアプローチの背後にあるコンピューター サイエンスについても説明し、オンライン辞書学習に関する論文からの既存の理論を活用して、パラメーターに関して同じ解に漸近的に収束する代理関数を最適化します。最終的に、このアプローチは実際にはうまく機能し、大規模なデータセット内の各追加セルの冗長性により、はるかに迅速に収束します。

  • 01:10:00 このセクションでは、スピーカーは、大規模なデータセットを分析するための次元削減方法でオンライン アルゴリズムを使用する利点について説明します。スピーカーは、他の広く使用されている方法に対するアプローチのベンチマークを提示し、メモリ使用量が大幅に少なく、時間効率が高いことを示しています。彼らは、Brain Initiative Cell Census Network によって生成されたデータを使用して、メソッドの反復改良機能を実証し、オンライン アルゴリズムを使用した因数分解に新しいデータ セットを組み込みます。また、機能が部分的に重複する場合に inmf アルゴリズムを拡張して、データセット全体で共有機能と非共有機能の両方を活用できるようにする方法も示しています。これは、機能を強制的に整列させる以前に使用された方法よりも満足のいくアプローチです。

  • 01:15:00 このセクションでは、一部の機能がデータ ソースの 1 つにしか存在しない場合でも、アルゴリズムを使用してデータ セットに存在するすべての機能を活用する方法についてスピーカーが説明します。このアルゴリズムを使用して、RNA-seq や ATAC-seq データなどのさまざまなタイプのデータを統合し、遺伝子発現のより完全な全体像を把握できます。これにより、クラスターまたは細胞プロファイルを解決する能力が向上します。スピーカーはまた、ミシガンと呼ばれる新しいアプローチを紹介します。これは、変分オートエンコーダー (VAE) と敵対的生成ネットワーク (GAN) の長所を組み合わせて、単一細胞発現データから現実的な細胞プロファイルを生成します。このアルゴリズムは、VAE のもつれを解くパフォーマンスと GAN の生成パフォーマンスを使用して、セル アイデンティティの変化を操作および予測するための強力なアプローチを作成します。

  • 01:20:00 このセクションでは、講演者は、この分野に関心のある学生の指導者としての役割を果たしたいとの意向を表明し、講演に参加してくれた聴衆に感謝します。モデレーターは、リスナーが何かを学んだかどうかを確認するために簡単なアンケートを実施し、聴衆は肯定的に反応します。全体として、講義は好評で有益なものでした。
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
Dimensionality Reduction - Lecture 11 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.03.31
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest Lecture: Joshua WelchDeep Learning in the Life Sciences / Computational Systems B...
 

疾患回路解剖 GWAS - 講義 12


疾患回路解剖 GWAS - 講義 12 - 生命科学における深層学習 (2021 年春)

疾患回路解析 GWAS に関するこのビデオでは、ヒト遺伝学の基礎、解釈のための計算上の課題、およびゲノムワイド関連研究 (GWAS) で調べられたさまざまな種類の遺伝的変異について説明します。このビデオでは、メンデル マッピング、連鎖解析、疾患に関連する一塩基多型 (SNP) の同定などの方法論についても説明します。さらに、講演者はカイ 2 乗統計、マンハッタン プロット、および QQ プロットを使用して、疾患の表現型に大きく関連するゲノム領域を視覚化する方法について説明します。このビデオには、FTO 遺伝子に関するケーススタディと、肥満におけるそのメカニズムの意味について、FTO 遺伝子がどのように包括的に分析されたかも含まれています。肥満との遺伝的関連を理解する上での課題と、この問題に取り組むための手順についても説明します。

講義では、ゲノム変異が人間の健康に与える影響を研究することの課題と、突然変異がさまざまな細胞型にどのように影響するかを理解することの重要性について説明します。講演者は、特に転写因子の結合とクロマチンの構成の予測に関連して、ゲノム配列と変異の影響を予測するためのディープ ラーニング アプローチについて概説します。彼らはまた、深く配列決定されたゲノム データセットを使用して DNA 感受性とヒストン マーク QTL を予測し、ディープ ラーニングを使用して遺伝子発現や自閉症などの人間の病気に及ぼす影響を予測するこれらの予測の評価についても説明しています。最後に、既知の遺伝子セットの偏りのない分析と、ディープ ラーニング シーケンス モデル ライブラリの使用について説明します。

  • 00:00:00 ビデオのこのセクションでは、スピーカーは人間の遺伝学の基礎と解釈における計算上の課題について説明します。彼らは、ゲノムワイド関連研究 (GWAS) を通じて遺伝的変異がどのように特定され、疾患に寄与する個々の遺伝的変異がどのように発見されるかを説明しています。講義では、遺伝子の遺伝子ハンティングと、連鎖と GWAS を使用した疾患に関連する位置の認識についても取り上げます。ディープ バリアントや深海を含むバリアント解釈のためのファイン マッピング、ケース スタディ、機械学習ツールの課題についても説明します。古代ギリシャから始まり、ダーウィンによる核変換と自然淘汰の概念の発展まで続く、人類の遺伝学と遺伝パターンの歴史が簡単にカバーされています。

  • 00:05:00 このセクションでは、スピーカーは、メンデルの個別の遺伝と、観察された表現型形質の連続的な変動との間の調整について説明します。メンデルによって導入された粒状遺伝の概念は、優性遺伝子または劣性遺伝子と名付けられた個別の遺伝単位があることを示しました。しかし、人間で観察される連続的な変動の生体認証は、メンデル遺伝では説明できませんでした。これは、1900 年代初頭の統計学者の研究によって変化し、連続変動は複数のメンデル遺伝子座によって説明できることが示されました。これがメンデル形質マッピングの基礎となり、最終的に染色体と DNA が遺伝物質を運ぶという理解につながりました。さらに、講演者は、独立した組み合わせのルールからの逸脱がどのようにしてヒト遺伝学の主力となったのか、また染色体上で物理的に近い形質がどのように共遺伝する傾向があるのかについて説明します.

  • 00:10:00 このセクションでは、スピーカーは、異なる形質がコード化されているヒトゲノムの領域を追跡するために、異なる形質の連鎖と分離頻度を使用する、メンデルマッピングとして知られる遺伝子マッピングの従来のアプローチについて説明します。ただし、このアプローチは効果が強い特性に対してのみ有効です。次にスピーカーは、2000 年代の革命について話します。これにより、従来のリンケージ法を使用した分析では以前は影響を受けなかった弱い効果の変動をマッピングすることが可能になりました。これは、ゲノム全体のすべての SNP と、それらがさまざまな疾患によってどのように変化するかを調べるゲノムワイド関連研究 (GWAS) によって達成されました。講演者は、SNP、インデル、SDR、構造バリアント、コピー数バリアントなど、GWAS で検査されるバリエーションの種類と、これらのバリエーションがゲノムの機能にどのように影響するかについて説明します。

  • 00:15:00 このセクションでは、講演者は、最も一般的なタイプの遺伝的変異であるゲノムワイド関連研究 (GWAS)、すなわち一塩基多型 (SNP) の主力を紹介します。 SNP には 2 つの対立遺伝子があり、すべてのバリアントがクラスター化され、dbSNP と呼ばれるデータベースに組み込まれています。講演者はまた、速記と繰り返し、挿入と削除など、他の種類のバリエーションについても説明します。さらに、まれなバリアントは強力な効果の変動を調べることができるため、一般的なバリアントとまれなバリアントの違いについて説明します。ヒトが 23 の染色体、20,000 の遺伝子、30 億文字の DNA、および何百万もの多型部位からなるゲノムの 2 つのコピーを持っていることを考えると、疾患遺伝子を見つけるという課題が強調されています。

  • 00:20:00 このセクションでは、講師は、遺伝学における一般的なバリアントとまれなバリアントの違い、およびゲノムワイド関連研究とメンデル分析との関係について説明します。まれなバリアントは大きな効果があり、主にメンデル分析で発見されますが、一般的なバリアントは影響が小さく、ゲノム全体の関連研究で捉えることができます。さらに、連鎖解析は、染色体全体のマーカーを研究し、どのマーカーが集団内の表現型と共遺伝するかを確認することにより、障害を引き起こす遺伝子の位置を特定するのに役立ちます。

  • 00:25:00 このセクションでは、話者は統合失調症、肥満、糖尿病などの状態を研究するために、数千人の個人、約 50% の症例、50% の対照を収集するゲノム全体の関連研究を紹介します。これらの研究は通常、力を得るために症例を過剰に代表しており、配列決定に比べてコストが安いため、ジェノタイピング技術が使用されています。講演者は、結果の正確性を確保するために、サンプルと SNP の両方における品質管理の重要性を強調しています。さらに、スピーカーは、母集団認証の概念と、研究における個人間の関連性を排除する必要性について説明します。

  • 00:30:00 このセクションでは、スピーカーはカイ二乗統計量と p 値分布を使用して、ゲノムワイド関連研究 (GWAS) で実際の疾患シグナルを検出する方法を説明します。スピーカーは、各 SNP の対立遺伝子を持つ症例と対照の数を示す分割表を使用して、症例と対照の間の対立遺伝子の頻度の偏差を探します。カイ二乗統計量は偏差の大きさを測定し、p 値は対立遺伝子が表現型に影響を与えないという仮説を棄却するために使用されます。次にスピーカーは、マンハッタン プロットに p 値をプロットして、疾患の表現型と有意に関連するゲノム領域を視覚化する方法を説明します。

  • 00:35:00 このセクションでは、スピーカーは、SNP がランダムに疾患に関連する確率のマイナス log 10 p 値を表示するマンハッタン プロットと、疾患の p 値を比較する QQ プロットの使用について説明します。テストされた数百万の SNP。これらに続いて機能分析を行い、SNP の役割を別の方法で調べます。ゲノム全体の有意水準は、20 年前に封筒の裏計算に基づいて確立された 10 のマイナス 8 乗の 5 倍に設定されています。ただし、すべての SNP を個別に分離するのに十分な時間がないヒト集団の遺伝的変異は限られているため、詳細なマッピングは困難な場合があります。

  • 00:40:00 このセクションでは、講師はバリアントが分離ではなくブロックで継承される方法について説明します。つまり、ブロック内の 1 つのバリアントに特定の対立遺伝子がある場合、そのブロック内のすべてのバリアントが同じ対立遺伝子を持つことを意味します。ある領域で関連性を見つけたら、次のステップは、どの一塩基多型 (SNP) が関連性の原因であるかを特定することです。クローン病の研究では、連鎖解析とゲノムワイド関連研究の両方で検出された領域が見つかりましたが、別の領域は後者によってのみ検出されました。講師は、各領域のリスクアレルの頻度と効果の大きさを説明します。

  • 00:45:00 このセクションでは、スピーカーは防御的対立遺伝子の希少性と、ケースコントロールとコホート研究を通じてそれらを発見することの難しさについて説明します.彼らは、リスクを低下させるより希少な対立遺伝子は、症例を大幅に濃縮する研究では発見される可能性が低く、そのような研究に必要な家系図は実現不可能であると説明しています.講演者はまた、GWAS が捕捉する一般的なバリアントと、連鎖解析が捕捉するまれで強い影響の対立遺伝子との違いについても説明します。このセクションは、ハプロタイプと組換えホットスポットの簡単な概要で締めくくります。これには、集団間の変動と、組換えイベントのガイドにおける prdm9 の重要性が含まれます。最後に、講演者は FTO 遺伝子に関する研究を紹介します。これは、肥満またはボディ マス インデックスの GWAS ヒットの中で最も強力であり、その機構的意味について包括的に分析されました。

  • 00:50:00 講義のこのセクションでは、講演者は肥満と遺伝的関連を理解する上での課題について議論し、この問題に取り組むための手順を概説します。最初のステップは、関連する組織と細胞の種類を特定することです。これは、さまざまな組織のエピゲノム注釈を調べることによって達成されます。 2 番目のステップは、下流の標的遺伝子を見つけることです。これは、長距離のリンクとループによって複雑になります。講演者は、ホモ接合体のリスクのある個人とリスクのない個人の異なる遺伝子の発現を測定すると、FTO 遺伝子自体は発現の変化を示さず、むしろ FTO から遠く離れた位置にある IRX3 および IRX5 遺伝子が標的遺伝子である可能性が高いことが明らかになると説明しています。

  • 00:55:00 このセクションでは、スピーカーは、肥満に関連する非コード遺伝子座の標的遺伝子を特定し、調節モチーフ分析と進化的保存を使用して原因となる SNP を理解する方法について説明します。上流のレギュレーターと SNP を破壊することで、2 つの間のエピスタシスと、それが抑圧と抑圧解除にどのように影響するかを示すことができました。講演者は、モチーフを破壊すると抑制が減少し、エンハンサーが過剰に活性化され、遺伝子発現レベルで rx3 と rx5 が過剰に活性化され、エネルギーの散逸から貯蔵へのシフトが引き起こされると説明しています。モデルを構築し、ゲノム編集を行うことで、彼らは何も知らなかった関連領域から、生物学的プロセスと標的遺伝子を理解し、介入して回路を変更することができました。

  • 01:00:00 講義のこのセクションでは、講演者は、個人に存在する多数のゲノム変異の影響を研究することの課題と、ゲノム配列と変異がさまざまな細胞型にどのように影響するかをよりよく理解することの重要性について説明します。人間の健康。スピーカーは、機械学習アプローチを採用して、ゲノム配列と大量の機能ゲノムデータを利用して、ゲノム配列と変異の影響を予測できるモデルを構築していると説明しています。具体的には、講演者は、ゲノム配列に基づいて個々の転写因子の結合とクロマチンの構成を予測する研究について説明します。彼らは、深層学習技術を使用して、一度に 120,000 のゲノム変異の影響を予測する体系的な方法を開発することを目指しています。

  • 01:05:00 このセクションでは、スピーカーは、深い畳み込みネットワーク モデルを使用して、3 つの要件を満たす調節配列モデルを構築するという決定について説明します。大きな配列と長い配列コンテキストを使用する機能、非線形をモデル化する機能です。シーケンスの異なる領域間の相互作用、およびすべての異なるタスクで学習したシーケンス機能を共有する機能。スピーカーは、モデルが下位レベルでさまざまなレベルのシーケンス機能を学習し、上位レベルで高次のシーケンス パターンを学習すると説明します。彼らはまた、位置固有の予測を行う際に空間情報を保持することの重要性を強調しています。このモデルを使用して、1 つのバリアントのみが異なる 2 つの配列をモデルに与え、各対立遺伝子の予測を比較することにより、任意のゲノム バリアントの効果を予測できます。

  • 01:10:00 このセクションでは、講演者は、クロマチン レベルで DNA 感受性に影響を与えるバリアントの予測の精度をどのように評価したかについて説明します。彼らは、詳細にシーケンスされたゲノム データセットを分析し、1 つの対立遺伝子が他の対立遺伝子よりも有意に多く表されているヘテロ接合バリアントを探しました。これは、潜在的な DNA 感度の違いを示しています。彼らはモデルをトレーニングして、参照対立遺伝子と代替対立遺伝子の両方の DNA 感受性を予測し、その予測を実験結果と比較しました。彼らは、参照対立遺伝子と代替対立遺伝子の間の差異が大きく、より自信を持って予測されたバリアントを使用して、モデルがバリアントを予測する際の精度が高いことを発見しました。評価は偽陽性に対して堅牢であり、真陽性をフィルタリングすることができました。彼らはまた、このアプローチをヒストン マーク QTL に適用し、より高いヒストン マークに関連する対立遺伝子を予測できることを発見しました。

  • 01:15:00 このセクションでは、講演者は、ディープラーニングを使用して遺伝子発現に対するバリアントの分子レベルの影響を予測する方法について説明します。彼らは、より大きな規制シーケンスを考慮する必要がある、利用可能なトレーニング サンプルが少ないなどの課題に直面しています。彼らは、40 キロバイトの広い領域を調べ、事前トレーニング済みのモデルを適用してさまざまな位置を予測することで、これらの課題に対処しています。次に、正規化された線形モデルを使用して、各遺伝子発現プロファイル予測から遺伝子発現への寄与の滑らかなパターンをトレーニングします。このアプローチにより、さまざまな突然変異の影響と、同様のメカニズムを通じて同じ病気を引き起こす方法を予測できます。遺伝子発現を予測する問題は解決には程遠いですが、彼らはそれに対処するための最初の試みを行いました.

  • 01:20:00 このセクションでは、自閉症などの人間の病気に対するゲノム変異の影響を予測するための深層学習の使用について講演者が説明します。彼らは、非コード変異を検出して疾患に帰することが困難であったと説明しています。しかし、クロマチンプロファイルとタンパク質結合プロファイルに対する突然変異の影響を予測するモデルを使用することで、自閉症を持つ個人の突然変異を影響を受けていない兄弟と比較することができました.研究者らは、自閉症の個人の自閉症に関連する遺伝子に対して、影響を受けていない兄弟と比較してより強い影響があることを発見し、非コード変異の疾患への寄与を確認した.

  • 01:25:00 このセクションでは、スピーカーは、以前に知られている遺伝子セットを使用して非コード変異の寄与を決定する偏りのない分析について説明します。彼らは、ネットワーク近傍ベースの分析を使用して、遺伝子ネットワーク内の兄弟変異と比較して、問題のある変異におけるより強い影響を探します。この分析は、自閉症の個人で発見されたコーディング変異で以前に示されていたシナプス関連およびクロマチン調節関連グループにクラスター化された遺伝子を使用して、コーディングおよび非コーディング変異によって示されるメカニズムの収束を示しています。スピーカーは、シーケンス モデルのトレーニングと評価に使用できるディープ ラーニング シーケンス モデル ライブラリについても簡単に説明します。
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
Disease Circuitry Dissection GWAS - Lecture 12 - Deep Learning in Life Science (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

GWAS メカニズム - 講義 13



GWASの仕組み - 講義13 - 生命科学における深層学習 (2021年春)

Deep Learning in Life Sciences シリーズの GWAS メカニズムに関する講義では、複雑な形質に関与する非コード遺伝子バリアントの機能を理解するためのさまざまな方法について説明します。この講義では、エピゲノム アノテーションとディープ ラーニング モデルを使用して、特定の疾患の遺伝的に関連する領域全体のグローバル プロパティを特定する方法について説明します。また、さまざまな組織やエンハンサーにまたがるエンリッチメントについても説明し、遺伝子座内の原因となる SNP を予測するために、これらを経験的事前確率に変換する方法について説明します。講義では、遺伝子発現やメチル化などの中間分子表現型を使用して、ゲノム全体の関連研究における因果関係を研究する方法、および遺伝子型と発現の個人的構成要素を組み合わせて発現の表現型変数を説明する方法についても説明します。最後に、講義では、因果推論手法を使用して、結果変数に対する変数の変更の影響を判断し、因果経路と反因果経路を特定する方法を調べます。

このビデオの講師は、ゲノミクス研究における因果関係を推測するためのさまざまな手法について説明しています。それらは、因果関係を確立する方法として、d分離の概念と、遺伝学における自然ランダム化の使用をカバーしています。講師は、メンデルのランダム化とルービンの準推論モデル、および因果推論の潜在的な結果方法についても説明します。彼らは、観察研究における代入とバイアスの調整の課題に触れています。講演者はまた、堅牢な因果アルゴリズムを開発するために複数の直交証拠を使用することの重要性を強調しています。さらに、遺伝子発現を摂動させてネットワークを学習するための遺伝学の使用について説明し、データ内の因果構造を特定する方法として不変性条件を導入します。講義では、因果推論のためにゲノミクス研究で使用されるさまざまな手法とツールの包括的な概要を提供します。

  • 00:00:00 このセクションでは、前のセッションから、エピゲノム濃縮、eQTL、およびブリティッシュ大学の Yong Jin Park 教授による調停と因果関係の研究などのグローバル変数の理解へと議論を拡大することに焦点を当てます。コロンビア。講義では、ファイン マッピングと遺伝子座機構の解剖について簡単に説明し、続いてエピゲノムを使用したグローバル エンリッチメント分析のさまざまな方法を説明し、作用レギュレーターの組織、細胞型、および標的遺伝子を推測します。さらに、講義では、表現型を予測するためにゲノム全体の関連研究で使用される線形混合モデルと多遺伝子リスクスコア、および木曜日の講義の残りのトピックに移行するための遺伝率について説明します。最終的な目標は、何千もの遺伝子座にまたがるマンハッタン プロットのすべてのピークの背後にある機能的ドライバーと機械的基盤を同時に理解することです。

  • 00:05:00 講義のこのセクションでは、主に非コードバリアントによって支配されている複雑な形質の疾患メカニズムを理解するために遺伝学を使用するという課題についてインストラクターが説明します。この課題に対処するために、インストラクターは、細胞回路のエピゲノム注釈と深層学習モデルを使用して、特定の形質に遺伝的に関連するすべての領域にわたってグローバルな特性を特定することを提案しています。インストラクターは、身長や 1 型糖尿病などのさまざまな形質の濃縮度の違いを比較することで、すべての領域にまたがる特性を学習し、それらを使用して個々の遺伝子座の特性を推測できることを示唆しています。このアプローチは、疾患に対する偏りのない見方を提供し、標的遺伝子、治療法、個別化医療の予測に役立ちます。

  • 00:10:00 このセクションでは、講演者は、超幾何または二項統計検定を使用して、遺伝子バリアントと組織特異的エンハンサーとの重複を評価し、有意な濃縮を探すプロセスについて説明します。彼らは、さまざまな形質に関連する遺伝子変異体が、それらの組織で活性なエンハンサー全体で組織特異的な濃縮を示すことを発見しました。たとえば、身長に関連する遺伝子変異体は胚性幹細胞エンハンサーに富み、血圧に関連する遺伝子変異体は左心室で作用するエンハンサーに富んでいました。彼らはまた、アルツハイマー病は、脳内で活性なエンハンサーが全体的に濃縮されているのではなく、脳の免疫細胞、特に CD14+ 細胞で活性なエンハンサーが濃縮されていることを発見しました。これにより、彼らは、アルツハイマー病に関連する遺伝子変異が主に脳の免疫細胞で作用すると仮定するようになりました.彼らは、この情報をベイジアン フレームワークで使用して、疾患に関連するどの遺伝子バリアントが機能する可能性が高いかを判断できるようになりました。

  • 00:15:00 講義のこのセクションでは、講演者は、観測された濃縮物を GWAS で使用できる経験的事前分布に変換する方法について説明します。講演者は、クローン病とアルツハイマー病の例を使用して、特定の領域で濃縮されている疾患に関連する遺伝子変異を事前に使用して、特定の遺伝子座内の原因となる SNP を予測できることを説明します。次に、各バリアントの事後確率を構築するために、この事前確率を GWAS 要約統計量からの証拠と組み合わせる方法を説明します。 RIVIERA と呼ばれるこの方法の有効性は、優先する SNP が進化的に保存され、eQTL およびデジタル ゲノム フットプリントに見られる可能性が高いという事実によって実証されています。

  • 00:20:00 講義のこのセクションでは、講演者は、濃縮されたエンハンサーを使用して、遺伝的バリアントと形質の間の非常に特異的な関連付けについて説明します。これらの特性をそれらが重複するエンハンサーにマッピングすることにより、講演者は遺伝子座を特定の組織に分割して、これらの遺伝子座に関連する生物学的機能をよりよく理解することについて説明します。スピーカーは、これを使用して複雑な形質をより単純なコンポーネントに分割し、特定の組織のエンハンサーへの近接性に基づいて遺伝子座に優先順位を付ける方法を強調しています。講演者はまた、冠動脈疾患に関連する遺伝子座のいくつかの例を提供します。これらの遺伝子座は、さまざまな組織や標的遺伝子と重複しています。さらに、講演者は、ゲノム全体の重要性に達しない新しい遺伝子座を研究して特定の組織にマッピングする方法についても説明します。

  • 00:25:00 このセクションでは、講師は、機械学習アプローチを使用して、ゲノム全体の重要性よりも重要でないサブスレッショルド遺伝子座を優先し、ゲノム全体の重要なものの特徴を学習することによって新しい遺伝子座を発見する方法を説明します.彼らは、心臓の再分極に関連する多くの遺伝子座を発見し、それらの特徴を予測因子として使用して、実験的テストからの追加の証拠を使用して、閾値下のバリアントに優先順位を付けました。彼らは、このアプローチを使用して優先順位付けされた遺伝子が、関連するゲノム関連研究のために強力に濃縮されており、心臓の伝導および収縮性の表現型と強い相関関係を持つ、意味のある標的遺伝子にリンクされていることを発見しました。彼らはまた、発現の量的形質遺伝子座を使用して、中間分子表現型を調べることにより、遺伝的変異と疾患の間のギャップを埋める方法についても議論しました。

  • 00:30:00 このセクションでは、講演者は中間分子特性、特に遺伝子の発現レベルまたは特定部位のメチル化レベルの使用について、ゲノムワイド関連研究で因果関係を研究する方法として説明します。目標は、特定の組織、ゲノム機構、遺伝子発現の変化、およびエンドフェノタイプに焦点を当てて、遺伝学の結果である形質と疾患の結果である形質を特定することです。メチル化量的形質遺伝子座および発現量的形質遺伝子座の基礎は、身長などの量的形質を測定し、代替対立遺伝子の数をメチル化レベルまたは近くの遺伝子の発現レベルと相関させることです。このアプローチは、何万ものメチル化 qtl の発見につながり、これらの中間分子表現型を帰属させることは、メチル化を予測し、それを疾患と関連付けるのに役立ちます。

  • 00:35:00 このセクションでは、ビデオは、遺伝子型主導のメチル化とアルツハイマー病などの表現型との間の相関関係を発見するために、より大きなコホートに帰属メチル化を使用する方法について説明します。帰属メチル化は、メチル化の遺伝的要素であり、それを帰属することにより、研究者はより少ない個人を使用して遺伝子型主導のメチル化を探し、力を高め、遺伝的要素を具体的に調べることができます。このビデオでは、特定のケースで、複数の SNP を一緒に使用すると、ゲノム的に有意ではなかった多くの SNP が有意になり、研究者がそれらの効果を組み合わせてメチル化を予測できるようになる例も示されています。

  • 00:40:00 生命科学における深層学習に関する講義のこのセクションでは、スピーカーは、遺伝学、メチル化、転写、および交絡因子の研究を通じて、疾患の表現型の媒介因子を特定するための方法論について説明します。彼らは、線形回帰モデルを使用してこれらのさまざまな要因と遺伝子発現との関係を予測し、集団効果やバッチ効果などの変数を補正し、最終的にメチル化や発現などの中間分子表現型の遺伝的ドライバーを特定するプロセスを説明しています。この方法論には、統計のキャリブレーションを評価するための QQ プロットと、結果を解釈するための遺伝子型と発現の年齢、性別、主成分などの共変量の使用が含まれます。

  • 00:45:00 講義のこのセクションでは、遺伝子型と発現の個人的構成要素を組み合わせて、追加の共分散と遺伝子型を含むモデルが、ベースライン モデルよりも発現の表現型変数をより適切に説明できるかどうかを判断することに焦点を当てています。これは、対立遺伝子分析で補完できる発現量的形質遺伝子座 (eQTL) 研究の基礎です。対立遺伝子分析では、ヘテロ接合体の個人の読み取りを、同じ人の同じ細胞からの A を持つ 1 つの対立遺伝子を含むものと C を持つ別の対立遺伝子を含むものに分割します。 A 遺伝子型を、C 対立遺伝子よりも発現が高いと思われるこの対立遺伝子の対立遺伝子特異的発現と関連付けることにより、特定の SNP を考慮して、テストされている特定の領域の対立遺伝子特異的効果を見ることができます。講義では、応答 QTL と、特定の環境条件に応答して QTL を決定する際のその役割についても説明します。

  • 00:50:00 このセクションでは、講師が遺伝子発現レベルを調節するゲノム遺伝子座である発現量的形質遺伝子座 (eQTL) の概念について説明します。講師は、eQTL は常に存在する場合もあれば、特定の刺激に反応してのみ存在する場合もあると説明しています。次に、トランスクリプトは、因果関係の推論のトピックに移行します。これは、どの遺伝子座が疾患において因果的役割を果たしているのか、どの遺伝子座が単に疾患の表現型と相関しているのかを判断する方法であると講師は説明します。講師は、因果推論分野は因果効果と因果発見の2つに分けられると説明しています。講義では、主に因果効果の影響に焦点を当てます。

  • 00:55:00 このセクションでは、講演者は遺伝子解析の研究における因果推論法の使用について説明します。因果推論には、結果変数 y に対する変数 x の変更の影響を決定するための実験的介入が含まれます。目標は、条件付き確率が介入確率とほぼ等しくなるようにすることです。スピーカーは、到達可能性、条件付け、調整、および分離の概念についても説明します。因果関係のグラフィカル言語を使用することで、研究者は因果関係について質問し、因果経路と反因果経路を特定できます。バックドア パスの存在は、条件付き確率の解釈に影響を与え、相関関係が因果関係に等しいという誤解を生む可能性があります。

  • 01:00:00 このセクションでは、講師は、ゲノミクス研究における因果関係を特定するために、ベクター変数間のバックドア パスをブロックするという概念について説明します。彼らは、特定の変数を条件付けすることにより、d 分離とコライダー パターンの作成のアイデアを導入します。講師は、変数が十分に単純であれば、研究者は介入を行い、変数をランダムに割り当てて、交絡因子と関心のある変数の間の依存関係を断ち切ることができると説明しています。講師は、遺伝子は環境要因の影響を受けないため、ゲノミクス研究において重要な変数であり、一定の値に設定することは自然な無作為対照試験のようなものであると強調しています。

  • 01:05:00 このセクションでは、講師がメンデル無作為化の概念と、それを使用して遺伝子型、中間表現型、および疾患表現型の間の関係を理解する方法について説明します。遺伝子型は見事にランダム化されているため、真の因果関係を簡単に推定できます。この方法は仮定に大きく依存していますが、遺伝子 eQTL および遺伝子 - 環境相互作用研究にうまく適用されています。さらに、講師は、ベータ回帰パラメーターと調停効果を推定する別の方法は、g の回帰 y と g の別の回帰 x を組み合わせることであると説明しています。最終的に、メンデルのランダム化は、実際には操作が難しい変数間の複雑な関係を理解するためのユニークな機会を提供します。

  • 01:10:00 このセクションでは、講師がゲノミクス研究で因果関係を推測する 2 つのアプローチについて説明します。それは、メンデルランダム化 (MR) とルービンの準推論モデルです。 MR は、遺伝子型を利用して、疾患の転帰に関するランダム化比較試験の中間変数をランダムに乱すランダム化比較試験です。ただし、未知の交絡因子に関しては、または代替パスがある場合、MR は困難になる可能性があります。ルービンの準推論モデルは、割り当てが離散変数である場合の因果効果を測定する反事実推論アプローチです。このアプローチは、ユニットの潜在的な結果が観察されなかった場合に失われるため、代入の問題を引き起こします。

  • 01:15:00 生命科学における深層学習に関する講義のこのセクションでは、スピーカーは遺伝子研究における因果推論の潜在的な結果方法について説明します。個々の因果効果を正確に推定するには、独立性、強い無視可能性、重複などの仮定が必要です。講演者はまた、アルツハイマー病の薬を含むおもちゃの例を提供し、傾向関数のフィッティングと傾向スコアの使用がバイアスを調整し、治療群と対照群の間の公正な比較を行うのにどのように役立つかについて説明します.潜在的結果法により、研究者はさまざまな治療法や介入の効果について興味深い質問をすることができます。

  • 01:20:00 このセクションでは、スピーカーは、潜在的な結果のフレームワークと最先端の反事実推論手法による因果推論について説明します。彼らは、治療を受けたグループの重み付けが結果の違いをどのように説明できるか、および代入を使用して潜在的な結果を推定する方法を説明しています。また、スニップ行列を使用して複数の交絡因子を捕捉し、母集団 PC を使用してこれらの交絡効果を調整すること、およびベイジアン回帰木を使用して欠損データを代入する戦略を提案する最近の論文についても議論しています。これにより、個々の因果関係を測定して、治療の有効性を判断できます。

  • 01:25:00 このセクションでは、講演者は生命科学における深層学習の因果関係発見の側面について説明します。彼らは、高次元のデータ行列から因果グラフ構造を学習することは複雑で困難な問題であると説明しています。しかし、彼らは、この分野のブレークスルーは、遺伝子を摂動させ、遺伝子発現を測定してネットワークを学習する際の遺伝学の使用から来たことに注目しています。彼らは、スコアベースの尤度を使用する代わりに、研究者は現在、データを生成する単一の因果モデルを仮定する不変性条件に依存しており、この仮定を使用してデータの因果構造を特定していると説明しています。スピーカーは、このアプローチを示すおもちゃの例も提供します。

  • 01:30:00 講義のこのセクションでは、不変性条件の考え方と、モデルが実験データを一貫して説明できるかどうかを判断する際のその適用について説明します。スピーカーは、遺伝子ノックアウト実験の例を使用し、間違った予測因子を含めると実験結果が拒否される可能性があることを示します。因果三角測量の考え方は、科学実験の再現性を向上させる方法としても言及されています。スピーカーは、因果アルゴリズムを開発するための複数の直交する証拠の重要性を強調して締めくくります。
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
GWAS mechanism - Lecture 13 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

システム遺伝学 - 講義 14



システム遺伝学 - 講義 14 - 生命科学における深層学習 (2021 年春)

システム遺伝学と深層学習に関するこの講義では、講演者は、SNP 遺伝率、遺伝率の分割、層別 LD スコア回帰、分子表現型解析における深層学習など、いくつかのトピックを取り上げます。彼らはまた、数千の表現型を持つ約 500,000 人の英国のバイオバンク データセットを分析するために、電子カルテ、ゲノム関連研究、およびゲノミクスの使用を調査しています。講師は、ディープ ラーニング モデルをシーケンス関数予測に使用して疾患遺伝子座の回路を理解する方法と、GWAS および EQTL 呼び出しのための線形混合モデルの使用について説明します。また、深層学習におけるモデルの仮定の偏りや違反にも触れ、疾患に重要な細胞型を推測する際の細胞型固有の規制注釈の重要性を強調しています。最後に、講師は負の選択と因果効果の大きさに関連する調査結果の複雑さについて議論し、スタンフォード大学のマヌエル・リバス教授を紹介して、遺伝的関連の分解について議論します。

講義では、形質の組成と寄与成分の定量化、脂肪生成または脂肪分解に寄与する遺伝的変異体の特定、遺伝子機能に強い影響を与えて疾患リスクを低下させる突然変異の特定、および多変量解析を使用したリスク予測モデル。さらに、講義では、さまざまなバイオマーカーにおける多遺伝子リスクスコアモデルの適用について説明し、特にヨーロッパ以外の集団の場合、予測精度を向上させるために異なる集団間でデータを共有する必要性を強調しています。講義は、英国バイオバンクの多遺伝子スコアとバイオトロピック効果に関連する研究プロジェクトに関心のある学生を監督する意欲を表明することで締めくくられます。

  • 00:00:00 このセクションでは、スピーカーはシステム遺伝学と電子医療記録のトピックを紹介します。彼らは、一般的およびまれなバリアント、多遺伝子リスクスコア、連鎖不平衡、および詳細なマッピングバリアントを含む、前の講義でカバーされた概念を簡単に確認します。講演者は、複数の SNP との非コード関連の大部分が原因で発生する、ゲノム全体の関連研究を解釈する際の課題について説明します。次に、ゲノム情報、RNA 情報、および変異情報を使用するとともに、配列機能のディープ ラーニング モデルを導入して、ドライバー遺伝子、領域、および細胞型を予測し、疾患遺伝子座の根底にある回路を理解します。講演者はまた、遺伝子型と共変量を使用して、対象の表現型に対する固定効果とランダム効果を予測する、GWAS と EQTL 呼び出しの両方に対する線形混合モデルの使用についても紹介します。

  • 00:05:00 このセクションでは、講師は、遺伝的バリアントに基づいて人の表現型を予測するための基本的な基礎と、ゲノム内のすべての SNP およびコホート内のすべての個人にわたる各代替対立遺伝子の効果の大きさについて説明します。ノイズは、中心値がゼロで共分散行列が 2 乗された個人全体に分散されます。さらに、ランダム効果は、個人間の遺伝的共有を測定する親族マトリックスを使用して説明されます。ベイジアン アプローチは、すべての未知数を統合し、共分散行列によって駆動される表現型効果の確率を決定するために使用されます。線形混合モデルは、特定の形質の総遺伝率を推定するために構築されます。これは、無限小仮定に基づいており、制限された最尤モデルを使用して推定されます。この変量効果モデルは、実際の因果分散に関する知識がなくても、データの変換を捉えて機能します。

  • 00:10:00 このセクションでは、講演者は、中間分子表現型の影響と SNP と発現の間の線形関係を予測することにより、追加の変動を捕捉する際の深層学習の使用について説明します。話者は、推定を取り巻く潜在的なノイズに一致する事前分布を使用してこれを行うことができると説明しています。これにより、最も好ましい結果を推測できます。彼らはまた、人口の違いの影響についても言及しており、遺伝マトリックスを駆動する最も強い影響は、人口の違いに直接起因しています。最後に、講演者は遺伝率の概念と、遺伝的関連性をゲノムのサブセットに分割することが遺伝率を計算するための強力なアプローチになり得る方法を説明し、染色体が長くなるほど、多くの複雑な形質についてより多くのバリアントが説明されることを示唆しています。

  • 00:15:00 このセクションでは、ハーバード公衆衛生大学院の Alkes Price が SNP 遺伝率の概念を説明しています。これは、表現型と遺伝子型の関係に関して、集団全体で達成可能な最大値として定義されるパラメーターです。彼は、コーディング対非コーディングなど、SNP のさまざまな機能カテゴリ間で遺伝率を分割するという考えと、これが特定の疾患や組織における遺伝率がどの SNP に富むかについての結論にどのようにつながるかについて説明しています。 Price はまた、人体全体の疾患に重要な細胞タイプと細胞プロセスを研究するためのツールとして、層別 LD スコア回帰の概念を導入しています。

  • 00:20:00 このセクションでは、スピーカーは、統計遺伝学における大規模なデータセットから要約関連統計を分析するというアイデアを紹介します。この方法は、統合失調症、関節リウマチ、クローン病など、個人レベルの遺伝子型や表現型ではなく要約統計データを利用して、サンプル サイズが大きい疾患を分析する場合に役立ちます。講演者は、層化 ld スコア回帰の方法を説明します。これは、さまざまな機能カテゴリからの LD を使用して、SNP 全体の疾患 GWAS からのカイ 2 乗関連統計を回帰するために使用されます。この方法は、1 より大きい平均カイ 2 乗は交絡を意味せず、SNP 全体の平均 LD スコアに依存するという考えに基づいています。

  • 00:25:00 このセクションでは、スピーカーは、SNP (一塩基多型) とその LD (連鎖不均衡) スコアに関連して、タグ付けシグナルと生物学的に原因となるシグナルの概念を説明します。彼らは、層化 LD (連鎖不均衡) スコア回帰の方法が、これらのスコアの交絡を検出するのにどのように役立つかについて説明しています。彼らはまた、ゲノム LD (連鎖不平衡) の問題と、それが集団と SNP の頻度に基づいてどのように変化するかについても触れています。次に、スピーカーは統合失調症のデータ セットの形式で実際のデータを提示し、この方法をさらに説明します。

  • 00:30:00 講義のこのセクションでは、回帰式を導入して、LD スコアを使用して SNP の遺伝率を推定します。回帰式の切片は交絡を反映し、勾配はカイ二乗統計量と LD スコアの間の相関を反映します。この勾配は SNP の遺伝率を推定するために使用でき、多重線形回帰のそれぞれの勾配は、さまざまな機能カテゴリの原因となる SNP の遺伝率について教えてくれます。量の濃縮は、特定の機能カテゴリによって説明される SNP 遺伝率の割合と、そのカテゴリの一部である SNP の割合を測定できます。勾配の機能的解釈は、機能カテゴリが重複しているかどうかによって異なります。

  • 00:35:00 このセクションでは、スピーカーは層別 LD スコア回帰について説明します。これは、さまざまな機能注釈の強化を評価するために使用されます。この方法は、SNP、エンハンサー、ヒストン マーカーなどのコーディングに適用されます。スピーカーは、原因カテゴリがモデルに含まれている場合、この方法は偏りのない推定値を生成しますが、原因カテゴリがモデルに含まれていない場合はバイアスがかかることに注意してください。ただし、いくつかのカテゴリが欠落している場合でも、モデルは残りのカテゴリに対して偏りのない推定値を生成するのに十分な豊富さを提供できます。講演者は、個々のレベルのデータ メソッドは現在、多数の重複または連続値の機能カテゴリで実行するように設計されていないことを強調しています。

  • 00:40:00 このセクションでは、スピーカーは、基本的なモデルの仮定を満たさない遺伝子発現データのトップ qtl の例を引用して、注意しないとディープラーニングのモデルの仮定に違反する可能性があることを説明します。次にスピーカーは、実際のクロマチンと遺伝子発現データへのディープラーニング手法の応用について議論します。講演者は、公開されている 17 の形質の要約統計を使用して、コーディング SNP が疾患や複雑な形質、特に自己免疫疾患と身長について豊富であることがわかりました。また、29 の哺乳動物で保存されている SNP が疾患に大きな影響を与えることもわかりました。さらに、ファントム 5 エンハンサーは、自己免疫疾患を大幅に強化することがわかりました。次に、特定の形質が生殖適応度とどのように高いまたは低い結合を持っているかに関して、これらの結果を解釈することに議論が移ります。

  • 00:45:00 このセクションでは、講師は、因果効果のサイズが大きいためではなく、特定の機能カテゴリが遺伝率のために強化される理由を説明します。一般的なスニップは、負の選択のために効果サイズにソフトな上限を持っているため、それぞれが中または小から中の因果効果サイズを持ち、何かを行う機能カテゴリのスニップの数に関するものです。講師はまた、疾患の重要な細胞型を推測する際の細胞型固有の規制注釈の重要性についても説明します。脳調節注釈は統合失調症で最も豊富であり、接続された骨調節適応は身長で最も豊富であり、免疫細胞タイプは関節リウマチで最も豊富です。ゲノム全体の多遺伝子アプローチは、これらの形質の数が非常に少ない可能性があるゲノム全体の重要なスニップに焦点を当てた従来のアプローチよりも、高度に多遺伝子の形質についてより優れた生物学的洞察を得ることができます。

  • 00:50:00 講義のこのセクションでは、スピーカーは遺伝子発現データを使用して、統合失調症や関節リウマチなどの特定の疾患に関連する特定の遺伝子を研究することについて説明します。彼らはまた、因果効果のサイズが ld のレベルに依存する ld 依存アーキテクチャの概念、および ld のレベルが低いスニップが 56 の異なる特性でより大きな因果効果のサイズを持つ方法についても言及しています。講演者は、負の選択に関連するこれらの調査結果の複雑さに言及していますが、単一細胞 RNA 配列決定データと疾患に重要な細胞型について議論する時間はありません。次に、スタンフォード大学の Manuel Rivas 教授を紹介します。教授は、電子医療記録、ゲノム関連研究、およびゲノミクスを組み合わせて、数千の表現型を持つ約 500,000 人の人口ベースの英国バイオバンク データセットを分析するプロセスについて説明します。

  • 00:55:00 このセクションでは、スピーカーは遺伝的関連の分解と呼ばれるアプローチについて説明します。これには、多対多のマッピングをより少ないコンポーネントに解きほぐして、遺伝的関連研究を表現することが含まれます。話者は切り捨てられた特異値分解アプローチを使用して、数千の形質と遺伝的分散の要約レベル データで構成される行列を表現しました。その結果、約 100 のコンポーネントの下位コンポーネントが生成され、それぞれが 3 つの行列の直交要素の積です。 .最初の 2 つのコンポーネントは、人体表現型によって特徴付けられ、スピーカーは、各バリアントが 2 つのコンポーネントにどのようにロードされるかを予測して、それらが異なる表現型にどのように影響するかを確認しました。

  • 01:00:00 このセクションでは、スピーカーは、脂肪成分と脂肪を含まない質量成分で構成されるボディマス指数 (BMI) など、特定の形質の構成成分と寄与成分を定量化する方法について説明します。 . BMI の遺伝的リスクは、他の成分の中でも特に脂肪成分が原因となります。講演者は、特定の Protein Truncating Variants (PTV) を研究し、強力な効果の大きさを特定することにより、体格指数に無脂肪効果を与えるだけでなく、脂肪生成または脂肪分解効果に寄与する可能性のある遺伝子変異体を特定することに関心があると説明しています。このプロセスを通じて、話し手は、コレステロール無脂肪質量が BMI に大きく寄与する遺伝子 pde3b と、奇胎生殖に機能的な影響を与える GPR 151 を特定します。 2000 の表現型の遺伝的関連性は、biobank engine.com.edu でオンラインで入手できます。これは、誰でもお気に入りの遺伝子、バリアント、または表現型を検索し、さまざまな人気のある遺伝子間で利用可能な一連の関連性を閲覧するための検索ポータルになるという考えです。バイオバンク。

  • 01:05:00 このセクションでは、講演者は、遺伝子機能に強い影響を与え、疾患のリスクを低下させる変異の同定について説明します。これにより、新しい治療仮説が生まれ、創薬の標的の選択を導くことができます。彼らは、複数のバイオバンクからの要約レベルのデータを組み合わせることによって、遺伝子機能と表現型に強い影響を与える特定の遺伝子変異体を特定するプロセスを説明しています。多遺伝子性の遺伝率や遺伝的影響の相関などの遺伝的パラメーターを推定することにより、遺伝学と形質/疾患との関係を視覚化し、推論を改善し、治療法開発を導くことを目指しています。喘息や 1 型糖尿病などの疾患に対する防御に対する強力な効果の突然変異とそれらの効果の例も提供されます。

  • 01:10:00 このセクションでは、プレゼンターがリスク予測モデルにおける遺伝子データの適用について説明します。人間は何百もの表現型に関連する多数の遺伝的バリアントを持っているため、これらのリンクを調査する 1 つのアプローチは、何百万もの単変量モデルをフィッティングすることです。しかし、このアプローチは、遺伝的バリアント間の相関のために予測に弱い性質を持っており、関連するバリアントを他のバリアントと区別することは困難です。したがって、多変量モデルは、数百万の変数を持つ大規模な回帰モデルを適合させることによって開発されます。これらのモデルに適合するように開発されたパッケージは、S-LDSC と呼ばれます。このモデルは、予測パフォーマンスを向上させる変数選択を可能にするペナルティ付き回帰フレームワークである Lasso アルゴリズムを使用します。

  • 01:15:00 このセクションでは、心血管、腎臓、肝臓のバイオマーカーを含む 35 のバイオマーカーに対する多遺伝子リスク スコア モデルの適用について説明します。この調査では、モデルのパフォーマンスを評価するために、70 のトレーニング データ セット、10 の検証セット、および 20 のテスト分割を作成しました。モデルのパフォーマンスはさまざまな母集団で測定され、結果は、これらの予測モデルを、予測に因果バリアントを使用するある母集団から他の母集団に転送することに関連する制限を示しました。この研究は、相関構造が異なる母集団間で異なり、モデルの予測性能に影響を与えることを示しました。さらに、遺伝的バリアントの異なるセットが表現型の遺伝率を説明する可能性があり、ある集団からの予測モデルの移行は他の集団ではうまく機能せず、遺伝的バリアント間の相関構造の関係が崩壊する可能性があります。これにより、予測精度を向上させるために、異なる集団間でデータを共有する必要が生じます。

  • 01:20:00 このセクションでは、スピーカーは、異なる集団の遺伝的バリアントを研究する場合、非ヨーロッパ人集団に特定のバリアントが存在しないことが効果量の不均一性に寄与する可能性があると説明しています。ただし、バリアントが複数の集団にまたがって存在する場合、効果の大きさはより均一になる傾向があります。リポタンパク質 a の例が与えられ、ヨーロッパの人口の分散に寄与する遺伝的変異体はアフリカの人口には存在せず、アフリカの人口ではパフォーマンスが低下するという説明があります.講演者はまた、英国バイオバンクの多遺伝子スコアとバイオトロピック効果に関連する研究プロジェクトに関心のある学生を監督する意欲を表明しています。
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
Systems Genetics - Lecture 14 - Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.08
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyPlaylist: https://you...
 

グラフ ニューラル ネットワーク - 講義 15



グラフ ニューラル ネットワーク - 講義 15 - 生命科学の学習 (2021 年春)

グラフ ニューラル ネットワークに関するこの YouTube レクチャーでは、スピーカーは、グラフ ネットワークの基本、スペクトル表現、半教師付き分類、多関係データ モデリングなど、幅広いトピックを取り上げます。また、グラフ ネットワークと自然言語処理の交差点、および創薬のためのグラフの生成方法にも焦点が当てられています。講師は、予測タスクに使用できる有用なノード埋め込みを取得するために、グラフ全体に情報を伝達するさまざまな方法について説明します。講義では、GNN の対照学習の重要性、パッチベースの表現と注意ベースの方法を組み合わせることの潜在的な利点、および NLP での変換アプローチの使用についても強調しています。講義の後半では、創薬における GNN の実用的な使用法と、ジャンクション ツリーを使用して分子の構造をエンコードおよびデコードする方法を紹介する論文に焦点を当てます。

このビデオでは、創薬や潜在グラフ推論など、ライフ サイエンスにおけるグラフ ニューラル ネットワーク (GNN) の複数のアプリケーションについて説明します。スピーカーは、空間的局所性の欠如や固定順序など、GNN の問題と潜在的な手段を強調し、考慮される設定には、特定のノードのタイプの予測、2 つのノード間のリンクの予測、2 つのノードまたは 2 つのネットワーク間の類似性の測定が含まれます。 、ネットワーク内のコミュニティ検出を実行してノードをクラスタリングします。講師は、GNN が効率的にグラフをトレーニングして埋め込み、情報を変換および集約し、ポリファーマシーの副作用に対処する方法についても説明します。さらに、この講義では、生命科学における表現を自動的に学習するための 2 つの方法について説明します。MARS のようなメタ学習モデルを利用して、新しい細胞タイプに一般化します。最後に、講義では、GNN が複数のデータセットにわたって潜在的な細胞表現を学習して、細胞型の不均一性を捉える方法について説明します。

  • 00:00:00 このセクションでは、講演者はグラフとタンパク質に関する 4 番目のモジュールと、グラフ ニューラル ネットワーク、タンパク質構造、およびドラッグ デザインに関する今後の講義を紹介します。講演者は、宿題、復習、論文を通して資料を復習し、今後のクラス内小テストに備えることの重要性を強調しています。目標は、生徒を騙したり驚かせたりすることではなく、生徒がこの分野を受け入れ、深く理解できるようにすることです。講演者はまた、この分野における革命的な進歩であるタンパク質フォールディングに関する AlphaFold チームによる今後の講義について学生に通知します。

  • 00:05:00 このセクションでは、講師がネットワークの概念と、生物学的ネットワークを含む社会のさまざまな側面にネットワークがどのように浸透しているかを紹介します。生物学的ネットワークには、細胞のさまざまなレベルで機能する制御ネットワーク、シグナル伝達ネットワーク、および代謝ネットワークが含まれます。相互に作用するこれらのネットワークの特性を理解するためのネットワーク分析手法が必要です。また、ノードとエッジを使用して確率的オブジェクトを表す確率的ネットワークについても言及されています。これらのネットワークの行列表現により、それらを分解し、コミュニティを学習し、線形代数アプローチを通じてモジュールを識別できます。

  • 00:10:00 講義のこのセクションでは、講演者は、ネットワーク解析とそのスペクトル表現に関する広範な作業の概要を説明します。説明する方法には、ラプラシアン行列の 1 番目と 2 番目の固有値に基づくネットワークの最大カットを使用してコンポーネントの分離可能性を識別すること、および拡散カーネルを使用して異なるエッジ間の情報の流れを理解することが含まれます。講演者は、講義で説明するグラフ ニューラル ネットワークなどの深層学習手法と組み合わせて使用できるため、この確立された文献を忘れないことの重要性を強調します。次に、講演者はゲスト講師の Neil Band を紹介します。Neil Band は、グラフ ニューラル ネットワークについて復習し、半教師あり学習、多関係データ、自然言語処理などの問題領域について説明します。

  • 00:15:00 このセクションでは、グラフ畳み込みネットワークを使用してノード機能または多くのグラフを計算し、ダウンストリーム操作を実行するために、グラフに情報を効果的に伝達する方法を学びます。このネットワークは、ネイバーから将来の情報を受信して引き出すことにより、フィーチャ情報を集約し、特定のノードを更新できます。 GNNS の最終目標は、グラフ全体のプロパティを予測したり、個々のノードのタイプを予測したりするために使用できる 1 つの埋め込みベクトルを生成することです。更新ルールは、ノードの非表示表現からの伝播情報と、直近の近隣から受信した更新に基づいています。さらに、モデルのパラメーターの数を減らすために、異なるものを適用する代わりに、同じ重み行列が共有パラメーターとともにすべての近隣に適用されます。

  • 00:20:00 このセクションでは、講師はグラフ ニューラル ネットワークを使用して、論文をノード、引用リンクをエッジとする引用ネットワークで分類タスクを実行するプロセスについて説明します。 2 層のグラフ畳み込みネットワークが適用されます。これには、グラフ内の各ノードを更新してすぐ近くのノードから情報を吸収し、出力を取得することが含まれます。講師は、深いネットワークで過度に平滑化することの潜在的な欠点に言及し、初期状態のメモリを保存するためにゲート付き再帰ユニットを使用することを提案しています。さらに、講師は、アテンション ベースの方法とパッチ ベースの表現を組み合わせて、グラフ ニューラル ネットワークの高次表現を学習する可能性について説明します。

  • 00:25:00 このセクションでは、講師が、グラフ畳み込みネットワーク、アテンション アップデート、メッセージ パッシング テクニックなど、グラフ ニューラル ネットワークのさまざまなパラダイムについて説明します。メッセージパッシングでグラフが密集しすぎると発生する可能性のあるメモリの問題を強調していますが、これらのパラダイムがさまざまな種類の学習タスクに役立つことを強調しています。次に、グラフの半教師付き分類に飛び込みます。この分類では、明示的なノード機能がなくても、伝達設定によりモデルが迅速に学習できるようになります。最後に、講師はリレーショナル グラフ畳み込みネットワークに触れます。これは、自然言語処理などのマルチリレーショナル データのモデル化に使用できます。

  • 00:30:00 このセクションでは、講師がグラフィカル ネットワークと自然言語処理の関係、特に NLP での変換モデルの使用について説明します。トランスフォーマー モデルは、一般的に、言語翻訳や単語の一般的な概念理解の学習などのタスクに使用されます。トランスフォーマーのアプローチは、多くのエッジが欠落している生物学的ネットワークとは異なり、完全に接続されたグラフから開始し、自己注意を使用してノードの埋め込みを更新してから、更新されたバージョンを出力します。トランスフォーマーのアプローチは必ずしも生物学的ネットワークに利益をもたらすとは限りませんが、戦略の相互受粉と 2 つの分野間の最適化の可能性があります。

  • 00:35:00 このセクションでは、2 単語の文に対して単語埋め込み更新を実行する方法と、特定の単語を他のすべての単語に対してルックアップする方法について学習します。グラフ アテンション ネットワークは、これと同じ方法を使用しますが、近傍全体がグラフであると仮定し、位置埋め込みがあることを除きます。講演者は、グラフの接続情報をアーキテクチャに組み込む方法と、グラフの一部をマスクして、以前に言及された単語のみを使用する方法について説明します。これらの方法を相互に適用する機会はたくさんあります。

  • 00:40:00 このセクションでは、講師は、ノード分類やグラフ分類などのダウンストリーム タスク用の学習ノード埋め込みの教師なし学習設定について説明します。ニューラルネットワークの能力を向上させて特定化するために、講師はデータ増強の概念を説明し、対照的な学習アプローチでそれがどのように使用されるかを説明します.この講義では、サンプリング戦略、さまざまな種類のノード表現、さまざまな種類のスコアリング関数などの設計パラメーターについても説明します。 1 つのアプローチは、スコアリング関数を使用して、特定のクラスのローカル表現とグローバル表現の間の相互情報を最大化することです。これにより、ネットワークがグラフのさまざまな情報のサブセットからクラス関連の情報を引き出すようになり、ノードの埋め込みがより堅牢になり、下流のパフォーマンスが向上します。

  • 00:45:00 このセクションでは、スピーカーは、グラフ ニューラル ネットワーク (GNN) におけるノード埋め込みの次元と、GNN に対する対照学習の使用について説明します。講演者は、実際には、GNN のノードのプロパティは、大きなグラフの単一ノードの 256 または 512 次元などの高次元空間に存在する可能性があると説明しています。話者はまた、グラフ構造の符号化を改善するために、正例と負例を使用してグラフ構造を符号化することを含む対照学習を分類の代わりに使用できることにも言及しています。最後に、講演者は GNN における設計決定のポイントを要約し、リンク予測とノード分類のための近隣ベースのスコアリングの有効性と、ノード表現のタイプを選択する際にノードの特徴とグラフの構造の両方を考慮することの重要性を強調します。 .

  • 00:50:00 このセクションでは、スピーカーはグラフを生成する 2 つの方法について説明します。最初の方法は、標準的なグラフ ニューラル ネットワークまたはグラフ畳み込みネットワークをエンコーダとして使用し、埋め込みの関数を使用して、既知のエンティティ間の新しいリンクを予測することです。デコーダー。エッジが存在する確率は、それに付随するノードに基づいており、他のすべてのエッジとは無関係です。 2 番目の方法は、1 つの特定の状態を使用して、グラフ全体の単一の埋め込みベクトルを持つグラフを生成します。これは、特定のノードごとに追加するときに一連の予測を行う Graph RNN を使用してデコードされます。この方法では、グラフの生成方法について誘導バイアスをできるだけ少なくしようとします。後者のアプローチは創薬に使用されており、特に Junction Tree Variational Autoencoder に関する論文では、以前に合成または特性化されているかどうかに関係なく、高い効力を持つ de novo 分子を生成するために使用されています。

  • 00:55:00 このセクションでは、グラフ ニューラル ネットワークを使用して分子の構造をエンコードおよびデコードするための論文のアプローチについて説明します。このアプローチでは、細粒度の分子グラフを使用して状態をエンコードし、ツリー分解を使用してグラフの上位レベルの構造をデコードします。ジャンクション ツリーを使用してグラフ内のサイクルを削除することにより、作成者はデコード プロセスを簡素化し、ノードのラベルと子ノードを追加するかどうかのみを予測して、分子の有効な高レベル構造を得ることができます。著者らは、これまでに構築されたサブツリーのすべての状態を含むゲート付き反復ユニットを使用し、分子的妥当性に関して高い再構成率を達成しています。ベイジアン最適化は、新薬を生成するための潜在空間のナビゲート可能性を評価するために使用されます。

  • 01:00:00 このセクションでは、生命科学におけるグラフ ニューラル ネットワーク (GNN) の 2 つのアプリケーションについて説明します。最初のアプリケーションは創薬の分野で、GNN を使用して分子の潜在変数を推測し、その化学的性質を予測します。モデルは、エンコーダー/デコーダー フレームワークを使用してトレーニングされ、ベイジアン最適化を使用して最適化されます。 2 番目のアプリケーションは潜在グラフ推論であり、GNN を使用して、時間の経過とともに発生するダイナミクスのセットをエンコードすることにより、問題の隠れた構造をモデル化します。このモデルは、将来の結果を予測するために使用でき、因果関係の発見に適用できます。スピーカーは、おもちゃのデータと実際のモーション キャプチャ データを提示して、これらのアプリケーションにおける GNN の有効性を示します。

  • 01:05:00 このセクションでは、スピーカーはグラフ ニューラル ネットワークの問題と潜在的な手段について説明します。メッセージパッシングと近傍集約における同型のテストとの有界検出力と理論的関係、グラフ内の循環を見つける際のツリー構造の計算グラフの課題、過度の平滑化の問題など、いくつかの問題が言及されました。ただし、スピーカーは、これらのネットワークのスケーリング、大規模なデータ セットでの学習、およびシーケンスとグラフ間のマルチモーダルおよびクロスモーダル学習の試行にも有望だと考えています。これに続いて、スタンフォード大学のポスドクが、生物学的ネットワークにおける深層学習と、グラフとして表されるデータについて、より広く適用可能な深層ニューラル ネットワーク フレームワークがどのように必要とされるかについて説明します。ディープ ラーニングは今日の機械学習のライフ サイクルに対する考え方を一変させましたが、グラフとして表される複雑なデータに対してディープ ラーニングを使用および適用する方法は不明であると説明されています。

  • 01:10:00 このセクションでは、空間的局所性と固定順序の欠如、基準点の欠如、グラフの動的な性質など、グラフ データの学習の複雑さについて説明します。グラフの表現学習の目標は、ノードを低次元の埋め込み空間にマッピングするための入力としてグラフを受け取るマッピング関数を学習する方法を見つけることです。効率的なタスクに依存しない特徴学習は、ネットワーク上での機械学習のこのプロセスの重要な目標です。考慮される設定では、各ノードに関連付けられた隣接行列とノード機能を含むグラフを想定しています。このグラフから、特定のノードのタイプを予測し、2 つのノード間のリンクを予測し、2 つのノードまたは 2 つのネットワーク間の類似性を測定し、クラスター化することを目標としています。ネットワークでコミュニティ検出を実行することにより、ノードを検出します。深層ニューラル ネットワークをグラフに適用する最も単純なアプローチが提示されていますが、ノード数に応じたネットワーク内のパラメーター数の増加、トレーニングの不安定性、オーバーフィッティングの可能性の増加など、その限界が強調されています。

  • 01:15:00 このセクションでは、講演者は、畳み込みニューラル ネットワークから借用したアイデアを使用して、グラフ ニューラル ネットワークがグラフを効率的にトレーニングおよび埋め込む方法について説明します。ノードの近傍は、ニューラル ネットワークの構造を定義します。重要なアイデアは、ローカル ネットワークの近傍に基づいてノードの埋め込みを生成することです。スピーカーは、順列不変であるメッセージ変換および集約演算子を生成するために情報を集約および変換する方法を示すことにより、この概念を説明します。これらの演算子を学習して、ノード情報を変換し、対象のプロパティを予測できます。

  • 01:20:00 このセクションでは、スピーカーはグラフ ニューラル ネットワークの変換と集計プロセスについて説明します。基本的なアプローチは、ノードからの情報を平均化し、ニューラル ネットワークを線形変換に適用してから非線形性を適用することです。スピーカーは、GraphSAGE アルゴリズムの例を提示します。ここでは、一般化されたアグリゲーター関数が導入されて、ノードのローカル近傍の機能が結合されます。平均セル、プーリングセル、LSTM セルなどの微分可能な集計関数を使用して、隣接セル全体の情報を集計できます。講演者はまた、生物学におけるグラフ ニューラル ネットワークの使用と、それらを使用して特定の行動や結果を予測する方法についても説明します。

  • 01:25:00 このセクションでは、講師は、薬の組み合わせによって生じる副作用であるポリファーマシーの副作用の概念について説明します。講師は、目標は、異種ネットワーク内のノードとしてモデル化することにより、2 つの薬の組み合わせによる副作用の可能性を推定することであると説明します。講師は、薬物とタンパク質をネットワークでモデル化して、薬物の作用メカニズムとその根底にある生物学的メカニズムを捉える方法の例を示します。次に講師は、グラフ ニューラル ネットワーク (GNN) を拡張して異種ネットワークを埋め込む方法について説明します。ここでは、近傍をエッジ タイプで分離する必要があります。また、各エッジのノードのネットワーク近傍によって定義されるグラフ全体に情報を変換して伝播する方法についても説明します。タイプ。

  • 01:30:00 このセクションでは、講師が生命科学における表現を自動的に学習する 2 つの方法について説明します。最初の方法はリレーショナル グラフ ニューラル ネットワークに基づいており、グラフ内の各ノードの d 次元ベクトル埋め込みを学習することにより、2 つの薬が副作用をもたらすかどうかを予測するために使用できます。 2 番目の方法は、MARS と呼ばれるメタ学習モデルです。これは、以前に注釈が付けられたデータからの事前知識を活用して、これまで見たことのない斬新な細胞型に一般化します。注釈のない実験とメタデータ セットを最適化することで、MARS は自動的に細胞に細胞型に注釈を付け、遺伝子発現プロファイルに基づいて細胞に注釈を付けるという面倒な手作業を回避できます。

  • 01:35:00 講義のこのセクションでは、スピーカーはグラフ ニューラル ネットワークを使用して複数のデータセットにまたがる潜在的な細胞表現を学習し、細胞型の不均一性を捉えることについて説明します。このアプローチには、類似した細胞型が近くに埋め込まれ、異なる細胞型が遠くに埋め込まれた低次元埋め込み空間での注釈付きおよび注釈なしの実験からの細胞の共同投影が含まれます。これを達成するために、メソッドは、細胞タイプの代表としての細胞タイプのランドマークと、ディープ ニューラル ネットワークを使用した非線形マッピング関数を学習します。このアプローチは、20 を超える組織からの 100,000 を超える細胞を含む大規模なマウス細胞アトラス データで検証され、調整済みランド インデックスに関して既存の方法よりも 45% 優れたパフォーマンスを達成します。
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
Graph Neural Networks - Lecture 15 - Learning in Life Sciences (Spring 2021)
  • 2021.04.19
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Neil Band, Maria Brbic / Jure LeskovecDeep Learning in the Life Scienc...
 

医薬品設計のための AI - 講義 16


AI for Drug Design - 講義 16 - ライフ サイエンスにおけるディープ ラーニング (2021 年春)

この講義では、創薬における深層学習の使用について説明します。深層学習を使用して、抗生物質耐性を持つ新規化合物を見つける方法について説明します。また、生物学的知識を組み込むことで、深層学習モデルをどのように改善できるかについても説明します。

講義のこの 2 番目の部分では、医薬品の設計、特に医薬品の組み合わせの抗ウイルス活性を予測するためにディープ ラーニングを使用する方法の概要を説明します。このモデルは、細胞ベースのアッセイを使用して in vivo でテストされ、2 つの新しい相乗的な薬物の組み合わせが特定されました。

  • 00:00:00 講演者は、医薬品設計のためのディープ ラーニングとその課題について紹介します。彼は機能空間と化学空間について議論し、ディープラーニングを使用して薬物を自動的に見つける方法を説明します。

  • 00:05:00 医薬品設計への 3 つのアプローチは、第一原理、シミュレーション、仮想スクリーニングに基づいています。最初の 2 つは特定の特性を持つ化合物を見つけるのに適していますが、最後の 2 つはより野心的で、互いに独立した特性を調べることによって適切な化合物を見つけようとします。シミュレーションは遅すぎることが多く、仮想スクリーニングはコストがかかります。 Denoble ドラッグ デザインは最も野心的なアプローチであり、一連の基準を調べることによって化合物を見つけるという逆の問題を解決しようとします。

  • 00:10:00 このレクチャーでは、スピーカーは創薬のための 2 つの方法、バーチャル スクリーニングとノーブル ドラッグ デザインについて説明します。どちらの方法にも長所と短所があり、仮想スクリーニングは従来の方法よりも高速で安価ですが、対象範囲が狭くなります。ノーブル ドラッグ デザインは低速ですが、より多くの新規化合物を見つけることができます。遺伝的アルゴリズムは化学分野を探索する効果的な方法ですが、このタスクのアルゴリズムにはまだ改善の余地があります。

  • 00:15:00 この講義では、ディープ ラーニングが医薬品設計にどのように使用されているか、またディープ ラーニングが従来の手法よりも効率的である方法について説明します。彼はまた、深層学習を使用してオブジェクトのリアルな画像を生成する方法を示す「Dolly」と呼ばれる論文についても言及しています。

  • 00:20:00 この講義では、教授が創薬で使用されるディープ ラーニング技術について説明し、これらの技術が研究者による新しい抗生物質の発見にどのように役立ったかの例を示します。
     
  • 00:25:00 グラフ ニューラル ネットワークは、細菌を殺すことができる新しい化合物を検索するために使用される人工知能の一種です。この種の AI を使用する目的は、従来の方法では未知の抗菌パターンを見逃す可能性があるため、従来の方法では発見されない化合物を見つけることです。

  • 00:30:00 この講義では、深層学習を使用して抗生物質耐性に関連するデータのパターンを特定する方法について説明します。このモデルは、分子が細菌に対して有効かどうかを約 9.0 auc の精度で予測できます。

  • 00:35:00 このビデオでは、既存の抗生物質が一部の細菌株に対してもはや効果的ではないこと、および「ハルシン」と呼ばれる新しい化合物がどのようにしてこれらの菌株に対して新規かつ効果的であるかについて説明しています.また、化合物がマウスの感染症に対してどのように有効であるかについても説明します。

  • 00:40:00 ビデオでは、抗生物質耐性を持つ新しい化合物を発見する際に、従来の方法よりもディープ ラーニング モデルが成功したことについて説明しています。このビデオでは、従来の方法であるハンド デザインでは、抗生物質耐性を持つ特定の化合物を発見できないことも示しています。深層学習モデルは空間のさまざまな部分を捉えることができ、モデルによって高く評価されています。

  • 00:45:00 講演者は、医薬品設計に使用されるディープ ラーニング モデルについて説明し、生物学的知識を組み込むことでモデルを改善する方法を説明します。彼は、単一の薬よりも効果的であることがわかった薬の組み合わせのケーススタディを提示します.

  • 00:50:00 ビデオでは、医薬品設計のための AI について説明しています。特に、相乗効果のある化合物を特定するためのディープ ラーニングの使用に焦点を当てています。目標は、相乗的で毒性の低い薬を見つけ、ウイルス複製サイクルの知識をモデルに組み込むことです。

  • 00:55:00 講義では、さまざまな標的に対する薬物の抗ウイルス活性を予測するためにどのように使用できるかに焦点を当てて、薬物設計のためのディープ ラーニング手法について説明します。最初のステップは、Campbell と National Institute of Health のデータ セットを使用して、薬物標的相互作用を予測することです。次に、ニューラル ネットワークを使用して分子構造の表現を学習します。これは、医薬品設計プロセスの第 2 段階で必要となります。つまり、さまざまな標的に対する医薬品の抗ウイルス活性を予測します。深層学習と行列補完を組み合わせることで、医薬品設計を改善する可能性が強調されます。

  • 01:00:00 この講義では、医薬品の設計、特に医薬品の組み合わせの抗ウイルス活性を予測するために、ディープラーニングをどのように使用できるかについて説明します。このモデルは、細胞ベースのアッセイを使用して in vivo でテストされ、2 つの新しい相乗的な薬物の組み合わせが特定されました。

  • 01:05:00 この講義では、ライフ サイエンスにおけるディープ ラーニングと、創薬におけるディープ ラーニングの重要性に焦点を当てます。講義では、薬物設計に対する 2 つの従来のアプローチについて説明します。1 つはシーケンスを使用し、もう 1 つはリカレント ニューラル ネットワークを使用します。講義では、分子のスマイル ストリーム表現は非常に脆弱であり、この手法を創薬に適用するとパフォーマンスが低下することが指摘されています。講義では、分子を表現するより良い方法はグラフを使用することであり、再帰型ニューラル ネットワークを使用して効率的に生成できることを指摘しています。

  • 01:10:00 講義では、ライフ サイエンスにおけるディープ ラーニング、特に医薬品設計に関連するものについて説明します。講義では、深層学習を使用して分子を生成できますが、疎な分子と低木の波のモチーフに問題があることが指摘されています。再帰型ニューラル ネットワークが解決策として提案され、低いツリー ウェーブ モチーフを持つ分子でより成功することがわかりました。

  • 01:15:00 この講義では、分子を低次元ベクトルにエンコードできるディープ ラーニング オートエンコーダーに焦点を当てて、ライフ サイエンスにおけるディープ ラーニングについて説明します。これにより、生成できるモチーフの数と、プロセスの時間の複雑さが軽減されます。

  • 01:20:00 この講演では、深層学習を使用して創薬におけるモチーフ再構成の精度を向上させる方法について教授が説明します。多面的なモチーフ生成モデルは、分子内の大きなサイクルの捕捉を可能にするため、有利です。ノードごとのアプローチを使用したモチーフ生成の成功率は、配列空間の表現が間違っているため低くなります。ただし、モチーフごとのアプローチを使用すると、成功率が大幅に向上します。これは、モデルが既存の分子を変更して薬物の類似性を改善することを学習できるためです。

  • 01:25:00 講演者は、ライフ サイエンスにおけるディープ ラーニングの概要を簡単に説明し、各分野の課題と機会を強調します。彼女は化学とドラッグデザインの議論で締めくくります。

  • 01:30:00 この講義では、ゲスト講師が、創薬のための人工知能の分野でプロジェクトを追求することに関心のある学生にアドバイスを提供します。彼らは、学生が必要に応じて指導を受けることができると述べています。
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
AI for Drug Design - Lecture 16 - Deep Learning in the Life Sciences (Spring 2021)
  • 2021.04.21
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecture: Wengong JinDeep Learning in the Life Sciences / Computational Systems Bi...
 

タンパク質フォールディングの深層学習 - 講義 17



タンパク質フォールディングのディープ ラーニング - 講義 17 - ライフ サイエンスにおける MIT ディープ ラーニング (2021 年春)

このビデオでは、タンパク質フォールディングの分野におけるディープ ラーニングの使用について説明します。具体的には、幾何学的ディープ ラーニングを使用してタンパク質構造を研究し、リガンド結合部位やタンパク質間相互作用などを予測する方法について説明します。このビデオでは、テンプレート ベースとテンプレートを使用しないモデリング手法、タンパク質フォールディングにおける接触予測のさまざまなアプローチ、およびタンパク質構造予測における画像モデリングのための残差ニューラル ネットワークの使用についても説明します。全体として、スピーカーは、タンパク質の構造とその機能の理解を深める上でのディープラーニングの可能性を強調し、この主張を裏付ける詳細な例と結果を提供します.

このビデオでは、正確なモデリングのための共進化予測とテンプレートの使用、より優れた同族体を見つけることの重要性、従来の物理学ベースの手法に頼らずに同等の結果を達成するためのディープ ラーニングの可能性など、タンパク質フォールディングのディープ ラーニングへのさまざまなアプローチについて説明します。メソッド。スピーカーはまた、微分可能な出力の使用とグローバル精度の重要性、アルゴリズム空間の進化、および遺伝的変異や小分子などの要因に基づいてタンパク質の確認を予測するディープラーニングの可能性についても掘り下げます。全体として、このビデオは、ディープ ラーニングがタンパク質構造予測とその多くのアプリケーションに革命をもたらす可能性を強調しています。

  • 00:00:00 ビデオのこのセクションでは、Bruno Correa が幾何学的深層学習の概念と、それがタンパク質構造の研究にどのように適用されるかを紹介します。彼は、深層学習が画像分類でどのように成功しているかを説明していますが、生物学のデータセットは一般に、さまざまな時間やその他の次元を含む、はるかに豊富で高次元であるため、幾何学的深層学習が価値のあるアプローチになっていると説明しています。 Correa は、機械的および化学的機能から結合および認識まで、その機能におけるタンパク質構造の重要性について説明し、抗体、イオンポンプ、コミュニケーションおよび剛性タンパク質などの例を提示します。彼はまた、タンパク質表面を研究する作業が AlphaFold によって対処されているかどうかという問題に取り組み、AlphaFold はタンパク質構造を解決したが、具体的にはタンパク質表面の研究ではないと説明しています。

  • 00:05:00 このセクションでは、スピーカーは、構造からタンパク質の機能を予測する際の課題について説明します。これは、タンパク質が細胞内で互いにどのように相互作用し、他の代謝物とどのように相互作用するかを理解するために重要です。講演者は、タンパク質構造を表現するさまざまな方法を提示します。配列や構造が類似していなくても、同様の機能を持つ可能性のある表面表現に焦点を当てています。スピーカーは、人の顔を研究するのと同じように、タンパク質表面のパターンを研究することで、その機能に関する重要な情報を明らかにできると主張しています。次にスピーカーは、3D 分子表面表現を使用してタンパク質リガンド結合部位を予測するための深層学習アプローチを紹介します。

  • 00:10:00 ビデオのこのセクションでは、講演者は、タンパク質の折り畳みの問題に対する幾何学的深層学習の使用について説明しています。彼らは、幾何学的ディープ ラーニングのプロトタイプ オブジェクトはグラフまたはサーフェスであり、チームはそれらを研究するためにタンパク質のメッシュ表現を使用したと説明しています。次に、各ノードに複数のベクトル機能を持つメッシュのサブセットである「パッチ」の使用方法と、それらにローカル ウェイトを割り当てる方法について説明します。スピーカーは、形状インデックス、距離依存の曲率、疎水性、静電特性など、各ノードにエンコードされたさまざまなタイプの機能について説明します。この情報は、さらなる分析のためにベクトルに転用されました。

  • 00:15:00 このセクションでは、幾何学的深層学習アプローチが分子の配列に関係なく分子の表面をエンコードし、原子のパターンと化学的性質の研究を可能にする方法について話します。講演者は、特定のリガンドの特徴に基づいてタンパク質ポケットを分類したり、表面フィンガープリントを使用して 2 つのタンパク質のドッキング構成を予測したりするなど、このアプローチの潜在的なアプリケーションに注目しています。どの因子が特異性の予測により寄与するかを理解するためにアブレーション研究が実施され、化学と幾何学の両方が重要であることが判明しました。全体として、このアプローチは、タンパク質の構造とその機能の理解を深める上で有望です。

  • 00:20:00 このセクションでは、スピーカーは、特定のタンパク質表面のどのサイトが他のタンパク質と相互作用する可能性が高いかを予測できる、マッシブ サイトと呼ばれるネットワークについて説明します。また、ドッキングに使用される指紋スキャン技術と、他のドッキング プログラムと比較したこのアプローチの成功率についても説明しています。講演者は、D マッシブと呼ばれる次世代のマッシブを紹介します。これは、完全に微分可能なネットワークを使用して、タンパク質表面を記述する点群を作成し、静電特性を含む幾何学的および化学的特徴を計算します。最後に、講演者はプロジェクトのエキサイティングな設計面について簡単に言及し、がん治療における T 細胞の活動を制御するための重要なターゲットについて説明します。

  • 00:25:00 このセクションでは、スピーカーはディープラーニングを使用して、タンパク質を標的とする分子をどのように設計したかについて説明します。彼らは大量を使用して、設計分子の標的になりやすい部位を予測し、標的表面のフィンガープリントを抽出しました。次に、モチーフをこの部位にドッキングし、目的のタンパク質との相互作用を予測しました。その結果、自然界ではこれまで知られていなかった新しいモチーフが得られ、実験構造との二乗平均平方根偏差が約 1 オングストロームで一致することに成功しました。これは、タンパク質に結合する高親和性バインダーであることを示しています。講演者は、この研究分野の探求に関心のある学生に潜在的にアドバイスすることを提案します。

  • 00:30:00 講義のこのセクションでは、スピーカーは、タンパク質構造予測方法の 2 つの主要なカテゴリである、テンプレート ベースのモデリングとテンプレートを使用しないモデリングについて説明します。テンプレートベースのモデリングは、PDB データベース内の既存のタンパク質構造をテンプレートとして使用して新しい構造を予測することに依存していますが、テンプレートを使用しないモデリングは、相同性検索と機械学習を使用してテンプレートに依存せずに構造を予測する最近の方法です。講演者は後者の方法に焦点を当て、配列相同性検索、シグナル プロファイリング、および機械学習を使用して、テンプレートに依存せずにタンパク質構造を予測する新しいアプローチについて説明します。これは、多くのタンパク質について、テンプレート ベースの方法よりも精度が高いことを示しています。スピーカーは、過去に使用された一般的なテンプレート ベースのモデリング アプローチであるフラグメント アセンブリ法についても説明します。

  • 00:35:00 講義のこのセクションでは、スピーカーは、タンパク質フォールディングのテンプレートを使用しないモデリングに使用されるパイプラインについて説明します。タンパク質内の任意の 2 つの原子または残基間の距離に関する予測情報が最適化エンジンに入力され、構造が構築されます。講演者はまた、必要な範囲または炭素残基の数にカットオフ値を使用するなど、複数の配列アラインメントのさまざまな戦略についても説明します。このモデリングの重要なコンポーネントは、帰納行列を予測し、コンテンツ メジャーまたは距離メトリックを使用して間投詞メジャーをモデル化することです。講演者は、接触位置予測の効果的なアイデアをいくつか紹介します。これにより、近年、予測がはるかに簡単になり、コラボレーションがはるかに効果的になりました。

  • 00:40:00 このセクションでは、スピーカーはタンパク質フォールディングにおける接触予測のための 3 つの異なるアプローチについて説明します。最初のアプローチは、連携分析のためのグローバルな統計手法ですが、有効にするには多数の配列相同体が必要です。 2 番目のアプローチは、接触距離の予測に深い畳み込み残差ニューラル ネットワークを使用するもので、3 番目のアプローチは、タンパク質データ バンクからの配列と構造情報の両方を考慮に入れた接触予測のための変換ネットワークです。また、講演者は、接触予測のための以前の教師あり学習方法が直面した課題と、より高度な機械学習モデルを使用してそれらを改善する方法についても説明します。

  • 00:45:00 このセクションでは、スピーカーは、一度に 2 つの残基しか考慮せず、したがってタンパク質全体のより大きな関係を無視した、タンパク質フォールディングの以前の接触予測方法の限界について説明します。これらの問題に対処するために、講演者はディープラーニングを使用してタンパク質内のすべての接触を同時に予測する新しい方法を提案しています。この方法は、各原子ペアを画像内のピクセルとして扱うことに基づいており、画像セグメンテーション タスクとして問題を定式化するために使用できます。完全な畳み込み残差ニューラル ネットワークを使用することで、スピーカーは、彼らの方法が接触予測の精度を大幅に向上させ、より大きくて硬いタンパク質の折り畳みを可能にすることを示しています。さらに、この方法は単鎖タンパク質と膜タンパク質の両方でうまく機能し、モデルを変更せずに複雑な接触予測に使用できます。

  • 00:50:00 このセクションでは、残差ニューラル ネットワークを使用して、畳み込みニューラル ネットワークを使用した画像モデリングを通じてタンパク質の構造を予測する方法について説明します。彼らは、残差接続を使用することで、より深いネットワークを使用できるようになり、過剰適合することなく精度が向上すると説明しています。講演者は、他の方法と比較したランキングと精度における彼らの方法のパフォーマンスのいくつかの結果を示し、深層学習アプローチの成功を示しています。精度は過去 8 年間で向上し、現在では精度が 80% まで向上しています。

  • 00:55:00 このセクションでは、スピーカーは、タンパク質フォールディングの深層学習モデルを使用した接触位置と設計位置の進歩について説明します。接触精度は大幅に改善され、現在の精度は 80% で、以前の試験よりもはるかに有用です。講演者は、デジタル ネットワークを設計位置に使用するプロセスと、一時ベースのモデリングを大幅に改善する方法について説明します。講演者はまた、コード ロシア語情報の重要性についても説明し、特定の発酵タンパク質についても、それを使用しなくても良好な予測を達成できることを示しています。この結果は、深層学習が新しい構造を生成できること、および正確な予測には少数の配列ホルモンが必要であることを示唆しています。

  • 01:00:00 このセクションでは、スピーカーは、タンパク質モデリングを改善するための配列および構造情報の使用について説明します。彼らは、既存の予測をトレーニング セットへのフィードバックとして使用して、共進化予測を強化し、より優れた配列ベースの予測因子に導くというアイデアを探っています。また、テンプレート情報の使用と、正確なモデリングのために適切なテンプレートを見つけることの重要性についても説明します。さらに、彼らはタンパク質モデリングにおける物理学の役割に疑問を呈し、物理学に基づく方法はモデルの改良に役立つ一方で、ディープラーニングは物理学を使用せずに同等の結果を達成できることを示唆しています.

  • 01:05:00 このセクションのビデオでは、テンプレートを使用せずに非常に大きなタンパク質をモデル化する方法について説明しています。サンプル タンパク質には 13,000 を超える残基があり、従来の方法で正確にモデル化することは困難です。しかし、異なるアンサンブル手法を組み合わせ、iPhone2 のワークフローを利用することで、タンパク質は高精度にモデル化されます。このビデオでは、Transformer を使用するには大量の GPU パワーとメモリが必要であり、ほとんどの人にとって使いにくいことも指摘しています。ただし、機械学習モデルは、トレーニング データのセットが少なくても実行可能です。さらに、モデルのベースとなるより良い相同体を見つけることは、さらなる研究を通じて改善できる潜在的なボトルネックです。最後に、3D モデリングの困難なターゲットの進行状況グラフが表示されます。スコアが高いほど、予測モデルの品質が高いことを示します。

  • 01:10:00 このセクションでは、Muhammad Al-Qaraghuli が過去 20 年間のタンパク質構造予測のアルゴリズム空間の進化について語っています。彼は、以前の方法が、物理学に基づくモデルとエネルギー関数を使用してタンパク質の最低エネルギー状態を取得することに重点を置いていた方法について説明していますが、最近の方法では共進化を利用して、さまざまな確率論的推論手法を使用して情報を抽出しています。 Al-Qaraghuli は、これらの方法の精度は追加の配列情報なしでは制限されたままであることに注目し、ディープラーニングがタンパク質構造予測、特に膜および膜貫通タンパク質の構造予測のゲームチェンジャーになったことについて説明しています。

  • 01:15:00 このセクションでは、講演者は、2010 年代初頭の教師なし手法の使用から始まり、Jim Wazoo の研究などの独自のネットワークベースのアプローチによるディープ ラーニングの導入に始まり、タンパク質フォールディングのディープ ラーニング アプローチの進化について説明します。 2016 年に RaptorX を使用し、大文字の X 18 による残差ネットワーク アーキテクチャを使用しました。講演者は、2018 年にエンドツーエンドの微分可能なアプローチの最初のセットが開発されたことについて説明します。これは、必ずしも既存の方法と競合するものではありませんでしたが、予測ははるかに高速です。最新の開発である AlphaFold 2 は、マルチプル シーケンス アラインメント (MSA) オブジェクトをロー オブジェクトとして扱い、シーケンスと系統発生の高次相関とグローバルな側面を潜在的に捉えます。最後に、講演者はタンパク質フォールディングの聖杯 - 個々のタンパク質配列から AlphaFold 2 と同様に機能する能力 - について説明します。

  • 01:20:00 このセクションでは、講演者はタンパク質が in vitro で折り畳まれる能力と、細胞内のシャペロンがこのプロセスを導く程度について議論します。彼らはまた、タンパク質の一次配列に存在する情報の量と、タンパク質を変化させる突然変異の影響を予測するのに十分かどうかを調べます.彼らは A2 タンパク質の予測について議論しており、すべての物理的側面が存在している必要がなくても、個々の配列から予測できる可能性があることを示しています。最後に、空間のアルゴリズムが導入されます。これには、入力、ニューラル ネットワークの胴体、出力 (通常は構造に関連するプロキシ オブジェクト) が含まれ、後処理パイプラインを介して送信され、最終的な 3 次元が生成されます。構造。

  • 01:25:00 このセクションでは、講演者はディープ ラーニング モデルから生成される出力の微分可能性の重要性について説明します。出力が実際の目標からかけ離れている場合、潜在的な最適化が失われます。講演者はまた、自己矛盾した予測につながる可能性がある後処理の使用と、ディープ ラーニング モデルの実装がプロキシ量を必要とせずに最終的な周波数構造を予測する方法についても説明します。彼らのアプローチでは、ねじれ角の個別のアルファベットを使用してローカル ジオメトリをパラメーター化し、そのアルファベットの確率分布を予測します。そうすることで、エンジンの微分性を維持できるため、最終構造の効率的な最適化が可能になります。

  • 01:30:00 このセクションでは、スピーカーは、各残基の自由ねじれ角と反復プロセスを使用してタンパク質の構造を構築するアプローチについて説明します。損失関数は、元の構造を形成する際の残基間の相互作用を説明するために、ローカル精度だけでなくグローバル精度の観点から定義されます。講演者は、彼らのアプローチは限られているものの、ニューラル ネットワークの内部で起こっている構造の暗黙の均質化があり、時間の経過とともにより良い予測につながると信じていることを認めています。スピーカーは、位置固有のスコアリング マトリックス (PSSM) と再帰型アーキテクチャを使用して出力をパラメーター化する方法についても説明します。最後に、スピーカーは、このアプローチを使用して行われた予測のいくつかを提示し、構造のいくつかの側面はよく予測されていましたが、他の側面はそうではなかったことを指摘しています。

  • 01:35:00 このセクションでは、スピーカーは、数学を簡素化し、定式化プロセスを簡素化するフレネシア構成を使用して、トーションのパラメーター化のアイデアをどのように進化させたかについて説明します。彼らは現在、C アルファのみに焦点を当てており、回転行列を使用してパラメータ化することで、病理学的二次構造の問題を解決しています。重要な変更点は、言語モデルを介してフィードする単一のシーケンスのアイデアに戻ったことです。彼らはトランスフォーマーを使用して各残基を潜在空間に埋め込み、それを入力として使用して予測を行います。さらに、フラグメントを適応させ、2 つの異なるタンパク質をスプライシングしてトレーニングのパフォーマンスを向上させるという課題が追加されています。スピーカーは、ターゲット キャスト シーケンスを予測する際に RGN1 と RGN2 を比較した結果を示しています。これは、言語モデルを通過した単一のシーケンス入力に基づいていることに注意することが重要です。

  • 01:40:00 ビデオのこのセクションでは、講演者はタンパク質構造を予測する方法の精度について説明しています。彼らはアルファ 2 に関して調整された例を示しており、精度は最新技術ほど良くはありませんが、予測を行うために使用する情報ははるかに少なくなっています。彼らはまた、本質的に配列空間のトワイライトゾーンにあり、配列相同体を持たないシングルトンタンパク質の例を示しています。彼らのアプローチは、最先端の公的に利用可能なシステムと比較して大きな違いを生み出しています.さらに、スピーカーは、de novo タンパク質と、それらが体系的にうまく機能する設計されたタンパク質について説明します。これらのタイプの配列ベースのアプローチはタンパク質設計に役立つため、これは理にかなっています。最後に、スピーカーは、メソッドの大幅な高速化がさまざまなアプリケーションに役立つ可能性があると説明しています。

  • 01:45:00 このセクションでは、講演者は、ディープラーニングを使用して、遺伝的変異や低分子などのさまざまな要因に基づいてさまざまなタンパク質の確認を予測する可能性について説明します。単一の信号空間方式を使用する方が理論的にはうまくいくかもしれませんが、アルファ 2 がリリースされたときなど、実際にさまざまなバージョンを直接比較できるようになるまで、それを知る方法はありません。 MSA を使用して一般的な断層を予測し、別のステージを使用してそれを実際の構造に絞り込むなど、絞り込みの問題についても言及されています。急速に進化するウイルスは、ディープ ラーニングが役立つ可能性がある別の分野として言及されています。最後に、講演者は、将来の潜在的なコラボレーションの機会と、世界のさまざまな地域の人々とつながることができるという特権に対する興奮を表明します。
Deep Learning for Protein Folding - Lecture 17 - MIT Deep Learning in Life Sciences (Spring 2021)
Deep Learning for Protein Folding - Lecture 17 - MIT Deep Learning in Life Sciences (Spring 2021)
  • 2021.04.26
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisGuest lecturers: Bruno Correia, Jinbo Xu, Mohammed AlQuraishiDeep Learning in the Life ...
 

病理学のための機械学習 - 講義 19



病理学のための機械学習 - 講義 19 - 生命科学における MIT 深層学習 (2021 年春)

講義では、計算病理学における深層学習の応用のさまざまな側面について説明します。これには、技術の課題と制限が含まれます。講演者は、アルゴリズムを盲目的に信頼する際の注意の必要性について議論し、ネットワークが何を学習しているかを理解することの重要性を強調します。この講義では、癌の診断、予後、および治療反応評価でディープラーニングがどのように使用され、精密医療のための予後および予測ツールを開発するかについて、いくつかの例を探ります。講演者はまた、結核の多剤治療の開発における課題について議論し、この問題に取り組むためのさまざまなラボ プロジェクトを提案します。全体として、講義は病理学における深層学習の可能性を強調すると同時に、深層学習の限界と、臨床現場での効果的な展開を確実にするための学際的なアプローチの必要性を認めています。

「病理学のための機械学習 - 講義 19 - 生命科学における MIT 深層学習 (2021 年春)」というタイトルのこの YouTube ビデオで、スピーカーは、典型的な変動正規化 (TVN) と k 最近傍アプローチ。彼らはまた、形態学的プロファイリングを使用して細菌への影響に基づいて薬物を分類し、教師あり学習と教師なし学習の両方を使用して薬物の組み合わせを設計および優先順位付けするためのデータ駆動型アプローチの開発についても説明しています。さらに、スピーカーは、薬の相乗効果と拮抗作用の研究への貢献に対して彼女の研究室のメンバーに感謝し、この分野での研究を理解し前進させるためのより大きな文脈を考慮することの重要性を強調しています.

  • 00:00:00 このセクションでは、Anand Madabhushi が計算病理学の分野におけるディープ ラーニングの影響、特に医用画像解析について説明しています。病理学のデジタル化は、膨大な量のデータが利用可能であるため、ディープラーニングの応用の温床になっていますが、マダブシは、何十年にもわたる専門知識による手作りの機能を含む専門的な方法論は、ディープラーニングの方法に勝っていない可能性があると警告しています。 .彼はまた、がんの診断と死亡率に関するいくつかの統計を提供し、画像を使用して早期にがんを正確に診断することの重要性を強調しています。 Madabhushi は、この分野で深層学習がどこでどのように最も役立つかについて、学んだ教訓と考えを共有したいと考えています。

  • 00:05:00 このセクションでは、スピーカーは癌、特に前立腺癌のような緩慢な癌の過剰診断と過剰治療の問題について議論します。バイオマーカーと治療法の進歩にもかかわらず、過剰診断と過剰治療は依然として問題であり、患者の経済的毒性の一因となっています。次にスピーカーは、癌の診断、予後、および治療反応評価のコンテキストで機械学習の可能性を探り、精密医療のための予後および予測ツールの開発を支援します。遺伝子発現ベースのアッセイなどのツールはすでに存在しますが、それらには限界があり、腫瘍内の不均一性を考慮していません。機械学習は、これらの制限を改善し、がんをより適切に管理および治療する機会を提供します。

  • 00:10:00 このセクションでは、講師がデジタル化された病理スライドと高度な機械学習画像分析を使用して、人間の病理学者が視覚的に識別できない特徴とパターンを特定する方法について説明します。個々の細胞、リンパ球、がん細胞を特定することにより、データ サイエンティストはネットワーク理論を使用して個々の細胞の空間構造を調べ、個々の細胞の空間配置からさまざまな定量的指標を分析して、患者の診断、予後、治療反応をよりよく理解することができます。 .このプロセスにより、病理分析に対する非侵襲的でクラウドベースのアプローチが可能になります。

  • 00:15:00 このセクションでは、講演者は、病理スライドのデータ量が他の医用画像領域に取って代わった計算病理学の分野におけるディープラーニングの影響について説明します。ニューラル ネットワークが 6 年前に公開されました。これは、個々のセルの注釈をスタックされたスパース オートエンコーダーに使用し、そこでセルの注釈に基づいて学習し、ニューラル ネットワークがグラデーションや大まかな楕円形などのより小さな詳細を取得できるようにしました。細胞。ネットワークは、セルを含むパッチとセルを含まないパッチでトレーニングされました。これらのパッチは、学生が画像を一連のバウンディング ボックスに分解することによって手作業でラベル付けされました。一部の細胞は見逃されましたが、ネットワークはさまざまな細胞タイプのニュアンスを捉えることができました。

  • 00:20:00 このセクションでは、講演者は、特に染色と注釈に関して、病理学における深層学習の限界について説明します。染色はセグメンテーションの忠実度に大きな影響を与える可能性があり、小さいセルと大きいセルの不一致により、ネットワークは最も堅牢な方法でトレーニングされませんでした。講演者はまた、教師なし特徴生成に基づく CNN アルゴリズムをトレーニングして、正常な心臓と心不全のリスクがある心臓を区別する作業についても説明します。 CNN アルゴリズムは病理学者よりも優れており、病理学者の AUC はわずか 0.74 であるのに対し、0.97 の AUC を達成しました。

  • 00:25:00 このセクションでは、スピーカーは、同じ施設とスキャナーからの 2 組の患者に対して同じアルゴリズムを実行しているときに彼らが行った驚くべき発見について説明します。画像の病理に違いはありませんでしたが、2 番目のセットの AUC は、画像の機能をわずかに変更した小規模なソフトウェア アップグレードにより劇的に低下しました。これは、一見制御された設定であっても、盲目的にアルゴリズムを信頼することには注意が必要であることを強調しています. f のパネルは、CNN を使用した教師なし特徴生成は、主に分析前の変動源に敏感な畳み込みを学習する一方で、特定の種類の細胞とその空間配置の重要性も強調していることを示しました。これは、最初の高スコアに匹敵する AUC を生成するその後のアプローチにつながりましたが、サイトやキャンバス全体の変動に対する回復力が高くなりました。

  • 00:30:00 このセクションでは、ネットワークが何を学習しているのかを理解することの重要性と、医療診断においてブルート フォース アルゴリズムを信頼することに注意することの重要性について説明します。彼は、背景の雪の存在のみに基づいてハスキーとオオカミを区別することを学習したネットワークの例を共有しています。これは、ネットワークの結果を解釈する際の注意の必要性を強調しています。これらの制限にもかかわらず、講演者は、病理学における検出およびセグメンテーション タスクにおけるディープ ラーニングの有用性を特定し、Quick Annotator と呼ばれるインタラクティブなツールを共有します。これにより、ユーザーはいくつかの代表的な例をセグメント化し、バックグラウンドでネットワークをトレーニングし、微調整することができます。結果はインタラクティブな学習モードになります。

  • 00:35:00 このセクションでは、スピーカーは、病理画像の注釈プロセスに関する課題、特に病理学者が利用できる時間の不足について説明します。この問題に対処するために、スピーカーは手作りの機能がアノテーション プロセスの効率を改善するのにどのように役立つかを説明します。彼らは、深層学習を使用してさまざまな組織コンパートメントと細胞の種類を識別し、グラフ ネットワークを呼び出して空間統計と組織コンパートメント内のさまざまな細胞型の相互作用を調べる例を示しています。講演者はまた、深層学習を使用してコラーゲン繊維をセグメント化し、それらの方向にベクトルを割り当てる方法についても説明します。このベクトルは、乳がん患者のエントロピーと予後値を決定するために使用されました。最後に、講演者は、ディープラーニングを使用して腺のセグメンテーションを行い、腺の空間的配置と構造を調べて、手術後に再発する患者を予測する前立腺がんに関する新しい研究を紹介します。

  • 00:40:00 このセクションでは、講演者は、前立腺がんの転帰を予測するための市販の分子アッセイと、深層学習アルゴリズムを使用した画像ベースのアプローチとの直接比較について説明します。結果は、2 つの単純な臨床的要因と組み合わせた画像ベースのアプローチが、費用のかかる分子アッセイのほぼ 2 倍の性能を発揮することを示しました。さらに、深層学習アルゴリズムを使用した画像ベースのアプローチにより、解釈可能で検証済みの特徴が得られ、分子アッセイと比較してはるかに低コストで分析できます。講演者はまた、深層学習の臨床応用における解釈可能性の必要性を強調し、深層学習アプローチと組み合わせた手作りの特徴エンジニアリングの重要性を強調しました。

  • 00:45:00 このセクションでは、病理学の機械学習における解釈可能性の課題に焦点を当てています。特に、結核 (TB) の多剤療法の設計に関連しています。解釈可能性の欠如は、決定を信頼するためにモデルの根底にある表現を理解する必要がある臨床医にとって大きな課題となります。スピーカーは、常にネットワークに疑問を呈し、何も当然と考えない必要があることを強調しています。また、最初に最も単純な方法論から始めて、深層学習をいつ使用するかを決定することの重要性についても説明しています。研究室の結核に関する研究は、この疾患の治療の難しさ、多剤療法の必要性、および関連する重大な異質性を浮き彫りにしています。

  • 00:50:00 このセクションでは、スピーカーは肺内の細菌の多様な微小環境による結核の多剤治療の開発の課題について説明します。演説者は、現在結核治療に利用できる多くの薬がある一方で、広大な未開拓の組み合わせスペースにより、すべての潜在的な組み合わせをテストすることは困難であると指摘しています.講演者は、この問題に取り組むための 2 つのラボ プロジェクトを提案します。1 つ目は、イメージングによって単一の薬物空間を絞り込み、新薬の作用経路を特定することです。2 つ目は、機械学習を使用して体系的な組み合わせ測定を行い、最も効果的なものを予測する分類器を開発することです。斬新な組み合わせ。ラボでは、タイムラプス イメージングを使用して細菌の細胞形態の変化を捉え、さまざまな治療結果を評価しています。

  • 00:55:00 このセクションでは、スピーカーは、教師なし学習とクラスタリングを使用して、大腸菌で類似の薬物プロファイルを関連付けるプロジェクトについて説明します。彼らは、プロファイルが同じに見える場合、それらの薬は同様の作用機序を持つという仮説を立てました。彼らはこのアイデアを TB に適用しましたが、細胞は予想どおりに染色を吸収せず、形態学的特徴は互いにあまり区別できませんでした。しかし、一部の治療グループでは、未処理の細胞と統計的に有意な差が見られました。細胞学的プロファイリングの典型的なパイプラインが確立されたので、彼らは分類試験を行い、どの治療グループが互いに最も似ているかを調べようとしました.彼らは、病原体が薬に反応していることを発見しましたが、その反応メカニズムは多様であり、細胞壁が非常に厚いため、薬が侵入するのが困難でした.

  • 01:00:00 講義のこのセクションでは、スピーカーは、病理学の機械学習における実験のバッチ間および細胞間の不均一性に対処するチームの試みについて説明します。彼らはニューラルネットを使用しようとしましたが、可変データのために機能しませんでした。次に、共同研究者である Google の Mike Ando によって開発された典型的変動正規化 (TVN) と呼ばれる方法を使用して、各実験の未処理対照の主成分分析 (PCA) によって生成された共分散行列を調整し、非生物学的変動を減らしました。彼らはまた、細胞間の不均一性測定基準を組み込み、PCA の使用から k 最近傍アプローチに移行して、微妙な形態学的変化を捉えました。彼らは脆弱性を回避するために確率論的アプローチを使用し、分類試験ごとに新しい未処理の対照群を選択しました。

  • 01:05:00 このセクションでは、スピーカーは形態学的プロファイリングを使用して、細菌への影響に基づいて薬物を分類するプロセスについて説明します。このプロセスには、細菌を低用量および高用量の薬物で処理し、細菌を固定して染色し、特徴を抽出し、データを正規化し、確率的シミュレーションを実行することが含まれます。結果として得られるコンセンサス分類は約 75% の精度であり、ネットワーク ダイアグラムを使用して薬物間の接続を視覚化します。しかし、講演者は、ある薬、ベダキリンが細胞壁作用剤として誤って分類され、それがバクテリアのエネルギー危機を誘発しているという仮説につながったと述べています.この仮説は、脂肪酸で細菌を増殖させることによって確認され、その結果、異なる分類が行われました。

  • 01:10:00 講義のこのセクションでは、スピーカーは結核に対する薬ベダキリンの作用メカニズムと、それが細菌の代謝状態にどのように依存するかについて説明します。講演者はまた、形態学的プロファイリングを使用して近位の損傷と結核に対する抗菌薬の二次的影響を判断することについても説明しています。彼らは、この方法は、研究者が二次研究のために焦点を当てるべきパスウェイスペースに向けるのに役立つ的を絞ったアプローチを提供すると説明しています。講演者は、伝統的に結核治療における高次の組み合わせには非効率的である、チェッカーボード アッセイを使用した薬物の組み合わせの測定についても触れています。

  • 01:15:00 このセクションでは、スピーカーは結核における高次の薬物の組み合わせの測定に関連する課題について説明し、Diamond (n-way 薬物相互作用の対角測定) と呼ばれるソリューションを提示します。ダイヤモンドは、用量反応曲線の単位を保持し、チェッカーボードの最も情報が豊富な部分を測定するチェッカーボード アッセイの幾何学的最適化です。スピーカーは、線を投影することによって、薬物相互作用の程度を部分阻害濃度で定量化する方法を説明します。ダイヤモンドは、最大 10 種類の薬物の組み合わせを効率的に測定するために使用されています。講演者は、結核の in vitro 研究を使用して多剤併用療法を設計する際の 2 つの主要な問題に取り組むために使用された大規模なデータセットについて説明します。この研究では、8 つの異なる成長環境にわたって、in vitro で薬物のすべての単一、ペアワイズ、および 3 通りの組み合わせを測定し、それらをコンピューターでマージして、異なる動物モデルで何が起こるかをモデル化しました。講演者は、薬物相互作用プロファイルは生育環境に大きく依存しており、すべての条件で相乗効果のある単一の組み合わせは存在しないと結論付けています。

  • 01:20:00 このセクションでは、スピーカーは、機械学習を使用して薬物の組み合わせを設計および優先順位付けするためのデータ駆動型アプローチについて説明しました。彼らは、教師あり学習と教師なし学習の両方を利用してデータをデータ キューブに組み立て、標準治療よりも優れているかどうかに基づいて組み合わせを描写する強力なシグナルを発見しました。彼らはまた、ランダム フォレスト モデルなどのさまざまな教師あり学習方法を使用して、測定を行う成長条件の数を制限する方法を発見しました。講演者は、検証済みの in vitro モデルを使用して組み合わせ空間を体系的かつ効率的に探索するための最善の方法を提示するには、単純なアプローチの方がうまく機能したことを強調しました。全体として、彼らのアプローチは in vitro 実験の数を減らし、薬物の最良の組み合わせにつながる可能性があります。

  • 01:25:00 このセクションでは、スピーカーは、薬物の相乗作用と拮抗作用の研究を含む、さまざまな困難で厄介なプロジェクトに取り組んできた彼女の研究室の個人に感謝します.これらの研究は最終的に、生命科学における機械学習と深層学習のより大きな文脈を提供するのに役立ち、それらがはるかに大きな方程式の小さな部分であることを強調しています。このより大きな文脈を考慮することの重要性は、常に正しいアプローチであるとは限らないため強調されていますが、この分野での研究を理解し前進させるために必要です。全体として、講演者の話は非常に明るく、機械学習と病理学の交差点について貴重な洞察を提供しました。
Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)
Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)
  • 2021.05.12
  • www.youtube.com
MIT 6.874/6.802/20.390/20.490/HST.506 Spring 2021 Prof. Manolis KellisDeep Learning in the Life Sciences / Computational Systems BiologyGuest Lecturers: Anan...