머신 러닝 및 신경망 - 페이지 22

 

규제 유전체학을 위한 딥 러닝 - 규제자 결합, 전사 인자 TF - 강의 08(2021년 봄)



규제 유전체학을 위한 딥 러닝 - 규제자 결합, 전사 인자 TF - 강의 08(2021년 봄)

이 비디오는 규제 유전체학을 위한 딥 러닝의 사용에 대해 논의하고 DNA 시퀀스가 인핸서 및 프로모터 영역에 존재하는 다양한 모티프와 3D 루핑을 드러내는 방법에 중점을 둡니다. 이 비디오는 염색체 확인 캡처(3C) 기술이 어떻게 염색체 조직을 조사할 수 있고 Hi-C 기술이 서로 상호 작용하는 위상학적 연관 도메인(TAD)과 게놈의 구획 패턴을 식별할 수 있는지 설명합니다. DNA 염기서열의 모든 위치에 컨벌루션 필터를 적용하여 서로 다른 특징이나 모티프를 감지하고 딥러닝 프레임워크는 DNA 염기서열의 공통 속성, 필터 및 모티프를 학습하여 다양한 예측 작업을 수행할 수 있습니다. 비디오는 또한 멀티태스킹 학습이 얼마나 유익한지, 전사 인자 모티프의 여러 빌딩 블록 표현을 인식하고 결합하기 위해 딥 러닝 네트워크의 추가 레이어를 사용하여 복잡한 모티프를 보다 효율적으로 인식할 수 있는지에 대해 언급합니다.

이 비디오의 연사는 전사 인자 결합 및 유전자 발현 예측에 중점을 두고 규제 유전체학에 딥 러닝을 사용하는 방법에 대해 설명합니다. 그들은 DNA의 넓은 영역을 가져오고 염색질 데이터 및 유전자 발현을 위한 다중 작업 프레임워크에서 예측을 수행하기 위해 회선 구조 및 확장된 회선의 사용을 탐구합니다. 스피커는 또한 심층 신경망을 훈련하기 위한 잔류 연결의 사용을 다루고 모델이 IC 데이터 및 모델을 사용하여 3D 접촉을 예측할 수 있는 방법을 설명합니다. 전반적으로 딥 러닝은 유전체학 데이터를 분석하고 충분한 데이터와 올바른 변환이 있는 DNA 서열을 기반으로 예측을 수행하는 강력한 도구가 될 수 있습니다.

  • 00:00:00 이 섹션에서 발표자는 인핸서 및 프로모터 영역과 3D 루핑을 구성하는 다양한 모티프를 구별하는 데 중점을 두고 유전자 조절 게놈의 특징을 예측하기 위한 DNA 시퀀스 및 딥 러닝의 사용에 대해 논의합니다. 발표자는 위치 가중치 매트릭스(PWM)를 사용하여 각 전사 인자의 결합 특이성을 결정한 다음 유전자 조절 기능을 예측하는 데 사용하는 방법에 대해 설명합니다. 크로마틴 면역침전법은 게놈의 조절 영역을 프로파일링하는 데 사용되는 기술로도 언급됩니다.

  • 00:05:00 이 섹션에서 발표자는 3차원 염색질 구조를 이해하면 서로 다른 전사 인자가 결합된 위치를 알 수 있는 방법을 설명합니다. 핵은 세포의 모든 DNA를 포함하며 핵층에서 멀리 밀려나고 핵의 중심에 더 가까운 활성 영역으로 공간적으로 구성됩니다. 염색체 확인 캡처(3C)는 DNA 가닥을 무작위로 절단한 다음 다시 접착하여 DNA의 다른 부분이 서로 접촉할 수 있는 위치를 확인하여 염색체 구성을 조사하는 데 사용되는 기술입니다. 이 기술은 염색체가 실제로 어떻게 서로 반복되는지를 밝힐 수 있습니다.

  • 00:10:00 이 섹션에서 발표자는 DNA의 일부가 결합하고 게놈에서 매핑되는 위치를 밝히는 키메라 분자를 생성하기 위해 여러 DNA 조각을 절단하고 결찰하는 방법을 설명합니다. 이러한 키메라 영역을 시퀀싱하고 분석함으로써 연구자들은 게놈의 3차원 패키징에 대한 통찰력과 서로 다른 영역이 서로 상호 작용하는 방식에 대한 통찰력을 얻을 수 있습니다. 연사는 게놈 영역 간의 상호 작용을 분석할 수 있는 3C, 4C, 5C 및 ChIA-PET와 같은 다양한 기술과 항체 기반 방법을 사용하여 특정 조절자가 묶인 영역을 선택적으로 연구하는 방법에 대해 논의합니다.

  • 00:15:00 이 섹션에서 발표자는 Hi-C 기술의 작동 방식과 게놈 구성 방식에 대한 통찰력을 제공하는 방법을 설명합니다. Hi-C 기술은 게놈 영역에 비오티닐화 표시를 추가한 다음 해당 표시를 끌어내어 시퀀싱함으로써 과학자들이 게놈의 두 영역이 서로 상호 작용하는 방식을 결정할 수 있도록 합니다. 결과 그림은 루핑 정보를 보여주고 대각선에 가까운 영역이 가장 많이 상호 작용한다는 것을 나타냅니다. Hi-C 기술은 또한 도메인 외부보다 서로 더 많이 상호작용하는 위상학적으로 연결된 도메인(TAD)과 그 내부에서 상호작용의 계층적 패턴을 식별합니다. 또한 이 기술은 영역이 동일한 유형의 영역과 더 많이 상호 작용하는 경향이 있는 바둑판 패턴을 보여 과학자들이 게놈의 압축 및 구성을 시각화할 수 있도록 합니다.

  • 00:20:00 이 섹션에서 발표자는 핵 내 다른 염색체의 영역성과 게놈의 a 대 b 구획 패턴에 대해 논의합니다. 이는 게놈의 한 부분이 비활성 상태이고 활성 부분이 주변에 더 가깝다는 것을 암시합니다. 중앙에 더 가깝습니다. 화자는 또한 토폴로지적으로 연결된 도메인을 언급하는데, 이는 도메인 내에서 강력하게 상호 작용하지만 도메인 간에는 상호 작용하지 않는 영역 그룹입니다. 이러한 도메인의 코너 피크에 대한 우세한 모델은 DNA 루프를 밀어내는 조절기 CTFC 및 코헤신에 대한 결합 부위를 포함하는 루프 압출 과정에 의해 생성된다는 것입니다.

  • 00:25:00 이 섹션에서 비디오는 높은 수준의 염색질 해석 및 염색질 3차원 폴딩의 루프 압출 모델을 설명합니다. 여기에는 바인딩 사이트가 서로 더 가까워지고 루프를 효과적으로 성장시켜 DNA를 밀어내는 것이 포함됩니다. 그런 다음 비디오는 딥 러닝 이전의 전통적인 접근 방식을 사용하여 규제 모티프의 전산 분석과 동일한 딥 러닝 방법론을 DNA의 원 핫 인코딩으로 이미지 분석 및 규제 유전체학에 사용할 수 있는 방법에 대해 논의합니다. 이 방법론은 일반적인 시퀀스 패턴 인식과 해당 모티프 인스턴스 발견 사이를 반복하여 모티프 로고를 다듬는 작업을 포함합니다.

  • 00:30:00 이 섹션에서 발표자는 딥 러닝 아키텍처에서 표현 학습에 컨볼루션 필터가 어떻게 사용되는지 설명합니다. DNA 시퀀스는 각 문자에 대해 4개의 다른 입력 채널이 있는 원-핫 인코딩 표현으로 변환됩니다. 컨벌루션 필터는 DNA 서열의 모든 위치에 적용되어 다양한 특징이나 모티프를 감지합니다. 그런 다음 이러한 모티프를 학습하고 전사 인자가 이원인지 여부를 결정하는 것과 같은 특정 작업을 수행하는 데 적용할 수 있습니다. 발표자는 딥 러닝 프레임워크가 이러한 모든 컨볼루션 필터를 학습하고 레이어 수, 예측 작업, 입력-출력 관계 등을 변경할 수 있음을 강조합니다. 궁극적으로 아키텍처는 DNA 시퀀스의 공통 속성, 필터 및 모티프를 추출하고 이를 사용하여 시퀀스의 표현을 학습하여 다양한 예측 작업을 수행할 수 있습니다.

  • 00:35:00 이 섹션에서 연사는 생물학에서 핵산 서열에 대한 기계 학습의 사용을 소개합니다. 그는 문자열 커널과 같은 기계 학습의 초기 성공적인 사용의 단점과 k-mer의 공간적 위치 또는 이들 간의 관계를 고려할 수 없었던 방법에 대해 설명합니다. 그런 다음 발표자는 딥 러닝 방법이 잠재적으로 이러한 한계를 극복하고 기계 학습을 위한 DNA 시퀀스의 더 나은 표현을 허용할 수 있다고 제안합니다.

  • 00:40:00 영상의 이 섹션에서는 연사가 이미지 분석에서 사용되는 프로세스와 유사한 규제 유전체학을 위한 딥러닝에서 컨볼루션 필터를 사용하는 프로세스를 설명합니다. 컨볼루션 필터의 첫 번째 레이어는 시퀀스 전체에서 스캔되는 위치 가중치 매트릭스를 인식하여 숫자 표현을 생성한 다음 배치 정규화 작업을 적용한 다음 음수 값을 0으로 설정하는 비선형 함수를 적용합니다. 다음으로 최대 풀링 연산을 사용하여 각 필터 채널에 대한 인접 위치의 최대값을 가져옵니다. 그런 다음 전사 인자와 바인딩 사이트 간의 관계를 학습하기 위해 그 사이에 풀링 작업을 사용하여 합성곱 계층을 모델에 여러 번 적용합니다.

  • 00:45:00 이 섹션에서 발표자는 규제 유전체학을 위한 딥 러닝 예측에 대해 논의합니다. 그들은 길이 축을 가로질러 개체를 축소하고 완전히 연결된 계층을 실행하여 예측을 수행합니다. 그런 다음 스피커는 DNA 과민성의 예와 세포 유형에 걸쳐 액세스할 수 있는 많은 사이트가 있지만 학습해야 하는 많은 세포 유형별 피크가 있는 방법을 제공합니다. 훈련, 검증 및 테스트 세트는 200만 개의 사이트로 구성되어 있으며 이 DNA 과민성 분석에서 중요한 신호가 있는지 여부에 대한 164개의 이진 호출로 분류됩니다. 발표자는 최종 선형 변환을 제외한 모든 작업 간에 모든 컨볼루션 및 완전 연결 레이어가 공유되는 멀티태스크 학습의 이점에 대해 논의합니다. 그들은 이 공동 표현이 각 작업에 대해 별도의 모델을 교육하는 것보다 더 나은 결과를 제공한다고 설명합니다.

  • 00:50:00 이 섹션에서 발표자는 전사 인자 칩-서열 및 히스톤 수정 칩-서열과 같은 다양한 세포 유형 및 분석을 포함하는 규제 유전체학을 위한 딥 러닝 모델과 관련된 작업에 대해 논의합니다. 그들은 모델이 k-mer SVM보다 유연하고 더 많은 것을 표현할 수 있는 컨볼루션 신경망을 사용한다고 설명합니다. 모델이 수행하는 작업을 이해하기 위해 컨볼루션 필터에서 얻은 위치 가중치 매트릭스를 분석하고 이를 전사 인자 결합 사이트의 cisBP 데이터베이스와 비교합니다. 그들은 필터가 데이터베이스 모티프와 유사한 서열을 대체로 인식하고 CTCF와 같은 중요한 전사 인자에 대해 여러 필터를 사용하는 것이 접근성을 예측하는 데 중요하다는 점을 발견했습니다.

  • 00:55:00 이 섹션에서 연사는 CTCF와 같은 전사 인자 모티프의 여러 빌딩 블록 표현을 인식하고 결합하기 위해 심층 학습 네트워크에서 추가 레이어를 사용할 가능성에 대해 논의합니다. 이렇게 하면 복잡한 모티프를 보다 효율적으로 인식할 수 있지만 각 개별 필터의 정확한 위치와 기여도를 정확히 찾아내는 것이 어려울 수도 있습니다. 연사는 또한 정보 내용에 대한 통찰력과 모델의 다양한 필터 영향에 대한 통찰력을 얻기 위해 수행한 몇 가지 분석을 언급하며, 이는 규제 유전체학에 대한 심층 학습 접근 방식의 결과를 더 잘 해석하는 데 도움이 될 수 있습니다.

  • 01:00:00 비디오의 이 섹션에서 발표자는 알려진 모티프를 사용하여 예측을 하고 시퀀스 전체에서 모든 단일 뉴클레오티드를 돌연변이시켜 전사 인자 결합 부위를 연구하는 것에 대해 논의합니다. 그런 다음 연사는 DNA의 긴 영역에 있는 모든 요소의 함수를 계산하여 전사 및 유전자 발현을 예측하는 새로운 문제에 대해 논의합니다. 이 솔루션은 컨볼루션 구조를 사용하고 모델에 대해 약 100,000개의 뉴클레오타이드와 같은 큰 시퀀스 영역을 가져온 다음 최대 풀링을 수행하여 시퀀스를 약 128 염기쌍 분해능으로 가져옵니다. 문제는 게놈 전체에서 정보를 공유하는 방법이며 이를 위해 다른 모듈을 사용할 수 있습니다. 순환 신경망은 작업에 가장 적합한 도구라는 가설을 세웠습니다.

  • 01:05:00 이 섹션에서 발표자는 긴 시퀀스에 대한 느린 교육 문제를 피하기 위해 반복 신경망 대신 사용한 확장 컨벌루션이라는 도구에 대해 이야기합니다. 확장된 컨볼루션은 컨볼루션에 갭을 삽입하고 이를 확장하여 수용 필드가 기하급수적으로 증가하여 이미지를 덮는 매우 매개변수 효율적인 방법으로 이어집니다. 그런 다음 발표자는 염색질 데이터 및 유전자 발현을 위한 멀티태스킹 프레임워크에서 예측을 하기 위해 확장된 컨볼루션을 사용한 방법에 대해 논의합니다. 그들은 또한 심층 신경망 훈련에 도움이 될 수 있는 잔여 연결 또는 건너뛰기 연결이라는 추가 기술을 언급합니다.

  • 01:10:00 이 섹션에서 발표자는 잔여 네트워크를 사용하여 각 계층이 이전에 모든 것을 다시 학습하지 않고도 새로운 정보를 쉽게 학습할 수 있도록 하는 방법에 대해 설명합니다. 이는 다른 위치를 더 멀리 보는 확장된 컨볼루션에 특히 유용합니다. 잔여 연결로 이미 학습된 것을 직접 전달함으로써 각 위치의 벡터에 새로운 정보를 추가하고 이를 정규화하거나 그 위에 컨볼루션을 던질 수 있습니다. 나머지 연결의 수는 작업 중인 시퀀스의 길이에 따라 달라집니다. 시퀀스 범위를 벗어나지 않고 충분히 멀리 볼 수 있어야 하기 때문입니다.

  • 01:15:00 비디오의 이 섹션에서 발표자는 100,000의 입력 시퀀스에 대해 5~10개의 확장된 컨볼루션 레이어를 사용하는 것에 대해 논의하지만 시퀀스의 규모 또는 빈 크기에 따라 변경될 수 있음을 언급합니다. 이 경우 입력은 다양한 데이터 세트의 연속 신호이며 화자는 유전자 발현처럼 쉽게 이진화할 수 없다고 지적합니다. 화자는 더하기 손실 함수가 데이터에 대해 더 잘 작동함을 나타내고 모델의 품질은 상당히 다를 수 있는 데이터의 품질에 영향을 받는다는 점에 주목합니다. 발표자는 모델을 사용하여 질병 관련 SNP의 돌연변이를 예측하고 전산 생물학 연구를 질병 연관성에 연결하는 것의 중요성에 대해 간략하게 언급합니다. 마지막으로 발표자는 IC 데이터 및 모델을 사용하여 3D 접촉 예측을 간략하게 다룹니다.

  • 01:20:00 이 섹션에서 발표자는 높은 c 데이터를 사용하여 예측을 수행하는 방법을 설명합니다. 데이터는 게놈의 해당 부분과 게놈의 다른 빈 사이의 접촉 빈도를 나타내는 x축과 y축에 걸쳐 뉴클레오티드가 있는 2차원입니다. 평균 제곱 오차 및 멀티태스킹 학습을 사용하여 모델이 데이터를 예측할 수 있습니다. 그러나 백만 개의 뉴클레오티드가 들어오면서 GPU 메모리 제한이 문제가 됩니다. 해결책은 위치 i와 위치 j의 평균을 사용하여 딥 러닝 도구가 분석할 수 있는 2D 매트릭스를 생성하는 것입니다. 2D 컨볼루션, 확장된 컨볼루션을 사용하고 모든 레이어 후에 매트릭스를 다시 대칭화하면 모델은 ctcf를 주요 학습 요인으로 예측할 수 있습니다.

  • 01:25:00 이 섹션에서 David Kelley는 CTCF를 예로 들어 DNA 서열과 같은 기본 입력을 분석하고 전사 인자 결합을 예측하기 위해 규제 유전체학에서 딥 러닝을 어떻게 사용할 수 있는지 설명합니다. 충분한 데이터와 올바른 변환을 통해 신경망 아키텍처는 게놈 데이터를 기반으로 성공적으로 학습하고 예측할 수 있습니다. 합성 데이터가 현재 주요 초점이지만, 이 프레젠테이션에서는 딥 러닝이 생물학 및 유전체학에 적용될 수 있는 방법에 대한 개요를 제공합니다.
 

유전자 발현 예측 - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)



유전자 발현 예측 - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)

이 비디오는 유전자 발현 예측에 딥 러닝을 사용하는 방법과 고차원 및 노이즈를 포함한 생물학적 데이터 세트 분석과 관련된 문제에 대해 설명합니다. 강의는 클러스터 분석, 행렬의 낮은 순위 근사 및 압축 감지와 같은 방법론을 다룹니다. 연사는 또한 유전자 발현 예측 및 염색질을 위한 딥 러닝의 사용과 인핸서 활동 사이트를 예측하기 위한 약한 감독 학습에 대해 이야기합니다. 강의에서는 danq, djgx, factory mat 및 sc fin을 포함하여 주로 딥 러닝 방법론을 사용하여 개발된 여러 도구에 대해 설명합니다. 발표자는 또한 유전체학 데이터 세트를 연구하기 위한 생성 모델의 사용에 대해 이야기하고 근사 추론 방법론, 특히 인기 있는 변이 추론 방법론에 대한 아이디어를 소개합니다.

강의의 두 번째 부분에서 연사는 생명 과학, 특히 유전자 발현 예측 및 게놈 해석에서 딥 러닝의 적용에 대해 논의합니다. 첫 번째 주제는 천식 데이터 세트에 대한 RNA 발현 분석에 변이 자동 인코더 모델을 적용하는 데 중점을 둡니다. 화자는 조건부 생성 모델을 사용하여 실험적 아티팩트를 제거하는 프레임워크를 제안합니다. 두 번째 주제에서는 게놈 해석, 특히 스플라이싱을 위한 시퀀스-기능 모델을 식별하기 위한 딥 러닝 네트워크에 대한 Illumina의 투자에 대해 설명합니다. 이 회사는 뉴클레오티드가 스플라이스 기증자인지, 수용자인지 또는 둘 다인지 예측하는 심층 컨벌루션 신경망인 SpliceAI를 개발했습니다. 세 번째 주제는 특정 돌연변이가 프레임 시프트와 질병으로 이어질 수 있는 비밀 스플라이스 기능을 가질지 여부를 예측하는 화자의 연구에 관한 것입니다. 연사는 또한 연구 직책, 인턴십 및 박사후 과정에 대한 질문과 지원을 요청합니다.

  • 00:00:00 강의의 이 섹션에서 연사는 유전자 발현 분석과 RNA 발현을 측정하는 데 사용되는 두 가지 방법인 혼성화 및 게놈 시퀀싱을 소개합니다. 후자는 지난 20년 동안 게놈 시퀀싱 비용의 급격한 하락으로 인해 더 인기를 얻었습니다. 결과는 수백 가지 조건에서 어떤 유전자가 어떤 수준으로 발현되는지 보여주는 매트릭스입니다. 이 매트릭스는 수직 또는 수평으로 볼 수 있으며 관심 있는 실험 조건에 걸쳐 게놈의 모든 유전자 또는 분류된 특정 세포 유형에 대해 20,000개의 긴 벡터를 제공합니다.

  • 00:05:00 이 섹션에서 강사는 딥 러닝이 유전자 발현 예측에 사용될 수 있는 방법에 대해 설명합니다. 기본 입력 매트릭스는 다양한 조건, 조직, 세포 유형, 실험, 연령 및 성별에 걸쳐 주어진 유전자에 대한 발현 벡터의 유사성과 같은 여러 차원에 걸쳐 비교하기 위해 모든 세포를 프로파일링하는 것을 포함합니다. 클러스터 분석을 사용하여 서로 유사한 조건 또는 열 또는 행에서 서로 유사한 유전자를 찾을 수 있습니다. 연관 접근법에 의한 죄책감은 또한 표현의 유사성에 기초하여 주석이 없는 유전자의 주석을 완성하는 데 사용될 수 있습니다. 또한 강사는 자기 지도 학습, 비선형 및 고차 기능을 사용한 예측, 다중 작업 학습과 같은 딥 러닝 접근 방식을 사용하여 관심 클래스를 공동으로 예측할 것을 제안하고 마지막으로 강사는 딥 러닝이 다음과 같다고 강조합니다. 유일한 접근 방식은 아니며 생물학적 질문을 하고 이러한 시스템의 표현을 학습하는 데 사용할 수 있는 일련의 도구가 있습니다.

  • 00:10:00 이 섹션에서 강사는 유전자 발현 패턴을 분석하는 데 사용할 수 있는 차원 감소 기술에 대해 논의합니다. 이러한 기술 중 하나는 주성분 분석(PCA)으로, 유전 압력 패턴의 주요 변동 차원을 식별하는 데 사용할 수 있습니다. 행렬의 낮은 순위 근사값은 데이터의 최적의 낮은 순위 근사값을 효과적으로 얻기 위해 사용될 수도 있습니다. t-SNE 및 자동 인코더와 같은 다른 기술도 적용할 수 있습니다. 또한 강사는 유전자 발현의 선형 조합을 캡처하는 프로브 조합을 사용하여 복합 측정을 구축하기 위해 압축 감지를 사용한다고 언급합니다. 마지막으로 강사는 염색질 정보를 사용하여 유전자 발현 수준을 예측할 수 있는 가능성에 대해 논의하며, 이는 첫 번째 초청 강의에서 논의될 것입니다.

  • 00:15:00 이 섹션에서 발표자는 이전에 변압기 모델 및 순환 신경망에 대해 논의된 것과 유사한 주의 메커니즘을 사용하여 체계적으로 결합하여 다양한 기능에서 유전자 발현 및 염색질을 예측하기 위한 딥 러닝 사용에 대해 논의합니다. 기계 학습 또는 딥 러닝 접근 방식을 사용하여 특정 단편이 표현을 유도할지 여부를 예측하는 기능과 함께 리포터 구조 및 고처리량 테스트의 사용에 대해 설명합니다. 연사는 또한 신경망과 시퀀스의 특정 기능을 사용하여 시퀀스에서 직접 스플라이싱을 예측하는 개념을 소개하고 그의 팀이 주간 감독 프레임워크를 사용하여 인간 게놈의 인핸서를 예측하기 위해 딥 러닝을 사용하여 수행한 작업을 강조합니다.

  • 00:20:00 비디오의 이 섹션에서 연사는 리포터 실험과 일련의 염색질 특징을 사용하여 유전자 발현 예측 방법에 대해 논의합니다. 게놈의 수천 개 위치에 걸쳐 서로 다른 마크로 구성된 입력 매트릭스는 모든 유전자에 대해 구성되며 근처의 염색질 기능은 스타 탐색 결과에 대해 테스트되어 발현을 예측합니다. 출력 수준은 이진 분류기이며 모델의 중간 표현은 게놈 시퀀스의 특정 위치를 예측하는 데 사용됩니다. 이 더 높은 해상도는 데이터 분석을 보다 효율적으로 사용할 수 있게 해주며, 이는 연속 신호의 특정 곡선을 피팅하여 보다 발전된 표현을 얻음으로써 달성됩니다.

  • 00:25:00 이 섹션에서 화자는 개체 감지와 유사한 방법을 사용하여 인핸서 활동 사이트를 예측하기 위한 약한 감독 학습의 아이디어를 설명합니다. 원본 이미지를 컨벌루션 필터에 전달하면 열 지도를 만드는 데 사용되는 활성화 지도가 생성됩니다. 이 모델은 인핸서의 존재에 대한 대략적인 주석만 필요로 하고 동일한 히트 맵 방법을 사용하여 정확한 위치를 예측했습니다. 교차 세포주 및 교차 염색체 검증의 결과는 모델이 stareek 인핸서를 정확하게 예측할 수 있음을 보여주었습니다. 예측하는 동안 관련 없는 영역을 깎아내어 얻은 정제된 세트는 더 높은 비율의 전사 시작 사이트를 가지며 100개의 서로 다른 종에서 더 잘 보존됩니다. 발표자는 이전의 최첨단 모델로 모델을 벤치마킹하고 신경 전구 세포에서 사례 연구를 수행하여 신경 특이적인 인핸서를 발견했습니다.

  • 00:30:00 YouTube 동영상 "유전자 발현 예측"의 이 섹션에서 연사는 생물학적 데이터 세트 해석의 어려움과 고차원 및 노이즈와 같은 여러 요인을 고려한 방법론 개발의 중요성에 대해 논의합니다. 그의 연구실에서 발표자의 연구는 단일 세포 유전체학을 포함한 다양한 유형의 유전체 기술을 결합하여 유전체학 연구 방법을 개발하는 데 중점을 둡니다. 발표자는 또한 딥 러닝을 유전자 발현 분석에 적용하고 이를 사용하여 잡음이 많은 데이터 세트에서 신호를 추출하는 데 관심이 있다고 설명합니다.

  • 00:35:00 이 섹션에서 연사는 기본 생물학을 조사할 수 있도록 다중 양식 데이터 세트를 결합하는 방법론의 개발에 대해 논의합니다. 그들은 시스템을 더 잘 이해하기 위해 시각적 신호와 자연어 처리를 결합하는 기계 학습 분야의 최근 제안을 강조합니다. 그런 다음 연사는 DNA 서열의 기능을 정량화하는 danq와 유전자 발현을 예측하는 djgx를 포함하여 주로 딥 러닝 방법론을 사용하여 연구실에서 개발한 몇 가지 도구를 나열합니다. 연사는 또한 전사 인자 결합을 예측하는 팩토리 매트와 sc fin이라는 두 가지 다른 도구에 대해 간략하게 설명합니다. sc fin은 단일 세포 예측을 위한 팩토리 매트의 확장입니다.

  • 00:40:00 비디오의 이 섹션에서 발표자는 생명 과학에서 딥 러닝 모델을 사용하는 것과 관련된 몇 가지 방법론에 대해 논의합니다. 구체적으로 논의는 RNA 구조 2차 구조 예측을 위한 UFO 방법론, 발현 예측을 위해 심층 신경망을 활용하는 DGX 모델, 불변 표현 아이디어에 초점을 맞추면서 단일 세포 운동 실조 데이터 세트를 연구하기 위해 심층 생성 모델을 활용하는 SAILOR 방법론을 다룹니다. 학습. 토론은 또한 게놈 및 RNA 발현 데이터를 연구하기 위한 VAE 모델의 사용, 택시 분석을 위한 심층 생성 모델의 확장, 공유 표현을 학습하기 위한 모델과 다중 양식 데이터 세트의 조합을 다룹니다. 발표자는 개발된 모든 도구가 오픈 소스이며 Github에서 사용할 수 있다고 언급합니다.

  • 00:45:00 이 섹션에서 강사는 유전자 하위 집합을 사용하여 유전자 발현 예측 방법에 대해 설명합니다. Luminex 기술 플랫폼을 사용하여 적은 수의 유전자(1,000개)를 프로파일링함으로써 연구자들은 수백만 개의 샘플로 프로파일을 생성할 수 있으므로 생물학적 과정과 약물 발견을 이해하는 비용 효율적인 방법으로 이어집니다. 나머지 20,000개의 유전자는 심층 신경망과 같은 계산 기술을 사용하여 추론할 수 있습니다. 다층 인식 피드 포워드 신경망에 978차원 벡터를 입력함으로써 연구자들은 다중 작업 방식으로 20,000개의 목표를 공동으로 예측하고 역전파를 통해 모델을 훈련하여 선형 회귀보다 더 나은 정확도를 달성할 수 있습니다. 전체 유전자 컬렉션과 함께 발현 프로필을 포함하는 지리적 데이터 세트는 모델을 훈련하는 데 사용됩니다.

  • 00:50:00 강의의 이 섹션에서 강사는 유전체학 데이터 세트를 연구하기 위한 생성 모델의 사용에 대해 논의합니다. 대부분의 유전체학 데이터 세트에는 레이블이 없기 때문에 비지도 학습이 더 관련성이 높은 경우가 많습니다. 목표는 고차원 데이터 세트를 저차원 임베딩으로 매핑하여 기본 패턴을 식별하는 데 더 도움이 될 수 있습니다. 이를 위한 전통적인 방법은 입력과 출력을 일치시켜 훈련할 수 있는 오토인코더(autoencoder)입니다. 그 해결책으로 강사는 잠재 변수가 있는 확률적 프레임워크를 통해 데이터를 모델링하는 심층 생성 모델을 제안합니다. 잠재 변수의 분포에 우선 순위를 할당함으로써 모델은 입력의 주변 분포를 얻기 위해 주변화할 수 있습니다.

  • 00:55:00 이 섹션에서 교수는 일반 프레임워크를 기반으로 학습 데이터의 문제를 논의하고 근사 추론 방법론, 특히 주어진 z 분포에 대한 보조 분포를 제안하는 변분 추론이라는 인기 있는 방법론의 아이디어를 소개합니다. 엑스. 그런 다음 보조 분포가 있는 로그 우도 경계의 하한은 데이터 간의 균형과 분포 간의 거리를 통해 최소화되므로 관찰 가능한 데이터 세트를 모델링하기에 충분한 검정력을 가지면서 사후 분포가 이전 분포에 충분히 근접하도록 보장합니다. . 이것은 z가 주어진 p(theta)x와 Negative log-likelihood의 변동을 최소화하도록 훈련함으로써 신경망을 통한 보조 분포를 모두 모델링할 수 있는 Variational Autoencoder의 개발로 이어졌습니다. 그러나 특히 가우시안 곱을 적용할 때 재매개변수화 트릭을 사용하여 해결할 수 있는 이러한 기대치를 계산하는 데 문제가 있습니다.

  • 01:00:00 이 섹션에서 발표자는 특히 천식 데이터 세트에 대한 RNA 발현 분석에 대한 변이 자동 인코더 모델의 적용에 대해 논의합니다. RNA-seq 데이터세트의 불연속적이고 정량적인 특성으로 인해 연구자들은 판독 횟수를 모델링하기 위해 0 팽창 음이항 분포를 사용합니다. 이는 이 모델과 결합된 오토인코더를 사용하여 심층 생성 모델을 생성한다는 아이디어로 이어집니다. 그러나 학습된 잠재 표현은 배치 효과 및 읽기 범위와 같은 실험적 아티팩트를 반영할 수 있습니다. 이러한 효과를 제거하기 위해 화자는 학습된 표현과 기본 교란 요인 간의 상호 정보를 최소화하는 조건부 생성 모델을 사용하는 프레임워크를 제안합니다.

  • 01:05:00 이 섹션에서는 Illumina AI Lab의 수석 조사관이 인간 게놈의 가능한 모든 변이를 이해하고 게놈 시퀀싱을 모두에게 유용하게 만들려는 회사의 목표에 대해 이야기합니다. 초점은 현재 대부분의 임상 시퀀싱이 건너뛰는 비코딩 유전적 변이를 해석하는 데 있습니다. 이것이 바로 Illumina가 특히 스플라이싱을 위한 게놈 해석을 위한 시퀀스-기능 모델을 식별하기 위해 딥 러닝 네트워크에 많은 투자를 하고 있는 이유입니다. 그들은 뉴클레오티드가 순전히 시퀀스에서 스플라이스 공여체인지, 수용체인지 또는 둘 다인지 예측하고 시퀀스 시퀀스에서 유전자의 인트론-엑손 패턴을 재구성할 수 있는 심층 합성곱 신경망인 SpliceAI를 개발했습니다.

  • 01:10:00 이 섹션에서 발표자는 엑손 스플라이스 접합 예측의 어려움과 딥 러닝 네트워크가 뉴클레오티드 수준의 정밀도로 대형 CFTR 유전자의 30개 엑손을 모두 예측할 수 있었던 방법에 대해 논의합니다. 그들은 긴 범위의 서열 결정자가 스플라이스 조절의 핵심이며 네트워크는 뉴클레오솜 위치 및 엑손의 클러스터링을 포함한 서열 데이터로부터 이러한 결정자를 자동으로 도출할 수 있다는 것을 발견했습니다. 네트워크는 분기점, polyper moon tract, ag, gt, intronic 및 exonic splice enhancer를 포함한 다양한 기능을 사용했으며 장거리 컨텍스트로 로컬 모티프의 중복을 보상했습니다. 발표자는 또한 컨텍스트 크기가 커짐에 따라 네트워크의 정확도가 어떻게 증가하고 비 단백질 코딩 시퀀스에서도 작동하는지 보여주었습니다.

  • 01:15:00 비디오의 이 섹션에서 발표자는 스플라이스 AI를 희귀 질환 환자, 특히 엑손을 확장하고 단백질을 이동시킨 프레임을 확장한 단일 뉴클레오티드 돌연변이로 인해 조기 발병 심부전이 있는 환자에게 적용하는 것에 대해 논의합니다. 이 모델은 GTEx의 RNA-seq에서도 검증되었으며 검증 비율은 splice AI 점수에 따라 다릅니다. 연사는 낮은 점수의 스플라이스 변이체를 해석하는 복잡성을 강조합니다. 이는 정상적인 스플라이싱을 보존할 수 있기 때문이며 해결해야 할 인간 변이에 대한 차등 해석이 있습니다. 비밀 스플라이스 기능을 가진 변이체에 대한 자연 선택의 영향도 조사되었으며, 자연 선택은 스파이시 i에 의해 예측된 비밀 스플라이스 돌연변이가 프레임시프트 또는 넌센스 단백질 코딩 돌연변이와 본질적으로 동등함을 보여줍니다. 마지막으로 이 모델은 자폐 스펙트럼 장애 및 지적 장애가 있는 환자의 대규모 임상 데이터 세트에 적용되었습니다.

  • 01:20:00 강의의 이 섹션에서 연사는 특정 돌연변이가 암호 스플라이스 기능을 가질지 여부를 예측하는 연구에 대해 이야기합니다. 그들은 RNA 시퀀싱을 사용하여 예측된 비정상 스플라이스 접합을 확인하고 이러한 변이가 어떻게 잘못된 위치에서 스플라이싱을 발생시켜 프레임 이동과 질병을 유발하는지에 대한 예를 보여주었습니다. 연사는 자신의 도구를 오픈 소스로 만들고 질문을 초대하며 연구 직책, 인턴십 및 박사후 과정에 대한 응용 프로그램을 제공합니다. 강의는 연사에 대한 감사와 최종 프로젝트를 계속 지켜봐 달라는 알림으로 마무리됩니다.
 

단세포 유전체학 - 강의 10



단세포 유전체학 - 강의 10 - 생명과학에서의 딥러닝(2021년 봄)

단일 세포 유전체학에 대한 이 강의에서 연사는 세포 분류 및 미세 유체 공학을 포함하여 개별 세포를 프로파일링하는 데 사용되는 다양한 방법과 기술에 대해 논의합니다. 세 가지 특정 단일 세포 시퀀싱 기술인 Smart-seq, drop-seq, pooled 접근법에 중점을 둡니다. 발표자는 또한 전처리, 시각화, 클러스터링 및 주석을 포함한 단일 세포 전사체 분석 프로세스와 커뮤니티 클러스터링에서 오토인코더 아키텍처의 사용을 다룹니다. 딥 러닝 방법은 도메인 적응에 적용되고 자극된 방식으로 세포 유형을 재구성합니다. 강의는 또한 단일 세포 유전체학 데이터 분석과 관련된 문제에 대해 논의하고 확장 가능하고 일관된 방식으로 이러한 문제를 해결하기 위해 생성 모델의 사용을 제안합니다.

비디오의 두 번째 부분은 단일 세포 유전체학 및 딥 러닝과 관련된 다양한 주제를 다룹니다. 논의된 주제에는 변이 추론, 단일 세포 RNA 시퀀싱 데이터를 위한 생성 프로세스, 세포 유형 데이터 세트 혼합을 위한 SCVI 모델, 레이블 전파를 위한 CanVAE, CVI 도구라는 단일 코드 기반에서 다양한 딥 러닝 알고리즘 구현이 포함됩니다. 연사는 또한 사후 확률을 사용하여 유전자 발현 측정값을 계산하고 사후 기대치를 정확하게 계산하고 전체 발견 속도를 제어하는 방법을 제시하는 데 따른 문제를 해결합니다.

  • 00:00:00 "Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)" 녹취록의 이 섹션에서 연사는 단세포 프로파일링이 필요한 이유를 설명합니다. 신체 내의 개별 세포는 서로 매우 다르며 환경 자극, 상호 작용, 세포 주기 단계 및 전사 폭발로 인해 다양할 수 있습니다. 단일 세포 프로파일링은 또한 대량 데이터로 캡처되지 않는 경우가 많은 세포 유형, 신호 및 유전자형의 개인차를 캡처합니다. 발표자는 현재 단일 세포 데이터 분석이 폭발적으로 증가하기 전에 있었던 몇 가지 기술에 대해 설명하지만 개별 RNA를 증폭하여 전사적 다양성을 포착하는 기본 기술을 강조합니다.

  • 00:05:00 이 섹션에서 연사는 세포 분류, 미세유체 및 파이펫팅을 포함하여 개별 세포를 프로파일링하는 데 사용되는 다양한 기술과 방법에 대해 논의합니다. 연구자들은 서로 다른 시점의 개별 세포와 세포 전체의 유전자를 살펴봄으로써 개별 유전자가 어떻게 켜지고 꺼지는지, 특정 시점 내에서도 어떻게 이질성이 있는지 확인할 수 있습니다. 단일 세포 분석은 기술 및 생물학적 제로 값을 구별하는 데 어려움이 있지만 이러한 기술을 통해 얻은 데이터는 생물학에서 볼 수 있는 것을 요약할 수 있습니다. 또한 셀 기반 기술을 사용하는 스마트식(Smartseek), 물방울을 사용하는 드롭식(dropseek)과 10x, 개별 셀을 분리하지 않고 바코드화하는 스플릿식(split-seek) 방식도 다룬다.

  • 00:10:00 이 섹션에서 발표자는 미세 유체 공학 및 혈액 수집을 포함하여 단일 세포 유전체학에 사용되는 다양한 방법에 대해 논의하고 프로세스에 사용되는 기본 파이프라인을 설명합니다. 세 가지 특정 기술인 Smart-seq, drop-seq, pooled approach에 중점을 둡니다. Smart-seq는 세포 분류를 사용하고 세포당 최대 10,000개의 유전자를 캡처하지만 모든 웰에 대해 별도의 시퀀싱 반응이 필요하므로 비용이 많이 듭니다. Drop-seq는 웰을 액적으로 대체하여 개별 셀을 비드의 바코드로 캡처하고 비용 효율적입니다. 마지막으로 풀링된 접근 방식은 해당 세포 ID로 레이블이 지정된 단일 튜브에서 모든 개별 RNA 분자를 캡처하는 것을 포함합니다.

  • 00:15:00 이 섹션에서 발표자는 세 가지 유형의 단일 세포 RNA 시퀀싱 기술을 설명합니다. 첫 번째는 웰 시퀀싱(Well Sequencing)으로 각 단일 세포를 웰 또는 액적으로 분류하고 각 웰에 고유한 바코드로 레이블을 지정하여 세포를 서로 구별합니다. 두 번째는 10X Genomics로, 서로 다른 세포의 모든 표지된 RNA를 단일 시퀀싱 반응으로 결합하는 것을 포함합니다. 세 번째 기술은 Split-Seq으로 각 반복마다 다른 바코드가 추가된 여러 웰 사이에서 세포를 섞어 각 세포의 RNA에 대한 고유한 바코드 조합을 생성합니다. 이것은 모든 RNA 분자에 대해 백만 개의 고유한 주소를 허용하여 그것이 어느 세포에서 왔는지 나타냅니다.

  • 00:20:00 이 섹션에서 강사는 웰의 세포, 액적 및 조합 인덱싱을 포함한 단일 세포 시퀀싱 기술에 대해 논의합니다. 단일 세포 DNA 메틸화 프로파일링, 단일 세포 게놈 시퀀싱 및 단일 세포 DNA 접근성과 같은 다양한 유형의 분석을 사용할 수 있습니다. 널리 사용되는 또 다른 분석법은 개별 세포에서 염색질의 접근성을 조사하는 단일 세포 ATAC-seq입니다. 그러나 개별 세포의 데이터는 희소할 수 있으며 전사 인자에 대해 이야기하려면 여러 위치에서 데이터를 집계해야 합니다. 강사는 또한 단일 셀 다중 오믹스 방법의 출현 증가에 대해 언급하지만 노이즈 및 아티팩트를 처리할 때 계산상의 문제에 대해 주의를 기울입니다. 이 섹션은 단일 세포 유전체학에서 심층 표현 학습에 대해 논의할 각각 유럽과 서부 해안에서 온 두 명의 초청 강의에 대한 소개로 끝납니다.

  • 00:25:00 단세포 유전체학 강의의 이 섹션에서 연사는 전처리, 시각화, 클러스터링 및 주석의 다양한 단계를 포함하는 단일 세포 전사체 분석 과정에 대해 논의했습니다. 정보는 개별 셀이 아닌 셀 앙상블에서만 사용할 수 있으므로 프로세스는 감독되지 않습니다. 화자의 연구실은 이러한 단계를 수행하기 위한 도구 및 모듈 라이브러리를 제공하는 Python의 성공적인 scanpy 단일 세포 분석을 포함하여 이 프로세스를 지원하는 도구 및 프레임워크를 제공했습니다. 시각화 및 다운스트림 분석에는 잠재 공간 학습이 포함되며 가장 일반적으로 사용되는 방법은 akn 그래프입니다. 연사의 연구실은 또한 세포 분화 과정을 이해하기 위해 단일 세포 전사체의 시계열 정보를 연구하는 데 투자했습니다.

  • 00:30:00 이 섹션에서 발표자는 심층 신경망을 사용하는 커뮤니티 클러스터링에서 오토인코더 아키텍처의 사용에 대해 논의합니다. 이 접근법은 증가하는 크기의 데이터 세트와 유전자 시간 셀 매트릭스의 노이즈를 처리하는 데 사용됩니다. 오토인코더 아키텍처의 병목 현상 계층은 중요한 것으로 밝혀졌으며 생물학적 프로세스에 대해 학습할 수 있습니다. 화자의 팀은 이 정보를 활용하여 평균 제곱 오차를 음의 이항 분포로 대체하여 잡음 함수에 적응하는 딥 카운트 자동 인코더를 개발했습니다. PBMC 데이터 세트에 대한 이 접근법의 2차원 도표는 병목 현상 계층이 생물학적 지식을 활용하는 데 도움이 될 수 있는 사전 지식 없이 세포 유형 그룹을 인식한다는 것을 보여줍니다. 이 신경망 방법의 스케일링 동작도 Kn 알고리즘에 비해 상당한 이점으로 식별됩니다.

  • 00:35:00 이 섹션에서 발표자는 차세대 컨벌루션 필터를 개발하기 위해 게놈 및 단일 세포 데이터에서 딥 러닝의 잠재력에 대해 논의합니다. 그는 세포의 동요 및 약물 자극과 같은 특정 설정을 새로운 설정으로 이전하는 것을 목표로 하는 도메인 적응에 초점을 맞춘 프로젝트를 언급합니다. 그들은 이 프로젝트를 "scgen"이라고 부르며 세포의 교란 효과를 모델링하고 새로운 세포 유형이 어떻게 행동할지 예측하려고 합니다. 모든 데이터 세트를 인코딩함으로써 그들은 산술 및 샘플 외부 예측을 수행할 수 있는 선형화된 잠재 공간을 달성하기를 희망합니다. 그들은 또한 더 복잡한 분해를 위해 이 모델을 확장해 왔습니다.

  • 00:40:00 이 섹션에서 발표자는 단일 세포 유전체학에서 딥 러닝을 사용하여 세포 유형을 재구성하는 능력에 대해 논의합니다. 목표는 CD4 양성 T 세포와 같은 세포 유형을 자극된 방식으로 재구성하여 본질적으로 샘플 외 예측을 만드는 것입니다. 예측은 평균뿐만 아니라 분산 분포도 기반으로 합니다. 이 재구성은 CD4 양성 T 세포뿐만 아니라 모든 다른 세포 유형에 대해 수행되며 세포 특이적 반응이 학습되어 유전체학을 위한 강력한 도구가 됩니다. 발표자는 잠재 공간 학습으로 확장된 간단한 생성 모델인 SCGen에 대해서도 이야기합니다. 큰 샘플에 대한 모든 정보를 모델에 압축하여 스타일 전송을 수행하는 데 사용할 수 있습니다. 마지막으로 연사는 분산된 데이터를 처리하고 해당 맵에 쉽게 액세스할 수 있도록 하는 데 필수적인 전이 학습에 대해 설명합니다.

  • 00:45:00 이 섹션에서 연사는 베이지안 모델링 및 변이 자동 인코더(VAE)를 단일 세포 데이터에 적용하는 방법에 대해 논의합니다. 이는 조직 내 세포의 고유한 기능을 이해하는 것을 목표로 합니다. 이 프로세스에는 조직을 단일 세포로 분리하고 단일 RNA 시퀀싱 파이프라인을 실행하여 전사가 각 세포의 유전자와 정렬되는 횟수를 보여주는 매트릭스가 생성됩니다. 발표자는 대학원 및 석사 학생 및 교수와의 작업에서 협업의 중요성을 강조하고 VAE를 단일 셀 데이터에 적용하는 것의 중요성부터 VAE의 확장 및 실패 모드에 대한 논의에 이르기까지 프레젠테이션 전반에 걸쳐 다룰 여러 주제를 제시합니다. .

  • 00:50:00 이 섹션에서 연사는 세포 및 유전자 수준 쿼리 분석을 포함하여 단일 세포 유전체학과 관련된 다양한 작업과 과제에 대해 논의합니다. 일부 작업에는 세포 계층화, 궤적 분석, 데이터 세트 조화, 주석 전송, 정규화 및 차등 발현 테스트가 포함됩니다. 분석은 가변 시퀀싱 깊이 및 배치 효과와 같은 기술적 노이즈와 데이터의 고차원 비가우시안 특성으로 인해 복잡할 수 있습니다. 이러한 문제를 해결하기 위해 연사는 잠재 변수 모델과 확장 가능한 방법을 사용하여 관련된 수백만 개의 샘플을 분석할 것을 제안합니다.

  • 00:55:00 이 섹션에서 발표자는 단일 세포 게놈 데이터에 대한 알고리즘 적용의 한계와 전체 프로세스에 대한 통합 모델링 가정의 필요성에 대해 논의합니다. 그들은 확장 가능하고 일관된 방식으로 단일 셀 데이터를 분석하는 데 사용할 수 있는 베이지안 모델링 기술을 기반으로 하는 생성 모델의 아이디어를 제시합니다. 발표자는 그래픽 모델을 읽는 방법과 독립 복제 및 조건부와 같은 확률적 속성을 인코딩하는 데 다양한 노드와 에지를 사용할 수 있는 방법을 설명합니다. 목표는 Bayes의 규칙을 사용하여 달성할 수 있는 사후 분포를 계산하는 것이지만 확률적 PCA를 사용하는 경우를 제외하고 한계 우도는 종종 다루기 어렵습니다.

  • 01:00:00 이 섹션에서 발표자는 scVI에서 관측치의 사후 확률 분포를 근사화하는 데 사용되는 변이 추론의 개념에 대해 논의합니다. 이 방법은 분포 계열을 배치하고 본질적으로 최적화 문제인 사후에 대한 K-발산을 최소화하는 점 q를 찾는 것을 포함합니다. 조건부 밀도의 정의를 사용하면 최적화 문제가 다루기 쉬워지고 변이 추론이 매력적인 방법이 됩니다. 연사는 또한 신경망을 사용하여 가우시안 분포의 평균과 분산을 지정할 수 있는 확률적 PCA의 확장을 제시합니다. 그러나 VAE에서 변이 추론을 사용하려면 증거를 최대화하여 모델 매개변수를 학습해야 하며, 이는 두 개의 신경망을 사용하여 변이 사후의 모든 매개변수를 묶음으로써 달성할 수 있습니다. 마지막으로 발표자는 기술 효과를 그래픽 모델에 통합하여 주어진 세포와 유전자에 대한 유전자 발현 수를 생성하는 scVI에 대해 논의합니다.

  • 01:05:00 이 섹션에서는 화자가 CVA(Conditional Variational Autoencoder)를 사용하여 단일 세포 RNA 시퀀싱 데이터의 생성 프로세스에 대해 자세히 설명하고 이 모델이 계층화, 조화, 정규화, 대치 및 미분 표현. 발표자는 이 접근 방식이 배치 효과를 처리하고 확장성을 향상시키는 방법을 강조합니다. 발표자는 또한 임베딩에서 계층적 클러스터 및 발달 기울기를 복구할 수 있고 심각한 배치 효과 및 많은 배치가 있는 경우 배치 효과를 처리할 수 있음을 보여줌으로써 모델의 유용성을 입증합니다.

  • 01:10:00 이 섹션에서 발표자는 세포 유형을 구별할 수 있으면서도 세포 유형 데이터 세트를 혼합하는 문제에 대해 논의합니다. 그들은 세포 유형을 보는 능력을 잃지 않고 데이터 세트를 혼합할 수 있는 SCVI 모델을 제시합니다. 발표자는 미분 표현 분석을 위한 Rao 잠재 변수의 흥미로운 사용에 대해서도 이야기합니다. 연구팀은 마이크로어레이 기술을 위한 SCVI 및 기타 방법으로 유전자 순위를 비교한 결과 SCVI가 유사하거나 약간 더 나은 성능을 보인다는 사실을 발견했습니다. 마지막으로 발표자는 주석 목적으로 사용되는 SCVI의 확장인 SCVI++ 모델을 소개하여 한 데이터 세트에서 다른 데이터 세트로 레이블을 전송할 수 있습니다. SCVI++ 모델은 혼합 모델을 기반으로 하며 z의 사전을 변경하고 세포 유형 할당을 위해 신경망을 사용합니다.

  • 01:15:00 이 섹션에서 발표자는 T 세포의 하위 집합이 있지만 낮은 수준으로 발현되는 일부 마커 유전자를 기반으로 해당 하위 세포 유형을 식별할 수 없는 사용 사례에서 CanVAE라는 프레임워크의 사용에 대해 논의합니다. . CanVAE를 사용하여 레이블을 전파하면 모든 셀에 대한 지식을 활용하기 때문에 클러스터링이나 분류보다 더 잘 작동하는 준지도 학습 방법이 됩니다. 또한 화자는 잠재 공간에서 연속 정보 또는 공변량을 빼내는 문제를 제시하는데, 이는 변동 분포를 매개변수화하는 데 사용되는 신경망으로 처리하기 어렵습니다. 그들은 집계된 사후에 독립 진술을 시행하는 방법인 HC 제약 조건 VAES를 도입하여 더 적합한 속성으로 더 느슨한 하한을 생성합니다. 마지막으로 미분 표현에 대해 논의하고 CanVAE 프레임워크를 사용하여 미분 표현을 결정하기 위한 임계값으로 가능성 비율을 사용할 수 있는 베이지안 모델 선택 문제로 생각할 수 있는 방법에 대해 설명합니다.

  • 01:20:00 이 섹션에서 발표자는 유전자 발현 측정값을 계산하기 위해 사후 확률을 사용하는 것과 관련된 문제와 한계에 대해 논의합니다. 사후가 올바르지 않으면 접근 방식이 편향될 수 있으며 많은 사람들이 기본 요소보다 잘못된 발견 비율의 측정을 제어하는 것을 선호합니다. 이 문제를 해결하기 위해 화자는 변동 분포의 샘플을 사용하여 사후 기대치를 정확하게 계산하는 방법을 제안합니다. 그들은 분산을 과대 평가하는 다른 상한을 도입하며, 이는 과소 평가하는 것보다 중요한 샘플링에 더 유용합니다. 또한 연사는 CVI로 전체 검색 속도를 제어하기 위해 여러 제안을 함께 결합하는 절차를 제시합니다. 이 작업과 관련된 논문에는 농도 범위를 사용하여 중요한 샘플링에 대한 오류를 정량화하는 이론적 분석도 포함되어 있습니다.

  • 01:25:00 이 섹션에서 연사는 CVI 도구라는 단일 코드 기반에서 다양한 딥 러닝 알고리즘을 구현하는 방법에 대해 논의합니다. 여기에는 단일 셀 오믹스 데이터를 분석하기 위한 도구와 확률적 프로그래밍 언어에 대한 인터페이스가 포함되어 있습니다. 코드 베이스에는 약 10~13개의 생성 모델 구현이 포함되어 있으며 사용자는 한 줄의 코드에서 조건부 변형 자동 인코더를 쉽게 변경하거나 새 코드를 만들 수 있습니다. 발표자는 또한 분자 생물학에서 변이형 자동 인코더와 생성적 적대 네트워크의 영향을 논의하는 리뷰 논문을 언급합니다.
 

차원 축소 - 강의 11



차원 축소 - 강의 11 - 생명 과학의 딥 러닝(2021년 봄)

생명 과학의 딥 러닝에 대한 동영상 강의는 단일 세포 데이터 분석에서 클러스터링 및 분류를 위한 차원 감소 기술을 탐구합니다. 강의는 지도 학습과 비지도 학습을 구별하고 유전자의 차별적 표현을 평가하기 위한 통계적 가설 테스트 프레임워크의 사용을 탐구합니다. 강의는 선형 차원 축소를 위한 주성분 분석, 고유 분해 및 특이값 분해를 사용한 매니폴드 학습의 개념을 소개하고 클러스터링 데이터 보존을 위한 t-분산 확률적 이웃 임베딩 및 분산 확률적 이웃 임베딩 방법에 대해 설명합니다. 연사는 또한 게놈 데이터에 대한 음수가 아닌 행렬 분해의 적용과 단일 세포 및 다중 오믹 데이터 세트의 통합에 대해 논의합니다. 이러한 기술의 궁극적인 목표는 편향되지 않고 정량적인 방식으로 세포 유형과 정체성을 재정의하는 것입니다.

두 번째 부분에서는 차원 축소, 특히 생명 과학에서의 적용과 관련된 여러 주제에 대해 설명합니다. iNMF(Integrative non-negative matrix factorization)는 다양한 맥락에서 세포 정체성을 더 잘 이해하기 위해 transcriptomic 및 epigenomic 프로파일을 연결하는 데 사용됩니다. 강의에서는 특히 대규모 데이터 세트에 대해 딥 러닝에서 미니 배치 접근 방식을 사용할 때의 이점과 온라인 알고리즘을 활용하여 대규모 데이터 세트를 분석하기 위한 차원 축소 방법을 개선하는 방법에 대해서도 설명합니다. 또한 RNA-seq 및 ATAC-seq 데이터와 같은 다양한 유형의 데이터를 통합하기 위해 알고리즘이 도입되었습니다. 마지막으로 연사는 해당 분야에 관심이 있는 학생들에게 멘토 역할을 하겠다는 의지를 표명한다. 전반적으로 강의는 유익하고 호평을 받았습니다.

  • 00:00:00 이 섹션에서 비디오 강의는 단일 셀 데이터 분석에 대한 논의를 계속하고 클러스터링 및 분류를 위한 차원 감소 기술에 중점을 둡니다. 수천 번의 실험을 통해 수천 개의 유전자를 측정하는 유전자 발현 매트릭스는 유전자 또는 세포를 클러스터링하거나 유전자 발현을 기반으로 세포 유형을 분류하는 데 사용할 수 있습니다. 강의는 지도 학습과 비지도 학습을 구별하고 유전자의 차등적 발현 가능성을 평가하기 위한 통계적 가설 테스트 프레임워크의 사용을 탐구합니다. 비디오는 또한 데이터의 기본 분포를 고려하고 데이터 세트에서 관찰된 분포에 가장 적합한 것을 찾아야 할 필요성을 언급합니다.

  • 00:05:00 이 섹션에서 강사는 감독 및 비지도 학습 응용 프로그램 모두에서 차원 축소에 대한 다양한 이유에 대해 논의합니다. 여기에는 데이터 시각화, 데이터 축소, 데이터 분류 및 데이터 세트의 노이즈 감소가 포함됩니다. 강사는 차원 축소가 변형을 유발하는 요소를 이해하고, 서로 다른 클래스를 구별하고, 흥미로운 데이터 하위 집합을 식별하는 데 도움이 될 수 있다고 설명합니다. 또한 강사는 차원 감소가 고차원 데이터를 저차원 매니폴드에 매핑하는 것과 관련된 방법을 설명합니다.

  • 00:10:00 강의의 이 섹션에서는 고차원 데이터의 진정한 차원성을 이해하는 방법으로 매니폴드 학습의 개념을 도입하여 저차원 표현을 허용합니다. 매니폴드 학습에는 고차원 데이터를 가져와 데이터 세트에서 탐색할 수 없는 데이터의 실제 차원을 이해하는 것이 포함됩니다. 주성분 분석(PCA)을 사용한 선형 차원 축소는 이러한 다양체를 학습하는 가장 일반적인 방법 중 하나로 논의됩니다. PCA는 데이터를 원래 공간의 변환인 일련의 선형 좌표로 투영하는 것을 포함합니다. 원본 데이터의 고유 벡터는 PCA에서 변환에 대해 변하지 않는 벡터를 찾는 데 사용됩니다.

  • 00:15:00 생명 과학의 딥 러닝 강의의 이 섹션에서는 대규모 데이터 매트릭스를 주요 변형 벡터로 분해하는 방법으로 고유 분해의 개념을 소개합니다. 대칭 행렬의 경우 고유 벡터는 직교이고 실제 대칭 행렬의 경우 고유 벡터는 직교 및 실수입니다. 고유 분해는 데이터 세트의 가장 자연스러운 선형 차원 감소를 캡처하고 대각 행렬은 독립적인 주성분의 효과를 나타냅니다. 비대칭 행렬의 경우 데이터를 가장 잘 설명하는 유전자 및 조건의 고유 벡터와 조합을 찾기 위해 특이 값 분해가 사용됩니다.

  • 00:20:00 이 섹션에서 강사는 SVD(Singular Value Decomposition)의 개념과 이를 선형 차원 감소에 사용할 수 있는 방법에 대해 설명합니다. SVD는 데이터에서 가장 중요한 변동 차원을 찾기 위해 행렬을 두 번의 회전과 스케일링을 포함한 일련의 작업으로 분해하는 방법입니다. 결과 행렬은 원본 데이터의 최적의 낮은 순위 근사값을 계산하는 데 사용할 수 있으므로 더 낮은 차원 공간에서 데이터를 표현할 수 있습니다. 이는 기능이 제한된 선형 차원 감소에 유용하지만 비선형 차원 감소는 이러한 제약 중 일부를 제거할 수 있습니다. 주성분 분석은 데이터에서 변동의 주요 선형 차원을 캡처하는 선형 차원 축소 방법 중 하나입니다.

  • 00:25:00 이 섹션에서는 다양한 스케일에서 거리를 유지하면서 차원 축소를 위해 데이터를 클러스터링하는 기술로 t-distributed stochastic neighbor embedding(t-SNE) 방법에 대해 설명합니다. 모든 거리를 동등하게 취급하는 PCA에 의존하는 대신 t-SNE는 새 공간 내에서 유사한 데이터 포인트의 근접성을 유지하면서 고차원 공간을 저차원으로 매핑합니다. 특정 대역폭을 적용함으로써 고차원 공간에서 유사한 발현 패턴을 가진 개별 세포를 저차원 공간에서 서로 근접하게 만들어 두 공간 사이의 KL 발산을 최소화할 수 있습니다. 점진적인 방법을 사용하여 두 공간 사이의 KL 발산의 비용 함수를 최소화하는 임베딩을 찾을 수 있습니다.

  • 00:30:00 이 섹션에서 발표자는 분산 확률적 이웃 임베딩(d-SNE)이 그래디언트를 통해 검색하고 저차원 공간의 좌표를 최적화하여 데이터의 로컬 유사성 구조를 보존하는 방법에 대해 설명합니다. 이 접근 방식은 전체 거리 대신 로컬 거리를 유지하고 포인트가 떨어져 있지만 가까운 포인트가 더 가까울 때 패널티를 주는 비선형 임베딩입니다. 이 방법은 일반적으로 단일 셀 데이터 세트 주변의 시각화에 사용되며 고려되는 이웃 수와 원래 클러스터의 크기가 임베딩 품질에 영향을 줄 수 있습니다.

  • 00:35:00 이 섹션에서 발표자는 단일 세포 데이터 분석을 위한 세포 유형의 특정 클러스터를 학습하는 데 중점을 둔 데이터의 저차원 프로젝션 개념에 대해 논의합니다. 그들은 여러 유형의 omics 데이터를 서로 일치시킬 수 있는 더 낮은 차원의 데이터 세트로 공동 프로젝션할 수 있는 방법에 대해 이야기합니다. 발표자는 통합 비음수 행렬 분해를 사용하는 LIGER 접근 방식과 온라인 학습을 사용하여 INMF 알고리즘을 확장하는 방법을 포함하여 그가 개발한 여러 접근 방식을 제시합니다. 이야기는 부분적으로 중복되는 특징을 가진 데이터 세트를 통합하고 단일 세포 RNA 프로필을 생성하기 위해 변형 자동 인코더와 생성적 적대 네트워크를 결합하기 위한 진행 중인 프로젝트에 대해 논의하면서 마무리됩니다.

  • 00:40:00 이 섹션에서 발표자는 유전자 발현, 히스톤 변형, 전사 인자 결합, 염색질 접근성, DNA 메틸화 및 염색질 형태를 포함하여 단일 세포에서 수행할 수 있는 다양한 유형의 측정에 대해 논의합니다. 그들은 또한 공간 좌표를 알고 분자 정보를 다시 조직 컨텍스트로 매핑하는 것의 중요성을 강조합니다. 연사는 단일 세포 분해능을 가진 분자 및 기타 유형의 정보가 편향되지 않은 방식으로 세포 유형을 재정의하는 데 사용되는 세포 정체성의 정량적 정의를 향한 도전에 대해 언급합니다. 이러한 문제를 해결하기 위해 스피커는 다양한 측정 데이터 세트에서 통합 단일 셀 분석을 수행하기 위해 통합 비음수 행렬 분해를 기반으로 하는 Liger라는 도구를 개발했습니다. 또한 음수가 아닌 행렬 분해의 "부품 기반 분해" 접근 방식의 이점에 대해서도 설명합니다.

  • 00:45:00 이 섹션에서 전사본은 NMF(Non-negative Matrix Factorization)를 게놈 데이터에 적용하여 NMF 인자를 공동 발현 또는 공동 조절 유전자를 그룹화하는 메타유전자로 해석할 수 있도록 설명합니다. 이러한 요소는 생물학적 경로 또는 세포 유형별 유전자를 나타낼 수 있을 뿐만 아니라 기술적 요소를 캡처할 수 있습니다. 유전자를 메타유전자로 그룹화하고 이러한 메타유전자를 사용하여 세포 발현을 요약함으로써 NMF는 세포 정체성의 정량적 정의와 여러 데이터 세트에서 세포 유형 및 상태의 식별을 허용합니다. 메타유전자의 해석 가능성은 또한 기술적 신호의 식별과 데이터 세트의 생물학적 신호로부터의 디콘볼루션을 허용합니다.

  • 00:50:00 이 섹션에서 발표자는 항목 f 최적화 문제를 수학적으로 해결하고 몇 가지 중요한 이점이 있고 수렴 보장을 제공하는 블록 좌표 하강을 기반으로 새로운 알고리즘을 도출한 방법에 대해 논의합니다. 이들은 효율적인 알고리즘을 사용하여 음이 아닌 최소 제곱 문제를 해결하고 다운스트림 단계를 수행하여 분석의 전반적인 견고성을 높입니다. 그런 다음 발표자는 인간 기증자에 걸쳐 단일 세포 RNA-seq 데이터를 통합하여 기증자가 아닌 세포 유형별로 세포를 클러스터링하는 방법에 대한 예를 제공하고, 실체의 주요 세포 유형을 식별하고 세포가 어떻게 유사하고 다른지에 대한 통찰력을 제공합니다. 인간 기증자.

  • 00:55:00 이 섹션에서 발표자는 단일 셀 데이터 통합의 다양한 응용에 대해 논의합니다. 한 가지 예는 조직 내에서 세포 유형의 공간적 위치를 식별하고 조직 구조에 대한 통찰력을 제공할 수 있는 공간 및 단일 세포 데이터 세트의 통합입니다. 연사는 신경 회로가 함께 작동하는 방법에 대한 통찰력을 제공하는 서로 다른 공간 위치를 가진 성상 세포의 두 하위 유형을 식별하기 위해 마우스 뇌의 데이터 세트를 사용하는 예를 제공합니다. 또 다른 중요한 애플리케이션은 단일 셀의 다중 오믹 데이터 세트를 통합하는 것인데, 이는 데이터 세트가 인스턴스나 기능을 공유하지 않기 때문에 까다롭습니다. 발표자는 후생유전체 데이터를 유전자 수준의 특징으로 변환하고 이를 유전자 발현과 연관시켜 이러한 데이터 세트를 연결하는 전략을 설명합니다.

  • 01:00:00 이 섹션에서 발표자는 iNMF(Integrative Non-negative Matrix Factorization)를 사용하여 서로 다른 맥락에서 세포 정체성을 더 잘 이해하기 위해 transcriptomic 및 epigenomic 프로파일을 연결하는 방법에 대해 논의합니다. 마우스 피질과 인간 골수에서 얻은 데이터를 사용하여 연사는 유전자 발현과 메틸화 데이터를 연결하여 세포 유형에 대한 보다 명확한 이해를 제공하고 모호한 레이블이 있는 세포 유형을 식별할 수 있는 방법을 보여줍니다. 또한 연사는 새로운 데이터가 스트리밍 방식으로 도착할 때 계산을 점진적으로 업데이트하여 온라인 학습 알고리즘을 활용하여 점점 더 큰 데이터 세트에서 iNMF 문제를 해결하는 방법을 설명합니다.

  • 01:05:00 이 섹션에서 강사는 특히 대규모 데이터 세트에 대해 딥 러닝에서 미니 배치 접근 방식을 사용할 때의 이점에 대해 설명합니다. 이 접근 방식은 가중치의 반복 업데이트를 허용하고 전체 데이터 세트를 메모리에 저장하지 않아도 되므로 수렴 속도가 빨라집니다. 강사는 미니 배치가 특히 유용한 세 가지 시나리오를 설명합니다. 주요 이점은 이전 데이터 세트를 다시 분석할 필요 없이 새 데이터 세트가 도착하면 통합할 수 있다는 것입니다. 강사는 또한 온라인 사전 학습에 관한 논문의 기존 이론을 활용하여 매개변수 측면에서 동일한 솔루션에 점근적으로 수렴하는 대리 함수를 최적화하는 이 접근 방식의 컴퓨터 과학에 대해 논의합니다. 궁극적으로 이 접근 방식은 실제로 잘 작동하며 더 큰 데이터 세트에서 각 추가 셀의 중복성으로 인해 훨씬 더 빠르게 수렴됩니다.

  • 01:10:00 이 섹션에서 발표자는 대규모 데이터 세트를 분석하기 위한 차원 축소 방법에서 온라인 알고리즘을 사용하는 이점에 대해 논의합니다. 발표자는 널리 사용되는 다른 방법에 대한 접근 방식의 벤치마크를 제시하여 메모리 사용량이 훨씬 적고 시간 효율적임을 보여줍니다. 그들은 Brain Initiative Cell Census Network에서 생성된 데이터를 사용하여 방법의 반복적 개선 기능을 보여줍니다. 여기에서 온라인 알고리즘을 사용하여 분해에 새로운 데이터 세트를 통합합니다. 또한 기능이 부분적으로 겹치는 경우까지 inmf 알고리즘을 확장하여 데이터 세트에서 공유 및 비공유 기능을 모두 활용할 수 있는 방법을 보여줍니다. 이는 기능을 강제로 정렬하는 이전에 사용된 방법보다 더 만족스러운 접근 방식입니다.

  • 01:15:00 이 섹션에서 연사는 일부 기능이 데이터 소스 중 하나에만 있는 경우에도 알고리즘을 사용하여 데이터 세트에 있는 모든 기능을 활용하는 방법을 설명합니다. 이 알고리즘은 RNA-seq 및 ATAC-seq 데이터와 같은 다양한 유형의 데이터를 통합하여 클러스터 또는 세포 프로파일을 분석하는 능력을 향상시킬 수 있는 유전자 발현에 대한 보다 완전한 그림을 제공하는 데 사용할 수 있습니다. 연사는 또한 VAE(변형 자동 인코더)와 GAN(생성적 적대 신경망)의 장점을 결합하여 단일 세포 발현 데이터에서 실제 세포 프로필을 생성하는 미시간이라는 새로운 접근 방식을 소개합니다. 이 알고리즘은 VAE의 분리 성능과 GAN의 생성 성능을 사용하여 세포 정체성의 변화를 조작하고 예측하기 위한 강력한 접근 방식을 만듭니다.

  • 01:20:00 이 부분에서 연사는 해당 분야에 관심 있는 학생들에게 멘토 역할을 하겠다는 의지를 표명하고 강의에 참석해 주신 청중들에게 감사를 표합니다. 사회자는 청취자가 무언가를 배웠는지 확인하기 위해 빠른 투표를 실시하고 청중은 긍정적으로 반응합니다. 전반적으로 강의는 호평을 받았으며 유익했습니다.
 

질병 회로 해부 GWAS - 강의 12


질병 회로 해부 GWAS - 강의 12 - 생명 과학의 딥 러닝(2021년 봄)

질병 회로 해부 GWAS에 관한 이 비디오는 인간 유전학의 기초, 해석을 위한 계산상의 문제, GWAS(genome-wide association studies)에서 조사된 다양한 유형의 유전 변이를 다룹니다. 비디오는 또한 Mendelian 매핑, 연결 분석 및 질병과 관련된 SNP(단일 뉴클레오티드 다형성) 식별과 같은 방법론을 탐구합니다. 또한 발표자는 카이제곱 통계, 맨해튼 플롯 및 QQ 플롯을 사용하여 질병 표현형과 유의미하게 관련된 게놈 영역을 시각화하는 방법에 대해 논의합니다. 이 비디오에는 FTO 유전자에 대한 사례 연구와 그것이 비만에 미치는 기계론적 의미에 대해 어떻게 종합적으로 분석되었는지도 포함되어 있습니다. 비만과 유전적 연관성을 이해하는 어려움과 이 문제에 접근하는 단계에 대해서도 논의합니다.

강의는 게놈 변이가 인간 건강에 미치는 영향을 연구하는 과제와 돌연변이가 다른 세포 유형에 미치는 영향을 이해하는 것의 중요성에 대해 논의합니다. 연사는 특히 전사 인자의 결합 및 염색질 구성을 예측하는 것과 관련하여 게놈 서열 및 변이의 영향을 예측하기 위한 심층 학습 접근 방식을 설명합니다. 그들은 또한 DNA 민감도 및 히스톤 마크 QTL을 예측하기 위해 심층적으로 배열된 게놈 데이터 세트를 사용하여 이러한 예측에 대한 평가와 유전자 발현 및 자폐증과 같은 인간 질병에 대한 돌연변이의 영향을 예측하기 위해 딥 러닝을 사용하는 방법을 설명합니다. 마지막으로 그들은 이전에 알려진 유전자 세트에 대한 편향되지 않은 분석과 심층 학습 시퀀스 모델 라이브러리의 사용에 대해 논의합니다.

  • 00:00:00 비디오의 이 섹션에서 연사는 인간 유전학의 기초와 해석의 계산상의 어려움에 대해 논의합니다. GWAS(Genome-Wide Association Studies)를 통해 유전적 변이를 식별하고 질병에 기여하는 개별 유전적 변이를 발견하는 방법을 설명합니다. 강의는 또한 유전적 유전자 헌팅과 질병과 관련된 위치를 인식하기 위한 연결 및 GWAS의 사용을 다룹니다. 심층 변이 및 심해를 포함하여 변이 해석을 위한 미세 매핑, 사례 연구 및 기계 학습 도구의 문제에 대해서도 논의합니다. 인간 유전학의 역사와 유전 패턴은 고대 그리스에서 시작하여 다윈에 의한 변환 및 자연 선택의 개념이 발전할 때까지 계속 간략하게 다룹니다.

  • 00:05:00 이 섹션에서 화자는 멘델의 불연속 유전과 관찰된 표현형 특성의 지속적인 변이 사이의 조화에 대해 논의합니다. 멘델이 도입한 미립자 유전의 개념은 우성 또는 열성 유전자라는 개별 유전 단위가 있음을 보여주었습니다. 그러나 인간에서 관찰되는 연속 변이의 생체 인식은 멘델 유전으로 설명할 수 없습니다. 이것은 1900년대 초 연속 변동이 여러 개의 멘델식 좌위로 설명될 수 있음을 보여준 통계학자들의 작업으로 바뀌었습니다. 이것은 결국 염색체와 DNA가 유전 물질을 가지고 있다는 이해로 이어진 멘델적 특성 매핑의 기초가 되었습니다. 또한 발표자는 독립적인 분류 규칙에서 벗어난 것이 어떻게 인간 유전학의 일꾼이 되었으며 염색체에서 물리적으로 가까운 특성이 어떻게 공동 유전되는 경향이 있는지에 대해 논의합니다.

  • 00:10:00 이 섹션에서 발표자는 다른 특성이 인코딩된 인간 게놈의 영역을 추적하기 위해 서로 다른 특성의 연결 및 분리 빈도를 사용하는 Mendelian 매핑으로 알려진 유전자 매핑의 전통적인 접근 방식에 대해 논의합니다. 그러나 이 방법은 효과가 강한 특성에만 효과적입니다. 그런 다음 연사는 2000년대의 혁명에 대해 이야기하여 이전에는 전통적인 연결 방법을 사용하여 분석할 수 없었던 약한 효과 변화를 매핑할 수 있는 능력을 갖게 되었습니다. 이것은 게놈 전반에 걸쳐 모든 단일 SNP를 살펴보고 질병에 따라 어떻게 다른지를 조사하는 게놈 차원 연관 연구(GWAS)를 통해 달성되었습니다. 연사는 계속해서 SNP, indel, SDR, 구조적 변이 및 복제 수 변이를 포함하여 GWAS에서 조사된 변이의 유형과 이러한 변이가 게놈의 기능에 어떤 영향을 미칠 수 있는지 설명합니다.

  • 00:15:00 이 섹션에서 연사는 유전적 변이의 가장 일반적인 유형인 SNP(Single Nucleotide Polymorphisms)라고 하는 GWAS(Genome-Wide Association Studies)의 주역을 소개합니다. SNP에는 2개의 대립유전자가 있으며 모든 변형은 클러스터링되어 dbSNP라는 데이터베이스에 구축되었습니다. 연사는 속기 및 반복, 삽입 및 삭제 등과 같은 다른 유형의 변형에 대해서도 논의합니다. 또한 희귀 변종은 강력한 효과 변화를 조사할 수 있으므로 일반 변종과 희귀 변종의 차이점에 대해 설명합니다. 인간이 23개의 염색체, 20,000개의 유전자, 30억 개의 DNA 문자 및 수백만 개의 다형성 부위로 구성된 게놈의 두 복사본을 가지고 있다는 점에서 질병 유전자를 찾는 문제가 강조됩니다.

  • 00:20:00 이 섹션에서 강사는 유전학의 일반적인 변이와 희귀 변이의 차이점과 전체 게놈 연관 연구 및 Mendelian 분석과의 관계를 설명합니다. 희귀 변이체는 큰 영향을 미치며 대부분 멘델 분석에서 발견되는 반면 일반 변이체는 작은 영향을 미치며 전체 게놈 연관 연구로 포착할 수 있습니다. 또한 연관 분석은 염색체 전체에 걸쳐 마커를 연구하고 모집단에서 표현형과 함께 상속되는 마커를 확인하여 장애를 유발하는 유전자의 위치를 정확히 찾아내는 데 도움이 될 수 있습니다.

  • 00:25:00 이 섹션에서 발표자는 정신분열증, 비만 또는 당뇨병과 같은 상태를 연구하기 위해 수천 명의 개인(대략 50% 사례 및 50% 대조군)을 수집하는 게놈 전체 연관 연구를 소개합니다. 이러한 연구는 일반적으로 힘을 얻기 위해 사례를 과도하게 대표하며 유전자형 분석 기술은 시퀀싱에 비해 비용이 저렴하기 때문에 사용됩니다. 연사는 결과의 정확성을 보장하기 위해 샘플과 SNP 모두에서 품질 관리의 중요성을 강조합니다. 또한 연사는 모집단 인증의 개념과 연구에서 개인 간의 관련성을 제거해야 할 필요성에 대해 설명합니다.

  • 00:30:00 이 섹션에서 연사는 카이제곱 통계 및 p-값 분포를 사용하여 GWAS(genome-wide association study)에서 실제 질병 신호를 탐지하는 방법을 설명합니다. 얼마나 많은 케이스와 컨트롤이 각 SNP의 대립유전자를 가지고 있는지를 보여주는 분할표를 사용하여 화자는 케이스와 컨트롤 사이의 대립유전자 빈도의 편차를 찾습니다. 카이제곱 통계는 편차의 크기를 측정하고 p-값은 대립유전자가 표현형에 영향을 미치지 않는다는 가설을 기각하는 데 사용됩니다. 그런 다음 연사는 질병 표현형과 유의미하게 관련된 게놈 영역을 시각화하기 위해 맨해튼 플롯에서 p-값을 플로팅하는 방법을 설명합니다.

  • 00:35:00 이 섹션에서 발표자는 SNP의 무작위로 질병과 관련된 확률의 마이너스 로그 10p 값을 표시하는 맨해튼 플롯과 다음의 p 값을 비교하는 QQ 플롯의 사용에 대해 논의합니다. 수백만 개의 SNP가 테스트되었습니다. 그 다음에는 SNP의 역할을 다른 방식으로 조사하기 위한 기능적 분석이 뒤따릅니다. 게놈 차원의 유의 수준은 20년 전 백오브 더 로프트 계산을 기반으로 설정한 5 곱하기 10의 마이너스 8승으로 설정됩니다. 그러나 모든 SNP가 독립적으로 분리될 시간이 충분하지 않은 인구의 제한된 유전적 변이로 인해 미세 매핑이 어려울 수 있습니다.

  • 00:40:00 이 섹션에서 강사는 변이가 분리되지 않고 블록에서 상속되는 방법에 대해 설명합니다. 즉, 블록의 한 변이가 특정 대립유전자를 갖는 경우 해당 블록의 모든 변이는 동일한 대립유전자를 가집니다. 영역에서 연관성을 찾은 후 다음 단계는 어떤 단일 염기 다형성(SNP)이 연관성을 담당하는지 확인하는 것입니다. 크론병 연구에서는 연관 분석과 게놈 차원의 연관 연구 모두에서 검출된 영역을 발견한 반면, 다른 영역은 후자에서만 발견되었습니다. 강사는 각 지역의 위험 대립 유전자의 빈도와 효과 크기를 설명합니다.

  • 00:45:00 이 섹션에서 발표자는 보호 대립 유전자의 희귀성과 케이스 컨트롤 및 코호트 연구를 통해 발견하는 어려움에 대해 논의합니다. 그들은 위험을 감소시키는 더 희귀한 대립유전자는 사례를 크게 풍부하게 하는 연구에서 발견될 가능성이 적고 그러한 연구에 필요한 가족 가계는 실현 가능하지 않다고 설명합니다. 연사는 또한 GWAS가 캡처하는 일반적인 변이와 연관 분석이 캡처하는 희귀하고 강력한 효과 대립 유전자 간의 차이점을 설명합니다. 이 섹션은 개체군에 따른 변형과 재조합 이벤트를 안내하는 prdm9의 중요성을 포함하여 일배체형 및 재조합 핫스팟에 대한 간략한 개요로 결론을 내립니다. 마지막으로 발표자는 비만이나 체질량 지수에 대한 가장 강력한 GWAS 히트였으며 기계론적 함의에 대해 종합적으로 해부된 FTO 유전자에 대한 연구를 소개합니다.

  • 00:50:00 강의의 이 섹션에서 연사는 비만과 유전적 연관성을 이해하는 어려움에 대해 논의하고 이 문제에 접근하는 단계를 설명합니다. 첫 번째 단계는 다양한 조직의 후성유전체적 주석을 검사하여 관련 조직 및 세포 유형을 식별하는 것입니다. 두 번째 단계는 장거리 연결 및 루핑으로 복잡한 다운스트림 표적 유전자를 찾는 것입니다. 발표자는 동형접합 위험군과 비위험군 개체에서 서로 다른 유전자의 발현을 측정한 결과 FTO 유전자 자체는 발현에 변화가 없는 것으로 나타났으며 오히려 FTO에서 멀리 떨어진 IRX3 및 IRX5 유전자가 표적 유전자일 가능성이 높다고 설명합니다.

  • 00:55:00 이 섹션에서 발표자는 비만과 관련된 비암호화 유전자좌에 대한 표적 유전자를 식별하고 조절 모티프 분석 및 진화 보존을 사용하여 원인 SNP를 이해할 수 있었던 방법을 설명합니다. 상류 조절기와 SNP를 방해함으로써 그들은 둘 사이의 전이와 그것이 억제와 억제 해제에 어떤 영향을 미치는지 보여줄 수 있었습니다. 화자는 모티프를 방해하면 억압이 감소하고 인핸서가 과잉 활성화되어 유전자 발현 수준에서 rx3 및 rx5의 과잉 활성화로 이어져 에너지 소산에서 저장으로 이동한다고 설명합니다. 모델을 구축하고 게놈 편집을 통해 그들은 아무것도 모르는 연합 영역에서 생물학적 과정과 표적 유전자를 이해하고 회로를 변경하기 위해 개입할 수 있었습니다.

  • 01:00:00 강의의 이 섹션에서 연사는 개인에게 존재하는 수많은 게놈 변이의 영향을 연구하는 과제와 게놈 서열 및 돌연변이가 다른 세포 유형 및 인간의 건강. 발표자는 게놈 서열과 많은 양의 기능적 게놈 데이터를 활용하여 게놈 서열과 변이의 영향을 예측할 수 있는 모델을 구축하기 위해 기계 학습 접근 방식을 취한다고 설명합니다. 특히 연사는 게놈 서열을 기반으로 개별 전사 인자의 결합과 염색질 구성을 예측하는 작업에 대해 논의합니다. 그들은 딥 러닝 기술을 사용하여 한 번에 120,000개의 게놈 변이의 영향을 예측하는 체계적인 방법을 개발하는 것을 목표로 합니다.

  • 01:05:00 이 섹션에서 발표자는 대규모 시퀀스 및 긴 시퀀스 컨텍스트를 사용하는 기능, 비선형을 모델링하는 기능의 세 가지 요구 사항을 충족하는 규제 시퀀스 모델을 구축하기 위해 깊은 컨볼루션 네트워크 모델을 사용하기로 한 결정에 대해 논의합니다. 시퀀스의 다른 영역에 걸친 상호 작용 및 모든 다른 작업에서 학습된 시퀀스 기능을 공유하는 기능. 발표자는 모델이 하위 수준에서 다양한 수준의 시퀀스 기능을 학습하고 상위 수준에서 상위 시퀀스 패턴을 학습한다고 설명합니다. 또한 위치별 예측을 할 때 공간 정보를 보존하는 것의 중요성을 강조합니다. 이 모델은 단 하나의 변이만 다른 두 개의 서열을 모델에 제공하고 각 대립유전자에 대한 예측을 비교함으로써 모든 게놈 변이의 영향을 예측하는 데 사용할 수 있습니다.

  • 01:10:00 이 섹션에서 화자는 염색질 수준에서 DNA 민감도에 영향을 미치는 변이체에 대한 예측의 정확도를 어떻게 평가했는지 설명합니다. 그들은 심층적으로 시퀀싱된 게놈 데이터 세트를 분석하고 한 대립 유전자가 다른 대립 유전자보다 훨씬 더 많이 표현되어 잠재적인 DNA 민감도 차이를 나타내는 이형 접합체 변이체를 찾았습니다. 그들은 참조 및 대체 대립유전자 모두에 대한 DNA 민감도를 예측하도록 모델을 훈련하고 예측을 실험 결과와 비교했습니다. 그들은 모델이 참조와 대체 대립유전자 사이의 차이가 더 강한 변이를 예측하는 정확도가 더 높고 변이를 더 확실하게 예측한다는 것을 발견했습니다. 평가는 가양성(false positive)에 대해 견고하여 참양성(true positive)을 필터링할 수 있습니다. 그들은 또한 이 접근법을 히스톤 마크 QTL에 적용했고 더 높은 히스톤 마크에 연결된 대립유전자를 예측할 수 있음을 발견했습니다.

  • 01:15:00 이 섹션에서 연사는 딥 러닝을 사용하여 유전자 발현에 대한 변이체의 분자 수준 효과를 예측하는 방법에 대해 논의합니다. 그들은 더 큰 규제 시퀀스를 고려해야 하고 사용 가능한 교육 샘플이 더 적은 것과 같은 문제에 직면해 있습니다. 그들은 40KB의 넓은 영역을 살펴보고 사전 훈련된 모델을 적용하여 다양한 위치에서 예측함으로써 이러한 문제를 해결합니다. 그런 다음 정규화된 선형 모델을 사용하여 각 유전자 발현 프로필 예측에서 유전자 발현에 대한 부드러운 기여 패턴을 훈련합니다. 이 접근법을 통해 그들은 서로 다른 돌연변이의 영향과 유사한 메커니즘을 통해 동일한 질병을 유발할 수 있는 방법을 예측할 수 있습니다. 유전자 발현을 예측하는 문제는 아직 해결되지 않았지만, 이를 해결하기 위한 첫 번째 시도를 했습니다.

  • 01:20:00 이 섹션에서 발표자는 자폐증과 같은 인간 질병에 대한 게놈 변이의 영향을 예측하기 위해 딥 러닝을 사용하는 방법에 대해 논의합니다. 그들은 비암호화 돌연변이를 감지하고 질병에 기인하는 것이 어려웠다고 설명합니다. 그러나 모델을 사용하여 염색질 프로필과 단백질 결합 프로필에 대한 돌연변이의 영향을 예측함으로써 자폐증이 있는 개인의 돌연변이를 영향을 받지 않은 형제와 비교할 수 있었습니다. 연구자들은 영향을 받지 않은 형제자매에 비해 자폐증이 있는 개인의 자폐증과 관련된 유전자에 더 강한 영향이 있음을 발견하여 비암호화 돌연변이가 질병에 기여한다는 것을 확인했습니다.

  • 01:25:00 이 섹션에서 발표자는 이전에 알려진 유전자 세트를 사용하여 비코딩 돌연변이의 기여도를 결정하는 편향되지 않은 분석에 대해 논의합니다. 그들은 네트워크 이웃 기반 분석을 사용하여 유전자 네트워크 내의 형제 돌연변이와 비교하여 문제 돌연변이에서 더 강력한 효과를 찾습니다. 이 분석은 자폐증 개체에서 발견된 코딩 돌연변이에서 이전에 표시되었던 시냅스 관련 및 염색질 조절 관련 그룹으로 클러스터링된 유전자와 함께 코딩 및 비코딩 돌연변이로 표시된 메커니즘의 수렴을 보여줍니다. 연사는 또한 시퀀스 모델을 교육하고 평가하는 데 사용할 수 있는 딥 러닝 시퀀스 모델 라이브러리에 대해 간략하게 언급합니다.
 

GWAS 메커니즘 - 강의 13



GWAS 메커니즘 - 강의 13 - 생명 과학의 딥 러닝(2021년 봄)

Deep Learning in Life Sciences 시리즈의 GWAS 메커니즘에 대한 강의에서는 복잡한 특성에 관여하는 비암호화 유전자 변이의 기능을 이해하기 위한 다양한 방법을 살펴봅니다. 이 강의에서는 특정 질병에 대해 유전적으로 연관된 영역에 걸쳐 전역 속성을 식별하기 위해 후성유전체 주석 및 딥 러닝 모델의 사용에 대해 논의합니다. 또한 다양한 조직 및 인핸서에 걸친 농축을 다루고 이들이 유전자좌 내에서 인과적 SNP를 예측하기 위해 경험적 우선 순위로 전환될 수 있는 방법을 설명합니다. 강의는 또한 게놈 차원의 연관성 연구에서 인과 관계를 연구하기 위해 유전자 발현 및 메틸화와 같은 중간 분자 표현형의 사용과 발현의 표현형 변수를 설명하기 위해 유전자형과 표현 개인 구성 요소를 결합하는 방법에 대해 논의합니다. 마지막으로 강의는 인과 관계 대 반 인과 경로를 식별하기 위해 결과 변수에 대한 변수 변경의 영향을 결정하기 위해 인과 추론 방법의 사용을 조사합니다.

이 비디오의 강사는 유전체학 연구에서 인과 관계를 추론하기 위한 다양한 기술에 대해 논의합니다. 그들은 d-분리의 개념과 유전학에서 인과 관계를 설정하는 방법으로 자연 무작위화를 사용하는 것을 다룹니다. 강사는 또한 인과 추론을 위한 잠재적인 결과 방법과 함께 Mendelian 무작위화 및 Rubin의 유사 추론 모델에 대해 논의합니다. 그들은 전가의 문제와 관찰 연구의 편향을 조정하는 문제를 다룹니다. 연사는 또한 강력한 인과 알고리즘을 개발하기 위해 여러 직교 증거를 사용하는 것의 중요성을 강조합니다. 또한 유전학을 사용하여 유전자 발현을 교란하고 네트워크를 학습하는 방법을 설명하고 데이터에서 인과 구조를 식별하는 방법으로 불변 조건을 도입합니다. 강의는 인과관계 추론을 위한 유전체학 연구에 사용되는 다양한 기술과 도구에 대한 포괄적인 개요를 제공합니다.

  • 00:00:00 이 섹션에서는 영국 대학의 박용진 교수를 객원 강사로 객원 강사로 이전 세션에서 후성 유전적 강화, eQTL, 중재 및 인과 관계 연구와 같은 전역 변수 이해로 논의를 확장하는 데 중점을 둡니다. 컬럼비아. 미세지도 작성 및 위치 기전 해부(locus mechanistic dissection)에 대해 간략히 살펴본 후, 후성유전체학을 이용한 다양한 전역 농축 분석 방법을 통해 작용 조절인자의 조직, 세포 유형 및 표적 유전자를 추론할 계획이다. 또한 강의에서는 표현형을 예측하기 위해 선형 혼합 모델과 다유전자적 위험 점수를 살펴보고 목요일 강의에서 나머지 주제로 전환하기 위해 유전 가능성을 예측합니다. 궁극적인 목표는 맨해튼 플롯의 모든 피크 뒤에 있는 기능적 동인과 기계론적 기반을 수천 개의 유전자좌에 걸쳐 동시에 이해하는 것입니다.

  • 00:05:00 강의의 이 섹션에서 강사는 유전학을 사용하여 주로 비코딩 변이에 의해 지배되는 복잡한 특성에 대한 질병 메커니즘을 이해하는 문제에 대해 논의합니다. 이 문제를 해결하기 위해 강사는 세포 회로의 후성유전체 주석과 딥 러닝 모델을 사용하여 특정 특성에 대해 유전적으로 연관된 모든 영역에서 전역 속성을 식별할 것을 제안합니다. 강사는 키와 1형 당뇨병과 같은 다양한 특성에 걸쳐 강화의 차이를 비교함으로써 모든 지역을 가로지르는 특성을 학습하고 이를 사용하여 개별 유전자좌의 특성을 추론할 수 있다고 제안합니다. 이 접근 방식은 질병에 대한 편견 없는 관점을 제공하고 표적 유전자, 치료법 및 맞춤 의학을 예측하는 데 도움을 줄 수 있습니다.

  • 00:10:00 이 섹션에서 발표자는 초기하 또는 이항 통계 테스트를 사용하여 상당한 농축을 찾기 위해 유전자 변이와 조직 특이적 인핸서 사이의 중첩을 평가하는 과정을 설명합니다. 그들은 서로 다른 특성과 관련된 유전적 변이가 해당 조직에서 활성화된 인핸서 전반에 걸쳐 조직 특이적 농축을 보여준다는 것을 발견했습니다. 예를 들어 키와 관련된 유전적 변이는 배아 줄기 세포 인핸서가 풍부하고 혈압과 관련된 유전적 변이는 좌심실에서 작용하는 인핸서가 풍부합니다. 그들은 또한 알츠하이머병이 뇌에서 활성화되는 인핸서가 전체적으로 풍부해지는 것이 아니라 뇌의 면역 세포, 특히 CD14+ 세포에서 활성화되는 인핸서가 풍부하다는 것을 발견했습니다. 이로 인해 그들은 알츠하이머와 관련된 유전적 변이가 주로 뇌의 면역 세포에서 작용한다고 가정하게 되었습니다. 그들은 이제 베이지안 프레임워크에서 이 정보를 사용하여 질병과 관련된 유전적 변이가 기능적일 가능성이 더 높은지 결정할 수 있습니다.

  • 00:15:00 강의의 이 섹션에서 연사는 관찰된 농축을 GWAS에서 사용할 수 있는 경험적 우선 순위로 전환하는 방법에 대해 논의합니다. 크론병과 알츠하이머병의 예를 사용하여 연사는 특정 지역에서 풍부해지는 질병과 관련된 유전적 변이가 주어진 유전자좌 내에서 원인 SNP를 예측하기 위한 사전으로 사용될 수 있다고 설명합니다. 그런 다음 각 변형에 대한 사후 확률을 구축하기 위해 이 사전이 GWAS 요약 통계의 증거와 어떻게 결합될 수 있는지 설명합니다. RIVIERA라고 하는 이 방법의 효능은 우선 순위를 지정하는 SNP가 eQTL 및 디지털 게놈 발자국에서 진화적으로 보존되고 발견될 가능성이 더 높다는 사실에 의해 입증됩니다.

  • 00:20:00 강의의 이 섹션에서 연사는 유전적 변이와 특성 사이의 매우 구체적인 연관성을 만들기 위해 강화된 인핸서를 사용하는 방법에 대해 논의합니다. 이러한 특성을 겹치는 인핸서에 매핑함으로써 연사는 유전자좌를 특정 조직으로 분할하여 이러한 유전자좌와 관련된 생물학적 기능을 더 잘 이해하는 방법에 대해 논의합니다. 연사는 복잡한 특성을 더 간단한 구성 요소로 분할하고 특정 조직의 인핸서에 대한 근접성을 기반으로 유전자좌의 우선 순위를 지정하는 데 이것이 어떻게 사용될 수 있는지 강조합니다. 발표자는 또한 다른 조직 및 표적 유전자와 겹치는 관상 동맥 질환과 관련된 유전자좌의 몇 가지 예를 제공합니다. 또한 연사는 게놈 차원의 중요성에 도달하지 않은 새로운 유전자좌를 연구하고 특정 조직에 매핑하는 방법에 대해 논의합니다.

  • 00:25:00 이 섹션에서 강사는 기계 학습 접근 방식을 사용하여 게놈 차원의 중요성보다 덜 중요한 하위 임계값 유전자좌의 우선 순위를 지정하고 게놈 차원의 중요한 유전자좌에서 특징을 학습하여 새로운 유전자좌를 발견하는 방법을 설명합니다. . 그들은 심장 재분극과 관련된 많은 유전자좌를 발견하고 그들의 특징을 예측인자로 사용하여 실험적 테스트에서 얻은 추가 증거와 함께 임계치 이하 변형의 우선 순위를 정했습니다. 그들은 이 접근법을 사용하여 우선 순위가 지정된 유전자가 관련 게놈 연관 연구를 위해 강력하게 풍부하고 심장 전도 및 수축성 표현형과 강한 상관관계가 있는 의미 있는 표적 유전자에 연결되어 있음을 발견했습니다. 그들은 또한 중간 분자 표현형을 살펴봄으로써 유전적 변이와 질병 사이의 격차를 해소하기 위해 발현 양적 특성 유전자좌를 사용하는 방법에 대해서도 논의했습니다.

  • 00:30:00 이 섹션에서 발표자는 게놈 전체 연관 연구에서 인과 관계를 연구하는 방법으로 중간 분자 특성, 특히 유전자 발현 수준 또는 특정 부위의 메틸화 수준의 사용에 대해 논의합니다. 목표는 특정 조직, 게놈 메커니즘, 유전자 발현 변화 및 endophenotypes에 초점을 맞추어 유전학의 결과인 특성과 질병의 결과인 특성을 식별하는 것입니다. 메틸화 정량적 형질 유전자좌 및 발현 정량적 형질 유전자좌의 기초는 키와 같은 정량적 형질을 측정하고 대체 대립유전자의 수를 주변 유전자의 메틸화 수준 또는 발현 수준과 연관시키는 것이다. 이 접근법은 수만 개의 메틸화 qtls의 발견으로 이어졌으며, 이러한 중간 분자 표현형을 전가하는 것은 메틸화를 예측하고 이를 질병과 연관시키는 데 도움이 될 수 있습니다.

  • 00:35:00 이 섹션에서 비디오는 귀속된 메틸화가 더 큰 코호트에 어떻게 사용되어 유전자형 기반 메틸화와 알츠하이머병과 같은 표현형 사이의 상관관계를 발견할 수 있는지에 대해 논의합니다. 귀속된 메틸화는 메틸화의 유전적 구성 요소이며, 이를 귀속함으로써 연구자들은 더 적은 수의 개인을 사용하고 유전자형 기반 메틸화를 찾아 힘을 증가시키고 유전적 구성 요소를 구체적으로 살펴볼 수 있습니다. 비디오는 또한 특정 경우에 여러 SNP를 함께 사용할 때 게놈적으로 중요하지 않은 많은 SNP가 어떻게 중요해졌는지에 대한 예를 보여줍니다. 이를 통해 연구원은 그 효과를 결합하여 메틸화를 예측할 수 있습니다.

  • 00:40:00 생명과학에서의 딥러닝 강의의 이 섹션에서 연사는 유전학, 메틸화, 전사 및 교란자 연구를 통해 질병 표현형의 매개 인자를 식별하는 방법론에 대해 논의합니다. 그들은 선형 회귀 모델을 사용하여 이러한 다양한 요인과 유전자 발현 사이의 관계를 예측하고, 인구 효과 및 배치 효과와 같은 변수를 수정하고, 궁극적으로 메틸화 및 발현과 같은 중간 분자 표현형의 유전적 동인을 식별하는 과정을 설명합니다. 이 방법론에는 통계의 보정을 평가하기 위한 QQ 플롯과 결과를 해석하기 위한 유전자형 및 발현에 대한 연령, 성별 및 주요 구성 요소와 같은 공변량의 사용이 포함됩니다.

  • 00:45:00 강의의 이 섹션에서는 추가 공분산과 유전자형을 포함하는 모델이 기본 모델보다 표현형 변수를 더 잘 설명할 수 있는지 여부를 결정하기 위해 유전자형과 표현 개인 구성 요소를 결합하는 데 중점을 둡니다. 이는 대립형질 분석으로 보완할 수 있는 발현 양적 특성 유전자좌(eQTL) 연구의 기초입니다. 대립유전자 분석은 이형접합 개인의 읽기를 A가 있는 하나의 대립인자를 포함하는 것과 같은 사람의 동일한 세포에서 C가 있는 다른 대립인자를 포함하는 것으로 분할하는 것을 포함합니다. A 유전자형을 C 대립유전자보다 더 높은 발현을 갖는 것으로 보이는 이 대립유전자의 대립유전자 특이적 발현과 연관시킴으로써 특정 SNP가 주어졌을 때 테스트 중인 특정 영역의 대립유전자 특이적 효과를 볼 수 있습니다. 이 강의에서는 응답 QTL과 특정 환경 조건에 대한 응답으로 QTL을 결정하는 역할에 대해서도 다룹니다.

  • 00:50:00 이 섹션에서 강사는 유전자 발현 수준을 조절하는 게놈 유전자좌인 발현 양적 형질 유전자좌(eQTLs)의 개념에 대해 논의합니다. 강사는 eQTL이 항상 존재하거나 특정 자극에 대한 반응으로만 존재하게 될 수 있다고 설명합니다. 그런 다음 성적표는 인과성 추론의 주제로 전환되며, 강사는 어떤 유전자좌가 질병에서 인과적 역할을 하는지, 어떤 유전자좌가 단순히 질병 표현형과 상관관계가 있는지를 결정하는 방법이라고 설명합니다. 강사는 인과 추론 필드가 인과 효과와 인과 발견의 두 가지 범주로 나뉜다고 설명합니다. 강의는 주로 인과관계 영향에 초점을 맞출 것입니다.

  • 00:55:00 이 섹션에서 연사는 유전자 분석 연구에서 인과 추론 방법의 사용에 대해 논의합니다. 인과 추론은 결과 변수 y에 대한 변수 x 변경의 효과를 결정하기 위한 실험적 개입을 포함합니다. 목표는 조건부 확률이 개입 확률과 거의 동일하도록 하는 것입니다. 화자는 또한 도달 가능성, 컨디셔닝, 조정 및 d 분리의 개념을 설명합니다. 인과 관계 그래픽 언어를 사용하여 연구원은 인과 관계 질문을 하고 인과 경로 대 반인과 경로를 식별할 수 있습니다. 백도어 경로의 존재는 조건부 확률의 해석에 영향을 미치고 상관관계가 인과관계와 같다는 오해를 일으킬 수 있습니다.

  • 01:00:00 이 섹션에서 강사는 유전체 연구에서 인과 관계를 식별하기 위해 벡터 변수 사이의 백도어 경로를 차단하는 개념에 대해 논의합니다. 그들은 특정 변수를 조건으로 d-분리 및 충돌체 패턴 생성에 대한 아이디어를 소개합니다. 강사는 변수가 충분히 단순하면 연구자가 개입하고 무작위로 변수를 할당하여 교란자와 관심 변수 사이의 의존성을 깨뜨릴 수 있다고 설명합니다. 강사는 유전학은 환경적 요인에 영향을 받지 않기 때문에 유전학 연구에서 중요한 변수이며 이를 일정한 값으로 설정하는 것은 자연적인 무작위 대조군 실험과 같다고 강조한다.

  • 01:05:00 이 섹션에서 강사는 Mendelian 무작위화의 개념과 그것이 유전자형, 중간 표현형 및 질병 표현형 간의 관계를 이해하는 데 어떻게 사용될 수 있는지에 대해 논의합니다. 유전자형은 아름답게 무작위화되어 실제 인과 관계를 더 쉽게 추정할 수 있습니다. 이 방법은 가정에 크게 의존하지만 유전자 eQTL 및 유전자 환경 상호 작용 연구에 성공적으로 적용되었습니다. 또한 강사는 베타 회귀 매개변수와 매개 효과를 추정하는 또 다른 방법은 g에 대한 회귀 y와 g에 대한 또 다른 회귀 x의 조합을 통해 설명합니다. 궁극적으로 Mendelian 무작위화는 실생활에서 조작하기 어려운 변수 간의 복잡한 관계를 이해할 수 있는 고유한 기회를 제공합니다.

  • 01:10:00 이 섹션에서 강사는 유전체학 연구에서 인과 관계를 추론하는 두 가지 접근 방식인 Mendelian Randomization(MR)과 Rubin의 유사 추론 모델에 대해 논의합니다. MR은 유전자형을 사용하여 질병 결과에 대한 무작위 통제 시험을 위해 중간 변수를 무작위로 교란시키는 무작위 통제 시험입니다. 그러나 MR은 알려지지 않은 교란자가 있거나 대체 경로가 있는 경우 어려울 수 있습니다. Rubin의 준추론 모델은 할당이 불연속 변수일 때 인과 효과를 측정하는 반사실적 추론 접근 방식입니다. 이 접근 방식은 관찰되지 않은 경우 단위에 대한 잠재적 결과가 누락되기 때문에 전가 문제를 만듭니다.

  • 01:15:00 생명 과학의 딥 러닝에 대한 강의의 이 섹션에서 연사는 유전 연구에서 인과 추론을 위한 잠재적인 결과 방법에 대해 논의합니다. 독립성, 강한 무시 가능성, 중첩과 같은 가정은 개별 인과 효과를 정확하게 추정하는 데 필요합니다. 발표자는 또한 알츠하이머병 약물과 관련된 장난감 예를 제공하고 성향 함수를 적합하고 성향 점수를 사용하여 편향을 조정하고 치료 그룹과 통제 그룹 간의 공정한 비교를 생성하는 데 어떻게 도움이 되는지 논의합니다. 잠재적 결과 방법을 통해 연구자는 다양한 치료 및 개입의 효과에 대해 흥미로운 질문을 할 수 있습니다.

  • 01:20:00 이 섹션에서 화자는 잠재적 결과 프레임워크와 최첨단 반사실 추론 기술을 통한 인과 추론에 대해 논의합니다. 그들은 처리된 그룹이 결과의 차이를 설명할 수 있는 방법과 잠재 결과를 추정하기 위해 전가를 사용할 수 있는 방법을 설명합니다. 그들은 또한 베이지안 회귀 트리를 사용하여 누락된 데이터를 귀속시키는 전략뿐만 아니라 여러 혼란 요인을 캡처하기 위해 snip 행렬을 사용하고 이러한 혼란 효과를 조정하기 위해 모집단 PC를 사용하도록 제안하는 최근 논문에 대해 논의합니다. 이를 통해 개별 인과관계를 측정해 치료 효과를 판단할 수 있다.

  • 01:25:00 이 섹션에서 연사는 생명 과학에서 딥 러닝의 인과적 발견 측면에 대해 논의합니다. 그들은 고차원 데이터 매트릭스에서 인과 관계 그래프 구조를 학습하는 것이 복잡하고 어려운 문제라고 설명합니다. 그러나 그들은 이 분야의 돌파구가 유전자를 교란시키고 유전자 발현을 측정하여 네트워크를 학습하는 데 유전학을 사용하는 데서 왔다는 점에 주목합니다. 연구자들은 점수 기반 우도를 사용하는 대신 데이터를 생성하는 단일 인과 모델을 가정하는 불변 조건에 의존하고 있으며 이 가정을 사용하여 데이터의 인과 구조를 식별하고 있다고 설명합니다. 화자는 또한 이러한 접근 방식을 보여주는 장난감 예를 제공합니다.

  • 01:30:00 강의의 이 섹션에서 연사는 불변 조건의 개념과 모델이 실험 데이터를 일관되게 설명할 수 있는지 여부를 결정하는 데 적용하는 방법에 대해 논의합니다. 화자는 유전자 녹아웃 실험의 예를 사용하여 잘못된 예측 변수를 포함하면 어떻게 실험 결과가 거부될 수 있는지 보여줍니다. 과학 실험의 재현성을 높이는 방법으로 인과관계 삼각측량의 아이디어도 언급된다. 연사는 인과 알고리즘을 개발하기 위해 여러 직교 증거의 중요성을 강조하면서 결론을 내립니다.
 

시스템 유전학 - 강의 14



시스템 유전학 - 강의 14 - 생명 과학의 딥 러닝(2021년 봄)

시스템 유전학과 딥 러닝에 대한 이 강의에서 발표자는 SNP 유전 가능성, 파티션 유전 가능성, 계층화된 LD 점수 회귀, 분자 표현형의 딥 러닝을 포함한 여러 주제를 다룹니다. 그들은 또한 수천 가지 표현형을 가진 약 500,000명의 영국 바이오뱅크 데이터 세트를 분석하기 위해 전자 건강 기록, 게놈 연관 연구 및 게놈의 사용을 탐구합니다. 강사는 질병 유전자좌의 회로와 GWAS 및 EQTL 호출을 위한 선형 혼합 모델의 사용을 이해하기 위해 시퀀스 함수 예측에 딥 러닝 모델을 사용할 수 있는 방법에 대해 설명합니다. 그들은 또한 딥 러닝에서 모델 가정의 편향과 위반을 다루고 질병에 중요한 세포 유형을 추론하는 데 있어 세포 유형별 규제 주석의 중요성을 강조합니다. 마지막으로 강사는 음성 선택 및 인과 관계 크기와 관련된 연구 결과의 복잡성에 대해 논의하고 Stanford University의 Manuel Rivas 교수를 소개하여 유전적 연관성의 분해에 대해 논의합니다.

강의는 형질의 구성 및 기여 요소 정량화, 지방 생성 또는 지방 분해에 기여하는 유전 변이 식별, 유전자 기능에 강한 영향을 미치고 질병 위험을 낮추는 돌연변이 식별, 다변량 분석을 이용한 위험 예측 모델. 또한 강의에서는 다양한 바이오마커에 대한 다유전자성 위험 점수 모델의 적용에 대해 논의하고 특히 비유럽 인구의 경우 예측 정확도를 향상시키기 위해 다양한 인구 간에 데이터 공유의 필요성을 강조합니다. 강의는 UK Biobank polygenic 점수 및 바이오트로픽 효과와 관련된 연구 프로젝트에 관심이 있는 학생들을 감독하겠다는 의지를 표명하면서 마무리됩니다.

  • 00:00:00 이 섹션에서 연사는 시스템 유전학과 전자 건강 기록이라는 주제를 소개합니다. 공통 및 희귀 변이, 다유전자 위험 점수, 연관 불균형 및 미세 매핑 변이를 포함하여 이전 강의에서 다룬 개념을 간략하게 검토합니다. 발표자는 다수의 SNP와의 비코딩 연관성의 대다수로 인해 게놈 차원의 연관성 연구를 해석하는 데 있어 어려움에 대해 논의합니다. 그런 다음 게놈, RNA 및 변이 정보의 사용과 시퀀스 기능을 위한 심층 학습 모델을 도입하여 드라이버 유전자, 영역 및 세포 유형을 예측하여 질병 유전자좌의 기본 회로를 이해합니다. 연사는 또한 유전자형과 공변량을 사용하여 관심 있는 표현형에 대한 고정 및 무작위 효과를 예측하는 GWAS 및 EQTL 호출 모두에 대한 선형 혼합 모델의 사용을 소개합니다.

  • 00:05:00 이 섹션에서 강사는 유전적 변이와 게놈의 모든 SNP 및 코호트의 모든 개인에 대한 각 대체 대립유전자의 효과 크기를 기반으로 사람의 표현형을 예측하기 위한 기본 토대를 설명합니다. 노이즈는 중심 값이 0이고 제곱 공분산 행렬을 사용하여 개인 간에 분산됩니다. 또한 무작위 효과는 개인 간의 유전적 공유를 측정하는 친족 매트릭스를 사용하여 설명됩니다. 베이지안 접근법은 모든 미지수를 통합하고 공분산 행렬에 의해 구동되는 표현형 효과의 확률을 결정하는 데 사용됩니다. 선형 혼합 모델은 특정 특성의 총 유전 가능성을 추정하기 위해 만들어지며, 이는 무한소 가정을 기반으로 하며 제한된 최대 우도 모델을 사용하여 추정됩니다. 이 임의 효과 모델은 실제 인과 분산에 대한 지식이 부족함에도 불구하고 데이터의 변형을 캡처하고 작동합니다.

  • 00:10:00 이 섹션에서 발표자는 중간 분자 표현형의 효과와 SNP와 표현 사이의 선형 관계를 예측하여 추가적인 변형을 캡처하는 딥 러닝의 사용에 대해 논의합니다. 발표자는 이것이 추정치를 둘러싼 잠재적 잡음과 일치하는 사전 분포를 사용하여 수행될 수 있다고 설명하여 가장 선호되는 결과를 추론할 수 있습니다. 그들은 또한 인구 차이의 영향을 언급하는데, 여기서 유전 매트릭스를 구동하는 가장 강력한 효과는 인구 차이에서 직접적으로 발생합니다. 마지막으로 발표자는 유전 가능성의 개념과 유전적 관련성을 게놈의 하위 집합으로 분할하는 것이 어떻게 유전 가능성을 계산하는 강력한 접근 방식이 될 수 있는지 설명하며, 염색체가 길수록 많은 복잡한 특성에 대해 설명하는 변이가 더 많다고 제안합니다.

  • 00:15:00 이 섹션에서는 Harvard School of Public Health의 Alkes Price가 표현형과 유전자형의 관계에 대해 전체 인구에서 도달할 수 있는 최대값으로 정의되는 매개변수인 SNP 유전 가능성의 개념을 설명합니다. 그는 코딩 대 비코딩과 같은 SNP의 다양한 기능 범주에 걸쳐 유전성을 분할하는 아이디어와 이것이 특정 질병 및 조직에서 유전성을 위해 SNP가 강화되는 결론으로 이어질 수 있는 방법에 대해 논의합니다. Price는 또한 인체 전반에 걸쳐 질병에 중요한 세포 유형과 세포 과정을 연구하기 위한 도구로서 계층화된 LD 점수 회귀의 개념을 도입했습니다.

  • 00:20:00 이 섹션에서 발표자는 통계 유전학의 대규모 데이터 세트에서 요약 연관 통계를 분석하는 아이디어를 소개합니다. 이 방법은 개별 수준의 유전자형 및 표현형이 아닌 요약 통계 데이터를 활용하여 큰 표본 크기가 가능한 정신분열병, 류마티스 관절염, 크론병과 같은 질병을 분석할 때 유용합니다. 연사는 다양한 기능적 범주의 LD가 있는 SNP에서 질병 GWAS의 카이제곱 연관 통계를 회귀하는 데 사용되는 계층화된 ld 점수 회귀 방법을 설명합니다. 이 방법은 1보다 큰 평균 카이 제곱이 교란을 의미하지 않으며 SNP 전체의 평균 LD 점수에 의존한다는 생각을 기반으로 합니다.

  • 00:25:00 이 섹션에서 화자는 SNP(single-nucleotide polymorphisms) 및 LD(linkage disequilibrium) 점수와 관련하여 태깅 신호 및 생물학적 인과 신호의 개념을 설명합니다. 그들은 계층화된 LD(연관 불균형) 점수 회귀 방법이 이러한 점수에서 교란을 감지하는 데 어떻게 도움이 될 수 있는지 논의합니다. 평균 카이 제곱 점수가 높을수록 교란이 있음을 나타냅니다. 그들은 또한 게놈 LD(연계 불균형)의 문제와 SNP의 인구 및 빈도에 따라 어떻게 달라지는지에 대해서도 다룹니다. 그런 다음 화자는 이 방법을 추가로 설명하기 위해 정신분열증 데이터 세트의 형태로 실제 데이터를 제시합니다.

  • 00:30:00 강의의 이 섹션에서는 LD 점수를 사용하여 SNP 유전성을 추정하기 위한 회귀 방정식을 소개합니다. 회귀 방정식의 절편은 혼란을 반영하는 반면 기울기는 카이 제곱 통계와 LD 점수 간의 상관 관계를 반영합니다. 이 기울기는 SNP 유전 가능성을 추정하는 데 사용할 수 있으며 다중 선형 회귀의 각 기울기는 다양한 기능 범주의 인과적 SNP 유전 가능성에 대해 알려줄 수 있습니다. 수량 강화는 특정 기능 범주에 의해 설명되는 SNP 유전성의 백분율 대 해당 범주의 일부인 SNP의 백분율을 측정할 수 있습니다. 기울기의 기능적 해석은 기능적 범주가 겹치는지 여부에 따라 달라집니다.

  • 00:35:00 이 섹션에서 화자는 다양한 기능 주석의 강화를 평가하는 데 사용되는 계층화된 LD 점수 회귀에 대해 설명합니다. 이 방법은 코딩 SNP, 인핸서, 히스톤 마커 등에 적용됩니다. 화자는 인과 범주가 모델에 포함된 경우 방법이 편향되지 않은 추정치를 생성하지만 인과 범주가 모델에 없으면 편향된 추정치를 생성한다고 언급합니다. 그러나 몇 가지 범주가 누락되더라도 모델은 여전히 나머지 범주에 대해 거의 편향되지 않은 추정치를 생성하기에 충분한 풍부함을 제공할 수 있습니다. 연사는 개별 수준의 데이터 방법이 현재 많은 수의 중복되거나 연속적인 값을 갖는 기능 범주에서 실행되도록 설계되지 않았음을 강조합니다.

  • 00:40:00 이 섹션에서 발표자는 기본 모델 가정을 충족하지 않는 유전자 발현 데이터의 top qtl을 예로 들어 딥 러닝에서 조심하지 않으면 잠재적인 모델 가정 위반이 있다고 설명합니다. 그런 다음 스피커는 딥 러닝 방법을 실제 염색질 및 유전자 발현 데이터에 적용하는 방법에 대해 논의합니다. 발표자는 공개적으로 이용 가능한 17가지 특성의 요약 통계를 사용하여 코딩 SNP가 질병 및 복잡한 특성, 특히 자가면역 질환 및 키에 대해 풍부함을 발견했으며 29종의 포유류에 걸쳐 보존된 SNP도 질병에 상당한 영향을 미치는 것으로 밝혀졌습니다. 또한, 팬텀 파이브 인핸서는 자가면역 질환에 상당한 강화 효과가 있는 것으로 밝혀졌습니다. 그런 다음 토론은 특정 특성이 생식 적합성과 더 높거나 더 낮은 결합을 가질 수 있는 방법과 관련하여 이러한 결과를 해석하는 것으로 바뀝니다.

  • 00:45:00 이 섹션에서 강사는 더 큰 인과 효과 크기로 인한 것이 아니라 유전 가능성을 위해 특정 기능 범주가 강화되는 이유를 설명합니다. 일반적인 싹둑은 네거티브 선택으로 인해 효과 크기에 부드러운 상한이 있으므로 기능적 범주에서 무언가를 수행하는 싹 수에 대한 자세한 내용이며 각각 중간 또는 중간 인과 효과 크기를 가집니다. 강사는 또한 질병에 중요한 세포 유형을 추론하는 데 있어 세포 유형별 규제 주석의 중요성에 대해 논의합니다. 뇌 조절 주석은 정신분열증에 대해 가장 풍부하고, 연결된 뼈 조절 적응은 키에 대해 가장 풍부하며, 면역 세포 유형은 류마티스 관절염에 대해 가장 풍부합니다. 게놈 차원의 다유전자적 접근 방식은 이러한 특성에 대한 수가 매우 적을 수 있는 게놈 차원의 중요한 싹에 초점을 맞추는 기존의 접근 방식보다 고도의 다유전적 특성에 대해 더 큰 생물학적 통찰력을 제공할 수 있습니다.

  • 00:50:00 강의의 이 섹션에서 발표자는 유전자 발현 데이터를 사용하여 정신분열증 및 류마티스 관절염을 비롯한 특정 질병과 관련된 특정 유전자를 연구하는 방법에 대해 논의합니다. 그들은 또한 인과 효과의 크기가 ld 수준에 따라 달라지는 ld 종속 아키텍처의 개념과 ld 수준이 낮은 싹둑이 56가지 특성에서 더 큰 인과 효과 크기를 갖는 방법에 대해 언급합니다. 발표자는 음성 선택과 관련된 이러한 발견의 복잡성을 언급하지만 단일 세포 RNA 시퀀싱 데이터 및 질병에 중요한 세포 유형에 대해 논의할 시간이 부족합니다. 그런 다음 스탠포드 대학의 Manuel Rivas 교수를 소개합니다. 그는 수천 가지 표현형을 가진 약 500,000명의 인구 기반 영국 바이오뱅크 데이터 세트를 분석하기 위해 전자 건강 기록, 게놈 연관 연구 및 게놈을 결합하는 프로세스를 논의합니다.

  • 00:55:00 이 섹션에서 연사는 유전적 연관성 연구를 나타내기 위해 다대다 매핑을 더 적은 수의 구성 요소로 분리하는 유전적 연관성 분해라는 접근 방식에 대해 논의합니다. 화자는 잘린 특이 값 분해 방식을 사용하여 수천 가지 특성 및 유전적 분산에 대한 요약 수준 데이터로 구성된 행렬을 나타내어 약 100개 구성 요소의 하위 구성 요소를 생성했으며, 각 구성 요소는 3개의 행렬에서 직교 요소의 곱입니다. . 처음 두 구성 요소는 인체 측정 표현형으로 특징지어졌으며 발표자는 각 변형이 두 구성 요소에 로드되는 방식을 투영하여 서로 다른 표현형에 어떤 영향을 미치는지 확인했습니다.

  • 01:00:00 이 섹션에서 발표자는 지방 구성 요소와 무지방 질량 구성 요소로 구성된 체질량 지수(BMI)와 같이 주어진 특성에 대한 구성 및 기여 구성 요소를 정량화할 수 있는 방법을 설명합니다. . BMI의 유전적 위험은 다른 구성 요소 중에서도 지방 구성 요소에 기여합니다. 발표자는 특정 PTV(Protein Truncating Variants)를 연구하고 강력한 효과 크기를 식별하여 체질량 지수에 대한 무지방 효과를 갖는 것보다 지방 생성 또는 지방 분해 효과에 기여할 수 있는 유전적 변이를 식별하는 데 관심이 있다고 설명합니다. 이 과정을 통해 화자는 체질량 지수에 대한 콜레스테롤이 없는 지방 질량 기여도가 높은 유전자 pde3b와 idiprogenesis에 기능적 결과를 나타내는 GPR 151을 식별합니다. 2000개의 표현형에 대한 유전적 연관성은 biobank engine.com.edu에서 온라인으로 제공되며, 누구나 좋아하는 유전자, 변이 또는 표현형을 검색하고 여러 인기 있는 유전자에 걸쳐 사용 가능한 연관성 집합을 찾아볼 수 있는 검색 포털이 된다는 생각을 가지고 있습니다. 바이오뱅크.

  • 01:05:00 이 섹션에서 발표자는 유전자 기능에 강력한 영향을 미치고 질병의 위험을 낮추는 돌연변이의 식별에 대해 논의합니다. 이는 새로운 치료 가설로 이어지고 약물 발견을 위한 표적 선택을 안내할 수 있습니다. 그들은 여러 바이오뱅크의 요약 수준 데이터를 결합하여 유전자 기능 및 표현형에 강한 영향을 미치는 특정 유전 변이체를 식별하는 과정을 설명합니다. polygenicity의 유전 가능성과 유전적 효과의 상관관계와 같은 유전적 매개변수를 추정함으로써 추론을 개선하고 치료 개발을 안내하기 위해 유전학과 특성/질병 사이의 관계를 시각화하는 것을 목표로 합니다. 강력한 효과 돌연변이의 예와 천식 및 1형 당뇨병과 같은 질병에 대한 보호에 미치는 영향도 제공됩니다.

  • 01:10:00 이 섹션에서 발표자는 위험 예측 모델에 유전 데이터를 적용하는 방법에 대해 논의합니다. 인간은 수백 가지 표현형과 연결된 수많은 유전적 변이를 가지고 있으므로 이러한 연결을 탐색하는 한 가지 접근 방식은 수백만 개의 단변량 모델을 맞추는 것입니다. 그러나 이 접근법은 유전적 변이 간의 상관관계로 인해 예측에 약한 특성을 가지고 있어 해당 변이를 다른 변이와 구별하기 어렵습니다. 따라서 수백만 개의 변수가 있는 대규모 회귀 모델을 피팅하여 다변량 모델을 개발합니다. 이러한 모델에 맞게 개발된 패키지를 S-LDSC라고 합니다. 이 모델은 예측 성능을 개선하기 위해 변수 선택을 허용하는 불이익 회귀 프레임워크인 Lasso 알고리즘을 사용합니다.

  • 01:15:00 이 섹션에서 발표자는 심혈관, 신장 및 간 바이오마커를 포함한 35개의 바이오마커에 대한 다유전자성 위험 점수 모델의 적용에 대해 논의합니다. 이 연구에서는 모델 성능을 평가하기 위해 훈련 데이터 세트 70개, 검증 세트 10개, 테스트 분할 20개를 생성했습니다. 모델의 성능은 다른 모집단에서 측정되었으며 결과는 이러한 예측 모델을 예측을 위해 인과적 변이를 사용하는 한 모집단에서 다른 모집단으로 이전하는 것과 관련된 한계를 보여주었습니다. 이 연구는 상관 관계 구조가 다양한 모집단에 걸쳐 다양하여 모델의 예측 성능에 영향을 미친다는 것을 보여주었습니다. 더욱이, 유전 변이의 다른 세트는 표현형의 유전 가능성을 설명할 수 있으며, 한 모집단에서 예측 모델을 이전하는 것은 다른 모집단에서도 제대로 작동하지 않을 수 있으므로 유전 변이 간의 상관 구조 관계가 무너집니다. 따라서 예측 정확도를 개선하기 위해 서로 다른 모집단 간에 데이터 공유가 필요합니다.

  • 01:20:00 이 섹션에서 화자는 다른 모집단에서 유전적 변이를 연구할 때 비유럽 인구에서 특정 변이가 없으면 효과 크기의 이질성에 기여할 수 있다고 설명합니다. 그러나 변이가 여러 모집단에 걸쳐 존재할 때 효과 크기는 더 동질적인 경향이 있습니다. 지단백질 a의 예는 유럽 인구의 분산에 기여하는 유전 변이가 아프리카 인구에 존재하지 않아 아프리카 인구의 성능 저하로 이어진다는 설명과 함께 제공됩니다. 연사는 또한 UK Biobank polygenic 점수 및 biotropic 효과와 관련된 연구 프로젝트에 관심이 있는 학생들을 감독할 의향이 있음을 나타냅니다.
 

그래프 신경망 - 강의 15



그래프 신경망 - 강의 15 - 생명 과학 학습(2021년 봄)

Graph Neural Networks에 대한 이 YouTube 강의에서 연사는 그래프 네트워크의 기본, 스펙트럼 표현, 준지도 분류 및 다중 관계형 데이터 모델링을 포함한 광범위한 주제를 다룹니다. 또한 그래프 네트워크와 자연어 처리의 교차점과 약물 발견을 위한 그래프 생성 방법에 중점을 둡니다. 강사는 예측 작업에 사용할 수 있는 유용한 노드 임베딩을 얻기 위해 그래프에 정보를 전파하는 다양한 방법을 설명합니다. 강의는 또한 GNN에 대한 대조 학습의 중요성, 패치 기반 표현과 주의 기반 방법을 결합할 때의 잠재적 이점, NLP에서 변환기 접근 방식의 사용을 강조합니다. 강의 후반부는 신약 개발에서 GNN의 실제 사용과 접합 트리를 사용하여 분자 구조를 인코딩 및 디코딩하는 방법을 보여주는 논문에 대해 논의하는 데 중점을 둡니다.

이 비디오는 약물 발견 및 잠재 그래프 추론을 포함하여 생명 과학에서 그래프 신경망(GNN)의 여러 응용 프로그램에 대해 설명합니다. 연사는 공간 지역성 및 고정 순서의 부족과 같은 GNN의 문제와 잠재적인 방법을 강조하며 고려되는 설정에는 주어진 노드의 유형 예측, 두 노드 간의 링크 예측, 두 노드 또는 두 네트워크 간의 유사성 측정이 포함됩니다. , 네트워크에서 커뮤니티 감지를 수행하여 노드를 클러스터링합니다. 또한 강사는 GNN이 그래프를 효율적으로 교육 및 포함하고, 정보를 변환 및 집계하고, 다약제 부작용을 처리하는 방법을 설명합니다. 또한 이 강의에서는 MARS와 같은 메타 학습 모델을 활용하여 새로운 세포 유형으로 일반화하는 등 생명 과학에서 표현을 자동으로 학습하는 두 가지 방법을 다룹니다. 마지막으로 강의에서는 GNN이 여러 데이터 세트에서 잠재 세포 표현을 학습하여 세포 유형 이질성을 캡처하는 방법에 대해 설명합니다.

  • 00:00:00 이 섹션에서 연사는 그래프와 단백질에 대한 네 번째 모듈과 그래프 신경망, 단백질 구조 및 약물 설계에 대한 향후 강의를 소개합니다. 발표자는 다가오는 수업 중 퀴즈를 준비하기 위해 숙제, 휴식, 보고서를 통해 자료를 검토하는 것이 중요하다고 강조합니다. 목표는 학생들을 속이거나 놀라게 하는 것이 아니라 그들이 현장을 포용하고 깊이 이해하도록 돕는 것입니다. 연사는 또한 이 분야에서 혁신적인 발전인 단백질 폴딩에 대한 AlphaFold 팀의 다가오는 강의에 대해 학생들에게 알립니다.

  • 00:05:00 이 섹션에서 강사는 네트워크의 개념과 생물학적 네트워크를 포함하여 사회의 다양한 측면에 어떻게 널리 퍼져 있는지 소개합니다. 생물학적 네트워크에는 조절 네트워크, 신호 네트워크 및 세포의 여러 수준에서 작동하는 대사 네트워크가 포함됩니다. 서로 상호 작용하는 이러한 네트워크의 속성을 이해하기 위한 네트워크 분석 방법이 필요합니다. 또한 노드와 에지를 사용하여 확률적 개체를 나타내는 확률적 네트워크에 대한 언급이 있습니다. 이러한 네트워크의 행렬 표현을 통해 네트워크를 분해하고, 커뮤니티를 학습하고, 선형 대수 접근 방식을 통해 모듈을 식별할 수 있습니다.

  • 00:10:00 강의의 이 섹션에서 연사는 네트워크 분석 및 스펙트럼 표현에 대한 광범위한 작업에 대한 개요를 제공합니다. 논의된 방법에는 Laplacian 행렬의 첫 번째 및 두 번째 고유값을 기반으로 하는 네트워크를 통한 최대 컷을 사용하여 구성 요소의 분리 가능성을 식별하는 것과 확산 커널을 사용하여 서로 다른 에지 사이의 정보 흐름을 이해하는 것이 포함됩니다. 발표자는 강의에서 논의할 그래프 신경망과 같은 딥 러닝 방법과 함께 사용할 수 있으므로 이 확립된 문헌을 잊지 않는 것이 중요하다고 강조합니다. 연사는 그래프 신경망에 대한 복습을 제공하고 준지도 학습, 다중 관계형 데이터 및 자연어 처리와 같은 문제 영역에 대해 논의할 게스트 강사인 Neil Band를 소개합니다.

  • 00:15:00 이 섹션에서는 그래프 컨벌루션 네트워크를 사용하여 그래프를 통해 정보를 효과적으로 전파하여 노드 기능 또는 많은 그래프를 계산하고 다운스트림 작업을 수행하는 방법을 배웁니다. 이 네트워크는 이웃으로부터 미래 정보를 수신하고 그려서 기능 정보를 집계하고 특정 노드를 업데이트할 수 있습니다. GNNS의 최종 목표는 전체 그래프의 속성을 예측하거나 각 개별 노드의 유형을 예측하는 데 사용할 수 있는 하나의 임베딩 벡터를 생성하는 것입니다. 업데이트 규칙은 노드의 숨겨진 표현의 전파 정보와 바로 이웃에서 받은 업데이트를 기반으로 합니다. 또한 모델의 매개변수 수를 줄이기 위해 서로 다른 매개변수를 적용하는 대신 공유 매개변수와 함께 동일한 가중치 행렬을 모든 이웃에 적용합니다.

  • 00:20:00 이 섹션에서 강사는 논문을 노드로, 인용 링크를 에지로 사용하여 인용 네트워크에서 분류 작업을 수행하기 위해 그래프 신경망을 사용하는 과정을 설명합니다. 그래프의 각 노드를 업데이트하여 인접 노드에서 정보를 흡수한 다음 출력을 얻는 2계층 그래프 컨벌루션 네트워크가 적용됩니다. 강사는 심층 네트워크를 통한 과도한 스무딩의 잠재적인 단점을 언급하고 게이트된 반복 단위를 사용하여 초기 상태의 메모리를 보존할 것을 제안합니다. 또한 강사는 관심 기반 방법과 패치 기반 표현을 결합하여 그래프 신경망에서 고차 표현을 학습할 수 있는 가능성에 대해 논의합니다.

  • 00:25:00 이 섹션에서 강사는 그래프 컨벌루션 네트워크, 주의 업데이트 및 메시지 전달 기술을 포함하여 그래프 신경망의 다양한 패러다임에 대해 논의합니다. 그들은 메시지 전달에서 그래프가 너무 조밀해질 때 발생하는 잠재적인 메모리 문제를 강조하지만 이러한 패러다임이 다양한 유형의 학습 작업에 유용하다는 점을 강조합니다. 그런 다음 그래프에서 준지도 분류로 뛰어들며, 변환 설정을 통해 명시적인 노드 기능 없이도 모델이 빠르게 학습할 수 있습니다. 마지막으로 강사는 자연어 처리와 같은 다중 관계형 데이터 모델링에 사용할 수 있는 관계형 그래프 컨볼루션 네트워크에 대해 다룹니다.

  • 00:30:00 이 섹션에서 강사는 그래픽 네트워크와 자연어 처리 사이의 연결, 특히 NLP에서 변환기 모델의 사용에 대해 논의합니다. 변환기 모델은 일반적으로 언어 번역 및 단어의 일반적인 개념 이해 학습과 같은 작업에 사용됩니다. 변환기 접근 방식은 많은 에지가 누락된 생물학적 네트워크와 달리 완전히 연결된 그래프에서 시작하며 업데이트된 버전을 출력하기 전에 self-attention을 사용하여 노드 임베딩을 업데이트합니다. 변환기 접근 방식이 생물학적 네트워크에 반드시 도움이 되는 것은 아니지만 두 분야 간의 전략 및 최적화의 교차 수분 가능성이 있습니다.

  • 00:35:00 이 섹션에서는 두 단어로 된 문장에 대한 단어 임베딩 업데이트를 수행하는 방법과 특정 단어를 다른 모든 단어로 조회하는 방법에 대해 알아봅니다. Graph Attention 네트워크는 전체 이웃이 그래프이고 위치 임베딩이 있다고 가정한다는 점을 제외하면 이와 동일한 방법을 사용합니다. 연사는 그래프 연결 정보를 아키텍처에 통합하는 방법과 이전에 언급된 단어만 사용하도록 그래프의 일부를 마스킹하는 방법을 설명합니다. 이러한 방법을 교차 적용할 수 있는 많은 기회가 있습니다.

  • 00:40:00 이 섹션에서 강사는 노드 분류 또는 그래프 분류와 같은 다운스트림 작업을 위한 학습 노드 임베딩의 비지도 학습 설정에 대해 설명합니다. 신경망이 잘 지정될 수 있는 능력을 향상시키기 위해 강사는 데이터 증대의 개념을 설명하고 대조 학습 접근 방식에서 어떻게 사용되는지 설명합니다. 강의에서는 샘플링 전략, 다양한 유형의 노드 표현 및 다양한 유형의 채점 기능과 같은 설계 매개변수도 다룹니다. 한 가지 접근 방식은 스코어링 기능을 사용하여 특정 클래스의 로컬 및 글로벌 표현 간의 상호 정보를 최대화하는 것입니다. 이를 통해 네트워크는 그래프의 다양한 정보 하위 집합에서 클래스 관련 정보를 추출하여 보다 강력한 노드 임베딩과 더 나은 다운스트림 성능을 얻을 수 있습니다.

  • 00:45:00 이 섹션에서 발표자는 그래프 신경망(GNN)의 노드 임베딩 차원과 GNN의 대조 학습 사용에 대해 논의합니다. 발표자는 실제로 GNN의 노드 속성이 큰 그래프의 단일 노드에 대해 256 또는 512 차원과 같은 고차원 공간에 있을 수 있다고 설명합니다. 화자는 또한 그래프 구조를 인코딩하기 위해 긍정 및 부정 예제를 사용하는 것과 관련된 대조 학습이 그래프 구조의 인코딩을 개선하기 위해 분류 대신 사용될 수 있다고 지적합니다. 마지막으로 발표자는 링크 예측 및 노드 분류를 위한 이웃 기반 점수 매기기의 효율성과 노드 표현 유형을 선택할 때 노드의 기능과 그래프 구조를 모두 고려하는 것의 중요성을 강조하면서 GNN의 설계 결정 사항을 요약합니다. .

  • 00:50:00 이 섹션에서 발표자는 그래프를 생성하는 두 가지 방법에 대해 논의합니다. 첫 번째는 표준 그래프 신경망 또는 그래프 컨벌루션 네트워크를 인코더로 사용하고 임베딩의 함수를 다음과 같이 사용하여 알려진 엔터티 간의 새로운 링크를 예측하는 것입니다. 디코더. 주어진 에지가 존재할 확률은 그것에 입사하는 노드를 기반으로 하며 다른 모든 에지와 독립적입니다. 두 번째 방법은 하나의 특정 상태를 사용하여 전체 그래프에 대한 단일 임베딩 벡터가 있는 그래프를 생성합니다. 이 상태는 각각의 특정 노드를 추가할 때 일련의 예측을 만드는 그래프 RNN을 사용하여 디코딩됩니다. 이 방법은 그래프를 생성하는 방법에 대해 가능한 한 적은 귀납적 편향을 도입하려고 시도합니다. 후자의 접근 방식은 약물 발견, 특히 Junction Tree Variational Autoencoder에 관한 논문에서 이전에 합성되었거나 특성화되었는지 여부에 관계없이 높은 효능을 가진 de novo 분자를 생성하는 데 사용됩니다.

  • 00:55:00 이 섹션에서는 그래프 신경망을 사용하여 분자 구조를 인코딩 및 디코딩하는 논문의 접근 방식을 설명합니다. 이 접근 방식은 세분화된 분자 그래프를 사용하여 상태를 인코딩하고 트리 분해를 사용하여 그래프의 상위 수준 구조를 디코딩합니다. 접합 트리를 사용하여 그래프에서 주기를 제거함으로써 작성자는 디코딩 프로세스를 단순화하고 노드의 레이블과 자식 노드를 추가할지 여부만 예측하여 분자의 유효한 상위 수준 구조를 얻을 수 있습니다. 저자는 게이트 반복 단위를 사용하여 지금까지 구축된 하위 트리의 모든 상태를 포함하고 분자 유효성 측면에서 높은 비율의 재구성을 달성합니다. 베이지안 최적화는 신약 생성을 위한 잠재 공간의 탐색 가능성을 평가하는 데 사용됩니다.

  • 01:00:00 이 섹션에서 발표자는 생명 과학에서 그래프 신경망(GNN)의 두 가지 응용 분야에 대해 논의합니다. 첫 번째 응용 분야는 GNN이 분자의 잠재 변수를 추론하고 화학적 특성을 예측하는 데 사용되는 약물 발견 분야입니다. 이 모델은 인코더-디코더 프레임워크를 사용하여 훈련되고 베이지안 최적화를 사용하여 최적화됩니다. 두 번째 응용 프로그램은 GNN이 시간이 지남에 따라 발생하는 역학 세트를 인코딩하여 문제의 숨겨진 구조를 모델링하는 데 사용되는 잠재 그래프 추론입니다. 이 모델은 미래 결과를 예측하는 데 사용할 수 있으며 인과 관계 발견에 적용할 수 있습니다. 연사는 장난감 데이터와 실제 모션 캡처 데이터를 제시하여 이러한 애플리케이션에서 GNN의 효과를 보여줍니다.

  • 01:05:00 이 섹션에서 연사는 그래프 신경망의 문제와 잠재적인 방법에 대해 논의합니다. 제한된 전력과 메시지 전달 및 이웃 집계의 동형 테스트에 대한 이론적 관계, 그래프에서 주기를 찾는 트리 구조 계산 그래프의 문제, 과도한 스무딩 문제를 포함하여 몇 가지 문제가 언급되었습니다. 그러나 발표자는 이러한 네트워크를 확장하고, 대규모 데이터 세트에서 학습하고, 시퀀스와 그래프 간에 다중 모달 및 교차 모달 학습을 시도할 가능성이 있다고 봅니다. 이어서 스탠포드 대학의 박사후 연구원이 생물학적 네트워크에서의 딥러닝에 대해 논의하고 데이터를 그래프로 표현하기 위해 보다 광범위하게 적용할 수 있는 심층 신경망 프레임워크가 필요한 방법에 대해 논의합니다. 딥러닝은 오늘날 우리가 생각하는 머신러닝 라이프사이클에 대한 사고방식을 변화시켰지만, 그래프로 표현되는 복잡한 데이터에 대해 딥러닝을 어떻게 활용하고 적용할지 불분명하다는 설명이다.

  • 01:10:00 이 섹션에서는 공간 지역성 및 고정 순서의 부족, 기준점의 부재 및 그래프의 동적 특성을 포함하여 그래프 데이터 학습의 복잡성에 대해 설명합니다. 그래프에 대한 표현 학습의 목표는 노드를 저차원 임베딩 공간에 매핑하기 위해 그래프를 입력으로 취하는 매핑 함수를 학습하는 방법을 찾는 것입니다. 효율적인 작업 독립적 기능 학습은 네트워크에서 기계 학습을 위한 이 프로세스의 중요한 목표입니다. 고려된 설정은 각 노드와 연관된 인접 행렬 및 노드 기능이 있는 그래프를 가정합니다. 여기에서 목표는 주어진 노드의 유형을 예측하고, 두 노드 간의 링크를 예측하고, 두 노드 또는 두 네트워크 간의 유사성을 측정하고, 클러스터링하는 것입니다. 네트워크에서 커뮤니티 감지를 수행하여 노드. 심층 신경망을 그래프에 적용하는 가장 순진한 접근 방식을 제시하지만 노드 수에 따른 네트워크의 매개 변수 수 증가, 훈련의 불안정성 및 과적합 가능성 증가 등 한계가 강조됩니다.

  • 01:15:00 이 섹션에서는 연사가 컨볼루션 신경망에서 차용한 아이디어를 사용하여 그래프 신경망이 그래프를 효율적으로 훈련하고 삽입할 수 있는 방법을 설명합니다. 노드의 이웃은 신경망의 구조를 정의하며 핵심 아이디어는 로컬 네트워크 이웃을 기반으로 노드 임베딩을 생성하는 것입니다. 화자는 순열 불변인 메시지 변환 및 집계 연산자를 생성하기 위해 정보를 집계 및 변환하는 방법을 보여줌으로써 이 개념을 설명합니다. 이러한 연산자를 학습하여 노드 정보를 변환하고 관심 속성을 예측할 수 있습니다.

  • 01:20:00 이 섹션에서는 화자가 그래프 신경망의 변환 및 집계 프로세스를 설명합니다. 기본 접근 방식은 노드의 정보를 평균화하고 비선형성이 뒤따르는 선형 변환을 위해 신경망을 적용하는 것입니다. 발표자는 GraphSAGE 알고리즘의 예를 제시합니다. 여기에서 노드의 로컬 이웃의 기능을 결합하기 위해 일반화된 집계 기능이 도입되었습니다. 평균, 풀링 또는 LSTM 셀과 같은 차별화 가능한 집계 기능을 사용하여 이웃 간에 정보를 집계할 수 있습니다. 연사는 또한 생물학에서 그래프 신경망의 사용과 특정 행동이나 결과를 예측하는 데 사용할 수 있는 방법에 대해 논의합니다.

  • 01:25:00 이 섹션에서 강사는 약물 조합으로 인한 부작용인 다약 부작용의 개념에 대해 설명합니다. 강사는 두 약물을 이종 네트워크의 노드로 모델링하여 두 약물의 조합으로 인한 부작용 가능성을 추정하는 것이 목표라고 설명합니다. 강사는 약물의 작용 메커니즘과 근본적인 생물학적 메커니즘을 포착하기 위해 네트워크에서 약물과 단백질을 모델링하는 방법의 예를 보여줍니다. 그런 다음 강사는 이웃이 에지 유형으로 분리되어야 하는 이기종 네트워크를 포함하도록 GNN(그래프 신경망)을 확장할 수 있는 방법과 각 에지에서 노드의 네트워크 이웃에 의해 정의된 그래프를 통해 정보를 변환하고 전파하는 방법을 설명합니다. 유형.

  • 01:30:00 이 섹션에서 강사는 생명 과학에서 표현을 자동으로 학습하는 두 가지 방법에 대해 설명합니다. 첫 번째 방법은 그래프의 각 노드에 대한 d차원 벡터 임베딩을 학습하여 두 약물이 부작용을 일으킬지 여부를 예측하는 데 사용할 수 있는 관계형 그래프 신경망을 기반으로 합니다. 두 번째 방법은 MARS라는 메타 학습 모델로, 이전에 주석이 달린 데이터의 사전 지식을 활용하여 이전에 본 적이 없는 새로운 세포 유형으로 일반화합니다. 주석이 없는 실험과 메타데이터 세트를 최적화함으로써 MARS는 세포 유형에 자동으로 주석을 달고 유전자 발현 프로파일을 기반으로 세포에 주석을 다는 지루한 수작업을 피할 수 있습니다.

  • 01:35:00 강의의 이 섹션에서 연사는 세포 유형의 이질성을 포착하기 위해 그래프 신경망을 사용하여 여러 데이터 세트에서 잠재 세포 표현을 학습하는 방법에 대해 설명합니다. 이 접근법은 저차원 임베딩 공간에서 주석이 달린 실험과 주석이 없는 실험에서 나온 세포의 공동 투영을 포함하며, 여기서 유사한 세포 유형은 가까이에 임베딩되고 다른 세포 유형은 멀리 임베딩됩니다. 이를 달성하기 위해 이 방법은 심층 신경망을 사용하여 셀 유형 대표 및 비선형 매핑 기능으로 셀 유형 랜드마크를 학습합니다. 이 접근법은 20개 이상의 조직에서 100,000개 이상의 세포가 포함된 대규모 마우스 세포 아틀라스 데이터에서 검증되었으며, Adjusted Rand Index 측면에서 기존 방법보다 45% 더 나은 성능을 달성합니다.
 

약물 설계를 위한 AI - 강의 16


약물 설계를 위한 AI - 강의 16 - 생명 과학의 딥 러닝(2021년 봄)

이 강의에서는 약물 설계를 위한 딥 러닝의 사용에 대해 논의합니다. 항생제 내성이 있는 새로운 화합물을 찾기 위해 딥 러닝을 어떻게 사용할 수 있는지 설명합니다. 또한 생물학적 지식을 통합하여 딥 러닝 모델을 개선할 수 있는 방법에 대해서도 설명합니다.

강의의 두 번째 부분에서는 약물 설계, 특히 약물 조합의 항바이러스 활동을 예측하기 위해 딥 러닝이 어떻게 사용될 수 있는지에 대한 개요를 제공합니다. 이 모델은 세포 기반 분석을 사용하여 생체 내에서 테스트되었으며 두 가지 새로운 시너지 약물 조합이 확인되었습니다.

  • 00:00:00 연사는 약물 설계 및 그 과제에 대한 딥 러닝을 소개합니다. 그는 기능적 공간과 화학적 공간에 대해 논의하고 딥 러닝을 사용하여 약물을 자동으로 찾는 방법을 설명합니다.

  • 00:05:00 약물 설계에 대한 세 가지 접근 방식은 첫 번째 원칙, 시뮬레이션 및 가상 스크리닝을 기반으로 합니다. 처음 두 개는 특정 속성을 가진 화합물을 찾는 데 적합하지만 마지막은 더 야심적이며 서로 독립적인 속성을 살펴봄으로써 올바른 화합물을 찾으려고 시도합니다. 시뮬레이션은 종종 너무 느리고 가상 스크리닝은 비용이 많이 듭니다. Denoble 약물 디자인은 가장 야심찬 접근 방식이며 일련의 기준을 살펴봄으로써 화합물을 찾는 역문제를 해결하려고 시도합니다.

  • 00:10:00 이 강의에서 연사는 약물 발견, 가상 스크리닝 및 고귀한 약물 디자인을 위한 두 가지 방법에 대해 논의합니다. 두 가지 방법 모두 고유한 장점과 단점이 있습니다. 가상 스크리닝은 빠르고 저렴하지만 기존 방법보다 적용 범위가 적고 고귀한 약물 설계는 느리지만 더 많은 새로운 화합물을 찾을 수 있습니다. 유전자 알고리즘은 화학 공간을 탐색하는 효과적인 방법이지만 이 작업을 위한 알고리즘에는 여전히 개선의 여지가 있습니다.

  • 00:15:00 이 강의에서 교수는 딥 러닝이 약물 설계에 어떻게 사용되고 있는지, 그리고 그것이 어떻게 전통적인 기술보다 더 효율적일 수 있는지 설명합니다. 그는 또한 객체의 사실적인 이미지를 생성하기 위해 딥 러닝을 사용할 수 있는 방법을 보여주는 "Dolly"라는 논문을 언급합니다.

  • 00:20:00 이 강의에서 교수는 약물 발견에 사용되는 딥 러닝 기술에 대해 논의하고 이러한 기술이 연구자들이 새로운 항생제를 찾는 데 어떻게 도움이 되었는지에 대한 예를 제공합니다.

  • 00:25:00 그래프 신경망은 박테리아를 죽일 수 있는 새로운 화합물을 찾는 데 사용되는 일종의 인공 지능입니다. 이러한 유형의 AI를 사용하는 목표는 기존 방법으로 발견되지 않은 화합물을 찾는 것입니다. 이러한 방법은 알려지지 않은 항균 패턴을 놓칠 수 있기 때문입니다.

  • 00:30:00 이 강의에서는 항생제 내성과 관련된 데이터에서 패턴을 식별하기 위해 딥 러닝을 사용하는 방법에 대해 설명합니다. 이 모델은 분자가 박테리아에 대해 효과적인지 여부를 약 9.0 auc의 정밀도로 예측할 수 있습니다.

  • 00:35:00 비디오는 기존 항생제가 일부 박테리아 변종에 대해 더 이상 효과가 없는 방법과 "할루신"이라는 새로운 화합물이 이러한 변종에 대해 어떻게 새롭고 효과적인지에 대해 설명합니다. 또한 이 화합물이 생쥐의 감염에 대해 어떻게 효과적인지 논의합니다.

  • 00:40:00 이 비디오는 항생제 내성이 있는 새로운 화합물을 발견하는 데 있어서 전통적인 방법에 대한 딥 러닝 모델의 성공에 대해 논의합니다. 비디오는 또한 전통적인 방법인 핸드 디자인이 항생제 내성이 있는 특정 화합물을 발견할 수 없는 방법을 보여줍니다. 딥 러닝 모델은 공간의 다른 부분을 캡처할 수 있으며 모델에 의해 높은 순위를 차지합니다.

  • 00:45:00 연사는 약물 설계에 사용되는 딥 러닝 모델에 대해 설명하고 생물학적 지식을 통합하여 모델을 개선할 수 있는 방법을 설명합니다. 그는 단일 약물보다 더 효과적인 것으로 밝혀진 약물 조합에 대한 사례 연구를 제시합니다.

  • 00:50:00 이 비디오는 약물 설계를 위한 AI에 대해 논의하며, 특히 시너지 화합물을 식별하기 위한 딥 러닝 사용에 중점을 둡니다. 목표는 시너지 효과가 있고 독성이 적은 약물을 찾고 바이러스 복제 주기에 대한 지식을 모델에 통합하는 것입니다.

  • 00:55:00 강의는 다양한 표적에 대한 약물의 항바이러스 활동을 예측하는 데 어떻게 사용될 수 있는지에 초점을 맞춰 약물 설계를 위한 딥 러닝 방법에 대해 논의합니다. 첫 번째 단계는 Campbell과 National Institute of Health의 데이터 세트를 사용하여 약물 표적 상호 작용을 예측하는 것입니다. 그런 다음 신경망을 사용하여 약물 설계 프로세스의 두 번째 단계인 다양한 표적에 대한 약물의 항바이러스 활성을 예측하는 데 필요한 분자 구조의 표현을 학습합니다. 딥 러닝과 매트릭스 완성의 조합을 사용하여 약물 설계를 개선할 수 있는 가능성이 강조됩니다.

  • 01:00:00 이 강의에서는 약물 설계, 특히 약물 조합의 항바이러스 활동을 예측하기 위해 딥 러닝이 어떻게 사용될 수 있는지에 대해 논의합니다. 이 모델은 세포 기반 분석을 사용하여 생체 내에서 테스트되었으며 두 가지 새로운 시너지 약물 조합이 확인되었습니다.

  • 01:05:00 이 강의는 생명 과학의 딥 러닝과 약물 설계에 대한 중요성에 중점을 둡니다. 강의는 약물 설계에 대한 두 가지 이전 접근 방식을 다룹니다. 하나는 시퀀스를 사용하고 다른 하나는 순환 신경망을 사용합니다. 강의는 분자의 스마일 스트림 표현이 매우 약하고 이 기술이 약물 발견에 적용될 때 성능이 좋지 않다고 지적합니다. 강의는 분자를 나타내는 더 좋은 방법은 순환 신경망으로 효율적으로 생성할 수 있는 그래프를 사용하는 것이라고 설명합니다.

  • 01:10:00 강의에서는 특히 의약품 디자인과 관련된 생명 과학 분야의 딥 러닝에 대해 논의합니다. 강의 노트는 딥 러닝을 사용하여 분자를 생성할 수 있지만 희박한 분자와 낮은 트리 웨이브 모티프에 문제가 있음을 지적합니다. 순환 신경망이 솔루션으로 제안되었으며, 트리 웨이브 모티프가 낮은 분자에서 더 성공적인 것으로 나타났습니다.

  • 01:15:00 이 강의는 분자를 저차원 벡터로 인코딩할 수 있는 딥러닝 오토인코더를 중심으로 생명과학 분야의 딥러닝에 대해 논의합니다. 이렇게 하면 생성할 수 있는 모티프의 수와 프로세스의 시간 복잡성이 줄어듭니다.

  • 01:20:00 이 강의에서 교수는 약물 디자인에서 모티프 재구성의 정확도를 향상시키기 위해 딥 러닝을 어떻게 사용할 수 있는지 설명합니다. 다면적 모티프 생성 모델은 분자에서 큰 주기를 포착할 수 있기 때문에 유리합니다. node-by-node 접근법을 사용한 모티프 생성의 성공률은 시퀀스 공간의 잘못된 표현으로 인해 낮습니다. 그러나 모티프별 접근 방식을 사용하면 성공률이 크게 향상됩니다. 이는 모델이 약물 유사성을 개선하기 위해 기존 분자를 수정하는 방법을 배울 수 있기 때문입니다.

  • 01:25:00 연사는 생명 과학 분야의 딥 러닝에 대한 간략한 개요를 제공하고 각 영역의 과제와 기회를 강조합니다. 그녀는 화학 및 약물 설계에 대한 토론으로 마무리합니다.

  • 01:30:00 이 강의에서 게스트 강사는 약물 디자인을 위한 인공 지능 분야에서 프로젝트를 추구하는 데 관심이 있는 학생들에게 조언을 제공합니다. 그들은 학생들이 원할 경우 그들로부터 멘토링을 받을 수 있다고 말합니다.
 

단백질 폴딩을 위한 딥러닝 - 강의 17



단백질 접힘을 위한 딥러닝 - 강의 17 - 생명 과학에서의 MIT 딥러닝(2021년 봄)

이 비디오는 단백질 접힘 분야에서 딥 러닝을 사용하는 방법과 특히 기하학적 딥 러닝을 사용하여 단백질 구조를 연구하고 리간드 결합 부위 및 단백질-단백질 상호 작용과 같은 것을 예측하는 방법에 대해 설명합니다. 이 비디오는 또한 템플릿 기반 대 템플릿 없는 모델링 방법, 단백질 접힘에서 접촉 예측을 위한 다양한 접근 방식, 단백질 구조 예측에서 이미지 모델링을 위한 잔류 신경망 사용에 대해 다룹니다. 전반적으로 연사는 단백질 구조와 그 기능에 대한 이해를 증진하는 딥 러닝의 가능성을 강조하고 이 주장을 뒷받침하는 자세한 예와 결과를 제공합니다.

이 비디오는 정확한 모델링을 위한 공진화 예측 및 템플릿 사용, 더 나은 상동체를 찾는 것의 중요성, 전통적인 물리학 기반에 의존하지 않고 비교 가능한 결과를 달성하기 위한 딥 러닝의 잠재력을 포함하여 단백질 접힘을 위한 딥 러닝에 대한 다양한 접근 방식에 대해 논의합니다. 행동 양식. 연사는 또한 차별화 가능한 출력의 사용과 전역 정확도의 중요성, 알고리즘 공간의 진화, 유전적 변이 또는 작은 분자와 같은 요인을 기반으로 단백질 확인을 예측하기 위한 딥 러닝의 잠재력에 대해 탐구합니다. 전반적으로 이 비디오는 단백질 구조 예측과 그 많은 응용 분야를 혁신하기 위한 딥 러닝의 흥미로운 잠재력을 강조합니다.

  • 00:00:00 비디오의 이 섹션에서 Bruno Correa는 기하학적 딥 러닝의 개념과 이를 단백질 구조 연구에 적용하는 방법을 소개합니다. 그는 이미지 분류에서 딥 러닝이 얼마나 성공적이었는지 설명하지만, 생물학의 데이터 세트는 일반적으로 다양한 시간 및 기타 차원에서 훨씬 더 풍부하고 고차원적이어서 기하학적 딥 러닝이 가치 있는 접근 방식이 된다고 설명합니다. Correa는 기계적 및 화학적 기능에서 결합 및 인식에 이르기까지 기능에서 단백질 구조의 중요성에 대해 논의하고 항체, 이온 펌프, 통신 및 강성 단백질과 같은 예를 제시합니다. 그는 또한 단백질 표면 연구 작업이 AlphaFold에 의해 해결되었는지 여부에 대한 질문에 답하면서 AlphaFold가 단백질 구조를 해결했지만 구체적으로 단백질 표면에 대한 연구는 해결하지 못했다고 설명합니다.

  • 00:05:00 이 섹션에서 발표자는 구조에서 단백질 기능을 예측하는 문제에 대해 논의합니다. 이는 단백질이 서로 상호 작용하고 세포의 다른 대사 산물과 상호 작용하는 방식을 이해하는 데 중요합니다. 발표자는 서로 다른 서열과 구조를 가지고 있음에도 불구하고 유사한 기능을 가질 수 있는 표면 표현에 중점을 두고 단백질 구조를 표현하는 다양한 방법을 제시합니다. 사람의 얼굴을 연구하는 것과 유사하게 연사는 단백질 표면의 패턴을 연구하면 기능에 대한 중요한 정보를 밝힐 수 있다고 주장합니다. 그런 다음 연사는 3D 분자 표면 표현을 사용하여 단백질 리간드 결합 부위를 예측하기 위한 심층 학습 접근 방식을 소개합니다.

  • 00:10:00 비디오의 이 섹션에서 연사는 단백질 폴딩 문제에 대한 기하학적 딥 러닝의 사용에 대해 논의합니다. 그들은 기하학적 딥 러닝을 위한 프로토타입 객체가 그래프 또는 표면이라고 설명하고, 그들의 팀은 단백질의 메쉬 표현을 사용하여 이를 연구했습니다. 그런 다음 각 노드에 여러 벡터 기능이 있는 메쉬의 하위 집합인 "패치"의 사용과 로컬 가중치가 할당되는 방법을 설명합니다. 발표자는 모양 지수, 거리 종속 곡률, 소수성 및 정전기적 특징을 포함하여 각 노드에 인코딩된 다양한 유형의 특징을 설명합니다. 그런 다음 이 정보는 추가 분석을 위해 벡터로 용도가 변경되었습니다.

  • 00:15:00 이 섹션에서 발표자는 기하학적 딥 러닝 접근 방식이 시퀀스에 관계없이 분자 표면을 인코딩하여 원자 패턴 및 화학적 특성을 연구할 수 있는 방법에 대해 논의합니다. 발표자는 특정 리간드의 특징을 기반으로 단백질 포켓을 분류하고 표면 지문을 사용하여 두 단백질의 도킹 구성을 예측하는 것과 같은 이 접근법의 잠재적인 응용에 주목합니다. 어떤 요인이 특이성을 예측하는 데 더 기여하는지 이해하기 위해 제거 연구를 수행했으며, 화학 및 기하학 모두 중요한 것으로 나타났습니다. 전반적으로 이 접근 방식은 단백질 구조와 그 기능에 대한 이해를 증진할 가능성을 보여줍니다.

  • 00:20:00 이 섹션에서 화자는 주어진 단백질 표면의 어떤 사이트가 다른 단백질과 상호 작용할 가능성이 더 높은지 예측할 수 있는 대규모 사이트라는 네트워크를 설명합니다. 또한 도킹에 사용되는 지문 스캔 기술과 다른 도킹 프로그램과 비교하여 이 접근 방식의 성공률에 대해 논의합니다. 발표자는 완전히 미분 가능한 네트워크를 사용하여 정전기 특성을 포함한 기하학적 및 화학적 특징의 계산과 단백질 표면을 설명하는 포인트 클라우드를 생성하는 차세대 Massive D Mass를 소개합니다. 마지막으로 발표자는 프로젝트의 흥미로운 설계 측면을 간략하게 언급하고 암 치료에서 T 세포의 활동을 제어하기 위한 중요한 목표에 대해 논의합니다.

  • 00:25:00 이 섹션에서 발표자는 딥 러닝을 사용하여 단백질을 표적으로 하는 분자를 설계하는 방법에 대해 설명합니다. 그들은 설계 분자의 표적이 되기 쉬운 부위를 예측하기 위해 Massive를 사용했고 표적 표면 지문을 추출했습니다. 그런 다음 그들은 모티프를 이 사이트에 도킹하고 관심 있는 단백질과의 상호 작용을 예측했습니다. 그 결과 이전에는 자연에서 알려지지 않은 새로운 모티프가 나타났고 약 1옹스트롬의 평균 제곱근 편차를 갖는 실험 구조와 성공적으로 일치했으며 이는 단백질에 결합하는 고친화성 결합제를 나타냅니다. 연사는 이 연구 분야를 탐구하는 데 관심이 있는 학생들에게 잠재적으로 조언을 제공합니다.

  • 00:30:00 강의의 이 섹션에서 발표자는 단백질 구조 예측 방법의 두 가지 주요 범주인 템플릿 기반 모델링과 템플릿 없는 모델링에 대해 논의합니다. 템플릿 기반 모델링은 PDB 데이터베이스의 기존 단백질 구조를 템플릿으로 사용하여 새로운 구조를 예측하는 반면, 템플릿 없는 모델링은 상동성 검색 및 기계 학습을 포함하여 템플릿에 의존하지 않고 구조를 예측하는 최신 방법입니다. 발표자는 후자의 방법에 초점을 맞추고 템플릿에 의존하지 않고 단백질 구조를 예측하기 위해 서열 상동성 검색, 신호 프로파일링 및 기계 학습을 사용하는 새로운 접근 방식을 설명합니다. 이 방법은 템플릿 기반 방법보다 많은 단백질에 대해 더 나은 정확도를 보여줍니다. 발표자는 또한 과거에 사용된 인기 있는 템플릿 기반 모델링 접근 방식인 조각 조립 방법에 대해서도 논의합니다.

  • 00:35:00 강의의 이 섹션에서 연사는 단백질 폴딩에서 템플릿 없는 모델링에 사용되는 파이프라인에 대해 논의합니다. 단백질의 두 원자 또는 잔류물 사이의 거리에 대한 예측 정보는 최적화 엔진에 입력되어 구조를 구축합니다. 연사는 또한 적용 범위 또는 필요한 탄소 잔류물의 수에 대한 컷오프 값을 사용하는 것을 포함하여 여러 시퀀스 정렬을 위한 다양한 전략에 대해 논의합니다. 이 모델링의 중요한 구성 요소는 콘텐츠 측정 또는 거리 메트릭을 사용하여 감탄사 측정을 모델링하는 유도 행렬을 예측하는 것입니다. 발표자는 접촉 위치 예측에 대한 몇 가지 효과적인 아이디어를 제시하며, 이는 최근 몇 년 동안 예측을 훨씬 쉽게 만들고 협업을 훨씬 더 효과적으로 만들었습니다.

  • 00:40:00 이 섹션에서 발표자는 단백질 폴딩에서 접촉 예측을 위한 세 가지 다른 접근 방식에 대해 논의합니다. 첫 번째 접근법은 연합 분석을 위한 전역 통계적 방법이지만 효과적이려면 많은 수의 서열 상동체가 필요합니다. 두 번째 접근 방식은 접촉 거리 예측을 위해 심층 합성곱 잔류 신경망을 사용하는 것이고, 세 번째 접근 방식은 단백질 데이터 뱅크의 시퀀스 및 구조 정보를 모두 고려하는 접촉 예측을 위한 변형 네트워크입니다. 연사는 또한 접촉 예측을 위한 이전 지도 학습 방법이 직면한 문제와 고급 기계 학습 모델을 사용하여 문제를 개선할 수 있는 방법을 설명합니다.

  • 00:45:00 이 섹션에서 발표자는 한 번에 두 개의 잔류물만 고려하여 전체 단백질 내에서 더 큰 관계를 무시한 단백질 접힘에 대한 이전 접촉 예측 방법의 한계에 대해 논의합니다. 이러한 문제를 해결하기 위해 연사는 딥 러닝을 사용하여 단백질의 모든 접촉을 동시에 예측하는 새로운 방법을 제안합니다. 이 방법은 각 원자 쌍을 이미지의 픽셀로 취급하는 것을 기반으로 하며, 이미지 분할 작업으로 문제를 공식화하는 데 사용할 수 있습니다. 완전히 컨벌루션된 잔류 신경망을 사용함으로써 화자는 그들의 방법이 접촉 예측 정확도를 크게 향상시키고 더 크고 단단한 단백질의 접힘을 가능하게 할 수 있음을 보여줍니다. 또한 이 방법은 단일 사슬 단백질과 막 단백질 모두에 잘 작동하며 모델을 변경하지 않고도 복잡한 접촉 예측에 사용할 수 있습니다.

  • 00:50:00 이 섹션에서 화자는 컨볼루션 신경망을 사용한 이미지 모델링을 통해 단백질 구조를 예측하기 위해 잔여 신경망을 사용하는 방법에 대해 논의합니다. 그들은 잔차 연결을 사용하면 훨씬 더 깊은 네트워크를 사용할 수 있어 과적합 없이 더 나은 정밀도로 이어진다고 설명합니다. 발표자는 다른 방법과 비교하여 순위 및 정확도에서 자신의 방법의 성능 결과를 보여주어 딥 러닝 접근 방식의 성공을 보여줍니다. 정밀도는 지난 8년 동안 향상되었으며 이제 정밀도는 80%까지 올라갈 수 있습니다.

  • 00:55:00 이 섹션에서 발표자는 단백질 폴딩을 위한 딥 러닝 모델을 사용하여 접촉 위치 및 설계 위치에 대한 진행 상황에 대해 논의합니다. 접촉 정밀도는 현재 80%의 정밀도로 크게 향상되어 이전 검사보다 훨씬 유용합니다. 발표자는 설계 위치에 디지털 네트워크를 사용하는 프로세스와 임시 기반 모델링을 크게 개선할 수 있는 방법을 설명합니다. 연사는 또한 러시아 정보 코드의 중요성에 대해 논의하고 특정 발효 단백질의 경우에도 이를 사용하지 않고도 여전히 좋은 예측을 달성할 수 있음을 보여줍니다. 결과는 딥 러닝이 새로운 구조를 생성할 수 있으며 정확한 예측을 위해 적은 수의 시퀀스 호르몬이 필요함을 시사합니다.

  • 01:00:00 이 섹션에서 연사는 서열 및 구조 정보를 사용하여 단백질 모델링을 개선하는 방법에 대해 논의합니다. 그들은 기존 예측을 훈련 세트에 대한 피드백으로 사용하여 공진화 예측을 향상시키고 더 나은 시퀀스 기반 예측자로 이끄는 아이디어를 탐구합니다. 또한 템플릿 정보 사용과 정확한 모델링을 위한 좋은 템플릿 찾기의 중요성에 대해 논의합니다. 또한 그들은 단백질 모델링에서 물리학의 역할에 의문을 제기하고 물리적 기반 방법이 모델을 개선하는 데 도움이 될 수 있지만 딥 러닝은 물리학을 사용하지 않고도 비슷한 결과를 얻을 수 있다고 제안합니다.

  • 01:05:00 이 섹션에서 비디오는 템플릿을 사용하지 않고 정말 큰 단백질을 모델링하는 방법에 대해 설명합니다. 예제 단백질에는 13,000개 이상의 잔류물이 있어 전통적인 방법으로는 정확하게 모델링하기 어렵습니다. 그러나 서로 다른 앙상블 방법을 결합하고 iPhone2의 워크플로우를 활용하여 단백질을 높은 정확도로 모델링합니다. 비디오는 또한 변압기를 사용하려면 많은 GPU 성능과 메모리가 필요하여 대부분의 사람들이 사용하기 어렵다고 지적합니다. 그러나 기계 학습 모델은 더 작은 훈련 데이터 세트로도 여전히 실현 가능합니다. 또한 모델의 기반이 되는 더 나은 상동체를 찾는 것은 추가 연구를 통해 개선할 수 있는 잠재적인 병목 현상입니다. 마지막으로 3D 모델링 도전 대상에 대한 진행률 차트가 표시되며 점수가 높을수록 예측 모델의 품질이 우수함을 나타냅니다.

  • 01:10:00 이 섹션에서는 Muhammad Al-Qaraghuli가 지난 20년 동안 단백질 구조 예측을 위한 알고리즘 공간의 진화에 대해 이야기합니다. 그는 초기 방법이 물리학 기반 모델과 에너지 함수를 사용하여 단백질의 가장 낮은 에너지 상태에 도달하는 데 어떻게 초점을 맞추었는지에 대해 논의하고, 보다 최근 방법은 다양한 확률적 추론 기술을 사용하여 정보를 추출하기 위해 공진화를 활용했습니다. Al-Qaraghuli는 이러한 방법의 정확도가 추가 시퀀스 정보 없이는 제한적이며 딥 러닝이 특히 막 및 막 단백질에 대한 단백질 구조 예측의 게임 체인저가 된 방법에 대해 설명합니다.

  • 01:15:00 이 섹션에서 발표자는 2010년대 초 비지도 방법의 사용과 Jim Wazoo의 작업과 같은 고유한 네트워크 기반 접근 방식을 통한 딥 러닝 도입을 시작으로 단백질 폴딩을 위한 딥 러닝 접근 방식의 진화에 대해 논의합니다. 2016년 RaptorX와 자본 X 18의 잔여 네트워크 아키텍처 사용. 발표자는 2018년에 종단 간 차별화 가능한 접근 방식의 첫 번째 세트 개발에 대해 설명합니다. 예측이 훨씬 빨라집니다. 최신 개발인 AlphaFold 2는 다중 서열 정렬(MSA) 객체를 법칙 객체로 취급하여 잠재적으로 서열 및 계통 발생의 전체적 측면과 더 높은 상관관계를 포착합니다. 마지막으로 발표자는 단백질 폴딩의 성배(개별 단백질 서열에서 AlphaFold 2만큼 작동할 수 있는 능력)에 대해 설명합니다.

  • 01:20:00 이 섹션에서 연사는 시험관 내에서 단백질이 접히는 능력과 세포 내부의 샤페론이 이 과정을 안내하는 정도에 대해 논의합니다. 그들은 또한 단백질의 1차 서열에 존재하는 정보의 양과 단백질 변형 돌연변이의 영향을 예측하기에 충분한지 여부를 조사합니다. 그들은 모든 물리적 측면이 존재할 필요 없이 개별 서열로부터 예측하는 것이 여전히 가능할 수 있음을 보여주는 A2 단백질 예측에 대해 논의합니다. 마지막으로 입력, 신경망 몸통, 일반적으로 구조와 관련된 프록시 개체인 출력을 포함하는 공간의 알고리즘이 도입된 후 후처리 파이프라인을 통해 최종 3차원을 생성합니다. 구조.

  • 01:25:00 이 섹션에서 발표자는 딥 러닝 모델에서 생성된 출력의 미분 가능성의 중요성에 대해 논의합니다. 출력이 실제 목표에서 멀어지면 잠재적인 최적화가 손실됩니다. 연사는 또한 자체 불일치 예측으로 이어질 수 있는 후처리의 사용과 딥 러닝 모델의 구현이 프록시 수량 없이 최종 주파수 구조를 예측하는 방법에 대해 논의합니다. 접근 방식에서 그들은 비틀림 각도의 이산 알파벳을 사용하여 로컬 기하학을 매개변수화하고 해당 알파벳에 대한 확률 분포를 예측합니다. 그렇게 함으로써 최종 구조의 효율적인 최적화를 가능하게 하는 엔진 차별화성을 유지할 수 있습니다.

  • 01:30:00 이 섹션에서 발표자는 각 잔기 및 반복 프로세스에서 자유 비틀림 각도를 사용하여 단백질 구조를 구성하는 접근 방식을 설명합니다. 손실 함수는 원래 구조를 형성할 때 잔류물 간의 상호 작용을 설명하기 위해 로컬 정확도뿐만 아니라 전역 정확도로 정의됩니다. 화자는 접근 방식이 제한적이지만 신경망 내부에서 발생하는 구조의 암시적 균질화가 시간이 지남에 따라 더 나은 예측으로 이어진다고 믿습니다. 발표자는 또한 PSSM(위치별 점수 매기기 행렬) 및 순환 아키텍처를 사용하여 출력을 매개변수화하는 방법에 대해서도 설명합니다. 마지막으로, 화자는 이 접근 방식을 사용하여 만든 예측 중 일부를 제시하고 구조의 일부 측면은 잘 예측되었지만 다른 측면은 그렇지 않다고 언급합니다.

  • 01:35:00 이 섹션에서 발표자는 수학을 단순화하고 공식화 프로세스를 단순화하는 frenesia 구성을 사용하여 비틀림 매개변수화 아이디어를 어떻게 발전시켰는지 설명합니다. 그들은 이제 C 알파에만 집중하고 회전 행렬을 사용하여 매개변수화하여 병리학적 이차 구조 문제를 해결합니다. 주요 변경 사항은 언어 모델을 통해 제공되는 단일 시퀀스의 아이디어로 되돌아갔다는 것입니다. 그들은 변환기를 사용하여 잠재 공간에 각 잔여물을 삽입하고 이를 입력으로 사용하여 예측을 수행하며, 훈련 성능을 향상시키기 위해 조각을 적응시키고 두 개의 서로 다른 단백질을 접합하는 추가 과제가 있습니다. 화자는 대상 캐스트 시퀀스를 예측할 때 RGN1과 RGN2를 비교한 결과를 보여줍니다. RGN2는 후처리 정제 단계로 인해 훨씬 더 나은 결과를 달성했습니다. 이것은 언어 모델을 통과한 단일 시퀀스 입력을 기반으로 한다는 점에 유의해야 합니다.

  • 01:40:00 비디오의 이 섹션에서 연사는 단백질 구조를 예측하는 방법의 정확성에 대해 논의합니다. 그들은 알파 2와 관련하여 정렬된 예를 보여주고 정확도가 최신 기술만큼 좋지는 않지만 예측을 위해 훨씬 적은 정보를 사용하고 있습니다. 그들은 또한 본질적으로 서열 공간의 황혼 지대에 있고 서열 상동체가 없는 단일 단백질의 예를 보여줍니다. 그들의 접근 방식은 공개적으로 이용 가능한 최신 시스템과 비교하여 상당한 차이를 만듭니다. 또한 연사는 de novo 단백질과 그들이 체계적으로 잘 작동하는 디자인된 단백질에 대해 논의합니다. 이는 이러한 유형의 시퀀스 기반 접근 방식이 단백질 디자인에 유용할 것이기 때문에 의미가 있습니다. 마지막으로 발표자는 방법의 상당한 속도 향상이 다양한 응용 프로그램에 유용할 수 있다고 설명합니다.

  • 01:45:00 이 섹션에서 연사는 유전적 변이 또는 작은 분자와 같은 다양한 요인을 기반으로 다양한 단백질 확인을 예측하기 위해 딥 러닝을 사용할 가능성에 대해 논의합니다. 단일 신호 공간 방법을 사용하는 것이 이론상 더 잘 작동할 수 있지만 알파 2가 출시되는 경우와 같이 서로 다른 버전을 실제로 직접 비교할 수 있을 때까지 알 방법이 없습니다. MSA를 사용하여 일반 결함을 예측한 다음 다른 단계를 사용하여 실제 구조로 정제하는 등의 정제 문제도 언급됩니다. 빠르게 진화하는 바이러스는 딥 러닝이 유용할 수 있는 또 다른 영역으로 언급됩니다. 궁극적으로 연사들은 잠재적인 미래 협업 기회에 대한 흥분과 세계 여러 지역의 사람들과 연결할 수 있는 특권을 표현합니다.