머신 러닝 및 신경망 - 페이지 23

 

병리학을 위한 기계 학습 - 강의 19



병리학을 위한 기계 학습 - 강의 19 - 생명 과학에서의 MIT 딥 러닝(2021년 봄)

강의는 기술의 도전과 한계를 포함하여 전산 병리학에서 딥 러닝 적용의 다양한 측면을 다룹니다. 발표자는 맹목적으로 알고리즘을 신뢰하는 데 주의해야 할 필요성에 대해 논의하고 네트워크가 학습하는 내용을 이해하는 것의 중요성을 강조합니다. 이 강의에서는 정밀 의학을 위한 예후 및 예측 도구를 개발하기 위해 암 진단, 예후 및 치료 반응 평가에 딥 러닝이 어떻게 사용되는지에 대한 몇 가지 예를 살펴봅니다. 연사는 또한 결핵에 대한 다중 약물 치료법 개발의 어려움에 대해 논의하고 이 문제를 해결하기 위한 다양한 실험실 프로젝트를 제안합니다. 전반적으로 이 강의는 병리학에서 딥 러닝의 잠재력을 강조하는 동시에 그 한계와 임상 환경에서 딥 러닝의 효과적인 배포를 보장하기 위한 다학제적 접근 방식의 필요성을 인정합니다.

"Machine Learning for Pathology - Lecture 19 - MIT Deep Learning in the Life Sciences (Spring 2021)"라는 제목의 이 YouTube 동영상에서 발표자는 일반적인 방법을 사용하여 병리학을 위한 기계 학습에서 배치 간 및 셀 간 이질성을 해결하려는 팀의 시도에 대해 논의합니다. 변형 정규화(TVN) 및 k-최근접 이웃 접근법. 그들은 또한 형태학적 프로파일링을 사용하여 박테리아에 미치는 영향을 기반으로 약물을 분류하고 감독 및 비지도 학습을 모두 사용하여 약물 조합을 설계하고 우선 순위를 지정하는 데이터 중심 접근 방식을 개발하는 방법을 설명합니다. 또한 발표자는 약물 시너지 대 길항 작용 연구에 기여한 연구실 구성원들에게 감사를 표하며 해당 분야의 연구를 이해하고 발전시키기 위해 더 큰 맥락을 고려하는 것이 중요함을 강조했습니다.

  • 00:00:00 이 섹션에서는 Anand Madabhushi가 전산 병리학 분야, 특히 의료 이미지 분석 분야에서 딥 러닝의 영향에 대해 논의합니다. 병리학의 디지털화가 사용 가능한 방대한 양의 데이터로 인해 딥 러닝 적용을 위한 온상이 되었지만 Madabhushi는 수십 년의 전문 지식을 통해 수작업 기능을 포함하는 특수 방법론이 딥 러닝 방법을 능가하지 못했을 수 있다고 경고합니다. . 그는 또한 암 진단 및 사망률에 대한 몇 가지 통계를 제공하여 영상을 사용하여 초기 단계에서 정확한 암 진단의 중요성을 강조합니다. Madabhushi는 이 분야에서 딥 러닝이 어디에서 어떻게 가장 유용할 수 있는지에 대한 그의 교훈과 생각을 공유하기를 희망합니다.

  • 00:05:00 이 섹션에서 연사는 암, 특히 전립선암과 같은 나태한 암의 과잉 진단 및 과잉 치료 문제에 대해 논의합니다. 바이오마커와 치료제의 발전에도 불구하고 과잉진단과 과잉치료는 여전히 문제가 있으며 환자에게 재정적 피해를 줍니다. 그런 다음 발표자는 정밀 의학을 위한 예후 및 예측 도구를 개발하는 데 도움이 되는 암 진단, 예후 및 치료 반응 평가의 맥락에서 기계 학습의 잠재력을 탐구합니다. 유전자 발현 기반 분석과 같은 도구가 이미 있지만 한계가 있으며 종양 내 이질성을 고려하지 않습니다. 기계 학습은 이러한 한계를 개선하고 암을 더 잘 관리하고 치료할 수 있는 기회를 제공합니다.

  • 00:10:00 이 섹션에서 강사는 인간 병리학자가 시각적으로 식별할 수 없는 기능과 패턴을 식별하기 위해 디지털화된 병리학 슬라이드와 고급 기계 학습 이미지 분석을 사용하는 방법에 대해 설명합니다. 개별 세포, 림프구 및 암세포를 식별함으로써 데이터 과학자는 네트워크 이론을 사용하여 개별 세포의 공간 구조를 조사하고 개별 세포의 공간 배열에서 다양한 양적 메트릭을 분석하여 환자의 진단, 예후 및 치료 반응을 더 잘 이해할 수 있습니다. . 이 프로세스는 병리학 분석에 대한 비침습적 클라우드 기반 접근 방식을 허용합니다.

  • 00:15:00 이 섹션에서 연사는 병리학 슬라이드의 데이터 양이 다른 모든 의료 영상 영역을 대체한 컴퓨터 병리학 분야에서 딥 러닝의 영향에 대해 논의합니다. 신경망은 6년 전에 게시되었으며, 세포의 주석을 기반으로 학습하는 스택형 스파스 오토인코더에 대한 개별 셀의 주석을 사용하여 신경망이 기울기 및 대략적인 타원형 모양과 같은 더 작은 세부 사항을 선택할 수 있도록 합니다. 세포. 네트워크는 이미지를 일련의 경계 상자로 분해하는 학생들이 손으로 라벨을 붙인 셀이 있고 셀이 없는 패치에 대해 훈련되었습니다. 일부 셀이 누락되었지만 네트워크는 다양한 셀 유형의 뉘앙스를 포착할 수 있었습니다.

  • 00:20:00 이 섹션에서 연사는 특히 염색 및 주석과 관련하여 병리학에서 딥 러닝의 한계에 대해 논의합니다. 염색은 세분화의 충실도에 상당한 영향을 미칠 수 있으며 작은 셀과 큰 셀 간의 불일치로 인해 네트워크가 가장 강력한 방식으로 훈련되지 않았습니다. 연사는 또한 정상적인 심장과 심부전 위험이 있는 심장을 구별하기 위해 감독되지 않은 기능 생성을 기반으로 하는 CNN 알고리즘을 교육하는 작업에 대해 설명합니다. CNN 알고리즘은 0.74의 병리학자의 AUC에 비해 0.97의 AUC를 달성하여 병리학자를 능가했습니다.

  • 00:25:00 이 섹션에서 발표자는 동일한 기관 및 스캐너에서 두 세트의 환자에게 동일한 알고리즘을 실행하는 동안 놀라운 발견에 대해 논의합니다. 이미지 병리에 차이가 없음에도 불구하고 두 번째 세트의 AUC는 이미지 기능을 미묘하게 변경한 소규모 소프트웨어 업그레이드로 인해 극적으로 떨어졌습니다. 이는 통제된 것처럼 보이는 설정에서도 알고리즘을 맹목적으로 신뢰하는 데 주의가 필요함을 강조했습니다. f의 패널은 또한 CNN을 사용한 감독되지 않은 기능 생성이 사전 분석 소스에 민감한 컨볼루션을 주로 학습했지만 특정 유형의 셀과 공간 배열의 중요성도 강조했음을 보여주었습니다. 이로 인해 초기 최고 점수에 필적하는 AUC를 생성하지만 사이트와 캔버스 전체의 변형에 더 탄력적인 AUC를 생성하는 후속 접근 방식으로 이어졌습니다.

  • 00:30:00 이 섹션에서 연사는 네트워크가 학습하는 내용을 이해하는 것의 중요성과 의료 진단에서 무차별 대입 알고리즘을 신뢰하는 것에 대해 주의를 기울이는 것에 대해 논의합니다. 그는 배경에 눈이 있다는 사실만으로 허스키와 늑대를 구별하는 방법을 학습한 네트워크의 예를 공유하며, 네트워크 결과를 해석할 때 주의해야 할 필요성을 강조합니다. 이러한 한계에도 불구하고 연사는 병리학의 감지 및 세분화 작업에서 딥 러닝의 유용성을 식별하고 Quick Annotator라는 대화형 도구를 공유합니다. 대화식 학습 모드의 결과.

  • 00:35:00 이 섹션에서 연사는 병리학 이미지에 대한 주석 프로세스의 문제, 특히 병리학자가 사용할 수 있는 시간 부족에 대해 논의합니다. 이 문제를 해결하기 위해 연사는 손으로 만든 기능이 주석 프로세스의 효율성을 개선하는 데 어떻게 도움이 되는지 설명합니다. 그들은 딥 러닝을 사용하여 다양한 조직 구획과 세포 유형을 식별한 다음 그래프 네트워크를 호출하여 조직 구획 내에서 다양한 세포 유형의 공간 통계 및 상호 작용을 살펴보는 예를 제공합니다. 연사는 또한 딥 러닝을 사용하여 콜라겐 섬유를 분류하고 방향에 벡터를 할당한 다음 유방암 환자의 엔트로피 및 예후 값을 결정하는 데 사용된 방법을 설명합니다. 마지막으로 연사는 딥 러닝을 사용하여 전립선 분할을 수행한 다음 전립선의 공간 배열과 구조를 살펴보고 수술 후 재발할 환자를 예측하는 전립선암에 대한 새로운 연구를 발표합니다.

  • 00:40:00 이 섹션에서 발표자는 전립선암 결과를 예측하기 위한 상업적 분자 분석과 딥 러닝 알고리즘을 사용하는 이미지 기반 접근 방식 간의 일대일 비교에 대해 논의합니다. 결과는 두 가지 간단한 임상 요인과 결합된 이미지 기반 접근 방식이 비용이 많이 드는 분자 분석법보다 거의 두 배 더 잘 수행됨을 보여주었습니다. 또한 딥 러닝 알고리즘을 사용하는 이미지 기반 접근 방식은 분자 분석에 비해 훨씬 저렴한 비용으로 분석할 수 있는 해석 가능하고 검증된 특징을 산출했습니다. 연사는 또한 딥 러닝의 임상 적용에서 해석 가능성의 필요성을 강조하고 딥 러닝 접근 방식과 함께 수작업 기능 엔지니어링의 중요성을 강조했습니다.

  • 00:45:00 이 섹션에서는 특히 결핵(TB)에 대한 다제 요법을 설계하는 맥락에서 병리학을 위한 기계 학습의 해석 가능성 문제에 중점을 둡니다. 해석 가능성의 부족은 자신의 결정을 신뢰하기 위해 모델의 기본 표현을 이해해야 하는 임상의에게 중요한 문제를 제기합니다. 연사는 네트워크에 끊임없이 질문을 던지고 아무 것도 당연하게 여기지 말아야 할 필요성을 강조합니다. 또한 가장 간단한 방법론부터 시작하여 딥 러닝을 사용할 시기를 결정하는 것의 중요성에 대해서도 논의합니다. 결핵에 대한 연구실의 작업은 질병 치료의 어려움, 다중 약물 요법의 필요성 및 관련된 상당한 이질성을 강조합니다.

  • 00:50:00 이 섹션에서 연사는 감수성을 보장하기 위해 다양한 약물이 필요한 폐 박테리아의 다양한 미세 환경으로 인해 결핵에 대한 다중 약물 치료법 개발의 어려움에 대해 논의합니다. 발표자는 현재 결핵 치료에 사용할 수 있는 많은 약물이 있지만 광대한 미개척 조합 공간으로 인해 모든 잠재적 조합을 테스트하기가 어렵다고 지적합니다. 발표자는 이 문제를 해결하기 위해 두 가지 실험실 프로젝트를 제안합니다. 첫 번째는 이미징을 통해 단일 약물 공간을 좁혀 신약의 작용 경로를 식별하는 것이고 두 번째는 기계 학습을 사용하여 체계적인 조합 측정을 수행하고 분류기를 개발하여 가장 효과적인 약을 예측하는 것입니다. 참신한 조합. 연구실에서는 다양한 치료 결과를 평가하기 위해 시간 경과 영상을 사용하여 박테리아 세포 형태의 변화를 포착합니다.

  • 00:55:00 이 섹션에서 발표자는 감독되지 않은 학습 및 클러스터링을 사용하여 E.coli에서 유사한 약물 프로필을 연결하는 프로젝트에 대해 설명합니다. 그들은 프로파일이 동일하게 보일 때 해당 약물이 유사한 작용 메커니즘을 갖는다는 가설을 세웠습니다. 그들은 이 아이디어를 TB에 적용했지만 세포는 예상대로 얼룩을 흡수하지 않았고 형태학적 특징은 서로 매우 뚜렷하게 보이지 않았습니다. 그러나 그들은 여전히 일부 처리 그룹에서 처리되지 않은 세포와 통계적으로 유의미한 차이를 발견했습니다. 세포학적 프로파일링을 위한 전형적인 파이프라인이 확립되었고 그들은 어떤 치료 그룹이 서로 가장 유사해 보이는지 알아내기 위해 분류 시험을 하기를 희망했습니다. 그들은 병원체가 약물에 반응하지만 반응 메커니즘이 다양하고 세포벽이 매우 두꺼워 약물이 침투하기 어렵다는 것을 발견했습니다.

  • 01:00:00 강의의 이 섹션에서 연사는 병리학을 위한 기계 학습에서 실험의 배치 간 및 셀 간 이질성을 해결하려는 팀의 시도에 대해 논의합니다. 그들은 가변 데이터로 인해 작동하지 않는 신경망을 사용해 보았습니다. 그런 다음 Google의 공동 작업자 Mike Ando가 개발한 TVN(전형적 변동 정규화)이라는 방법을 사용하여 비생물학적 변동을 줄이기 위해 각 실험에서 처리되지 않은 대조군의 주성분 분석(PCA)에 의해 생성된 공분산 행렬을 정렬했습니다. 그들은 또한 세포 간 이질성 메트릭을 통합하고 미묘한 형태학적 변화를 포착하기 위해 PCA 사용에서 k-최근접 이웃 접근 방식으로 전환했습니다. 그들은 취약성을 피하기 위해 확률적 접근 방식을 사용했으며 각 분류 시험에 대해 처리되지 않은 새로운 컨트롤 세트를 선택했습니다.

  • 01:05:00 이 섹션에서 발표자는 형태학적 프로파일링을 사용하여 박테리아에 미치는 영향을 기반으로 약물을 분류하는 과정을 설명합니다. 이 프로세스에는 저용량 및 고용량의 약물로 박테리아를 치료하고, 박테리아를 고정 및 염색하고, 특징을 추출하고, 데이터를 정규화하고, 확률적 시뮬레이션을 수행하는 과정이 포함됩니다. 결과 합의 분류는 약 75% 정확하며 네트워크 다이어그램을 사용하여 약물 간의 연결을 시각화합니다. 그러나 연사는 베다퀼린이라는 한 가지 약물이 세포벽 작용제로 잘못 분류되어 박테리아의 에너지 위기를 유발한다는 가설에 이르렀다고 지적합니다. 이 가설은 지방산에서 박테리아를 성장시켜 다른 분류를 초래함으로써 확인되었습니다.

  • 01:10:00 강의의 이 섹션에서 발표자는 결핵에 대한 베다퀼린 약물의 작용 메커니즘과 그것이 박테리아의 대사 상태에 어떻게 의존하는지에 대해 논의합니다. 연사는 또한 결핵에 대한 항균제의 근위부 손상 및 이차적 영향을 결정하기 위해 형태학적 프로파일링을 사용하는 방법에 대해 설명합니다. 그들은 이 방법이 2차 연구를 위해 집중해야 하는 경로 공간으로 연구원을 안내하는 데 도움이 되는 표적 접근 방식을 제공한다고 설명합니다. 연사는 또한 전통적으로 결핵 치료에서 고차 조합에 비효율적인 체커보드 분석법을 사용하여 약물 조합을 측정하는 방법에 대해서도 언급합니다.

  • 01:15:00 이 섹션에서 연사는 결핵에서 고차 약물 조합을 측정하는 것과 관련된 문제에 대해 논의하고 다이아몬드(다이아고널 측정의 n방향 약물 상호 작용)라는 솔루션을 제시합니다. Diamond는 용량-반응 곡선의 단위를 보존하고 체커보드에서 가장 정보가 풍부한 부분을 측정하는 체커보드 분석의 기하학적 최적화입니다. 선을 투사함으로써 화자는 약물 상호작용의 정도가 분수 억제 농도로 정량화될 수 있는 방법을 설명합니다. Diamond는 최대 10가지 약물 조합을 효율적으로 측정하는 데 사용되었습니다. 발표자는 결핵에 대한 체외 연구를 사용하여 다중 약물 조합 설계의 두 가지 주요 문제를 해결하는 데 사용된 대규모 데이터 세트에 대해 논의합니다. 이 연구는 8개의 서로 다른 성장 환경에서 시험관 내에서 약물의 모든 단일, 쌍별 및 3방향 조합을 측정하여 서로 다른 동물 모델에서 발생하는 일을 모델링하여 컴퓨터로 병합했습니다. 연사는 약물 상호 작용 프로필이 성장 환경에 크게 의존하며 모든 조건에서 시너지 효과가 있는 단일 조합은 없다고 결론을 내립니다.

  • 01:20:00 이 섹션에서 연사는 기계 학습을 사용하여 약물 조합을 설계하고 우선순위를 지정하는 데이터 기반 접근 방식에 대해 논의했습니다. 그들은 지도 학습과 비지도 학습을 모두 활용하여 데이터를 데이터 큐브로 조합하고 표준 치료보다 나은지 여부에 따라 조합을 설명하는 강력한 신호를 발견했습니다. 그들은 또한 랜덤 포레스트 모델과 같은 다양한 감독 학습 방법을 사용하여 측정하는 성장 조건의 수를 제한하는 방법을 찾았습니다. 발표자는 검증된 체외 모델을 사용하여 조합 공간을 체계적이고 효율적으로 탐색하는 최선의 방법에 대한 경로를 제시하는 데 더 간단한 접근 방식이 더 효과적이라고 강조했습니다. 전반적으로, 그들의 접근 방식은 체외 실험의 수를 줄이고 최상의 약물 조합을 유도하는 데 도움이 될 수 있습니다.

  • 01:25:00 이 섹션에서 연사는 약물 상승 작용 대 길항 작용 연구를 포함하는 여러 가지 어렵고 지저분한 프로젝트에 참여한 연구실의 개인들에게 감사를 표합니다. 이러한 연구는 궁극적으로 생명 과학 분야의 머신 러닝 및 딥 러닝에 대한 더 큰 맥락을 제공하는 데 도움이 되며, 훨씬 더 큰 방정식의 작은 조각임을 강조합니다. 이 더 큰 맥락을 고려하는 것의 중요성은 이것이 항상 올바른 접근 방식은 아니지만 해당 분야의 연구를 이해하고 발전시키는 데 필요하기 때문에 강조됩니다. 전반적으로 연사의 이야기는 매우 명료했으며 기계 학습과 병리학의 교차점에 대한 귀중한 통찰력을 제공했습니다.
 

세포 이미징 세분화를 위한 딥러닝 - 강의 20



세포 이미징 세분화를 위한 딥 러닝 - 강의 20 - 생명 과학에서의 MIT ML(2021년 봄)

이 비디오에서 연사는 타임랩스 이미징에서 세포의 움직임을 결정하는 것과 관련된 세포 추적을 위한 딥 러닝의 사용에 대해 논의합니다. 기존의 수동 추적 방법은 비용과 시간이 많이 소요되며 딥 러닝 방법은 프로세스 속도를 크게 높이는 동시에 더 높은 정확도를 제공할 수 있다고 설명합니다. 연사는 U-Net, StarDist 및 DeepCell을 포함하여 셀 추적을 위한 다양한 딥 러닝 아키텍처에 대해 논의합니다. 그들은 또한 셀 추적의 과제 중 하나가 서로 가깝거나 겹치는 셀을 구별하는 것이며 다중 개체 추적 또는 그래프 기반 접근 방식과 같은 방법이 이 문제를 해결하는 데 도움이 될 수 있다는 점에 주목합니다. 발표자들은 세포 추적을 위한 다양한 딥 러닝 방법을 벤치마킹하고 재현성과 비교를 위해 공개 액세스 데이터 세트를 제공하는 것의 중요성을 강조합니다. 그들은 또한 암 연구 및 약물 발견과 같은 다양한 분야에서 세포 추적의 잠재적인 응용을 강조합니다.

  • 00:00:00 이 섹션에서 Juan Casado는 현미경 및 기타 이미징 기술을 사용하여 생물학적 시스템을 이해하는 방법인 이미지 기반 표현형의 개념에 대해 설명합니다. 그는 세포와 같은 생물학적 구조의 이미지가 세포 크기 및 DNA 함량을 포함한 다양한 표현형에 대해 정량화되고 치료 및 약물 발견에 대한 결정을 안내하는 데 사용되는 방법을 설명합니다. Casado는 현미경 이미지를 사용한 세포 크기의 정확한 측정을 통해 발견된 백혈병에 대한 성공적인 약물 후보의 예를 제공하여 최종적으로 FDA의 승인을 받았습니다. 그는 생물학 및 약물 개발 분야에서 이미지 기반 프로파일링의 잠재적 영향을 강조합니다.

  • 00:05:00 이 섹션에서는 서로 다른 특성을 가진 세포 집단을 비교하고 어떤 치료법이 효과적인지 확인하는 문제에 중점을 둡니다. 이를 위해서는 이미지 기반 프로파일링이 필요한 세포 이미지에서 정보를 추출하기 위한 더 많은 정보와 전략이 필요합니다. 여기에는 이미지를 사용하여 세포의 형태 또는 세포 상태를 확장하여 약물 발견 및 기능적 유전체학을 위한 정량적 정보를 추출하는 것이 포함됩니다. 이 접근 방식과 관련된 두 가지 계산 문제는 셀 분할 및 단일 셀 표현 학습입니다. 여기서 목표는 다양한 이미지 유형에 대한 분할 알고리즘을 조정하는 데 시간과 에너지를 소비할 필요 없이 이미지에서 단일 셀의 위치를 식별하는 것입니다. 궁극적으로 목표는 자연 이미지에서 위상 검출기뿐만 아니라 작동하는 세포에 대한 분할 알고리즘을 만드는 것입니다.

  • 00:10:00 이 섹션에서 연사는 컴퓨터 비전 기술이 생물학의 분할을 위해 작동하도록 만드는 것을 목표로 하는 BioImage Challenge 2018에 대해 이야기합니다. 문제는 주석이 달린 데이터 세트를 생성하고, 훈련 및 테스트 파티션으로 분할하고, 성공 지표를 정의하고, 교차 합집합을 기반으로 한 채점 시스템을 통해 참가자에게 피드백을 제공하는 것과 관련이 있습니다. 참가자는 감독 기계 학습 모델을 사용하여 입력과 출력 간의 관계를 학습하고 입력으로 제공한 이미지의 세분화 맵을 생성해야 했습니다. 승자는 사용된 메트릭에 따라 최종 테스트 세트를 더 정확하게 분할할 수 있는 사람들이었습니다.

  • 00:15:00 이 섹션에서 연사는 세포 이미징 분할 경쟁에서 상위 3개 경쟁업체와 기계 학습 모델에 대한 서로 다른 아키텍처의 사용에 대해 논의합니다. 3위 팀은 마스크 RCNN 아키텍처를 사용했습니다. 이 아키텍처는 이미지를 영역으로 분해하고 네트워크에서 검토하여 실제 개체인지 여부를 결정하는 후보를 생성한 후 정확한 경계 상자와 마스크를 식별하여 개체를 개체와 구분합니다. 배경. 2위 팀은 중간 출력을 생성하기 위해 여러 기능 맵을 계산하고 모든 다른 해상도에서 정보를 집계하여 최종 출력을 생성하는 이미지 피라미드 네트워크를 사용했습니다. 발표자는 아키텍처가 셀 세분화를 위한 높은 정확도를 달성하는 데 역할을 하지만 정기적인 보정 및 교차 검증 실험이 실행되는 방식도 중요하다고 지적합니다.

  • 00:20:00 이 섹션에서 화자는 이미지 분할에 대한 새로운 접근 방식에 대해 설명합니다. 이진 마스크를 사용하여 이미지에서 개체의 위치를 결정하는 대신 솔루션에는 셀 중심에서 다른 방향으로 거리를 측정하는 거리 맵 또는 각도 맵을 예측하는 것이 포함됩니다. 출력은 개체 위치를 보다 정확하게 측정하기 위해 수동으로 설계되었으며, 그 결과 경쟁에서 2위를 차지했습니다. 이 아이디어는 그 당시에는 참신했지만 후속 작업에서는 그 가치를 평가하고 특히 많은 물체가 있는 복잡한 이미지의 경우 강력한 것으로 나타났습니다. 사용된 인코더-디코더 아키텍처는 혁신적이지 않았지만 참신함은 32개의 서로 다른 모델에서 정확한 아키텍처를 복제하여 앙상블을 형성하여 경쟁에서 승리하는 데 도움이 되었습니다.

  • 00:25:00 이 섹션에서 발표자는 앙상블 접근 방식과 세포 이미지 분할을 위한 단순한 모델의 성능에 대해 논의합니다. 그들은 앙상블 접근법이 계산 집약적일 수 있지만 더 간단한 모델이 실제로는 여전히 효과적일 수 있다고 설명합니다. 그들은 또한 대회의 한계에 대해 논의하고 앙상블 내의 개별 모델을 분석하여 가장 정확한 모델로만 가지치기하는 것이 도움이 될 것이라고 언급합니다. 그런 다음 연사는 특정 이미지 유형에 대한 알고리즘을 최적화하는 데 시간이 많이 걸릴 수 있고 이미지 유형에 따라 정확도가 다를 수 있음을 보여주면서 세분화를 통해 생물학 연구를 촉진하는 데 있어 개선할 수 있는 사항을 평가합니다. 그들은 또한 주석의 불균형과 특정 이미지 유형 분할의 어려움이 실제 상황에서 문제가 될 수 있다는 점에 주목합니다.

  • 00:30:00 이 섹션에서 발표자는 작은 형광 이미지부터 분할하기 어려운 분홍색 및 보라색 이미지에 이르기까지 다양한 유형의 이미징 기술을 구문 분석하는 문제에 대해 논의합니다. 이미지 유형당 하나의 모델을 교육하거나 매개변수가 조정된 기존 알고리즘을 사용하는 것과 같이 이미지를 분할하는 다양한 접근 방식이 있습니다. 또한 Nucleizer, CellPose 및 Mesmer와 같은 세포 세분화에 사용할 수 있는 사전 훈련된 모델이 있습니다. 그러나 더 큰 데이터 세트를 수집하고 전문가가 객체를 식별하는 데 소요하는 시간을 최적화하는 것과 같은 세분화에는 여전히 미해결 과제가 있습니다. 연사는 또한 고전적인 형태 측정을 넘어 기능을 학습할 수 있는 기계 학습 방법을 사용하여 세포의 표현형을 측정하는 것의 중요성에 대해 간략하게 언급합니다.

  • 00:35:00 이 섹션에서 발표자는 약물 발견을 위한 세포 영상 분할에서 기계 학습 방법을 사용하는 방법에 대해 논의합니다. 섭동 실험은 세포가 화합물로 처리되는 경우에 사용되지만 배치 효과는 소음을 유발하고 표현형에 대한 이해를 혼란스럽게 할 수 있습니다. 실측 정보가 없기 때문에 적용된 화합물을 분류하기 위해 신경망을 사용하는 약한 감독 학습 방법이 사용됩니다. 목표는 화합물이 유사한지 여부를 알 수 있는 의미 있는 방식으로 세포를 구성하는 기능을 얻는 것입니다. 평가에는 유용한 화합물에 대한 검색 공간을 줄이기 위해 유사한 생물학적 효과를 공유하는 화합물 클러스터를 관찰하는 것이 포함됩니다. 딥 러닝 기능과 기존 기능을 비교하면 상당한 차이가 나타납니다.

  • 00:40:00 이 섹션에서 발표자는 특히 화합물 간의 생물학적으로 의미 있는 연결을 결정하고 암에서 돌연변이의 영향을 식별하는 세포 이미징 세분화를 위한 딥 러닝 사용에 대해 논의합니다. 유전자의 원래 유형을 돌연변이와 비교함으로써 연구자들은 돌연변이가 암을 유발하는지 여부를 결정하기 위해 그들 사이의 표현형 유사성을 측정할 수 있습니다. 그러나 일괄 수정은 이미지에서 학습된 특징에 영향을 줄 수 있으므로 딥 러닝에서 여전히 어려운 과제입니다. 화자는 화합물 분류 및 배치 결정을 위해 두 개의 헤드와 함께 신경망이 사용되는 영역 적응을 사용할 것을 제안합니다. 그런 다음 음의 기울기는 배치와 관련된 잠재적 정보를 파괴하는 데 사용되어 더 명확한 표현형 결정이 이루어집니다. 전반적으로 화자는 이미지가 생물학적 발견을 위한 훌륭한 정보원이라는 결론을 내리지만 표현 학습 및 설명 가능한 모델의 공개 과제도 인정합니다.
 

딥러닝 이미지 등록 및 분석 - 강의 21



딥러닝 이미지 등록 및 분석 - 강의 21 - MIT ML in Life Sciences (Spring 2021)

이 강의에서 Adrian Dalock은 의료 이미지 정렬과 그 이면에 있는 최적화 문제에 대한 주제를 탐구합니다. 그는 이미지 등록을 위해 신경망을 훈련시키기 위해 레이블이 지정되지 않은 데이터 세트를 사용하는 것과 관련된 voxel morph라는 새로운 방법을 제안합니다. 연사는 또한 신경망이 이전에 본 적이 없는 새로운 데이터 및 시퀀스에 대한 견고성 문제에 대해 논의하고 강력한 모델을 훈련하기 위해 다양하고 극한 조건을 시뮬레이션할 것을 제안합니다. 화자는 고전 등록 모델을 복셀 모프 및 신스모프 모델과 비교하며 후자는 매우 강력합니다. 마지막으로 발표자는 템플릿을 직접 학습하는 것이 아니라 원하는 속성을 기반으로 템플릿을 생성하는 기능의 개발과 대장 이상을 감지하기 위한 캡슐 비디오 내시경의 잠재적인 활용에 대해 논의합니다.

이 강의의 연사는 특히 폴립 검출을 위한 대장내시경 비디오의 맥락에서 의료 데이터 부족을 극복하기 위한 다양한 기계 학습 접근 방식에 대해 논의합니다. 도메인 이동을 해결하고 성능을 향상시키기 위해 사전 훈련된 가중치와 무작위 초기화를 활용하는 딥 러닝 이미지 등록 및 분석 아키텍처를 소개합니다. 강의는 또한 약지도 학습, 자기지도 학습 및 약지도 비디오 분할을 다룹니다. 연사는 의료 데이터 분석에서 기계 학습 접근 방식을 사용할 때 직면하는 문제를 인정하고 실제 의료 절차에서 이러한 접근 방식을 테스트하여 작업 부하를 줄이도록 권장합니다.

  • 00:00:00 강의의 이 섹션에서 Adrian Dalock은 의료 이미지 정렬의 중요성과 그 배후의 최적화 문제에 대해 논의합니다. 그는 이미지를 공통 기준 프레임에 정렬하는 것이 구조와 질병을 식별하고 대상 간의 비교를 가능하게 하므로 의료 이미지 분석의 핵심이라고 설명합니다. 그러나 기존의 정렬 단계는 시간이 많이 소요되어 뇌당 최대 2시간이 소요되어 정교한 모델 개발을 방해했습니다. Dalock은 CPU에서 1분 미만, GPU에서 1초 미만의 훨씬 더 빠른 방법을 도입하여 이 분야에서 더 빠르고 효율적인 연구를 가능하게 합니다. 그는 정렬 또는 등록을 이미지를 일치시키는 변형 필드를 찾는 것으로 정의하고 컴퓨터 비전 및 계산 생물학을 포함한 다양한 영역에서 광범위하게 연구되었습니다.

  • 00:05:00 이 섹션에서 발표자는 고전 모델에서 시작하여 3년 전에 등장한 학습 기반 방법으로 진행하는 이미지 등록 방법의 진화에 대해 논의합니다. 그러나 후자의 방법은 효과적이지만 감독 데이터에 사용할 실측 변형 필드가 부족하여 방해를 받습니다. 연사는 레이블이 지정되지 않은 데이터 세트를 사용하여 신경망을 교육하는 새로운 방법을 제안하여 이미지 등록을 위한 보다 우아하고 효율적인 종단 간 솔루션을 제공합니다. 이 프레임워크는 기존 모델의 손실 함수를 사용하여 완전히 새로운 신경망을 최적화하여 더 높은 정확도와 더 빠른 속도를 제공합니다.

  • 00:10:00 이 섹션에서 화자는 고전적인 방법을 차용하지만 필드를 직접 최적화하는 대신 변형 필드를 출력하도록 신경망을 최적화하는 딥 러닝 기술을 사용하는 이미지 등록 방법을 설명합니다. 변형 필드는 데이터 세트의 모든 이미지에 적용되며 확률적 기울기 기법을 사용하여 네트워크를 최적화합니다. 발표자는 변형 영역의 부드러움을 보장하기 위해 미분 가능한 손실이 어떻게 사용되는지 설명하고 결과는 뒤틀림 과정 전후의 해부학적 구조를 비교하고 볼륨 중첩을 측정하여 평가됩니다. voxel morph라고 하는 제안된 방법은 최적화 절차의 출력을 추정할 수 있으며 이미지, 변형 필드 및 불확실성 추정 사이의 우아한 연결을 제공하는 확률 모델에 대한 근사치를 제공합니다.

  • 00:15:00 이 섹션에서 발표자는 단 몇 개의 이미지로 복셀 모프 신경망을 교육하는 분석에 대해 논의하며 단 10개의 이미지로도 네트워크에서 출력되는 변형 필드가 최신 기술에 가깝다는 사실을 밝힙니다. . 또한 연사는 뇌의 해마와 같은 특정 관심 영역의 윤곽을 그리는 문제와 네트워크가 이 영역을 식별하는 동안 "소프트 분할"을 수행하도록 함으로써 실제로 레이블을 지정하지 않고 이 영역을 식별하도록 어떻게 가르칠 수 있었는지에 대해 언급합니다. 훈련. 마지막으로 발표자는 다양한 의료 이미지의 문제와 한 가지 양식에 대한 교육 네트워크가 다른 양식과 함께 작업할 수 있는 능력을 어떻게 제한할 수 있는지에 대해 논의하고 이 문제를 해결하는 프로젝트를 제시합니다.

  • 00:20:00 이 섹션에서 발표자는 이전에 본 적이 없는 새로운 데이터 및 시퀀스에 대해 강력한 신경망을 만드는 문제에 대해 논의합니다. 그들은 다양하고 극단적인 조건을 시뮬레이션하여 네트워크를 상당한 가변성에 노출시켜 일부 이상값을 무시하기로 결정하여 실제 데이터에 대한 더 나은 일반화를 허용하도록 제안합니다. 이를 달성하기 위해 이미지를 무작위로 변형하고, 다양한 노이즈 패턴을 추가하고, 값과 강도를 무작위로 채우고, 다양한 효과를 시뮬레이션하여 데이터를 생성합니다. 그들은 등록 및 분할 문서에 대한 다양한 데이터를 시뮬레이션하고 무작위 모양을 시뮬레이션하여 정보의 품질을 테스트하는 데 사용할 수 있는 변형 필드를 제공하는 실험을 했습니다.

  • 00:25:00 이 섹션에서 화자는 이미지 등록 및 분석을 위해 다양한 모델을 교육한 결과에 대해 논의합니다. 그들은 훈련을 위해 서로 다른 메트릭을 사용하여 voxel morph 모델과 두 가지 버전의 synthmorph 모델을 훈련했습니다. 고전적인 모델은 잘 수행되지만 변동성과 견고성이 있는 복셀 모프 모델은 훨씬 더 잘 수행됩니다. 시뮬레이션된 뇌 또는 블롭의 이미지로 훈련된 모델은 복셀 모프 모델과 거의 동일하며 기존 모델보다 우수합니다. 그러나 양식 간 등록에 관해서는 동일한 대비 메트릭으로 훈련된 모델이 무너집니다. 한편, synthmorph 모델은 실제 이미지에서도 매우 견고합니다. 그러나 모델 용량으로 인해 실제 이미지의 특징이 캡처되지 않는 문제가 발생할 수 있습니다.

  • 00:30:00 강의의 이 섹션에서 연사는 기계 학습 모델의 용량과 필드가 더 많은 매개변수를 사용하는 방향으로 어떻게 이동하고 있는지에 대해 논의합니다. 다양한 양식으로 뇌 스캔을 시뮬레이션하고 고전 모델인 voxel morph와 그 방법인 synthmorph의 성능을 비교합니다. 그들은 대비를 완전히 무시하고 필요한 해부학적 구조만 추출할 수 있기 때문에 그들의 방법이 견고하다는 것을 발견했습니다. 이는 네트워크 기능의 대비 변화에 대한 반응을 무시하는 방법을 학습함으로써 수행됩니다. 그들은 또한 등록 필드에 대한 하이퍼파라미터의 효과를 학습하는 새로운 방법인 하이퍼모프를 소개합니다. 이 방법의 잠재력은 하나의 모델만 교육하고 나중에 조정하면 되므로 여러 모델을 교육할 필요가 없다는 것입니다.

  • 00:35:00 이 섹션에서 발표자는 하이퍼 매개변수 값을 입력으로 사용하고 이미지 정합을 위한 변형 필드를 생성하는 더 큰 네트워크의 가중치를 출력하는 작은 네트워크 교육을 포함하는 하이퍼 네트워크라는 기술에 대해 논의합니다. 하이퍼 매개변수 값을 조정하면 재훈련 없이 변형 필드를 조정할 수 있으며 단일 하이퍼모프 모델이 광범위한 변형 필드 변형을 캡처할 수 있습니다. 이 기술은 이미지 등록을 넘어 다양한 기계 학습 설정에 적용할 수 있으며 모델의 대화식 조정을 허용하거나 검증 데이터를 기반으로 모델을 조정하는 데 유용할 수 있습니다. 최적의 하이퍼 매개변수 값은 데이터 세트, 환자의 연령, 등록 작업 등에 따라 달라집니다.

  • 00:40:00 강의의 이 섹션에서 연사는 이미지 등록을 수행할 때 뇌의 다른 영역에 대해 다른 하이퍼파라미터 값을 선택하는 것의 중요성에 대해 논의합니다. 또한 실제 데이터로 훈련된 모델과 무작위 데이터로 훈련된 모델을 비교하여 전자가 다른 지역에서 노이즈에 더 취약한 방법을 설명합니다. 그런 다음 중심 두뇌를 구축하거나 템플릿을 사용하지 않고 공통 참조 프레임에 데이터를 정렬하는 아이디어에 초점을 맞춘 프로젝트를 소개합니다. 대신 그들은 이미지 등록과 동시에 아틀라스 추정을 제안하고 결과 도구는 유연하고 다른 모집단에 대해 별도의 템플릿을 구축하는 것과 같이 이전에 해결하기 어려웠던 많은 문제를 해결할 수 있음을 보여줍니다.

  • 00:45:00 이 섹션에서는 원하는 속성(예: 나이, 성별 또는 유전 정보) 템플릿을 직접 학습하는 것보다 환자 데이터와 연령 정보를 입력함으로써 네트워크는 뇌실 크기의 변화와 같은 서로 다른 뇌 사이의 특정 효과를 포착하는 부드러운 연령 종속 아틀라스를 학습할 수 있습니다. 연사는 또한 유사한 방법을 사용하는 유전학 관련 분석의 가능성과 이 분야에서 변형 인코더 및 기타 기계 학습 개념의 사용에 대해 논의합니다.

  • 00:50:00 강의의 이 섹션에서 연사는 노르웨이 과학 기술 대학과 노르웨이의 한 병원 간의 협력인 캡슐 비디오 내시경을 위한 자동 병리 감지 작업의 동기에 대해 논의합니다. 인간의 결장은 결장벽의 평활성을 침식하고 출혈이나 다른 합병증을 유발할 수 있는 결장직장암 및 궤양성 결장염과 같은 질병에 걸리기 쉽습니다. 대장내시경은 50세 이상의 개인에게 의사가 권장하지만 환자가 받아들이지 않을 수 있습니다. 캡슐 비디오 내시경은 거의 50,000프레임을 전송하여 많은 양의 데이터를 생성하는 작은 알약 크기의 카메라를 사용하여 결장벽을 시각화하고 이상을 감지하는 대안을 제공합니다.

  • 00:55:00 이 섹션에서 연사는 섭취 가능한 캡슐이 소화관을 통과할 때 이미지를 캡처하는 캡슐 비디오 내시경의 이미징 문제에 대해 논의합니다. 캡슐은 공복에 복용해야 하며 결장 주름의 특징을 놓칠 수 있습니다. 또한 캡슐이 소장을 통과할 때 막히거나 기하학적 장애물에 직면하여 잠재적으로 수술로 이어질 수 있습니다. 결과 비디오 품질은 HD 이미지 품질만큼 좋지 않으며 색상이 제한되고 전환이 부드럽습니다. 이러한 한계에도 불구하고 캡슐 비디오 내시경은 게실염과 같은 상태를 진단하는 데 도움이 될 수 있으며 의사는 비디오에서 이상을 찾아 치료를 안내합니다.

  • 01:00:00 강의의 이 섹션에서 연사는 특히 용종 검출을 위한 대장내시경 비디오의 맥락에서 의료 데이터 분석에서 기계 학습 접근 방식을 사용하는 문제에 대해 논의합니다. 주요 문제는 의료 데이터 수집의 비용이 많이 들고 느린 특성으로 인한 데이터 부족과 다양한 병리학자의 라벨링 획득의 어려움입니다. 연사는 전이 학습 및 감독 학습과 같은 데이터 부족을 극복하기 위한 몇 가지 기계 학습 접근 방식을 설명하고 RGB 이미지, 기하학적 특징 및 3D 컨볼루션을 사용하여 현재 딥 러닝 접근 방식을 설명합니다. 마지막으로 발표자는 등록을 사용하여 대장 내시경 이미지를 정렬하고 폴립 감지 성능을 향상시키는 폴립 감지를 위한 와인 IT 접근 방식을 소개합니다.

  • 01:05:00 강의의 이 섹션에서 연사는 사전 훈련된 가중치 및 무작위 초기화를 활용하여 영역 이동을 해결하고 객체 감지 및 이미지 분할의 성능을 향상시키는 딥 러닝 이미지 등록 및 분석 아키텍처에 대해 논의합니다. 이 아키텍처는 두 개의 인코더로 구성됩니다. 하나는 ImageNet에서 사전 훈련되고 다른 하나는 입력 이미지에 대한 보강과 함께 무작위 가중치가 적용됩니다. 각 인코더의 학습 속도는 학습 중인 계층에 따라 다르며 이진 교차 엔트로피 및 주사위 손실 함수가 활용됩니다. 이 아키텍처는 폴립이 포함된 비디오 데이터 세트에서 테스트되었으며 동일한 입력의 여러 변형을 사용하여 F1 점수 85.9를 달성했습니다. 마지막으로 발표자는 아키텍처의 효율성을 보여주는 비디오를 제공합니다.

  • 01:10:00 이 섹션에서 강사는 이미지 등록 문제에 대해 레이블이 지정된 데이터를 수집하는 문제에 대해 논의하고 약한 감독으로 다중 인스턴스 학습의 개념을 소개합니다. 관심 있는 병리학의 인스턴스가 하나 이상 있는 양성 백이 있는 반면 음성 백에는 항상 음성 인스턴스가 있다고 가정합니다. 문제는 병리를 포함하는 프레임을 찾는 것으로 공식화되며 각 프레임의 개별 기여도를 예측하고 집계의 최종 비디오 레이블에서 손실을 최적화하여 최적화할 수 있습니다. 이 문제는 레이블이 지정된 데이터가 제한되어 있고 개별 구성 요소에 대한 데이터가 없기 때문에 약한 감독 방식이 필요하다는 점에 유의하십시오.

  • 01:15:00 이 섹션에서 발표자는 병리가 있는 비디오와 정상 비디오에서 공진 50 기능을 추출하고 건너뛰기 연결이 있는 양방향 LSTM을 포함하는 잔여 LSTM 블록을 통과하는 방법에 대해 설명합니다. 그들은 목표가 최종 비디오 분류 문제에 대한 각 프레임의 기여도인 알파를 찾는 것이라고 설명합니다. 그들은 또한 높은 관심 가치 프레임을 활용하여 병리를 식별하고 이를 네거티브 클래스와 분리하는 방법에 대해 논의합니다. 최종 손실 함수는 비디오 분류의 교차 엔트로피와 포지티브 뱅크와 네거티브 뱅크 간의 백 분리입니다. 그런 다음 발표자는 최종 숨겨진 표현에 참석하고 최종 출력에 적용하여 달성한 최상의 결과와 함께 주의를 학습할 위치를 결정하기 위해 명칭 연구를 수행한 방법을 공유합니다. 이 접근법은 메트릭 학습을 사용하는 다른 방법에 대해 테스트되었습니다.

  • 01:20:00 이 섹션에서 발표자는 의료 영상에서 자기 지도 학습의 사용과 그로 인한 문제에 대해 논의합니다. 그들은 약간의 성공을 거둔 한 가지 접근 방식이 이미지를 패치로 분할하고 재구성하는 직소 문제를 사용하는 것이라고 언급합니다. 그러나 의료 영상의 문제는 회전 불변량이 없어 의미 있는 클러스터를 찾기 어렵다는 것입니다. 발표자는 다양한 질병이 어떻게 나타나는지 이해하는 것과 같은 도메인 지식을 통해 비디오 프레임 위치 파악을 개선하는 것이 병리학 분류를 개선하는 데 유용한 접근 방식이 될 수 있다고 제안합니다.

  • 01:25:00 이 섹션에서 연사는 약하게 감독되는 비디오 분할과 의료 환경에서 더 나은 설명을 제공하기 위해 프레임이 로컬화된 위치를 감지해야 하는 필요성에 대해 논의합니다. 그들은 또한 매일 새로운 작업이 게시되는 이 분야의 새롭고 흥미로운 접근 방식으로 자기 감독 사전 테스트 작업과 대조 학습의 설계를 언급합니다. 연사는 icomet 프로젝트를 인정하고 작업 부하를 줄이기 위해 실제 의료 절차에서 이러한 접근 방식을 테스트하도록 권장합니다. 호스트는 의료 문제를 해결하는 실제 실무자에게 감사를 표하고 유익한 강의에 대해 연사에게 감사를 표합니다.
 

전자 건강 기록 - 강의 22



전자 건강 기록 - 강의 22 - 생명 과학의 딥 러닝(2021년 봄)

의료 분야에서 기계 학습의 출현은 병원의 전자 의료 기록 채택과 의미 있는 의료 통찰력에 활용할 수 있는 방대한 양의 환자 데이터 때문입니다. 질병 진행 모델링은 고차원 종단 데이터, 누락 및 좌우 검열로 인해 문제를 제기할 수 있는 질병 레지스트리에서 발견된 종단 데이터를 활용하여 논의됩니다. 이 강의에서는 심층 Markov 모델과 같은 비선형 모델을 사용하여 이러한 문제를 처리하고 세로 방향 바이오마커의 비선형 밀도를 효과적으로 모델링하는 방법을 탐구합니다. 또한 연사는 도메인 지식을 사용하여 전이 기능을 위한 새로운 신경 아키텍처를 개발하고 더 나은 일반화를 위해 모델 설계에 도메인 지식을 통합하는 것의 중요성에 대해 논의합니다. 치료 효과 기능과 관련하여 모델 복잡성에 대한 실험도 있으며 연사는 더 큰 코호트에서 이 질문을 다시 검토하여 추가 결과를 결정할 계획입니다.

  • 00:00:00 이 섹션에서는 Microsoft Research의 수석 연구원인 Rahul Krishnan이 전자 의료 기록 데이터의 디지털화로 인해 의료 분야에서 머신 러닝이 등장한 이유를 설명합니다. 병원에서 전자 의료 기록 시스템을 채택함으로써 의미 있는 의료 통찰력을 위해 활용할 수 있는 방대한 양의 환자 데이터가 생성되었습니다. Krishnan은 연구자들이 연구하고 질문에 답할 수 있도록 비영리 조직에서 공개한 단일 질병에 더 집중된 데이터 세트인 질병 등록의 사용을 강조합니다. 비지도 학습과 같은 기계 학습 기술은 이러한 데이터 세트의 하위 구조를 조사하고 임상의를 돕기 위한 도구를 구축하는 데 사용되고 있습니다. 프레젠테이션은 질병 진행 모델링과 이 분야의 연구자들이 수행하고 있는 일부 작업에 중점을 둡니다.

  • 00:05:00 이 섹션에서 발표자는 질병 레지스트리에서 발견된 종단 데이터를 활용한 질병 진행 모델링에 대해 논의합니다. 질병 진행 모델링은 수십 년 동안 존재해 왔으며 기준선 공변량, 종적 바이오마커 및 치료 정보를 포함하여 질병 레지스트리에서 발견되는 복잡하고 지저분한 데이터를 캡처할 수 있는 통계 모델을 구축하려는 시도입니다. 이 문제는 종종 감독되지 않은 학습으로 제기되며, 여기서 모델은 기준선 정보와 개입 순서에 따라 환자의 세로 바이오마커 시퀀스를 관찰할 로그 확률을 최대화하는 것을 목표로 합니다. 발표자는 올해 ICML에서 발표될 질병 진행 모델링을 위한 새로운 접근법을 제시합니다.

  • 00:10:00 이 섹션에서 연사는 희귀한 골수암인 다발성 골수종의 맥락에서 질병 진행을 모델링하기 위해 전자 건강 기록을 사용하는 문제에 대해 논의합니다. 이 질병은 매우 드물기 때문에 배울 수 있는 환자 수가 적기 때문에 좋은 모델링과 밀도 추정을 하기가 어렵습니다. 또한 의료 데이터는 비선형 변동, 누락, 좌우 검열이 있는 고차원 세로 데이터와 같은 문제를 제시합니다. 발표자는 심층 Markov 모델과 같은 비선형 모델을 사용하여 이러한 문제를 처리하고 세로 방향 바이오마커의 비선형 밀도를 효과적으로 모델링할 것을 제안합니다.

  • 00:15:00 이 섹션에서 강의는 전자 건강 기록을 위한 잠재 변수 모델에 대해 설명합니다. 여기에서 데이터는 잠재 변수 및 시간 경과에 따라 얻은 관찰에 의해 생성됩니다. 이 모델은 의사가 처방한 약물의 선택이 이전 관찰에서 얻은 임상 바이오마커의 값에 의존한다고 가정합니다. 발표자는 또한 최대 우도 추정 중에 누락된 변수를 주변화하여 극복할 수 있는 누락된 데이터 문제를 해결합니다. 그러나 추론 네트워크를 이용한 변이 추론의 경우 모델에서 누락된 데이터를 추정하기 위한 근사가 필요하며 누락이 근사 사후 분포의 편향에 어떤 영향을 미치는지 이해하기 위한 추가 연구가 필요합니다.

  • 00:20:00 이 섹션에서 발표자는 시간이 지남에 따라 의사와의 상호 작용을 모델링하여 모델을 사용하여 환자의 병력을 예측하는 방법을 설명합니다. 이 모델은 시간이 지남에 따라 변하는 잠재 표현을 사용하여 환자의 의료 상태를 예측합니다. 연사는 특정 질병의 비선형성과 희소성으로 인한 의료 데이터 모델링의 어려움을 강조합니다. 그들은 전환 기능을 위한 새로운 신경 구조를 개발하기 위해 도메인 지식의 사용을 탐구합니다. 연사는 또한 각각 주요 진행 이벤트까지의 치료 기간 및 경과 시간을 추적하기 위해 글로벌 시계 및 로컬 시계의 사용에 대해 논의합니다. 그들은 약물의 기계적 효과를 근사화하고 이 지식을 모델에 통합하는 방법을 설명합니다.

  • 00:25:00 이 섹션에서 연사는 약동학 및 약력학을 사용하여 암 치료를 위해 처방된 약물이 환자의 종양에 미치는 영향을 추정하는 방법에 대해 논의합니다. 그들은 단일 기능을 생성하기 위해 주의 메커니즘을 사용하여 결합하여 환자에게 공동으로 제공되는 여러 약물의 효과를 모델링하기 위해 세 가지 새로운 신경 구조를 제안합니다. 목표는 과적합을 방지하기 위해 도메인 지식을 사용하여 조건부 밀도 추정을 수행하는 것입니다. SSNPK라고 불리는 이 모델은 시간 경과에 따른 16개의 임상적 바이오마커, 9개의 치료 적응증, 16개의 기준선 특징으로 현재 치료 표준에 따라 치료받는 다발성 골수종 환자 집단에 적용됩니다.

  • 00:30:00 이 섹션에서 연사는 다양한 모델을 사용하여 임상 데이터를 분석한 결과, 특히 딥 러닝 및 상태 공간 모델 사용에 중점을 둔 결과에 대해 논의합니다. 그들은 새로운 데이터로 일반화할 때 서로 다른 모델의 효율성을 비교하고 ssnpkpd를 사용하면 선형 및 비선형 기준선에서 일관되게 더 나은 성능을 가져온다는 사실을 발견했습니다. 그들은 또한 절제 분석을 수행하여 어떤 바이오마커가 모델에서 볼 수 있는 이득에 가장 많이 기여하는지 식별하고 로컬 및 글로벌 시계의 사용이 데이터의 역학을 모델링하는 데 도움이 된다는 것을 발견했습니다. 또한 훈련된 모델의 잠재 공간을 사용하여 시간 경과에 따른 데이터의 동작을 추가로 탐색하고 이해합니다.

  • 00:35:00 강의의 이 섹션에서 연사는 기본 바이오마커를 기반으로 환자의 미래 임상 바이오마커를 예측하기 위해 SSNPKPD 모델을 사용한 결과에 대해 논의합니다. 이 모델은 선형 기준선과 비교하여 데이터에 더 적합함을 보여 SSNPKPD에 의해 캡처된 잠재 표현이 향후 임상 바이오마커를 예측하기 위한 관련 환자 기록을 유지함을 나타냅니다. 연사는 더 나은 일반화를 위해 도메인 지식을 모델 설계에 통합하는 것의 중요성이라는 강연의 주요 요점을 요약하고 의료 분야에서 다양한 데이터 양식을 결합하는 향후 연구 기회를 강조합니다. 연사는 또한 더 큰 코호트에서 결과의 지속적인 검증과 모델을 임상 의사 결정 지원 도구 및 모델 기반 강화 학습 프레임워크에 통합할 가능성에 주목합니다.

  • 00:40:00 이 섹션에서 연사는 치료 효과 기능과 관련하여 모델 복잡성에 대한 실험에 대해 논의합니다. 그들은 3개에서 12개에 이르는 처리 효과 함수의 복사본을 생성하여 모델의 변형을 시도했고 추가 복잡성이 성능을 크게 향상시키지 못하고 심지어 감소시키는 지점이 있음을 발견했습니다. 그러나 치료 효과 함수 중 일부를 제거했을 때 성능이 약간 떨어졌지만 여전히 선형 모델을 능가하는 것으로 나타났습니다. 연사는 이러한 결과의 범위를 결정하기 위해 VA와 함께 더 큰 코호트에서 일반화에 대한 이 질문을 다시 검토할 계획입니다.
 

딥러닝과 신경과학 - 강의 23



딥러닝과 신경과학 - 강의 23 - 생명과학에서의 딥러닝 (2021년 봄)

강의는 특히 시각 과학 분야에서 딥 러닝과 신경 과학 간의 상호 작용에 대해 논의합니다. 목표는 인간의 눈을 강타하는 광자에 반응하여 인간이 나타내는 행동 능력을 의미하는 인간 시각 지능을 리버스 엔지니어링하는 것입니다. 연사는 뇌 과학과 인공 지능 모두에 도움이 될 수 있는 예측 구축 시스템을 가능하게 하기 위해 시뮬레이션된 뉴런 네트워크와 같은 메커니즘의 언어로 이러한 기능을 설명하는 것을 강조합니다. 이 강의에서는 딥 러닝 모델이 뇌가 감각 시스템 프로세스를 실행하는 방법과 뇌의 진화를 모방하는 것 이상의 잠재적인 응용 프로그램에 대한 가설이 되는 방법을 탐구합니다. 또한 강의는 신경망이 어떻게 기억을 조작하고 무언가의 의미를 바꿀 수 있는지에 대한 실용적인 예를 보여줍니다.

이 비디오는 뇌의 인지 기능을 이해하고 이러한 이해를 엔지니어링 목적으로 활용하는 딥 러닝의 잠재력에 대해 논의합니다. 연사는 이 영역에서 메모리 및 내부 역학 기능과 함께 순환 신경망의 관련성을 강조합니다. 강의는 모방을 통해 학습하는 신경 시스템의 능력과 이것이 작업 기억의 표상, 계산 및 조작을 학습하는 데 어떻게 사용될 수 있는지 탐구합니다. 비디오는 또한 학습 조건으로서 피드백 학습의 증거를 찾는 어려움과 시스템을 조정하기 위한 오류 수정 메커니즘의 잠재력을 다룹니다. 강의는 과정에서 다루는 주제의 다양성과 미래의 인지 시스템을 해석하는 데 딥 러닝이 어떻게 도움이 될 수 있는지에 대해 반성하면서 마무리됩니다.

  • 00:00:00 이 섹션에서 연사는 특히 시각 과학 분야에서 딥 러닝과 신경 과학 간의 상호 작용에 대해 논의합니다. 그는 딥 러닝 모델이 뇌 기능의 측면이 어떻게 작동하는지에 대한 과학적 가설로 볼 수 있는 방법과 신경 과학자 및 인지 과학자가 데이터와 관련하여 이러한 가설의 품질을 평가하는 방법을 설명합니다. Carlo의 강연은 인간 시각 지능의 리버스 엔지니어링 목표에 초점을 맞추고 있습니다. 이는 인간이 눈에 들어오는 광자에 반응하여 나타내는 행동 능력을 의미합니다. 그는 뇌 과학과 인공 지능 모두에 도움이 될 수 있는 예측 구축 시스템을 가능하게 하기 위해 시뮬레이션된 뉴런 네트워크와 같은 메커니즘의 언어로 이러한 기능을 설명하는 것이 중요하다고 강조합니다.

  • 00:05:00 이 섹션에서 강사는 시각적 지능과 뇌가 자동차나 사람을 식별하는 것과 같이 장면에 무엇이 있는지 추정하는 방법에 대해 논의합니다. 그러나 다음에 일어날 일과 다른 물리학 중심 문제를 예측하는 것은 여전히 과학자들이 이해하기 어려운 과제입니다. 그럼에도 불구하고 과학자들은 장면을 200밀리초 동안 엿볼 때마다 처리하는 기본 시각 요소(핵심 객체 인식이라고도 함)를 모델링하는 데 상당한 진전을 이루었습니다. 강사는 물체를 인식하는 능력을 측정하고 이를 컴퓨터 비전 시스템 및 붉은 털 원숭이와 같은 비인간 영장류와 같은 다른 종과 비교하는 테스트의 예를 제공합니다.

  • 00:10:00 이 섹션에서 화자는 인간과 영장류가 물체를 구별하는 능력에 대해 논의합니다. 그는 인간과 영장류가 시각적 인식 작업에서 유사하게 수행하며 인간이 약간 더 잘 수행한다고 지적합니다. 또한 연사는 딥 러닝 시스템과 인간 및 영장류의 시각적 인식 능력과 비교하는 방법에 대해 논의합니다. 그런 다음 화자는 시각 인식 작업과 관련된 붉은털원숭이 뇌 영역에 대한 논의로 전환하고 가장 높은 수준의 영역인 시간하 피질을 강조합니다. 마지막으로, 발표자는 신경 활동 패턴이 측두엽 피질에서 나타나는 일반적인 시간 척도와 명백한 행동 샘플링 기술에 필요한 시간과 어떻게 일치하는지에 대해 언급합니다.

  • 00:15:00 비디오 강의의 이 섹션에서 연사는 연구자들이 침입 기록 전극을 사용하여 이미지에 대한 원숭이와 같은 동물의 시각 피질에 있는 개별 뉴런의 반응을 연구하는 방법에 대해 논의합니다. 연구원들은 다양한 이미지에 대한 반응으로 뉴런의 전기적 활동 패턴을 측정함으로써 평균 스파이크 속도를 사용하여 반응을 정량화할 수 있습니다. 이러한 활동 패턴은 선택성의 유사성에 의해 함께 뭉칠 수 있으며, 얼굴과 같은 특정 유형의 물체에 대한 클러스터링의 특수 영역이 시각 피질에서 식별되었습니다. 만성 기록 어레이를 사용하면 연구원은 동일한 신경 사이트에서 몇 주 또는 몇 달 동안 기록하고 수천 개의 이미지에 대한 반응을 측정할 수 있습니다.

  • 00:20:00 이 섹션에서 화자는 동물이 작업을 고정하거나 수행하거나 이미지를 관찰하는 동안 신경 데이터가 기록되는 실험을 설명합니다. 작은 데이터 샘플에 대해 선형 디코더를 훈련함으로써 인간과 원숭이에서 볼 수 있는 것과 구별할 수 없는 패턴이 나타났습니다. 이를 통해 뇌-기계 인터페이스 응용 프로그램에서 특정 지각을 시각화하는 데 사용할 수 있는 강력한 기능 공간 집합을 개발할 수 있었습니다. 그런 다음 연사는 신경 활동과 이미지 사이에서 발생하는 비선형 변환에 대해 논의하며 이 영역이 딥 러닝과 비전 과학이 결합되는 곳임을 시사합니다.

  • 00:25:00 이 섹션에서 연사는 에지 감지, 필터링, 출력 비선형성 및 게인 제어와 같은 신경 과학의 개념을 기반으로 초기에 심층 컨벌루션 네트워크가 어떻게 구축되었는지 논의합니다. 그러나 이러한 모델은 뇌의 시각 영역에서 신경 데이터에 대해 테스트되었기 때문에 부족했고 V4에서 개별 뉴런의 반응 패턴을 예측할 수 없었습니다. 이러한 모델은 신경과학자를 위한 가설 구축이었지만 시각 시스템이 작동하는 방식을 설명하는 데는 부적절했습니다. 이러한 초기 모델의 실패에도 불구하고 심층 네트워크에서 학습된 필터를 V1에서 관찰된 필터와 분리하는 지속적인 작업에 대한 영감을 제공했습니다.

  • 00:30:00 이 섹션에서 연사는 신경과학과 딥 러닝 간의 협력을 통해 어떻게 인공 신경망에서 알려지지 않은 매개변수를 최적화하여 영장류 뇌의 신경 반응 패턴을 거의 모방하는 모델을 만들 수 있었는지에 대해 논의합니다. 발표자는 엔지니어가 깊은 컨벌루션 신경망에서 필터의 마이크로 매개변수를 최적화할 수 있는 루프를 구현하는 데 획기적인 발전이 있었다고 말합니다. 이렇게 함으로써 생성된 모델은 시각 시스템에서 일어날 수 있는 일에 대한 새로운 가설로 간주되어 뇌의 생물학적 신경망과 비교할 수 있습니다. 연사는 계속해서 이러한 비교가 어떻게 이루어졌는지에 대한 예를 보여주어 뇌 기능에 대한 초기 기계론적 가설을 도출합니다. 전반적으로 이 협력을 통해 생물학적 복부 스트림에서 발견되는 것과 매우 유사한 in silico 복부 스트림 뉴런을 개발할 수 있었으며, 뇌가 시각 정보를 처리하는 방법에 대한 더 큰 통찰력을 얻을 수 있었습니다.

  • 00:35:00 이 섹션에서 발표자는 그들이 개발한 딥 러닝 모델이 특히 시각적 개체 인식 영역에서 뇌가 감각 시스템 프로세스를 실행하는 방법에 대한 가설이라고 설명합니다. 그들은 이러한 모델이 완벽하지 않고 약간의 불일치가 있으므로 향후 최적화하고 개선하는 것을 목표로 합니다. 연사는 또한 엔지니어링 및 AI에서 딥 러닝의 광범위한 적용에 대해 논의하면서 이러한 모델이 과학적 이해와 최적화를 더 심도 있게 안내하는 도구로 사용될 수 있음을 강조합니다. 그들은 뇌의 과정을 보다 정확하게 표현하기 위해 더 많은 데이터와 모델이 필요하다고 말하면서 결론을 내립니다.

  • 00:40:00 이 섹션에서 연사는 뇌의 진화를 모방하는 것 이상으로 딥 러닝과 인공 지능의 혁신 가능성에 대해 논의합니다. 그들은 대부분의 혁신이 아키텍처 선택에서 나올 것이며 최적화 도구를 사용하여 최적화할 수 있다고 제안합니다. 반복되는 질문은 인지의 잠재 의식 요소에 대한 통찰력을 제공할 수 있으며 뇌의 해부학은 반복의 아이디어를 연결하여 인지에 더 많은 관련이 있는 하위 영역으로 이어질 수 있습니다. 연사는 또한 건너뛰기 연결, 회색 영역 및 현재 수행 중인 작업이 이 문제에 접근하는 방법에 대해 다룹니다.

  • 00:45:00 비디오의 이 섹션에서 연사는 신생아의 개념과 그것이 다양한 종에 걸쳐 시각 피질의 하드 코딩된 기능과 필터의 비율에 어떤 영향을 미치는지에 대해 논의합니다. 시스템이 올라갈수록 뇌에 더 많은 가소성이 있고 원숭이는 일정 수준까지 영역이 있는 반면 인간은 더 많은 뇌 조직을 가지고 있어 더 많은 유연성을 허용합니다. 화자는 뇌에 유연성을 위한 충분한 공간이 있다고 믿으며 그것이 우리 영장류 시스템의 일부이지만 뇌의 일부는 그 이상이며 괜찮습니다. 그런 다음 다음 연사는 뇌를 순환 신경망으로 생각하는 작업과 인공 신경 시스템과 실제 신경 시스템 간의 교차점을 연구하는 것이 작동 방식을 이해하는 데 어떻게 도움이 되는지에 대해 논의합니다.

  • 00:50:00 이 섹션에서는 인공 및 실제 신경 시스템에서 효율적인 표현 기반을 학습하는 데 얼마나 효율적이고 희박한 코딩을 사용할 수 있는지에 초점을 맞춥니다. 순환 네트워크에서 뇌와 유사한 행동을 연구함으로써 인공 순환 네트워크의 기능을 확장하고 실제 네트워크가 작동하는 방식을 이해하는 데 도움이 되는 원리를 찾을 수 있습니다. 순환 신경망은 내부 표현과 기억을 저장하고 수정하는 방법을 학습하여 칵테일 파티 효과와 유사한 방식으로 중첩 신호를 분리할 수 있습니다. 실제 신경 시스템은 순환 네트워크에서 작업 기억이라고 하는 뇌 영역에서 볼 수 있듯이 표현을 저장하고 조작하는 데 탁월합니다. 목표는 인공 순환 네트워크의 기능을 확장하고 실제 네트워크가 작동하는 방식을 이해하는 데 도움이 되는 원리를 찾는 것입니다.

  • 00:55:00 강의의 이 섹션에서 쥐의 위치는 공간에서 이동할 때 쥐의 움직임을 추적하는 장소 세포라는 뉴런에서 해독됩니다. 쥐는 또한 움직이기도 전에 미래의 궤적을 계획하기 위해 신경 표현을 조작할 수 있습니다. 그런 다음 강의에서는 성인을 모방하여 노래를 배우는 송버드의 능력과 같이 신경망이 기억을 조작할 수 있는 방법을 탐구합니다. 강의는 신경망이 정보를 조작하는 복잡한 과정을 예제를 관찰하여 학습하는 방법에 대해 논의하고, 메모리 모델로 카오틱 어트랙터의 개념을 소개하고, 신경망 모델로 저수지라는 간단한 비선형 동적 시스템을 소개합니다. 저장소의 제어 매개변수는 네트워크가 학습한 메모리의 표현을 수정하는 데 사용되며 강의에서는 이 제어가 어떤 것의 의미를 어떻게 변경할 수 있는지에 대한 실용적인 예를 제공합니다.

  • 01:00:00 이 섹션에서 발표자는 컨텍스트 변조 능력이 신경망의 학습 및 용량에 미치는 영향에 대해 설명합니다. 그들은 컨텍스트 변수로 네트워크를 편향시키는 것은 공통 매개변수를 학습하기 위한 훈련에 더 많은 데이터가 필요하다는 것을 의미한다고 설명합니다. 발표자는 또한 저장소 컴퓨팅 방법을 사용하여 신경망에 메모리를 저장하고 관찰된 입력을 모방하는 간단한 학습 체계가 메모리를 저장하는 데 얼마나 충분한지에 대해 이야기합니다. 그런 다음 x1 방향에서 어트랙터의 변환을 보고 각 변환에 대한 컨텍스트 매개변수 c의 값을 변경하여 신경망 내부의 메모리 수정에 대해 논의합니다.

  • 01:05:00 이 섹션에서 발표자는 어트랙터 매니폴드의 내부 표현에 대한 변환 작업을 보간하고 외삽하는 방법을 배우는 저수지의 기능에 대해 논의합니다. 팀은 x1 방향으로 압착된 Lorenz 어트랙터의 네 가지 훈련 사례를 제공하고 훈련 및 피드백을 수행했습니다. 저장소는 확장 또는 다변량을 포함하여 임의적일 수 있는 변환 작업을 보간하고 외삽하는 방법을 배우는 것으로 나타났습니다. 팀은 또한 저수지가 Lorenz 어트랙터의 전체 분기 구조를 예측하고 안장 모드 및 초임계 피치포크 분기와 같은 여러 다른 동적 정상 형태의 분기 다이어그램을 예측할 수 있음을 발견했습니다. 신경망은 수정된 Jansen 연결의 예에서와 같이 비동적 운동학적 궤적을 예측하는 방법도 학습할 수 있습니다.

  • 01:10:00 강의의 이 섹션에서 연사는 가역 일반화 동기화라는 방법에 대해 논의합니다. 이 방법은 신경 시스템에서 자극을 신경역학에 매핑하는 아이디어를 공식화하는 방법입니다. 화자는 표상을 형성하기 위해 뉴런이 입력 자극의 특정 부분을 개별적으로 인코딩하는 대신 분산된 표상을 형성해야 한다고 설명합니다. 또한 입력을 메모리로 저장하는 핵심 메커니즘인 자체 표현으로 스스로를 구동할 수 있어야 합니다. 마지막으로 연사는 순환 신경망이 혼란스러운 기억을 유지하여 기억을 번역하고 변형할 수 있음을 보여줍니다.

  • 01:15:00 이 섹션에서 화자는 본 예제를 모방하여 학습하는 신경 시스템의 능력과 이것이 작업 메모리의 표현, 계산 및 조작을 학습하는 데 어떻게 사용될 수 있는지에 대해 논의합니다. 그런 다음 대화는 피드백 학습과 제시된 모델에 어떻게 적용되는지에 대한 질문으로 이동합니다. 시각 피질의 특정 부분에서 용어의 선형 분리 가능성 및 재구성 가능성에 대한 증거가 있지만 화자는 매우 극단적인 학습 조건이기 때문에 피드백 학습의 증거를 찾는 데 어려움을 지적합니다. 시스템을 조정하기 위해 오류 수정 메커니즘을 사용하는 제안이 있지만 외부 세계의 기대와 기대가 크게 벗어날 때 현저한 기억의 형성에 대해 결과가 판단되는 고정된 매개변수 세트에 대한 아이디어도 논의됩니다.

  • 01:20:00 이 섹션에서 강사는 뇌의 인지 기능을 이해하고 이를 엔지니어링하는 딥 러닝의 잠재력을 강조합니다. 기억력과 내부 역학 능력을 갖춘 순환 신경망은 특히 이 영역과 관련이 있습니다. 강사는 이러한 시스템을 단순한 기능 근사치가 아니라 살아 숨 쉬는 개체로 생각하도록 권장합니다. 이러한 인지 시스템의 핵심은 RNN에 있지만 입력 및 출력을 위한 컨볼루션 신경망으로 보강할 수 있습니다. 해마와 신경계의 다른 측면에 대한 연결은 상호 작용하는 뉴런의 상호 작용 시스템에서 기억이 어떻게 인코딩되는지에 대한 흥미로운 예로 인용됩니다. 강의는 과정에서 다루는 주제의 다양성과 미래의 인지 시스템을 해석하는 데 딥 러닝이 어떻게 도움이 될 수 있는지에 대해 반성하면서 마무리됩니다.
 

MIT 6.S192 - 강의 1: 전산미학, 디자인, 예술 | 생성을 통한 학습



MIT 6.S192 - 강의 1: 전산미학, 디자인, 예술 | 생성을 통한 학습

이 강의는 컴퓨터 미학, 디자인 및 예술과 관련된 다양한 주제를 다룹니다. 예술 창작, 디자인 자동화에 대한 액세스를 민주화하고 예술의 경계를 확장하는 데 있어 AI의 역할은 물론 미학을 정량화하고 높은 수준 및 낮은 수준의 표현을 사용하여 디자인의 시각적 균형을 달성하는 문제에 대해 논의합니다. 강사는 또한 색상 의미론 및 잡지 표지 디자인과 관련된 예를 통해 패턴을 발견하고 메시지를 효과적으로 전달하는 컴퓨팅 디자인의 잠재력을 강조합니다. 크라우드소싱 실험은 다양한 주제와의 색상 연관성을 결정하는 데 사용되며 다양한 영역에서 이 방법의 잠재적인 적용을 탐색합니다. 전반적으로 강의는 창의적인 응용 분야에서 AI의 역할과 우리가 예술, 디자인 및 기타 형태의 창의적 표현을 만드는 방식을 혁신할 수 있는 잠재력을 소개합니다.

이 비디오는 StyleGAN 및 DALL-E와 같은 생성 모델을 사용하여 창의적인 작업을 생성하기 위해 컴퓨팅 미학, 디자인 및 예술의 사용에 대해 논의합니다. 강사는 또한 생성을 통한 학습의 중요성을 강조하고 시청자가 문제를 분석하고 데이터를 사용하여 혁신적이고 창의적인 솔루션을 제시하도록 권장합니다. 그러나 화자는 또한 편향된 데이터와 일반화 및 틀 밖에서 생각하는 능력과 같은 생성 모델의 한계를 언급합니다. 그럼에도 불구하고 강사는 학생들에게 컴퓨터 미학 및 디자인에 대한 Berkeley와 MIT 간의 소크라테스 토론에 참여하도록 권장하면서 심미적으로 만족스러운 이미지를 생성하기 위한 다양한 기술로 제공된 코드를 검토하고 실험하도록 지정합니다.

  • 00:00:00 강의의 이 섹션에서 연사는 예술, 미학 및 창의성 분야에서 AI를 구현하는 동기에 대해 논의합니다. 그들은 예술이 인간 진화와 의사소통의 핵심 측면이며 AI가 예술 창작에 대한 접근을 민주화하고 창의성을 키우며 예술의 경계를 넓힐 수 있다고 설명합니다. 매일 수백만 장의 사진이 업로드되고 매일 650개의 광고가 노출되는 상황에서 AI는 좋은 디자인을 자동으로 디자인하고 무엇이 좋은 디자인인지 나쁜 디자인인지 이해하도록 도울 수 있습니다. 마지막으로 화자는 인공지능이 매 순간 영화, 연극 등을 만들어 내는 미래에 인공지능이 중요한 역할을 할 것이라고 주장하며 우리가 그 미래를 만들고 싶은지에 대한 질문으로 이어진다.

  • 00:05:00 이 섹션에서 연사는 예술, 미학 및 창의성에서 AI의 역할에 대해 논의합니다. 그는 컨볼루션 신경망(CNN)이 텍스처 쪽으로 편향될 수 있지만 다른 스타일을 생성하고 이를 데이터에 통합함으로써 편향성을 제거할 수 있다고 설명합니다. 또한 그는 2018년 생성 모델을 사용하여 만든 그림이 50만 달러에 판매되었다고 언급합니다. 그는 또한 미학이 정량화될 수 있는지에 대한 질문에 답하면서 철학자와 예술가들이 여러 세대에 걸쳐 이 주제에 대해 논의해 왔다고 말했습니다. 마지막으로 그는 AI 알고리즘을 창의적인 응용 프로그램에 적용하고 흥미로운 문제를 해결하는 방법을 배우는 과정의 목표에 대해 설명합니다.

  • 00:10:00 비디오의 이 섹션에서 강사는 딥 러닝에 대한 사전 지식이 과정에 필요한지 여부에 대한 질문에 응답합니다. 그는 이 과정이 딥 러닝에 대해 다룰 것이지만 이것이 주요 초점은 아니며 주제 학습을 위한 다른 리소스가 있다고 설명합니다. 그런 다음 그는 미학을 측정하는 것이 새로운 개념이 아니며 20세기 초의 Birkhoff 모델과 같이 다양한 맥락에서 미학을 정량화하는 데 사용할 수 있는 이미 확립된 모델이 있음을 언급하면서 미학을 정량화하는 이전 작업에 대해 논의합니다. 시각 디자인, 시, 심지어 인터페이스까지.

  • 00:15:00 이 섹션에서 발표자는 시각적 균형을 예로 사용하여 미학의 정량화와 이를 달성하기 위한 과제에 대해 논의합니다. 높은 수준과 낮은 수준 모두에서 좋은 표현이 필요합니다. 높은 수준의 표현에는 시각적 균형과 리듬이 포함될 수 있는 반면 낮은 수준의 표현은 신경망을 사용하여 추출된 기능에 의존합니다. 데이터는 어떤 종류의 데이터가 사용되는지, 어디서 오는지 등 미학을 정량화하는 데에도 필요합니다. 발표자는 직관을 통해 설계자에게 균형이 어떻게 가르쳐지는지 설명하지만 엔지니어는 균형을 정량화하고 설계에서 그 의미를 결정하기를 원합니다.

  • 00:20:00 이 섹션에서 발표자는 조화라고도 알려진 디자인의 시각적 올바름과 균형 개념에 대해 논의합니다. 그는 특정 핫스팟에 디자인 요소를 배치하면 시각적 균형을 만들 수 있다고 제안한 Arnheim의 작업에 대해 이야기합니다. 발표자는 이 가설이 데이터 기반 분석을 통해 확인될 수 있는지 탐색하고 돌출 알고리즘을 사용하여 이미지의 돌출 부분을 연구하고 그 결과를 구조적 네트워크에 오버레이합니다. 그는 크롤러를 사용하여 사진 웹사이트에서 120,000개 이상의 이미지를 수집하여 이러한 이미지의 두드러진 패턴을 연구합니다.

  • 00:25:00 이 섹션에서는 초상화, 건축 및 패션과 같은 다양한 범주의 집계된 이미지에서 패턴을 찾기 위해 가우시안 혼합에 맞추기 위해 현저성 알고리즘이 있는 데이터 세트를 사용했습니다. 질량 중심 및 1/3 법칙에 대한 Arnheim의 이론과 유사하게 돌출의 핫스팟을 분석했습니다. 그러나 결과는 삼등분 법칙의 타당성에 대한 연구에서 볼 수 있듯이 사진가가 이미지를 자르는 방식에 영향을 받을 수 있습니다.

  • 00:30:00 이 섹션에서 강사는 전산 미학 및 디자인 주제에 대해 논의합니다. 그들은 미학, 의미론 및 사진 스타일에 대한 주석을 포함하는 AVA 데이터 세트의 가용성을 언급합니다. 그런 다음 강사는 딥 러닝 알고리즘이 미학 등급을 학습하고 예측할 수 있는 방법을 보여주고 이것이 이미지를 향상시키고 조정하는 데 사용될 수 있음을 제안합니다. 그런 다음 강의는 컴퓨팅 디자인의 잠재력과 디자인의 패턴을 발견하고 자신을 더 잘 표현하는 것의 중요성에 대해 논의하는 것으로 이동합니다.

  • 00:35:00 강의의 이 섹션에서 연사는 컴퓨팅 디자인의 개념을 소개하고 디자인과 예술의 차이점에 대해 논의합니다. 디자인에서 문제는 주어지고 디자이너는 그 문제를 해결하기 위한 메시지를 전달하는 것이고, 예술가는 스스로 문제를 정의하고 예술적인 기법으로 해결한다. 장식을 통한 커뮤니케이션과 같은 디자인의 원칙은 기계에 전달하기 어려울 수 있지만 게슈탈트 및 색상 조화를 포함한 다양한 이론, 메트릭 및 규칙을 사용하여 콘텐츠를 자동으로 생성하고 추천할 수 있습니다. 발표자는 또한 지정된 배경 이미지 위에 텍스트 및 디자인 요소를 배치할 수 있는 자동화된 디자인 소프트웨어의 예를 제공합니다.

  • 00:40:00 비디오의 이 섹션에서 발표자는 보색을 선택하고 30년 동안 색상 조합을 연구한 Kobiashi와 함께 Itten과 Matsuda가 수행한 작업을 연구하여 잡지 표지의 자동 디자인을 만든 방법에 대해 설명합니다. 색상은 로맨틱, 부드러움, 깔끔함과 같은 단어와 연관될 수 있습니다. 이 작업을 기반으로 화자는 사용자가 선택한 색상을 기반으로 사용자에게 추천하고 잡지 표지 스타일을 생성할 수 있는 자동 디자인 시스템을 만들었습니다. 또한 연사는 전문 디자이너의 데이터가 잡지 표지의 색상 팔레트에서 패턴을 추출할 수 있는지 여부를 탐색했습니다.

  • 00:45:00 비디오의 이 섹션에서 연사는 표지에 사용된 텍스트, 장르 및 색상 조합을 동시에 찾기 위해 12가지 장르의 잡지 표지 데이터 세트를 수집하는 프로젝트에 대해 설명합니다. 발표자는 주제 모델링을 사용하여 단어와 색상의 조합인 다양한 주제를 추출하고 단어 구름과 색상 팔레트를 사용하여 이러한 주제를 시각화하는 방법을 보여주었습니다. 연사는 또한 프로젝트 결과가 보편적인지 여부를 결정하기 위해 크라우드소싱을 사용하는 방법에 대해서도 논의했습니다.

  • 00:50:00 이 섹션에서 연사는 서로 다른 문화와 인구 통계가 다양한 주제와 색상 연관성에 동의하는지 이해하기 위해 수행한 크라우드소싱 실험에 대해 논의합니다. 실험은 주제에서 무작위로 선택한 색상 팔레트를 보여준 다음 다양한 단어 구름을 보여주고 주제에 일치하도록 요청하는 것과 관련이 있습니다. 다양한 국가에서 온 1,000명 이상의 참가자가 참여했으며 결과 상관관계 또는 관련성 매트릭스에서 몇 가지 흥미로운 패턴이 나타났습니다. 실험 결과 참가자들은 대부분의 경우 몇 가지 예외가 있기는 했지만 다양한 주제와의 색상 연관성에 동의했습니다. 연사는 또한 다양한 유형의 제품에 대한 색상 팔레트를 디자인할 때 이 방법을 적용할 수 있는 가능성을 강조했습니다.

  • 00:55:00 강의의 이 섹션에서 연사는 색상 팔레트 추천, 이미지 검색, 다시 칠하기, 심지어 웹 디자인과 같은 작업에서 색상 의미론의 다양한 응용에 대해 논의합니다. 그녀는 알고리즘을 사용하여 특정 개념이나 주제를 기반으로 색상과 잡지 표지를 추천하고 시간이 지남에 따라 웹 디자인의 패턴을 분석하고 시각화하는 방법을 보여줍니다. 컨볼루션 신경망의 사용은 특정 시대의 색상 팔레트와 웹사이트 디자인 트렌드를 식별하는 데에도 사용됩니다.

  • 01:00:00 이 섹션에서 발표자는 디자인의 연도를 예측할 때 컴퓨터 디자인과 미학을 사용하는 방법에 대해 논의합니다. 그들은 모델이 고려하는 것은 색상뿐만 아니라 타이포그래피와 같은 높은 수준의 기능도 고려한다고 설명합니다. 분류의 정확성은 언급되지 않았지만 확률보다 높은 것으로 언급되었습니다. 컴퓨팅 디자인은 광고 분석, 로고 및 아이콘 생성, 패션 컬러 팔레트 디자인에도 사용되었습니다.

  • 01:05:00 이 섹션에서 연사는 패션, 제품 디자인 및 예술에서 생성 모델의 사용에 대해 논의합니다. 그는 색상, 태그 등 패션 요소를 이해하는 데 사용되는 데이터 세트의 예를 보여주고 유사한 데이터 세트를 사용하여 제품 디자인을 추천하는 동료를 언급합니다. 발표자는 또한 입력 스케치를 가져와 제품 디자인을 출력하거나 다른 패션 아이템처럼 보이도록 이미지를 변경할 수 있는 생성 모델에 대해 이야기합니다. 또한 그는 스타일 전송 및 콘텐츠 생성 도구를 포함하여 계산 예술 및 창의성과 관련된 주제를 다룹니다.

  • 01:10:00 비디오의 이 섹션에서 교수는 이미지 및 스타일 전송, 콘텐츠 생성, 비디오용 생성 모델을 포함하여 창의적인 작업을 생성하는 전산 예술 및 인공 지능의 사용에 대해 논의합니다. 토론에는 StyleGAN, OpenAI의 DALL-E 및 비디오 포즈 수정을 위한 생성 모델을 포함하여 이러한 영역에서 최근 작업의 몇 가지 예가 포함됩니다. 이러한 발전에도 불구하고 기계가 진정으로 예술가가 될 수 있는지 아니면 창의성과 예술이 인간에게만 속하는 것인지에 대한 의문이 남아 있습니다.

  • 01:15:00 이 섹션에서 화자는 몇 가지 결과를 생성하고 공유함으로써 학습 방향에 대한 흥분에 대해 이야기합니다. 생성을 통한 학습은 인간이 문제 해결 방법을 학습하는 방법을 기반으로 알고리즘을 개발하도록 AI를 훈련시키는 방법이기 때문에 흥미롭다고 설명합니다. 또한 화자는 미학의 정량화에 대한 질문에 답하고 인간 언어의 고급 용어와 계산 용어 사이의 격차를 해소하는 한 가지 방법은 데이터와 모델을 사용하고 문화적 개념을 통합하고 크라우드 소싱을 통해 사람들에게 의견을 묻는 것이라고 언급합니다.

  • 01:20:00 비디오의 이 섹션에서 연사는 편견을 피하고 흥미로운 결과를 도출하기 위해 기계 학습에서 데이터를 사용하는 것의 중요성에 대해 논의합니다. 그는 청취자가 혁신적이고 창의적인 솔루션으로 이어질 수 있는 알고리즘이나 표현을 설계하는 방법에 대해 생각하도록 권장합니다. 발표자는 창의성과 혁신이 인공 지능의 필수 구성 요소라고 믿으며 사물과 개념의 디자인에 어떻게 사용되었는지에 대한 예를 인용합니다. 그는 생성을 통한 학습이 문제 해결 기술을 개발하는 효과적인 방법이며 청취자가 더 큰 문제를 더 작은 하위 집합으로 분해하고 한 번에 하나씩 해결하도록 권장한다고 강조합니다.

  • 01:25:00 비디오의 이 섹션에서 연사는 일반화의 개념과 독창성과 AI의 고정관념을 벗어난 사고에 대해 논의합니다. 발표자는 생성 모델이 일반화 및 분산 사고를 할 수 있는지 여부에 대한 질문을 제시합니다. 이 주제를 탐구하기 위해 연사는 GAN(Generative Adversarial Network)의 조종 가능성 개념을 소개하고 생성기의 잠재 공간에서 워크를 찾아 이미지를 조작하는 능력을 시연합니다. 그들은 현재 GAN 모델이 확대/축소, 이동 및 회전과 같은 변형을 나타낼 수 있음을 보여줍니다. 발표자는 이미지를 조작하기 위해 잠재 벡터를 찾는 과정을 설명하고 이를 사용하여 창의성과 혁신에서 생성 모델의 잠재력을 보여줍니다.

  • 01:30:00 비디오의 이 섹션에서 발표자는 BigGAN과 같은 생성 모델의 한계와 이러한 모델이 있는 이유에 대해 논의합니다. 그는 클래스의 의미 체계에도 존재하는 편향이 모델에 도입될 수 있다고 설명합니다. 이는 모델이 일반화할 수 있지만 인간만큼 일반화할 수는 없음을 의미합니다. 연사는 계속해서 모델이 데이터 세트의 분포를 벗어나 이미지가 보이는 방식을 어느 정도 변형할 수 있지만 기본 데이터 세트가 다양한 경우에만 가능함을 보여줍니다. 이 논문은 편향된 데이터의 한계를 극복하는 한 가지 방법은 이미지를 확대하거나 회전하는 것과 같이 데이터를 보강하는 것이라고 제안합니다.

  • 01:35:00 비디오의 이 섹션에서 강사는 잠재 공간을 사용하여 변형을 통해 미적으로 만족스러운 이미지를 생성하는 방법에 대해 설명합니다. 이미지 색상, 확대/축소, 회전, 카메라와 같은 변경 등을 변경하기 위해 잠재 공간에서 걷거나 조향하여 변환을 수행할 수 있습니다. 강사는 또한 신경망을 사용하여 이미지 미학을 감지하고 걷는 방향 또는 변형이 더 미학적으로 만족스러운 이미지를 생성하는지에 대한 피드백을 제공합니다. 이 강의는 컴퓨터 미학 및 디자인에 관한 Berkeley와 MIT 간의 다가오는 소크라테스적 토론에 학생들이 참여하도록 권장합니다. 또한 강사는 학생들에게 제공된 코드를 검토하고 미학적으로 만족스러운 이미지를 생성하기 위한 다양한 기술을 실험하도록 지정합니다.

  • 01:40:00 비디오의 이 섹션에서 발표자는 자신의 작업 저장소에 대해 논의하고 시청자에게 TensorFlow 대신 PyTorch를 사용하여 제공된 노트북을 실행하도록 권장합니다. 또한 코드 결과를 시각화하는 데 사용되는 Colab 시스템을 설명하고 이미지 생성 및 결과 보고의 중요성을 강조합니다. 연사는 또한 시청자에게 어떤 질문이든 이메일로 보낼 수 있으며 과정에 참여해 주셔서 감사하다는 점을 상기시킵니다.
 

MIT 6.S192 - 강의 2: 소크라테스적 논쟁, 알료샤 에프로스와 필립 이솔라



MIT 6.S192 - 강의 2: 소크라테스적 논쟁, 알료샤 에프로스와 필립 이솔라

이 비디오에서 Alyosha Efros와 Phillip Isola는 이미지를 사용하여 공유 경험을 만드는 아이디어에 대해 논의합니다. 그들은 이것이 추억을 되살리고 향수를 불러일으키는 데 도움이 될 수 있다고 주장합니다.

이 비디오는 인공 지능에서 데이터의 역할에 대한 MIT의 두 교수 간의 토론입니다. Efros는 데이터가 AI에 필수적이라고 주장하는 반면 Isola는 데이터가 AI 개발에 방해가 될 수 있다고 반박합니다.

  • 00:00:00 이 강의에서 Alyosha Efros와 Phillip Isola는 새로운 유형의 데이터로서 생성 모델의 관점에 대해 논의합니다. Efros는 생성 모델의 현재 시대가 데이터와 비슷하지만 더 낫다고 주장합니다. Isola는 생성 모델이 작동하는 방식과 이를 사용하여 흥미로운 콘텐츠를 만드는 방법을 설명합니다.

  • 00:05:00 이 강의에서 Alyosha Efros와 Phillip Isola는 생성 모델의 힘에 대해 논의합니다. 생성 모델을 사용하면 이미지를 수정하는 데 사용할 수 있는 잠재 변수와 같은 추가 기능으로 장식된 데이터 포인트를 만들 수 있습니다. 이것은 창의성과 과학적 시각화를 위한 많은 가능성을 열어줍니다.

  • 00:10:00 비디오는 잠재 공간을 통해 이미지를 조작하는 아이디어를 논의합니다. 그들은 이미지 공간에서 의미 있는 변환에 매핑될 방향을 검색하여 이것이 어떻게 수행될 수 있는지 설명합니다. 이미지를 확대하여 더 기억에 남도록 만드는 예를 제공합니다. 마지막으로 그들은 이 기술을 어떻게 사용할 수 있는지 논의합니다.
    기억에 남을만한 것이 무엇을 의미하는지 개념을 시각화합니다.

  • 00:15:00 이 동영상에서는 새로운 이미지를 만들기 위해 조작할 수 있는 데이터 유형인 생성 모델의 개념에 대해 설명합니다. 이 비디오는 서로 다른 이미지의 서로 다른 부분을 함께 추가하여 구성적으로 새로운 이미지를 생성하는 이러한 모델의 능력을 보여줍니다. 이 비디오는 또한 특정 물체에 대한 편견이나 특정 장면을 정확하게 묘사할 수 없는 것과 같은 생성 모델의 한계에 대해서도 논의합니다.

  • 00:20:00 Alyosha Efros와 Phillip Isola는 데이터 자체와 이를 생성하는 데 사용되는 방법을 모두 포함하는 데이터에 대해 생각하는 방식인 데이터 플러스 플러스의 개념에 대해 논의합니다. Efros는 이 관점이 데이터 포인트 사이에 보다 의미 있는 보간을 허용하기 때문에 유용하다고 주장합니다. Isola는 두 데이터 포인트 사이의 경로를 선택하는 방법에 대해 질문하고 Efros는 모델이 가장 자연스럽게 보이는 최단 경로를 선택한다고 설명합니다.

  • 00:25:00 이 비디오에서 Phillip Isola와 Alyosha Efros는 "Dall-E" 알고리즘의 장점에 대해 토론합니다. Efros는 알고리즘이 언어를 이해할 수 있기 때문에 인상적이라고 주장합니다. Isola는 알고리즘이 실제로 언어를 이해하는 것이 아니라 단어와 문법을 이해하고 있다고 반박합니다.

  • 00:30:00 화자는 GAN이 고도로 선별된 데이터에 대해서만 훈련되기 때문에 실제로 창의적이지 않다고 주장합니다. 그는 당신이 그것을 감당할 수 있다면 양방향 매핑이 가장 좋은 방법이라고 제안합니다.

  • 00:35:00 이 강의에서 Alyosha Efros와 Phillip Isola는 인공 지능 연구에 대한 데이터 기반 접근 방식과 모델 기반 접근 방식의 장점에 대해 토론합니다. Efros는 점점 더 모델이 데이터에 대한 기본 인터페이스가 될 것이며 데이터 과학자는 데이터 세트 대신 모델로 작업하는 방법을 배워야 한다고 주장합니다. Isola는 이에 동의하며 이러한 모델을 교육하는 데 사용되는 데이터 세트가 점점 더 커지고 복잡해지고 있다고 덧붙였습니다.

  • 00:40:00 이 비디오는 Alyosha Efros와 Phillip Isola가 예술의 맥락을 주제로 한 강의입니다. Efros는 Michael Galinsky의 Malls Across America라는 예술 작품의 사진이 어떻게 그에게 깊은 인상을 남겼는지, 그리고 사진을 보는 맥락이 그 의미에 어떤 영향을 미칠 수 있는지에 대해 이야기합니다. Isola는 바다를 바라보는 소녀의 사진이 사진이 찍힌 시간 동안 살아 있었던 사람들에게 어떻게 기억과 감각을 되살릴 수 있는지에 대해 이야기합니다.

  • 00:45:00 이 비디오는 향수의 개념과 그것이 예술 감상에 어떻게 사용될 수 있는지에 대한 두 교수 간의 토론입니다. 그들은 문 앞에서 두 친구의 사진을 예로 사용하는데, 이는 공유된 기억 때문에 두 사람에게만 의미가 있습니다. 이러한 유형의 노스탤지어는 다양한 형태로 나타날 수 있으며 기억을 회상할 수 있는 사람에게는 즐거운 경험이 될 수 있다고 주장합니다.

  • 00:50:00 이 비디오에서 Alyosha Efros와 Phillip Isola는 이미지를 사용하여 특정 도시의 사람들이 공유하는 경험을 불러일으키는 아이디어에 대해 논의합니다. 그들은 이것이 추억을 되살리고 향수를 불러일으키는 데 도움이 될 수 있다고 주장합니다.

  • 00:55:00 에두아르 모네(Edouard Monet)의 그림 "올림피아(Olympia)"는 과도한 노출과 밋밋한 피부 톤으로 인해 1865년에 공개되었을 때 큰 스캔들이었습니다. 어떤 사람들은 그림 속의 손 위치가 사람들을 미치게 만들었다고 믿습니다.

  • 01:00:00 이 강의는 예술이 보는 맥락에 따라 어떻게 다르게 해석될 수 있는지에 대한 것입니다. 사용된 예는 아메데오 모딜리아니(Amedeo Modigliani)의 그림 "누운 비너스(Reclining Venus)"로, 유명한 누드 여성 그림을 패러디한 것으로 여겨져 처음 전시되었을 때 분노를 불러일으켰습니다. 그러나 다른 여성 나체 그림의 맥락에서 볼 때 유효한 예술 작품으로 볼 수 있습니다.

  • 01:05:00 YouTube 동영상 "MIT 6.S192 - 강의 2: 소크라테스 논쟁, Alyosha Efros와 Phillip Isola"에서 두 사람은 러시아 화가 Zlotnikov와 미국 화가 Hurst의 그림 뒤에 숨겨진 의미에 대해 토론합니다. Efros는 그림의 방향은 그림이 불러일으키는 자유와 붐비는 느낌에 의해 결정된다고 주장합니다. Isola는 Malevich의 검은 사각형 그림에 의해 방향이 결정되며 특정 방향의 궁극적인 해결책으로 보고 있다고 반박합니다.

  • 01:10:00 Phillip Isola와 Alyosha Efros는 예술의 의미, 특히 Malevich의 검은 사각형 그림에 대해 토론합니다. Isola는 그림이 무의미한 기표라고 주장하는 반면 Efros는 Malevich에게 자연스러운 진행이라고 주장합니다.

  • 01:15:00 이 비디오의 요점은 우리가 기계의 복잡성을 과대평가하고 있을지도 모른다는 것입니다. 그리고 우리에게 마술처럼 보이는 것은 단순한 프로세스의 결과일 수도 있습니다. Braiterberg의 책 "Vehicles"는 간단한 상호 작용에서 복잡한 동작이 어떻게 나타날 수 있는지에 대한 예로 사용됩니다.

  • 01:20:00 이 강의에서 Efros와 Isola는 창의성과 참신함의 본질에 대해 토론합니다. Efros는 둘 다 점진적인 변화의 결과이며 창작 과정은 일반적으로 매우 순조롭다고 주장합니다. Isola는 참신함은 종종 무작위성과 행운의 결과라고 반박합니다.

  • 01:25:00 예술과 과학에서 맥락의 역할에 대한 두 사람의 토론입니다. 한 사람은 예술이 의미를 갖기 위해서는 맥락이 필요하다고 주장하는 반면, 다른 사람은 맥락이 필요하지 않으며 맥락 없이도 예술은 참신할 수 있다고 주장합니다.

  • 01:30:00 이 강의에서 Efros와 Isola는 과학적 성공에서 행운의 역할에 대해 토론합니다. Efros는 운이 중요한 역할을 한다고 주장하는 반면 Isola는 위대함을 계획하는 방법이 있다고 주장합니다.

  • 01:35:00 이 강의에서 Alyosha Efros와 Phillip Isola는 창의성에서 운의 역할에 대해 토론하고 Efros는 운 이상의 무언가가 있어야 한다고 주장합니다. Isola는 데이터 플러스 플러스(데이터와 작업의 조합)가 창의성의 핵심이며 일단 올바른 데이터가 있으면 가능성은 무한하다고 주장합니다.

  • 01:40:00 이 YouTube 동영상은 Alyosha Efros와 Phillip Isola가 데이터 작업과 모델 작업의 차이점과 데이터가 쓸모 없게 될지 여부에 대한 토론입니다. Efros는 모델이 발전함에 따라 데이터가 이미 덜 중요해지고 있으며 결국에는 모델이 지능에서 인간을 능가할 것이라고 주장합니다. Isola는 데이터가 여전히 표준이며 모델이 기반으로 하는 데이터 이상을 수행할 수 없다고 주장합니다.

  • 01:45:00 이 토론에서는 MIT 교수 Alyosha Efros와 Phillip Isola가 예술과 AI의 관계에 대해 논의합니다. Efros는 컴퓨팅이 관계에 대해 생각하는 가장 좋은 방법이며 예술과 진화 사이에는 강력한 연관성이 있다고 주장합니다. Isola는 둘 사이에 연관성이 있다는 데 동의하지만 현재 모델은 데이터에서 새로운 정보를 추론할 수 없으며 이것이 진정으로 창의적인 AI의 핵심이라고 주장합니다.

  • 01:50:00 Phillip 및 Alyosha와 예술 및 계산에 대해 대화할 수 있어서 좋았습니다. 그들은 둘 다 예술이 사고의 새로운 패러다임의 최전선에 있고 컴퓨팅이 새로운 아이디어를 탐구하는 데 사용될 수 있다고 생각합니다.

  • 01:55:00 이 강의에서 Alyosha Efros와 Phillip Isola는 인공 지능에서 데이터의 역할에 대한 소크라테스식 토론에 참여합니다. Efros는 데이터가 AI에 필수적이라고 주장하는 반면 Isola는 데이터가 AI 개발에 방해가 될 수 있다고 반박합니다.
 

MIT 6.S192 - 강의 3: Jun-Yan Zhu의 "효율적인 GAN"



MIT 6.S192 - 강의 3: Jun-Yan Zhu의 "효율적인 GAN"

강의는 고도의 계산, 대량의 데이터, 광범위한 교육 세션이 필요한 복잡한 알고리즘의 필요성을 포함하여 GAN 모델 교육의 과제를 다룹니다. 그러나 강사는 GAN 압축의 범용 프레임워크를 사용하여 교사 모델 압축, 미분 가능한 증강 및 데이터 증강과 같이 GAN이 더 빠르게 학습하고 더 적은 수의 데이터 세트에서 훈련하는 새로운 방법을 소개합니다. 강의는 또한 GAN을 사용한 대화형 이미지 편집을 시연하고 성공적인 GAN 교육을 위한 크고 다양한 데이터 세트의 중요성을 강조합니다. 모델을 실행하기 위한 코드는 다양한 유형의 데이터에서 모델을 실행하기 위한 단계별 지침과 함께 GitHub에서 사용할 수 있습니다. 강의는 실용적인 목적을 위한 모델 압축의 중요성을 논의하면서 마무리됩니다.

  • 00:00:00 이 섹션에서 발표자는 효율적인 GAN의 개념과 GAN의 비용을 소개합니다. GAN은 다양한 콘텐츠 생성 및 창의성 작업에 사용되었지만 새로운 알고리즘을 개발하거나 실시간 성능을 수행하려면 고급 GPU가 필요합니다. GauGAN 프로젝트 개발을 위해 연구원은 훈련을 위해 수백 개의 고급 GPU가 필요했고 1년의 개발 후에도 팀은 프로젝트를 수행하기 위해 값비싼 노트북을 구입해야 했습니다. GAN을 훈련하고 알고리즘을 개발하는 비용은 비싸고 현재 대학이 NVIDIA 또는 DeepMind와 같은 대기업과 경쟁하기가 어렵습니다.

  • 00:05:00 이 섹션에서 발표자는 더 많은 사용자가 GAN을 효과적으로 활용하는 데 있어 세 가지 주요 장애물, 즉 높은 계산의 필요성, 많은 양의 데이터 및 많은 교육 세션이 필요한 복잡한 알고리즘에 대해 설명합니다. 그는 GAN이 모델 훈련에 필요한 고품질 이미지와 전처리 단계로 인해 계산 비용이 많이 든다고 설명합니다. 또한 대규모 데이터 세트와 레이블의 필요성으로 인해 GAN 교육이 더욱 어려워집니다. 그러나 그는 GAN이 더 빠르게 학습하고 더 적은 수의 데이터 세트에서 훈련할 수 있는 새로운 방법을 소개합니다. 이를 통해 리소스에 대한 액세스가 제한된 콘텐츠 제작자와 아티스트가 자신의 모델을 훈련하고 테스트할 수 있습니다.

  • 00:10:00 강의의 이 섹션에서 Jun-Yan Zhu는 GAN 압축의 범용 프레임워크를 사용하여 교사 모델을 압축하는 방법을 소개합니다. 목표는 교사 모델과 동일한 종류의 출력을 생성할 수 있는 필터 수가 적은 학생 모델을 찾는 것입니다. 이 방법은 손실 함수를 생성하여 학생의 zebra 출력 분포가 교사의 출력과 매우 유사하게 보이고, 학생의 중간 특징 표현이 교사의 것과 매우 유사하며, 학생의 출력이 적대적 손실에 따라 얼룩말처럼 보이도록 합니다. . 이 프로세스에는 최적의 채널 수를 검색하는 작업도 포함되며, 이는 모델의 크기와 교육 시간을 줄이면서 동일한 결과를 생성할 수 있습니다. 서로 다른 구성에서 가중치를 공유하는 프로세스를 통해 개별적으로 교육하지 않고도 여러 구성을 교육할 수 있으므로 교육 시간이 단축됩니다.

  • 00:15:00 이 섹션에서 Jun-Yan Zhu는 교사 모델을 모방하고 다양한 구성에서 가중치를 공유하기 위해 다양한 손실 함수를 사용하는 것과 함께 다양한 구성을 통해 GAN 모델을 교육하고 평가하는 프로세스에 대해 설명합니다. 모바일 장치에서 실시간 성능을 달성하기 위해 모델을 압축한다는 아이디어와 함께 다양한 크기 및 계산 비용의 모델에 대한 결과가 제시되었습니다. 이 아이디어를 StyleGAN2에 적용하는 방법도 소개되어 원본 모델의 최종 출력을 적용하기 전에 이미지 편집에 저비용 모델을 사용할 수 있는 방법을 보여줍니다.

  • 00:20:00 이 섹션에서 발표자는 GAN을 사용한 대화형 이미지 편집 데모를 시연합니다. 데모의 목표는 사용자가 미소를 추가하거나 머리 색깔을 변경하는 것과 같은 다양한 속성에서 이미지를 편집하고 변경 사항에 따라 즉각적인 피드백을 받을 수 있도록 하는 것입니다. 시스템은 큰 모델과 일관된 출력을 생성하는 더 작은 모델을 사용하여 미리보기가 유익한 정보를 유지하도록 합니다. 편집이 완료되면 원래 모델을 실행하여 고품질 출력을 생성할 수 있습니다. 인터랙티브 편집은 기존 비딥러닝 콘텐츠 제작 소프트웨어에 비해 빠르고 고품질의 결과물을 제공합니다.

  • 00:25:00 강의의 이 섹션에서 Jun-Yan Zhu 교수는 효과적인 성능을 위해 대량의 고품질 데이터가 필요하다고 언급하면서 GAN 모델 교육의 어려움에 대해 논의합니다. 렌더링 소프트웨어 또는 기타 도구를 사용하여 프로세스 속도를 높이고 미리 보기를 생성할 수 있지만 사용자 지정 모델을 교육하려면 상당한 양의 주석 데이터를 수집해야 합니다. Zhu는 얼굴이 50개 또는 100개인 데이터 세트에서 stylegan2 모델을 교육하여 이미지가 왜곡된 예를 제공합니다. 강의는 성공적인 GAN 교육을 위한 크고 다양한 데이터 세트의 중요성을 강조합니다.

  • 00:30:00 이 섹션에서 연사는 GAN 모델에서 충분한 양의 훈련 데이터를 갖는 것의 중요성에 대해 논의합니다. 그들은 더 작은 데이터 세트에 대해 훈련할 때 판별자가 쉽게 모든 이미지를 과대적합하고 올바르게 분류할 수 있지만 실제 이미지로 일반화하는 데 어려움이 있음을 보여줍니다. 이로 인해 생성기가 많은 가비지 이미지를 생성하거나 붕괴됩니다. 발표자는 자신의 목적이나 작은 데이터 세트에 GAN을 사용하는 경우 과대적합이 훨씬 더 심해지며 효율적인 GAN을 만들기 위해서는 충분한 데이터를 얻는 것이 중요하다고 강조합니다.

  • 00:35:00 이 섹션에서 교수는 새로운 샘플을 수집하지 않고 데이터 세트를 늘리기 위해 단일 이미지의 여러 버전을 생성하는 것과 관련된 머신 러닝의 과적합을 방지하기 위한 데이터 증대 아이디어에 대해 논의합니다. 그러나 이 방법을 GAN 교육에 적용하는 것은 생성된 이미지가 실제 이미지에 적용된 것과 동일한 변환 또는 확대 효과를 가지므로 복제된 아티팩트가 발생할 수 있기 때문에 더 복잡합니다. 이 문제를 피하기 위해 교수는 실제 이미지와 가짜 이미지를 모두 증강하고 생성자와 판별기 사이의 증강 데이터 차이의 균형을 맞추기 위해 판별기 훈련에만 그렇게 할 것을 제안합니다.

  • 00:40:00 이 섹션에서 발표자는 GAN에서 생성자와 판별자의 목표 사이의 간격을 메우는 접근 방식으로 미분 가능 증대의 개념에 대해 논의합니다. 주요 아이디어는 discriminator의 그래디언트가 생성기로 역 전파 될 수 있도록 차별화 가능한 방식으로 가짜 이미지와 실제 이미지를 모두 보강하는 것입니다. 발표자는 미분 가능한 확대를 통해 최소한의 교육 데이터로 더 나은 결과를 얻을 수 있으므로 대규모 데이터 세트의 필요성을 줄이는 예를 통해 설명합니다. 화자는 차별화 가능한 증강이 GAN을 훈련할 때 기억해야 할 중요한 기술이라고 결론을 내립니다.

  • 00:45:00 이 섹션에서 강사는 모델을 실행하기 위한 모든 코드가 개인 얼굴 이미지에서도 다양한 유형의 데이터에서 모델을 실행하기 위한 단계별 지침과 함께 GitHub에서 사용할 수 있다고 설명합니다. 또한 디자이너와 아티스트가 사용할 수 있는 특정 도구에 대해 논의하고 강사는 David Bau가 내부 장치를 시각화하고 모니터링하는 온라인 도구에 대해 이야기할 것이라고 언급합니다. 모델을 한 번 압축하고 여러 장치에 배포하는 기능을 개발하는 것을 목표로 모델 압축 프로세스도 논의합니다. 이는 사용자가 모델에 액세스하는 데 필요한 시간을 줄이면서 개발자의 시간을 절약하므로 실용적인 목적에 중요합니다. .
 

MIT 6.S192 - 강의 5: David Bau의 "GAN의 뉴런으로 그리기"



MIT 6.S192 - 강의 5: David Bau의 "GAN의 뉴런으로 그리기"

David Bau는 머신 러닝의 진화와 자가 프로그래밍 시스템 생성 가능성에 대해 논의합니다. 그는 GAN(Generative Adversarial Networks)을 소개하고 사실적인 이미지를 생성하도록 훈련하는 방법을 설명합니다. Bau는 Progressive GAN의 특정 뉴런과 생성된 이미지의 특정 의미론적 특징 사이의 상관관계를 식별하는 과정에 대해 설명합니다. 그는 GAN의 도움으로 문, 풀, 나무와 같은 다양한 요소를 이미지에 추가하는 방법을 시연합니다. 또한 그는 GAN에 새로운 요소를 추가하는 문제와 세계의 사실적인 렌더링을 둘러싼 윤리적 문제에 대해 논의합니다.

  • 00:00:00 이 섹션에서는 David Bau가 기계 학습의 진화에 대해 설명합니다. 통계 분석에 뿌리를 두고 자체 프로그래밍 시스템을 만들 수 있는 잠재력에 이르기까지 말입니다. 학술 연구원으로서 그는 지금이 이 분야의 방향과 기계 학습 모델의 의미에 대해 질문할 수 있는 흥미로운 시기라고 생각합니다. 그가 연설에서 다룰 주요 문제는 이미지 생성이며, 실제 이미지의 데이터 세트를 수집하고 이를 재생성하기 위해 생성기 네트워크를 훈련시키는 과정을 소개합니다.

  • 00:05:00 이 섹션에서는 David Bau가 GAN(Generative Adversarial Networks)을 소개하고 사실적인 이미지를 생성하도록 GAN을 학습시키는 방법을 설명합니다. 그는 GAN의 트릭이 이미지가 진짜인지 가짜인지를 분류하도록 먼저 판별자를 훈련시킨 다음 이 판별자를 생성기에 연결하여 판별자를 속이는 이미지를 생성하는 방법을 설명합니다. 그러나 그는 생성기가 사실적인 이미지와 닮지 않은 간단한 패턴으로 판별자를 속이는 방법을 배울 수 있으므로 GAN의 트릭은 프로세스를 반복하고 생성기와 판별자 사이를 오가며 점점 더 많은 것을 생성하는 것이라고 지적합니다. 현실적인 이미지. 마지막으로 실제 이미지와 구별하기 어려운 경우가 많은 GAN으로 생성된 이미지의 예를 보여줍니다.

  • 00:10:00 이 섹션에서 발표자는 워터마크와 같은 GAN 생성 이미지에서 볼 수 있는 몇 가지 아티팩트와 훈련 세트에서 오는 이러한 아티팩트의 출처에 대해 논의합니다. 연사는 계속해서 워터마크 노출에 연결된 뉴런을 발견한 방법과 이를 끌 수 있는 방법을 설명했습니다. 워터마크 뉴런을 끄면 생성기에서 얻은 출력에 워터마크나 관련 아티팩트가 없어져 생성된 이미지의 다양한 기능을 제어하는 네트워크 내에 스위치가 있음을 증명하는 흥미로운 발견이 됩니다.

  • 00:15:00 이 섹션에서 David Bau는 Progressive GAN의 특정 뉴런과 생성된 이미지의 특정 의미론적 특징 사이의 상관관계를 식별하는 프로세스에 대해 설명합니다. 그는 이것이 각 뉴런을 개별적으로 테스트하여 가장 많이 활성화되는 위치를 확인하고 관련된 특정 기능을 나타냄으로써 달성되었다고 설명합니다. 이 과정을 통해 그는 나무, 창문, 문, 의자, 심지어 돔과 같은 건축 부품과 상관 관계가 있는 뉴런을 식별할 수 있었습니다. Bau는 이것이 지도 교육이나 레이블 없이 달성되었으며 네트워크가 이러한 기능의 다양한 예를 구별하는 방법을 학습하여 고유한 구성 요소로 나타내는 방법을 보여줍니다.

  • 00:20:00 이 섹션에서 David Bau는 부엌을 생성하기 위한 모델의 모든 다른 뉴런을 매핑하는 목표에 대해 논의합니다. 그 결과 서로 다른 유형의 상호 연관된 뉴런의 카탈로그가 생성되었습니다. Bau는 모델의 중간 계층에 의미론적 객체와 높은 상관관계가 있는 뉴런이 있는 반면, 이후 계층에는 더 많은 물리적 상관관계가 있음을 발견했습니다. Bau는 상관관계가 너무 놀라워서 이미지 생성에서 다른 물체를 켜고 끄는 것을 포함하여 흥미로운 응용 프로그램으로 이어짐을 발견했습니다. Bau는 일부 나무 뉴런을 끄면 장면에서 나무가 제거되고 생성기가 나무 뒤에 있는 것을 채우는 방법을 시연했습니다. 반대로 뉴런을 켜면 장면에 문이 나타나며 생성기가 문의 적절한 크기, 방향 및 스타일을 채웁니다.

  • 00:25:00 비디오의 이 섹션에서 David Bau는 GAN의 도움을 받아 문, 풀, 나무와 같은 다양한 요소를 이미지에 추가하는 방법을 보여줍니다. 특정 개체 또는 요소와 관련된 특정 뉴런만 활성화함으로써 그는 이미지의 의미 체계를 조작할 수 있습니다. 그는 또한 모델을 거꾸로 실행하는 방법을 학습해야 하는 역전 문제로 해결할 수 있는 무작위로 생성된 이미지만 편집할 수 있는 것과 같은 GAN의 한계에 대해 논의합니다.

  • 00:30:00 이 섹션에서 David Bau는 GAN(Generative Adversarial Network)을 사용하여 이미지를 생성할 때 네트워크가 할 수 없는 일을 드러낼 수 있기 때문에 한계에 대해 설명합니다. 그러나 네트워크 가중치를 미세 조정하여 대상 이미지에 정확히 도달하는 매우 가까운 네트워크를 생성하는 동시에 네트워크를 상대적으로 변경하지 않고 편집할 수 있도록 하는 것이 가능합니다. Bau는 네트워크를 통해 사진을 반전하고 시작 이미지를 얻고 네트워크를 미세 조정하여 대상 이미지를 출력한 다음 이미지를 편집하여 실제 사진을 수정하는 이 기술을 사용하여 시연합니다. 이 프로세스를 통해 이미지의 건축 스타일과 일치하는 돔 및 문과 같은 개체를 추가하거나 제거할 수 있습니다.

  • 00:35:00 비디오의 이 섹션에서 David Bau는 GAN 기술을 사용하여 미세 조정된 네트워크를 사용하여 특정 이미지에 과적합하여 이미지를 수정하는 방법을 설명합니다. 코어 스크린 레이어를 너무 많이 변경하지 않는 방식으로 네트워크의 사전 훈련된 가중치를 변경함으로써 Bau는 이미지를 편집하고 대상 이미지에 대한 대략적인 근사치를 생성할 수 있었습니다. 그러나 네트워크는 이 지식을 일반화하지 않습니다. 즉, 대상 이미지 이외의 이미지에 대해 의미 있는 변경을 생성할 수 없습니다.

  • 00:40:00 이 섹션에서는 David Bau가 GAN(Generative Adversarial Network)에 새로운 요소를 추가하는 문제에 대해 설명합니다. 특정 개체의 이미지를 생성하도록 시스템을 훈련할 수 있지만 이전 데이터 집합이나 인코딩된 규칙이 없으면 새로운 개념을 가르치기가 어렵습니다. 따라서 Bau는 모델을 재훈련하지 않고 타워 꼭대기에 나무를 추가하거나 건물 앞에 캐딜락을 그리는 것과 같은 새로운 규칙을 수용하기 위해 사전 훈련된 모델의 가중치를 수정하는 기술을 개발했습니다. 그는 사용자가 규칙을 지정하고 선호도에 따라 출력을 조작할 수 있는 StyleGAN2의 애플리케이션을 시연합니다.

  • 00:45:00 이 섹션에서 David Bau는 생성된 이미지에서 몇 가지 예를 선택하고 GAN을 사용하여 모양을 담당하는 공유 뉴런을 찾는 방법에 대해 설명합니다. 일단 선택되면 예를 들어 뾰족한 탑의 꼭대기를 나무로 바꾸는 것과 같이 GAN 모델에 대한 올바른 변경 사항을 계산하여 표현을 재정의하고 새 이미지를 생성할 수 있습니다. Bau는 이 과정이 그의 검색 결과에서 모든 뾰족탑 이미지의 영향을 받아 뾰족탑 이미지의 완전히 새로운 표현으로 이어진다는 것을 보여줍니다. 또한 Bau는 GAN의 각 계층이 컨텍스트 표현을 위한 메모리로 사용되는 키-값 쌍을 일치시키는 간단한 문제를 해결하는 것으로 생각할 수 있다고 설명합니다. 그는 가중치 행렬이 최소 제곱 문제에 대한 해결책이며 한 레이어의 키-값 쌍에서 규칙을 변경하는 것도 최소 제곱 문제이며 비교를 위해 동일한 방식으로 작성할 수 있다고 지적합니다.

  • 00:50:00 이 섹션에서 David Bau는 전체 규칙을 변경하지 않고 네트워크가 기억한 한 가지를 변경하여 아직 존재하지 않는 것을 나타내는 모델을 생성할 수 있는 방법에 대해 설명합니다. 이는 키를 찾고 새 값을 작성하여 달성되며, 특정 방향에서 순위 1 업데이트를 사용하여 키 값만 변경합니다. 이를 통해 사용자는 GAN 내부의 규칙을 변경하고 이를 사용하여 훈련 데이터가 아닌 상상력을 기반으로 무언가를 만들 수 있습니다. 이 방법은 데이터가 충분하지 않은 경우에도 사용할 수 있으므로 기계 학습을 사용하여 새로운 세계를 만들 수 있는 잠재적 경로를 제공합니다.

  • 00:55:00 이 섹션에서 David Bau는 세상의 규칙을 인간이 더 잘 보이고 조작할 수 있게 만들고 사람들이 더 나은 세상을 만들 수 있도록 함으로써 세상의 규칙을 바꿀 수 있는 그의 방법의 잠재력에 대해 논의합니다. 그는 또한 이 방법이 여러 다른 모델에서 작동할 수 있는지 또는 이 모델 내에서 모자를 가져와 뿔에 꽂을 때만 성공적인지에 대한 질문에 답합니다. 그는 현재 이 방법이 하나의 모델만 재배선할 수 있지만 하나의 신경망에서 다른 신경망으로 계산 조각을 이동할 수 있는 것이 분명한 목표라고 설명합니다. 마지막으로 그는 딥 페이크 현상과 얼굴 생성기를 사용하여 수백만 개의 가짜 Facebook 프로필 생성을 인용하면서 세계의 사실적인 렌더링을 둘러싼 윤리적 문제와 그것이 이미 어떻게 오용되고 있는지에 대해 이야기합니다.

  • 01:00:00 이 섹션에서 David Bau는 심층 신경망을 사용하여 사실적인 이미지를 생성하는 것의 의미와 잠재적 결과에 대해 논의합니다. 가짜 이미지를 탐지하는 포렌식 작업도 필요하지만 내부 구조를 이해하고 이러한 모델이 내부에서 어떻게 작동하는지 배우는 것이 더 흥미롭다고 강조합니다. 이러한 신경망은 특정 결정을 내리는 이유에 대한 질문에 답하는 데 능숙하지 않기 때문에 심층 네트워크를 이해하는 데 투명성이 필수적입니다. Bau의 목표는 네트워크 내부에 적용되는 규칙을 분해하여 결정을 내리고 이유를 묻는 방법을 개발하여 심층 신경망의 중요한 윤리적 측면으로 투명성을 정의하는 데 도움을 주는 것입니다. 또한 스캔 해부에 대한 Bau의 연구는 이러한 네트워크에서 출력 품질을 향상시킬 수 있는 불량한 아티팩트에 기여하는 뉴런을 식별할 수 있음을 보여줍니다.

  • 01:05:00 이 섹션에서 David Bau는 일부 GAN이 특정 학습 방법으로 때때로 제거하거나 줄일 수 있는 생성된 이미지에 아티팩트 또는 왜곡이 있는 방법에 대해 설명합니다. 그는 현재 세대의 GAN이 그가 실험한 것보다 더 발전했을 수 있지만 이 현상이 여전히 발생하는지 조사할 가치가 있다고 제안합니다. David는 올바른 질문을 하고 그렇게 하는 방법을 배우는 것이 이 분야에서 필수적이라고 언급하고 그의 작업에 관심이 있는 사람은 누구나 그에게 연락할 수 있도록 초대합니다.
 

MIT 6.S192 - 강의 7: Ahmed Elgemal의 "기계의 눈으로 본 미술사의 형태"



MIT 6.S192 - 강의 7: Ahmed Elgemal의 "기계의 눈으로 본 미술사의 형태"

컴퓨터 과학 교수이자 Art and Artificial Intelligence Lab의 창립자인 Ahmed Elgamal이 인간 수준의 창의적 제품을 이해하고 생성하는 데 AI를 사용하는 방법에 대해 논의합니다. Elgamal은 예술사에 대한 과학적 접근과 인간처럼 예술을 이해하기 위한 AI 발전의 중요성에 대해 논의합니다. 또한 기계 학습을 사용하여 예술 스타일을 분류하고, 내부 표현을 분석하고, 예술 스타일 간의 차이점을 식별하고, AI를 통해 예술의 창의성을 정량화하는 방법에 대해 논의합니다. Elgamal은 또한 미술사에서 주요 대상의 개념을 제안하고 AI가 예술을 생성할 수 있는 가능성을 탐색하여 창의적 추구에 있어 현재 AI 접근 방식의 한계를 인식합니다. 그러나 Elgamal은 추상적이고 흥미로운 예술을 만들기 위해 AI 네트워크 경계를 확장하기 위해 진행 중인 실험에 대해서도 논의합니다.

Ahmed Elgammal은 또한 인간이 예술 작품을 기준선으로 사용하여 인간의 예술과 GAN이 만든 예술을 구별할 수 있는지 확인하기 위한 조정 테스트의 결과에 대해 논의합니다. GAN 기계로 만든 인간의 생각 예술은 75%의 시간 동안 인간에 의해 제작되었으며, 스타일 모호성의 개념과 컴퓨터 비전 및 기계 학습을 미술사 및 예술적 관심과 연결하는 중요성을 강조합니다.

  • 00:00:00 이 섹션에서는 Rutgers University의 컴퓨터 과학과 교수이자 Art and Artificial Intelligence Lab의 설립자인 Ahmed Elgammal 교수가 예술에 대한 그의 열정과 AI와 예술의 결합의 중요성을 어떻게 깨달았는지에 대해 이야기합니다. . 예술은 사물을 인식하는 것 이상이며 인간과 유사한 인지 및 지적 능력을 요구하는 맥락, 감정 이해, 역사적, 사회적 맥락의 층위를 포함한다고 설명합니다. 인간 수준의 창의적 제품을 이해하고 생성하는 것이 AI 알고리즘이 지능적임을 보여주기 위한 기본이라고 믿으며 미학과 주관성을 객관성과 과학으로 결합하는 문제를 논의합니다. Elgammal 교수는 예술사에 대한 과학적 접근을 옹호하고 인간처럼 예술을 이해하기 위해 AI를 발전시키는 것이 중요하다고 강조합니다.

  • 00:05:00 이 섹션에서 Ahmed Elgemal은 창조적이고 주관적인 요소를 포함하여 예술의 모든 측면을 기계의 눈을 통해 객관적으로 연구할 수 있다는 생각에 대해 논의합니다. 그는 자신의 목표가 AI를 통해 예술을 보는 것의 의미를 이해하고 그것이 AI와 미술사 이해를 어떻게 발전시킬 수 있는지를 이해하는 것이라고 설명합니다. Elgemal은 시간이 지남에 따라 예술 스타일 변화의 순서와 진화를 특성화하는 방법과 이러한 변화에 영향을 미치는 요소를 포함하여 예술과 스타일의 다양한 요소와 원리를 정량화하는 작업에 대해 이야기합니다. 그는 또한 예술의 스타일 개념을 이해하는 데 있어 현재 AI 접근 방식의 한계에 대해 논의합니다.

  • 00:10:00 이 섹션에서 발표자는 다양한 수준의 기능을 캡처하기 위해 시각적 인코딩을 사용하여 다양한 아트 스타일을 분류하는 지도 학습 머신 러닝 문제에 대해 논의합니다. 이러한 유형의 연구의 진행 상황을 돼지의 2000년에서 딥러닝으로 비교합니다. 이 기계는 미술사 1학년 학생과 같은 수준으로 미술 스타일을 분류할 수 있습니다. 화자는 기계로 예술을 분류하는 것이 스타일의 특징과 스타일 변화를 주도하는 요소를 이해하는 데 중요하다고 주장합니다. 이러한 스타일에 대한 기계의 내부 표현은 해석하기 어렵지만 기계가 스타일을 식별하는 방법과 미술사가들이 스타일에 대해 생각하는 방법 사이의 관계를 연구하면 유용한 정보를 얻을 수 있습니다. 예를 들어 Heinrich Wolfflin의 스타일 이론은 다양한 스타일의 요소를 차별화하는 시각적 스키마를 제안합니다.

  • 00:15:00 이 섹션에서 Elgemal은 기계 학습을 사용하여 예술 스타일을 분류하고 기계 분류의 내부 표현을 분석하는 방법에 대해 설명합니다. VGGNet 및 ResNet을 포함한 여러 CNN 모델을 교육하여 감독 방식으로 스타일 분류를 수행했습니다. 내부 표현을 분석함으로써 그들은 사용된 네트워크에 관계없이 처음 두 가지 변형 모드가 분산의 최대 74%를 설명하는 소수의 요인으로 서양 미술사의 대부분의 변형을 설명할 수 있음을 발견했습니다. 그들은 또한 예술 스타일을 분류할 때 사물이나 구성에 관한 것이 중요하지 않다는 것을 발견했습니다. 이 접근 방식은 기계가 예술을 분류하는 방법을 이해하는 데이터 기반 방법을 제공하고 예술 역사의 구조에 대한 통찰력을 제공합니다.

  • 00:20:00 이 섹션에서 강사는 기계가 다양한 예술 스타일의 타임라인에 대해 알지 못하지만 제공된 이미지를 통해 이러한 스타일을 스스로 분류하는 방법을 학습할 수 있는 방법에 대해 설명합니다. 이것은 스타일의 진행과 시간 사이에 0.7의 상관관계가 있기 때문에 기계가 예술을 역사적 순서로 배치한다는 사실에 의해 확인됩니다. 강사는 미술사의 75%를 설명하는 데 도움이 되는 두 가지 요소인 평면 대 후퇴성, 선형 대 회화적 요소에 대해 자세히 설명합니다. 그는 미술사가 서구 문명에서 지난 500년 동안 360도 주기를 거쳤다고 지적하며 이는 기계가 미술 스타일을 보고 학습한 표현에서 생성된 하나의 다이어그램에 포착됩니다.

  • 00:25:00 이 섹션에서 연사는 예술 스타일 간의 차이점을 결정하는 데 AI를 사용하는 방법에 대해 논의합니다. 르네상스와 바로크와 같은 일부 스타일은 색상 및 질감과 같은 특정 요소를 사용하여 구별할 수 있지만 인상파와 같은 다른 스타일은 이러한 요소를 통해 식별할 수 없습니다. AI 네트워크의 활성화 매니폴드는 시간이 지남에 따라 예술 운동이 어떻게 변화했는지 보여주며, 특히 인상주의와 입체파 및 추상화와 같은 20세기 초 스타일 사이의 다리 역할을 한 세잔의 작품을 강조합니다. 또한 특정 르네상스 작품은 현대 미술에 영향을 미치는 El Greco 및 Durer와 같은 특정 예술가와 함께 르네상스 구름에서 멀어집니다. 그런 다음 대화는 AI를 통해 예술의 창의성을 정량화하는 논의로 전환됩니다.

  • 00:30:00 이 섹션에서 Elgemal은 그림의 맥락과 미술사를 고려하여 그림의 창의성을 평가하는 알고리즘 개발에 대해 논의합니다. 그는 창의성을 평가하는 능력은 예술을 창조하는 기계에 매우 중요하며 알고리즘은 정량화할 수 있는 방식으로 창의성을 정의해야 한다고 주장합니다. Elgemal은 제품이 창의적이라고 불리는 두 가지 주요 조건이 있다고 제안합니다. 이전 작업과 비교하여 참신해야 하고 어느 정도 가치가 있어야 영향력을 발휘할 수 있습니다. 그는 창의성을 설명하는 다양한 방법을 살펴보고 창의성을 평가하는 알고리즘의 한계를 탐구하며 미술사의 맥락을 고려해야 한다고 주장합니다.

  • 00:35:00 이 섹션에서 Ahmed Elgamal은 사용 가능한 데이터의 "폐쇄된 세계 제한"과 사용된 시각적 인코딩의 "예술적 개념 정량화 제한"을 포함하여 미술사에서 알고리즘의 한계에 대해 논의합니다. 그는 알고리즘의 매개변수를 사용하여 창의성 점수를 해석하고 결과에 미치는 영향을 이해할 수 있다고 제안합니다. Elgamal은 시각적 유사성을 반영하는 가중치를 사용하여 그림 간의 유향 그래프를 제안하고 이를 사용하여 영향력과 새로움을 기반으로 하는 창의성 공식을 생성합니다. 결과 수식은 네트워크 중심성 문제의 인스턴스이며 알파가 1로 설정된 Markov 체인에서 무작위 보행으로 해석될 수 있습니다.

  • 00:40:00 이 섹션에서 강사는 고유 벡터 중심성을 사용하여 페이지 순위의 가중 변형을 반전시켜 소셜 네트워크에서 네트워크 중심성을 측정하는 방법에 대해 설명합니다. 이는 독창성과 영향력을 분리하는 것으로까지 확장될 수 있으며 감독되지 않은 wikiart 및 아카이브와 같은 세트를 사용하여 알고리즘의 정확성을 평가할 수 있습니다. 강사는 테스트 결과 기계가 큐비즘의 시작으로 피카소의 알제리의 여인들과 같은 다양한 창작 작품을 식별할 수 있었다고 설명합니다.

  • 00:45:00 이 섹션에서 Ahmed Elgemal은 몬드리안 작품의 연대 측정 오류로 인해 발생한 아카이브 머신을 사용한 작품 창의성 평가에 대해 논의합니다. 르네상스나 바로크 시대의 작품을 후대에 옮기고, 현대 작품을 다시 르네상스 시대로 옮기는 방식이었다. 그 결과 르네상스와 바로크 예술 작품을 시간을 앞당기면 창의성이 지속적으로 떨어지고 현대 예술 작품을 르네상스 시대로 되돌리면 창의성이 증가하는 것으로 나타났습니다. 사용된 알고리즘은 창의성을 정량화하고 참신함과 영향력을 포착한 점수를 부여하여 예술 작품 창의성을 평가하는 알고리즘의 능력을 검증했습니다.

  • 00:50:00 이 섹션에서 Ahmed Elgemal은 미술사에서 주요 대상의 개념과 이들이 어떻게 새로운 스타일을 탄생시킬 수 있는지에 대해 논의합니다. 그는 소수 개체를 수학의 소수와 비교하여 예측할 수 없는 특성과 후속 작업에 영향을 미치는 능력 사이의 유사점을 그립니다. Elgemal은 또한 AI가 예술을 생성할 수 있는 잠재력을 탐구하고 창의적 적대적 네트워크와 스타일에 대해 배우고 규범에서 벗어나는 능력에 대해 논의합니다. 그러나 Elgemal은 창의성에 대한 동기 없이 판별자를 속이는 샘플을 생성하도록 훈련되었기 때문에 GAN의 생성기가 제한적임을 인식합니다.

  • 00:55:00 이 섹션에서 연사는 아티스트가 습관화에 맞서기 위해 항상 혁신해야 하는 방법에 대해 논의하지만 너무 혁신하면 사람들이 즐기기 어려울 것입니다. 그들은 네트워크를 혁신적으로 만드는 것을 목표로 하지만 경계를 넓히기 위해 동일한 배포 내에서 유지합니다. 화자는 생성기가 만든 예술이 스타일에 맞는지 또는 분류 측면에서 모호한지 확인하기 위해 판별기에 스타일 모호성 손실을 추가했다고 설명합니다. 그러면 기계가 다른 경계를 탐색하는 데 도움이 됩니다. 그들은 실험을 수행했고 스타일 모호성을 추가함으로써 기계가 매력적인 것을 배포하는 새로운 구성과 색상 조합으로 흥미로운 추상 예술 작품을 생성한다는 결론을 내렸습니다.

  • 01:00:00 이 섹션에서 Ahmed Elgammal은 인간이 GAN이 만든 예술과 인간의 예술을 구별할 수 있는지 확인하기 위해 튜닝 테스트의 결과를 탐색합니다. 유명 전시회의 작품을 기준으로 삼아 GAN 기계로 만든 예술이 인간이 만든 것이라고 생각한 것이 75%, 추상 미술은 85%, 미술은 48%에 불과한 것으로 나타났다. 바젤 컬렉션. Elgammal은 또한 스타일 모호성의 개념과 특정 스타일 없이 예술에 속하는 예술의 창조를 허용하는 능력에 대해 논의합니다. 그는 컴퓨터 비전과 기계 학습을 미술사 및 예술적 관심사와 연결하는 것의 중요성을 강조합니다.