머신 러닝 및 신경망 - 페이지 34

 

CS 198-126: 강의 12 - 확산 모델



CS 198-126: 강의 12 - 확산 모델

확산 모델에 대한 강의에서 발표자는 이미지에 추가된 노이즈를 예측하고 노이즈를 제거하여 원본 이미지를 얻는 확산 모델의 직관에 대해 논의합니다. 강의는 교육 과정, 향상된 아키텍처, 이미지 및 비디오 생성 시 확산 모델의 예를 다룹니다. 또한 잠재 공간에 모델을 압축하여 이미지의 의미 부분에 확산을 실행하는 잠재 확산 모델에 대해 깊이 있게 강의합니다. 스피커는 또한 Dolly Q, Google의 Imagine 모델, Facebook의 Make a Video와 같은 관련 모델과 텍스트를 사용하여 3D 모델을 생성하는 기능에 대한 개요를 제공합니다.

  • 00:00:00 비디오의 이 섹션에서 연사는 생성 모델의 새로운 클래스인 확산 모델을 소개합니다. 생성 모델의 목표는 주어진 데이터 세트의 기본 분포를 학습하여 동일한 분포에서 새 데이터를 생성할 수 있도록 하는 것이라고 설명합니다. 화자는 또한 분포를 학습하는 두 가지 주요 방법인 우도 최대화 또는 발산 메트릭 최소화에 대해 언급합니다. 강의는 확산 모델 이면의 수학에 대해 파고들 것이며 발표자는 이 강의가 이전 강의보다 더 수학적으로 관련될 것이라고 언급합니다.

  • 00:05:00 확산 모델 강의의 이 섹션에서 연사는 데이터 분포를 모방하는 모델링 분포에서 VAE(Variational Autoencoders)와 GAN(Generative Adversarial Networks)을 모두 사용하는 방법에 대해 논의합니다. 발표자는 두 모델 모두 무작위 노이즈에서 샘플을 가져와 데이터 분포에서 나온 것처럼 보이는 것으로 변환하여 작동한다고 설명합니다. 그러나 확산 모델은 이 프로세스 중에 하나의 큰 단계 대신 여러 개의 작은 단계를 거치므로 분석하기 쉬운 Markov 체인이 생성됩니다. 확산 모델에는 이미지에 노이즈가 추가된 다음 더 많은 노이즈가 추가되어 이미지의 노이즈 버전을 생성하는 정방향 프로세스가 있습니다. 이미지의 노이즈를 제거하여 원본 이미지로 되돌리는 역과정도 있습니다.

  • 00:10:00 비디오의 이 섹션에서 강사는 잡음 단계의 순서를 반대로 하여 새로운 이미지를 생성할 수 있는 확산 모델의 역처리 개념을 설명합니다. 역분포를 찾는 것이 어려운데 정확한 분포로는 계산하기 어려우므로 Q함수와 P함수를 통해 근사한다. P 함수는 가우시안으로 가정되는 역분포의 평균과 분산을 학습하려는 신경망으로 표현됩니다. 이 비디오는 손실 함수를 최소화하거나 최대화해야 하는 확산 모델의 교육 프로세스도 다룹니다.

  • 00:15:00 강의의 이 섹션에서 발표자는 더 작은 손실 함수의 합과 유사한 손실 함수를 생성하는 확산 모델에 대한 변형 변동 하한의 적용에 대해 논의합니다. 그들은 0의 L에서 T-1의 L까지의 항이 손실에 기여하며 1에서 T-1까지 정의되는 T의 L을 분석하는 데 집중할 것이라고 설명합니다. 연사는 계속해서 T-1의 X의 Q와 신경망이 예측하려는 분포 사이의 KL 다이버전스가 학습된 평균과 조건부 분포의 평균 사이의 L2 손실을 측정하는 용어로 어떻게 나타나는지 설명합니다. 확산 논문의 저자는 표현을 단순화하고 빨간 상자 안의 모든 것을 예측하는 대신 단일 항을 예측할 수 있도록 Q of X of T-1과 유사한 형태로 학습된 mu인 theta의 mu를 매개변수화할 것을 제안합니다.

  • 00:20:00 이 섹션에서 강사는 이미지에 추가된 노이즈를 예측한 다음 노이즈를 제거하여 원본 이미지를 다시 가져오는 확산 모델의 주요 직관에 대해 설명합니다. 원래 노이즈와 예측된 노이즈 사이의 노이즈를 최소화하는 것이 목적이며, 학습 프로세스에는 데이터 세트의 이미지에 노이즈를 추가하고 모델을 통과한 후 노이즈를 예측하고 예측된 노이즈와 실제 노이즈 사이의 거리를 최소화하는 과정이 포함됩니다. 그런 다음 이 모델을 사용하여 무작위 노이즈로 시작하고 예측된 노이즈를 사용하여 노이즈를 제거함으로써 새로운 이미지를 합성할 수 있습니다. 강사는 또한 확산되는 변수인 T의 X가 이미지일 필요는 없다는 점에 주목합니다.

  • 00:25:00 이 섹션에서 발표자는 확산 모델과 입력/출력과 동일한 차원으로 이미지의 노이즈를 예측하는 기능에 대해 논의합니다. 동일한 치수를 가진 하나의 모델은 분할 강의에서 사용된 것과 동일한 단위입니다. 그러나 이 논문의 저자는 resnet 블록, 어텐션 모듈, 그립 표준 및 swish 활성화를 포함한 많은 최신 CV 트릭을 모델에 추가했습니다. 그들은 그것이 매우 잘 작동한다는 것을 보여줄 수 있었고, 품질을 더욱 향상시키기 위해 이후 논문에서 더 많은 시간 단계가 사용되었습니다. 발표자는 또한 이미지와 모델의 아키텍처가 포함된 슬라이드에 대한 링크를 제공합니다.

  • 00:30:00 이 섹션에서는 연구원들이 순방향 프로세스에서 노이즈 추가를 제어하는 베타 매개변수를 수정하여 이미지 생성에 확산 모델을 사용한 결과를 개선하는 방법을 찾았다고 설명합니다. 그들은 선형 일정을 사용하는 대신 더 느린 코사인 함수를 사용하고 나중에 이미지를 천천히 노이즈로 변환하여 모델이 역 프로세스를 더 잘 학습하도록 돕도록 제안했습니다. 또한 신경망을 통해 공분산 행렬을 학습함으로써 log-likelihood를 개선하고 더 나은 우도를 얻을 수 있으며 이는 다양성의 척도로 볼 수 있습니다.

  • 00:35:00 강의의 이 섹션에서 발표자는 여러 논문에서 일반적으로 사용되는 단위 모델에 적용할 수 있는 몇 가지 아키텍처 개선 사항에 대해 논의합니다. 이러한 개선 사항에는 모델 크기 증가, 주의 모듈 사용 및 적응형 정규화가 포함됩니다. 발표자는 또한 분류 지침에 대한 아이디어를 소개합니다. 여기에는 원본 이미지와 잡음이 있는 이미지 모두에서 클래스 레이블을 예측하도록 분류기를 훈련하고 결과 그래디언트를 사용하여 확산 모델을 개선하는 작업이 포함됩니다. 마지막으로 화자는 생성 모델의 품질을 측정하기 위해 FID, 정밀도 및 재현율과 같은 메트릭 사용에 대해 언급합니다.

  • 00:40:00 이 섹션에서 발표자는 더 나은 충실도와 데이터 분포의 다양성을 포착하는 능력으로 인해 확산 모델이 어떻게 이미지 모델링에서 GAN 모델을 추월했는지 논의합니다. 그들은 GAN 이미지가 매우 유사하게 보이는 플라밍고 이미지를 보여주는 반면, 확산 이미지는 출력에서 더 많은 다양성을 보여 더 나은 이미지 모델링 기능을 나타냅니다. 연사는 또한 연구자들이 분류자 없는 안내라는 프로세스를 통해 확산 모델을 안내하는 더 나은 방법을 생각해 냈다고 언급합니다. 여기서 조건부 확산 모델은 품질 향상을 위해 다양성을 거래하는 것을 피하도록 훈련되며, 이는 일부 모델에 대해 모델을 컨디셔닝할 때 내재되어 있습니다. 클래스 레이블.

  • 00:45:00 이 섹션에서 강사는 고차원 이미지에 대한 교육에 사용되는 확산 모델의 또 다른 클래스인 잠재 확산 모델의 개념에 대해 설명합니다. 이러한 경우 큰 확산 모델을 교육할 수 없기 때문입니다. 강사는 연구자들이 픽셀 수준의 세부 사항을 캡처하는 데 더 많은 비트가 사용되고 유용하지 않은 이미지의 일부 의미론적 세부 사항을 캡처하는 데 더 적은 비트가 사용된다는 사실을 발견했다고 설명합니다. 이미지를 정확하게 생성하려면 대신 이미지의 의미 부분에서 생성 모델을 실행해야 합니다. 강사는 이를 달성할 수 있는 방법에 대한 개요를 제공합니다. 여기에는 잠재 공간을 학습하고 모델을 잠재 공간으로 압축하여 확산을 실행하는 작업이 포함됩니다. 이를 통해 이미지를 잠재 이미지로 변환하고 인코더 및 디코더 모델을 사용하여 이미지로 다시 변환할 수 있습니다.

  • 00:50:00 이 섹션에서 발표자는 Dolly Q, Google의 Imagine 모델을 통한 이미지 생성, Facebook의 Make a Video를 통한 비디오 생성 등 확산과 관련된 여러 모델에 대해 논의합니다. 또한 Google은 Imagine 모델을 확장하여 동영상도 생성합니다. 연사는 텍스트를 사용하여 3D 모델을 생성하고 RL에 비전을 적용하여 오프라인 RL에서 최첨단 결과를 달성하는 기능에 대해서도 언급했습니다. 연사는 추가 학습을 위한 논문 및 리소스에 대한 링크를 제공합니다.
 

CS 198-126: 강의 13 - 시퀀스 모델링 소개



CS 198-126: 강의 13 - 시퀀스 모델링 소개

시퀀스 모델링에 대한 이 강의에서 발표자는 시퀀스 데이터를 표현하고 너무 많은 정보를 잃지 않고 합리적인 수의 시간 단계를 달성하는 것의 중요성을 소개합니다. 순환 신경망(RNN)은 다양한 길이의 입력 및 출력을 처리할 수 있는 기능이 있는 이러한 문제를 해결하기 위한 첫 번째 시도로 논의됩니다. 그러나 RNN의 문제로 인해 RNN이 최적의 성능을 발휘하지 못합니다. 텍스트 임베딩은 고차원 원-핫 벡터를 사용하는 것보다 텍스트 데이터를 표현하는 보다 효율적인 방법으로 도입되었습니다. 또한 위치 인코딩의 개념은 이진 값이 아닌 연속 값을 사용하여 시퀀스의 요소 순서를 나타내는 방법으로 논의됩니다.

  • 00:00:00 이 섹션에서 연사는 시퀀스 모델을 소개하고 이들이 왜 중요한지에 대한 동기를 설명합니다. 특히 시계열 데이터, 오디오, 텍스트 등 다양한 유형의 시퀀스 데이터와 컴퓨터 비전 및 자연어 처리 모델에서 일반적으로 사용되는 방법에 대해 언급합니다. 발표자는 또한 시퀀스 데이터를 표현하고 너무 많은 정보를 잃지 않고 합리적인 수의 시간 단계를 달성하는 것의 중요성에 대해 논의합니다. 궁극적으로 목표는 원-핫 벡터의 토큰화된 시퀀스로 표현되는 인터넷에서 스크랩한 방대한 양의 텍스트 데이터에 대해 학습할 수 있는 언어 모델을 만드는 것입니다.

  • 00:05:00 이 섹션에서 강사는 텍스트 데이터를 원-핫 벡터로 나타내는 문제와 사전의 모든 단일 단어에 대해 하나를 가지는 비효율성에 대해 설명합니다. 시퀀스 모델링의 목표는 임의의 긴 데이터와 다양한 길이의 입력 및 출력을 처리하는 것입니다. 강사는 다양한 길이의 출력을 처리해야 하는 감정 분석 및 번역을 포함하여 다양한 패러다임의 예를 제공합니다. 또한 텍스트 데이터를 분석할 때 문장 내 단어 간의 장거리 관계를 고려해야 합니다.

  • 00:10:00 이 섹션에서 비디오는 문장의 다양한 부분에서 아이디어를 연결하고 시퀀스 간 장거리 관계를 처리해야 하는 시퀀스 모델링의 문제에 대해 설명합니다. 순환 신경망(RNN)은 이러한 문제를 해결하기 위한 첫 번째 시도로 도입되었으며 작동하지만 최적의 성능을 방해하는 문제로 인해 특히 잘 작동하지 않습니다. 비디오는 RNN이 모든 시퀀스 요소에서 공유되는 셀 값을 사용하며 각 셀은 입력 시퀀스를 처리하는 정확히 동일한 가중치를 가짐을 설명합니다. 또한 RNN에서 생성된 출력은 확률에서 변환에 이르기까지 무엇이든 해석할 수 있습니다.

  • 00:15:00 이 섹션에서는 RNN(Recurrent Neural Network)의 기본 형태에 대해 알아봅니다. 여기에서 동일한 길이의 시퀀스 요소를 가져와 선형 레이어를 만들고 이전 시간 단계에서 출력을 가져옵니다. 이 시간 단계에서의 입력은 행렬 곱셈을 수행합니다. 그런 다음 그것들을 서로 쌓거나 함께 추가하여 출력물을 회전시킵니다. tahn 함수는 출력이 범위 내에 있는지 확인하고 순방향 또는 역방향 전파 중에 값이 폭발하거나 너무 작아지는 것을 방지하는 데 사용됩니다. 여러 레이어를 쌓으면 더 복잡한 기능을 배울 수 있습니다.

  • 00:20:00 강의의 이 섹션에서 강사는 시퀀스 모델 생성의 문제와 솔루션에 대해 논의합니다. 각 셀의 출력에 tanh 함수를 사용하면 값이 -1과 1 사이로 유지되어 반복되는 행렬 곱셈 중에 문제를 일으킬 수 있는 큰 값을 피할 수 있습니다. 이 모델은 임의의 입력 크기, 가변 출력 길이 및 장거리 관계를 처리할 수 있습니다. 그런 다음 강사는 100,000차원 원-핫 벡터를 사용하는 대신 텍스트 데이터를 나타내는 보다 효율적인 방법으로 임베딩을 소개합니다. 가능한 솔루션으로 이진 및 삼진 인코딩과 같은 아이디어를 탐색합니다.

  • 00:25:00 이 섹션에서 발표자는 텍스트 임베딩의 개념과 이를 시퀀스 모델링에 활용하는 방법을 소개합니다. 사전의 각 단어에 대해 원-핫 벡터를 사용하는 대신 단어를 나타내는 더 작은 벡터가 학습되어 모델에 공급됩니다. 이러한 표현의 압축은 차원의 감소를 허용하고 코드북과 유사한 임베디드 벡터를 생성합니다. 이러한 임베딩을 통해 "cat" 및 "dog"와 같은 유사한 단어는 상대적으로 가깝고 "cat" 및 "grass"와 같이 상관 관계가 거의 없는 단어는 더 떨어져 있는 단어를 지능적으로 표현할 수 있기를 바랍니다. 이 근접 관계가 존재한다는 보장은 없지만 정서 분석 및 기타 모델이 특정 단어 선택에 의해 어떻게 영향을 받는지 이해하는 데 활용할 수 있습니다.

  • 00:30:00 이 섹션에서 강사는 포함된 벡터의 코드북에서 경사 하강법을 사용하여 의미상 유사한 단어를 함께 그룹화하는 방법에 대해 설명합니다. 그는 또한 특정 도메인에 대해 경과 시간 또는 시퀀스의 위치가 중요할 수 있는 위치 인코딩의 개념을 언급하고 위치 인코딩으로 알려진 잘 작동하는 것으로 이동하기 전에 위치에 대한 하나의 핫 벡터를 나타내는 몇 가지 방법에 대해 설명합니다.

  • 00:35:00 강의의 이 섹션에서 강사는 시퀀스 모델링에서 타임스탬프를 사용하여 시퀀스에서 얼마나 멀리 있는지를 나타내는 아이디어에 대해 논의합니다. 그러나 이진 인코딩을 타임 스탬프로 사용하면 제한된 수의 고유한 시간 단계만 나타낼 수 있기 때문에 더 큰 시퀀스 길이에 대해 제한될 수 있습니다. 이 문제를 해결하기 위해 강사는 이진 인코딩을 서로 다른 주파수의 사인파와 코사인파로 대체하여 연속 아날로그를 사용할 것을 제안합니다. 이렇게 하면 더 작은 벡터를 사용하여 더 많은 수의 고유한 시간 단계를 나타낼 수 있습니다.

  • 00:40:00 이 섹션에서는 이진 값이 아닌 연속 값을 사용하여 시퀀스의 요소 순서를 나타내는 방법인 위치 인코딩의 개념에 대해 설명합니다. 이 프로세스에는 각 시퀀스 요소에 대해 서로 다른 주파수에서 사인 및 코사인 함수를 평가한 다음 이를 그래프로 작성하여 이진 위치 인코딩의 연속 아날로그를 생성하는 작업이 포함됩니다. 결과 그래프는 이진 버전과 유사하게 높은 값과 낮은 값을 번갈아 표시하며 시퀀스의 각 요소에 추가할 수 있습니다. 위치 인코딩은 약간 혼란스러울 수 있지만 강의에서는 슬라이드 데크를 검토하고 더 나은 이해를 위해 개념을 실험해 볼 것을 제안합니다.
 

CS 198-126: 강의 14 - 변압기 및 주의



CS 198-126: 강의 14 - 변압기 및 주의

Transformers 및 Attention에 대한 이 비디오 강의는 Attention의 개념과 동기, Transformers와의 관계, NLP 및 비전에서의 적용을 다룹니다. 강사는 소프트 어텐션과 하드 어텐션, 셀프 어텐션, 로컬 어텐션, 멀티 헤드 어텐션에 대해 논의하고 이들이 트랜스포머 아키텍처에서 어떻게 사용되는지 설명합니다. 또한 키-값-쿼리 시스템, 잔여 연결 및 계층 정규화의 중요성, 선형 계층을 적용하여 입력 임베딩에서 kqv를 얻는 프로세스에 대해 설명합니다. 마지막으로, 강의는 어텐션 메커니즘의 계산 효율성과 확장성을 강조하면서 sequence-to-vector 예제에서 위치 임베딩 및 CLS 토큰의 사용을 다룹니다.

  • 00:00:00 비디오 강의의 이 섹션에서 목표는 관심 뒤에 있는 동기와 Transformer 모델과 어떻게 관련되는지 설명하는 것입니다. 주의는 현대 비전 트랜스포머의 초석이며 특정 위치에 노력과 주의를 집중하는 데 필요합니다. 강사는 Attention이 쿼리 키 값 시스템을 사용하여 어떤 것에 주의를 기울여야 하는지에 대해 더 많은 정보에 입각한 결정을 내린다고 설명합니다. 현대 주의 시스템은 인간이 읽는 방식을 기반으로 하며, 특정 단어에 집중하고 나머지는 흐리게 처리합니다.

  • 00:05:00 이 섹션에서 강사는 특히 NLP 및 RNN의 맥락에서 기계 학습 모델의 관심 개념에 대해 논의합니다. Attention을 사용하면 모델이 입력의 중요한 부분에 집중하여 모든 것을 전체적으로 받아들이는 대신 데이터의 특정 하위 집합을 사용하여 추론할 수 있습니다. 어텐션에는 두 가지 유형이 있습니다. 하드 어텐션은 특정 시간 단계에서 어떤 인덱스가 관련이 있는지 예측하고, 소프트 어텐션은 softmax 함수로 소프트 가중치 세트를 생성하여 해당 인덱스를 나타내는 입력 토큰을 기반으로 확률 분포를 생성합니다. 중요성. 소프트 어텐션이 일반적으로 사용되며 다양한 기능의 표현을 결합합니다. 강의는 또한 주의를 사용하는 예로서 프랑스어에서 영어로 번역하는 과정에 대해 논의합니다.

  • 00:10:00 이 섹션에서 발표자는 각 단어를 인코딩하고 디코딩을 위한 컨텍스트 벡터와 입력의 순차적 처리를 포함하는 전통적인 인코더-디코더 네트워크를 사용하여 단어의 잠재적 표현을 생성하는 과정을 설명합니다. 그런 다음 이전에 디코딩된 정보를 기반으로 디코딩하기 위해 각 잠재 표현에서 정보를 가져오는 컨텍스트 벡터를 사용하는 소프트 어텐션의 개념을 소개합니다. 이 프로세스에는 이전 디코딩과 인코딩 사이의 유사성을 결정하기 위한 점수 함수 생성과 상대적 중요도를 도출하기 위해 다른 메트릭을 사용하여 여러 키가 있는 쿼리의 관련성에 대한 확률적 표현을 제공하는 작업이 포함됩니다.

  • 00:15:00 이 섹션에서 강사는 계산 리소스를 절약하기 위해 어텐션 모델이 모든 입력 토큰이 아닌 특정 창의 입력 토큰만 쿼리할 수 있도록 하는 로컬 어텐션의 개념을 설명합니다. 강의는 또한 이미지에 대한 채널별 주의 및 공간 주의를 위한 스퀴즈 및 여기 네트워크 사용을 포함하여 시각에 대한 주의 사용에 대해 자세히 설명합니다. 또한 강의에서는 주요 특징을 추출하기 위해 컨볼루션을 사용하고 단어 간의 연결을 유지하기 위해 장단기 기억 네트워크를 사용하는 것과 같이 이미지를 설명하는 문장을 생성하기 위해 주의를 사용하는 방법을 간략하게 다룹니다.

  • 00:20:00 이 섹션에서 강사는 공간 및 자기 주의를 포함하여 다양한 아키텍처에서 주의 사용에 대해 논의합니다. Self-attention은 이전 단어를 기반으로 다음 단어를 더 잘 예측할 수 있도록 문장에서 단어 간의 관계에 주의를 기울이면서 동일한 입력에서 토큰을 찾는 것을 포함합니다. 강사는 또한 커널 기능을 선택할 때 키-값-쿼리 시스템을 사용하여 서로 다른 양의 유사성을 기다리는 Transformers의 개념을 소개합니다.

  • 00:25:00 비디오의 이 섹션에서 강사는 Transformer 모델에서 사용되는 self-attention 및 soft attention의 개념을 소개합니다. 아이디어는 특정 관계를 예측하기 위해 다른 기능을 무시하면서 특정 기능에 초점을 맞추는 확률 분포를 만드는 것입니다. 그런 다음 강사는 Transformer 모델에서 쿼리와 키의 일대일 비교 대신 행렬이 사용되는 방법을 설명합니다. 또한 긴 시퀀스를 병렬화하고 캡처할 수 없는 것과 같은 RNN의 한계와 어텐션이 이러한 문제를 해결하는 데 어떻게 도움이 되는지에 대해서도 설명합니다.

  • 00:30:00 강의의 이 섹션에서 발표자는 Transformer 아키텍처와 시퀀스 또는 토큰 그룹을 모델링하기 위해 self-attention을 사용하는 방법에 대해 설명합니다. 입력에는 일련의 토큰 임베딩 및 위치 임베딩이 포함되며 목표는 Transformer 모델에 전달할 수 있는 표현을 제시하는 것입니다. 쿼리와 키를 기반으로 각 토큰의 중요도를 계산하기 위해 Multi-head Attention을 사용하고, Feed Forward 단계를 병행하여 Transformer의 장점을 이끌어냅니다. 이 아키텍처는 잔류 연결과 레이어 규범을 결합하여 기울기 소실을 완화하고 정확한 표현을 제공합니다. 마지막으로 다른 표현의 큐, 키 및 값을 기반으로 출력을 계산하기 위해 끝에 선형 레이어가 추가됩니다.

  • 00:35:00 이 섹션에서 발표자는 텍스트의 각 단어에 대한 입력 임베딩에서 kqv를 얻기 위해 선형 레이어를 적용하는 과정을 설명합니다. 여기에는 행렬 곱셈을 통해 결합된 키, 쿼리 및 값에 대해 서로 다른 가중치를 사용하는 것이 포함됩니다. 그런 다음 쿼리와 값 사이에 내적이 발견되고 각 토큰은 다른 모든 토큰에 직접 참여하여 입력 간의 연결을 무한대로 확장할 수 있습니다. 내적 값을 기반으로 SoftMax 분포가 적용된 다음 이 분포를 기반으로 값에 다시 가중치를 부여하여 토큰별로 최종 값을 도출합니다. D의 제곱근에 대해 1로 나누어 어텐션을 스케일링하는 것은 사물을 표준화하고 작은 기울기가 없는지 확인하는 데 사용되며 멀티 헤드 어텐션은 토큰 H에 해당하는 각 키, 쿼리 및 값을 투사하는 데 사용됩니다. 마지막으로 과적합을 방지하기 위해 드롭아웃을 사용하고 결과 벡터를 피드포워드 신경망으로 보내기 전에 변환을 적용합니다.

  • 00:40:00 비디오의 이 섹션에서 강사는 트랜스포머의 어텐션 메커니즘과 심층 네트워크에서 기울기가 사라지는 것을 처리하기 위해 잔류 연결을 추가하는 것의 중요성을 설명합니다. 또한 각 기능 차원을 정규화하기 위해 어텐션 메커니즘에서 레이어 정규화가 사용되는 배치 정규화와 레이어 정규화의 차이점에 대해서도 논의합니다. 강사는 또한 값의 가중 합이 어떻게 다중 벡터를 생성하는지 설명합니다. 이 벡터는 가중 매트릭스를 통과하여 피드 포워드 네트워크로 전달되는 단일 값을 얻습니다. 전반적으로 이 강의는 어텐션 메커니즘과 트랜스포머의 다양한 구성 요소에 대한 심층적인 설명을 제공합니다.

  • 00:45:00 Transformers and Attention 강의의 이 섹션에서 발표자는 Residual 및 Layer Norm 연산과 One by One Convolution으로 구성된 신경망의 Transformer 아키텍처 구현에 대해 설명합니다. 각 다층 퍼셉트론은 병렬화되고 입력 위치 임베딩은 위치 정보를 기반으로 특정 창에 초점을 맞추는 데 사용됩니다. 더미 토큰은 시퀀스를 벡터 측정으로 변환하기 위해 특정 NLP 작업에서도 사용됩니다.

  • 00:50:00 이 섹션에서는 시퀀스 대 벡터 예제 및 CLS 토큰 사용에 대해 설명합니다. 강의는 쿼리, 키 및 값 입력 사이의 행렬 곱셈을 포함하는 어텐션 메커니즘 뒤에 있는 수학을 설명합니다. 결과는 주의를 나타내는 가중 합계입니다. 이 방법은 계산적으로 효율적이어서 GPU의 병렬화에 적합하고 큰 입력에도 확장 가능합니다. 강의는 트랜스포머 아키텍처, 위치 임베딩, 순차 모델과 다른 귀납적 편향 없음에 대해 논의하면서 마무리됩니다.
 

CS 198-126: 강의 15 - 비전 트랜스포머



CS 198-126: 강의 15 - 비전 트랜스포머

이 강의에서 발표자는 화상 처리 작업을 위한 ViT(Vision Transformers)의 사용에 대해 논의합니다. ViT 아키텍처에는 이미지를 개별 패치로 다운샘플링한 다음 Transformer를 통과하기 전에 선형 레이어 출력을 사용하여 입력 임베딩으로 투영됩니다. 이 모델은 실제 데이터 세트에서 미세 조정하기 전에 레이블이 지정된 대규모 데이터 세트에서 사전 훈련되므로 이전의 최첨단 방법보다 적은 컴퓨팅으로 뛰어난 성능을 얻을 수 있습니다. ViT와 Convolutional Neural Networks(CNN)의 차이점에 대해 논의합니다. ViT는 전역 수용 필드가 있고 CNN보다 더 유연합니다. 비전 작업을 위해 트랜스포머를 사용한 자기 지도 및 비지도 학습의 사용도 강조됩니다.

  • 00:00:00 이 섹션에서 발표자는 Vision Transformer의 사용과 이미지에 적용할 수 있는 방법에 대해 설명합니다. 토큰, 임베딩 및 변환기의 개념을 설명하고 자연어 처리 작업에 사용할 수 있는 방법에 대한 구체적인 예를 제공합니다. 그런 다음 이미지를 일련의 토큰으로 사전 처리하고 Transformer의 확장성, 계산 효율성 및 전역 수용 필드를 사용하여 이미지를 효과적으로 처리함으로써 동일한 아키텍처를 컴퓨터 비전 작업에 적용할 수 있는 방법을 설명합니다. 연사는 또한 토큰화를 통한 텍스트 전처리와 각 단어를 어휘에 매핑하는 방법을 다룹니다.

  • 00:05:00 강의의 이 섹션에서 강사는 자연어 처리(NLP)에서 사용되는 토큰화 및 임베딩 방법을 이미지 처리로 변환하는 방법에 대해 설명합니다. 토큰화에는 임베딩 벡터를 생성하는 데 사용되는 숫자 형식으로 단어나 구를 변환하는 작업이 포함됩니다. 그러나 색상 값이 연속적이기 때문에 이미지에 대해 이 프로세스가 간단하지 않아 조회할 테이블을 만들기가 어렵습니다. 이 문제는 각 픽셀을 토큰으로 취급할 수 있으므로 값을 불연속적인 것으로 가장하여 해결할 수 있습니다. 또한 시간 복잡도 문제는 더 작은 이미지를 사용하고 언어 모델과 유사하게 교육함으로써 해결됩니다.

  • 00:10:00 이 섹션에서 발표자는 제한된 레이블이 지정된 샘플 세트를 사용하여 준지도 분류를 통해 Vision Transformer 모델의 성공을 측정하는 방법에 대해 논의합니다. 이 모델은 레이블이 지정되지 않은 샘플에 대해 사전 훈련된 다음 출력 이미지 표현을 입력으로 사용하여 선형 분류기를 통과합니다. 분류기가 제대로 작동하려면 출력 임베딩이 충분히 좋아야 합니다. 이 기술은 레이블을 사용하지 않고도 경쟁력 있는 정확도를 제공했으며 이미지 생성에도 사용되었습니다. 모델은 성공적이지만 상당한 양의 컴퓨팅이 필요하고 64 x 64 해상도 이미지에서만 작동할 수 있습니다. Transformer 모델의 매력은 컴퓨팅과 관련된 확장성이지만 다운스트림 애플리케이션에는 보다 효율적인 구현 수단이 필요할 것입니다.

  • 00:15:00 이 섹션에서 발표자는 이미지 분류에 대한 보다 효율적이고 일반적인 접근 방식인 Vision Transformers의 아키텍처에 대해 논의합니다. 픽셀을 양자화하는 대신 이미지를 패치로 다운샘플링한 다음 선형 레이어 출력을 사용하여 입력 임베딩에 직접 투영합니다. 위치 임베딩 및 CLS 토큰은 Transformer 위에 추가됩니다. 사전 훈련은 실제 데이터 세트를 미세 조정하기 전에 레이블이 지정된 대규모 데이터 세트에서 수행되므로 이전 최신 기술보다 훨씬 적은 컴퓨팅으로 뛰어난 성능을 얻을 수 있습니다. 이 접근 방식은 귀납 편향이 적기 때문에 더 일반적입니다.

  • 00:20:00 이 섹션에서는 CNN(컨볼루션 신경망)과 ViT(Vision Transformer)의 차이점에 대해 설명합니다. CNN과 ViT의 두 가지 주요 차이점은 지역성과 2차원 이웃 구조입니다. CNN은 픽셀 간의 상호 작용에 사용되는 커널 크기의 제한으로 인해 서로 가까이 위치한 기능에 편향되는 경향이 있습니다. 반면에 ViT는 모든 픽셀을 임베딩에 투영하고 모든 토큰이 이미지의 위치에 관계없이 다른 모든 토큰에 참석할 수 있도록 하여 로컬 기능에 덜 편향되도록 합니다. ViT는 또한 결과 표현에 영향을 미치는 각 토큰 및 위치 임베딩에 대한 고유한 표현을 가지고 있어 미세 조정 중에 더 유연하고 보간할 수 있습니다.

  • 00:25:00 이 섹션에서는 기존 CNN(컨볼루션 신경망)에 비해 ViT(Vision Transformer)의 몇 가지 장점에 대해 알아봅니다. ViT는 처음에 이미지 처리에 대한 편향이 없기 때문에 더 큰 데이터 세트로 더 나은 이미지 표현을 학습할 수 있습니다. 즉, CNN의 공학적 편향과 달리 데이터 모드를 가정하지 않습니다. 이것은 또한 ViT가 데이터와 상충관계에 있는 이유이기도 합니다. 즉, 데이터가 적을수록 성능이 떨어지고 데이터가 많을수록 성능이 좋아집니다. 또한 ViT에는 글로벌 수용 필드가 있어 CNN에서는 불가능한 전체 이미지에 대한 상호 작용을 허용합니다. 위치 임베딩 및 주의 표현과 같은 일부 ViT 기능은 어떤 방식으로든 더 쉽게 해석할 수 있도록 합니다.

  • 00:30:00 이 섹션에서는 컨볼루션 신경망(CNN)과 비전 변환기의 차이점에 대해 설명합니다. CNN은 작은 영역을 넘어 정보를 처리하는 능력을 제한하는 하나 또는 두 개의 컨볼루션 레이어를 사용합니다. 따라서 CNN의 토큰 간의 상호 작용은 끝에서만 발생합니다. 대조적으로 비전 변환기는 각 토큰이 처음부터 다른 모든 토큰과 상호 작용하는 글로벌 수용 필드를 사용하여 모든 것에 주의를 기울일 수 있도록 합니다. 그러나 비전 트랜스포머는 패치 사용으로 인해 출력이 덜 세분화되어 세분화된 이미지 분류 및 분할 문제가 발생하는 등의 단점이 있습니다. 모델이 특정 도메인에 대해 수작업으로 엔지니어링되는 대신 데이터에서 학습하여 보다 쉬운 도메인 조합을 허용하는 보다 일반적인 모델을 갖는 목표가 강조됩니다.

  • 00:35:00 이 섹션에서 발표자는 특히 비전 작업의 맥락에서 Transformers를 사용한 자기 지도 및 비지도 학습의 이점에 대해 논의합니다. 인터넷에서 레이블이 지정되지 않은 대량의 데이터에 액세스할 수 있는 자체 감독 및 비감독 목표는 주석이 필요 없는 효율적인 교육을 허용합니다. 결과 모델은 장면 레이아웃 및 개체 경계 정보를 유지하는 표현을 생성할 수 있으며 이미지 분류 및 비디오 분할 작업에 사용할 수 있습니다. 연사는 또한 다양한 이미지 분류 작업에서 Vision Transformers의 성공적인 사용을 강조하여 많은 양의 데이터로 확장할 수 있는 능력을 보여줍니다.

  • 00:40:00 이 섹션에서 강사는 Transformer 모델의 초기 아키텍처에서 리더보드의 최상위 아키텍처로 이동하는 방법에 대해 설명합니다. 그들은 계산 시간, 모델 크기 및 데이터 세트 크기에 따라 더 나은 표현이 확장되고 큰 모델이 더 샘플 효율적이라는 것을 발견했습니다. 즉, 동일한 성능을 얻기 위해 더 적은 훈련 샘플이 필요합니다. 강사는 둘 사이의 하이브리드 아키텍처인 Vision Transformers와 CNN에 대해서도 이야기합니다. 그들은 충분한 데이터가 없을 때 트랜스포머에서 누락된 변환 등가를 해결하기 위해 상대 위치에 의존하는 가중치 값을 사용하여 시각적 트랜스포머에 귀납적 편향을 추가합니다.

  • 00:45:00 이 섹션에서 강사는 이미지용 Transformer 모델에서 학습된 가중치 벡터를 사용하는 방법에 대해 설명합니다. 이 학습된 가중치 벡터를 사용하면 절대 위치 지정이 아닌 상대적 위치 지정에만 의존하는 기능을 더 쉽게 인코딩할 수 있습니다. 또한 강사는 컨벌루션 블록과 Transformer 블록을 풀링 및 결합하는 등 Transformers의 공간 크기에 따른 2차 시간 문제에 대한 솔루션을 제시합니다. 자체 감독 교육 체계를 갖춘 Vision Transformer 모델은 수동 엔지니어링 기능에서 보다 일반적인 모델로 전환하는 다음 단계로 간주되며 Transformers가 하는 경향이 있는 것처럼 많은 데이터가 필요합니다. BTS 모델은 확장 가능하며 컴퓨팅 하드웨어에서 잘 수행됩니다. 강사는 지도 학습 알고리즘임을 확인합니다.
 

CS 198-126: 강의 16 - 고급 객체 감지 및 의미 분할



CS 198-126: 강의 16 - 고급 객체 감지 및 의미 분할

이 고급 객체 감지 및 의미론적 분할 강의에서 강사는 특히 자연어 처리(NLP) 및 컴퓨터 비전에서 컨볼루션 신경망(CNN) 및 변환기의 장단점에 대해 논의합니다. CNN은 텍스처 편향이 뛰어난 반면 Transformer는 self-attention 레이어를 사용하여 중요한 개념을 함께 묶고 특정 입력에 집중함으로써 NLP 및 컴퓨터 비전 작업을 모두 효율적으로 처리합니다. 그런 다음 강의에서는 질감보다 모양을 우선시하여 왜곡에 대해 탄력적으로 만드는 Vision Transformers에 대해 자세히 설명합니다. 그는 이미지 분류, 시맨틱 분할 및 객체 감지에 탁월한 Vision Transformer의 개선된 버전인 Swin Transformer의 장점과 한계에 대해 설명합니다. 강의는 모든 종류의 데이터를 처리할 수 있는 모델의 일반화 가능성과 자율 주행 자동차와 같은 분야의 잠재적 응용 가능성을 강조합니다.

  • 00:00:00 이 섹션에서 강사는 CNN 및 트랜스포머에 대한 검토와 장단점을 포함하는 오늘의 강의 계획을 간략하게 설명합니다. 강의는 또한 BERT와 같은 NLP 컨텍스트와 임베딩이 생성되는 방법을 다룬 다음 Vision Transformers로 이동하여 CNN과 비교합니다. 컴퓨터 비전 애플리케이션을 위한 Vision Transformers의 개선 사항인 Swing Transformer에 대해 설명합니다. 여기에는 윈도우 어텐션 패치 병합 및 위치 임베딩을 사용한 이동된 윈도우 어텐션이 포함됩니다. 강의는 시간이 허락하는 한 고급 세분화 방법도 다룰 수 있습니다.

  • 00:05:00 강의의 이 섹션에서 연사는 CNN의 개념과 번역 동등성에 대해 논의합니다. 즉, CNN이 2차원 이웃 구조를 고수하고 보폭에 따라 다른 지점에서 정보를 캡처한다는 의미입니다. 연사는 또한 cnns가 모양에 대한 텍스처 편향에 대한 경향을 보여 왔고 텍스처 확대가 성능에 영향을 미칠 수 있다고 지적합니다. 그런 다음 화자는 NLP 작업을 위한 Transformers의 컨텍스트로 전환하고 어떻게 주의를 통해 문장의 중요한 항목을 함께 묶고 입력의 특정 부분에 집중할 수 있는지 설명합니다. 트랜스포머의 셀프 어텐션은 이전 단어의 중요성을 강조하면서 문장 내에서 이를 수행할 수 있게 해줍니다.

  • 00:10:00 이 섹션에서 비디오는 self-attention 레이어가 쿼리, 키 및 값을 활용하여 유사성 또는 차이점을 기반으로 주의 및 가중치 정보를 계산하는 방법에 대해 설명합니다. 이 섹션에서는 또한 Transformer 모델을 사용하여 이미지를 16x16 패치로 병합하고 임베딩을 생성하기 위해 선형 레이어를 통과하여 NLP 및 컴퓨터 비전 작업을 모두 처리하는 Vision Transformer를 소개합니다. 위치 정보는 모델에 의해 학습되며 다층 퍼셉트론을 사용하여 출력을 분류합니다. 이 섹션에서는 Vision Transformers를 CNNS와 비교하고 self-attention 레이어가 전역적이며 MLP만 인접 픽셀을 비교한다는 점을 지적합니다. Vision Transformer의 Transformer 모델은 이미지와 단어 입력을 구분하지 않으며 다양한 작업에 대해 일반화할 수 있습니다.

  • 00:15:00 강의의 이 섹션에서는 기계 학습 모델의 귀납적 편향의 개념에 대해 설명합니다. 귀납적 편향은 모델이 훈련된 데이터에 대해 만드는 가정을 말하며 이 편향을 줄이면 모델이 더 일반화될 수 있습니다. 사전 지식 없이 여러 작업에 적용할 수 있는 모델을 갖는 것이 중요합니다. CNN은 더 작은 데이터 세트에서 Transformers를 능가하지만 ViT(Vision Transformer 모델)는 텍스처보다 모양을 우선시하여 인간의 시력을 더 잘 모델링하므로 더 크고 복잡한 데이터 세트에서 더 나은 성능을 보입니다. 특정 분류기가 더 이상 이미지를 분류할 수 없도록 노이즈를 도입하여 이미지가 왜곡되는 메트릭으로 적대적 견고성도 도입됩니다.

  • 00:20:00 이 섹션에서는 이미지 복원 및 시맨틱 분할에서 Vision Transformers의 한계에 대해 설명합니다. 패치가 한 번에 하나씩 전달되어 처리되면 경계 정보가 손실될 수 있으며, 하나의 패치에 속하는 정보는 동일하게 취급되므로 패치 내 세분화된 픽셀 분석이 취약합니다. 그러나 모양보다 질감을 우선시하는 CNN과 달리 Vision Transformers는 질감보다 모양을 우선시하므로 대상 노이즈가 이미지에 추가되는 경우에도 시각적 왜곡에 대해 자연스럽게 견고합니다. 패치 추출은 이미지 고유의 문제이며, 이미지가 클수록 생성되는 이미지 토큰의 수가 급격히 증가합니다.

  • 00:25:00 이 섹션에서 강사는 특히 많은 처리 능력이 필요하기 때문에 더 큰 이미지를 처리할 때 물체 감지 및 분할에 일반적인 비전 트랜스포머를 사용할 때의 문제에 대해 논의합니다. 그러나 쉬프트 윈도우 트랜스포머(shifted window Transformer)라는 솔루션이 도입되었는데, 이는 겹치지 않는 윈도우를 사용하여 그룹 내에서 self-attention을 수행한 다음 이들을 결합하여 교차 어텐션을 수행합니다. 이렇게 하면 크로스 윈도우 어텐션 연결이 가능하여 패치가 결합되는 동안 패치 크기가 동일하게 유지되므로 N-제곱 대신 선형 계산 복잡성이 발생합니다. 이 이미지 분할 방법은 자율 주행 기술에서 일반적으로 사용됩니다.

  • 00:30:00 이 섹션에서는 이미지 분류, 객체 감지 및 시맨틱 분할에 뛰어난 모델인 Swin Transformer의 개념을 소개합니다. Swin 대형 패치 모델은 패치 크기 4, 용량 192, 창 크기 7이며 ImageNet 22k에서 훈련되고 ImageNet 1k에서 미세 조정됩니다. 이 모델은 윈도우 다중 어텐션 레이어와 쉬프트 윈도우 어텐션 레이어, 그리고 GELU 활성화 기능을 사용하는 숨겨진 레이어가 있는 MLP를 사용합니다. 윈도우 MSA의 출력은 MLP에 들어가기 전에 중간 레이어의 분포를 정규화하기 위해 레이어 노름을 통과합니다.

  • 00:35:00 이 섹션에서 발표자는 개체 감지 및 의미론적 분할을 위한 교육 모델에서 Layer Norm을 사용하는 이점에 대해 설명합니다. Layer Norm은 그래디언트 표면에 평활화 작업을 적용하여 더 빠른 훈련과 더 나은 일반화 정확도를 제공합니다. 발표자는 Layer Norm을 Batch Norm과 같은 다른 스무딩 기술과 비교하고 프로세스의 중간 레이어에 초점을 맞추는 방법을 설명합니다. 그런 다음 이미지의 각 창 내에서 자체 주의를 수행하는 WMSA(Windowed Multi-Head Self-Attention) 블록으로 논의가 이동합니다. Vit의 2차 복잡도(경쟁 기술)와 달리 각 창의 패치 벡터 수가 보장되어 이미지 크기에 대한 선형 복잡도가 발생합니다. WMSA의 2단계는 인접한 픽셀 블록이 더 작은 창으로 연결되어 새로운 패치 테두리와 다시 만들어진 창을 만드는 패치 병합 프로세스를 포함합니다.

  • 00:40:00 강의의 이 섹션에서 발표자는 패치를 진행한 후 생성되는 창의 수 증가를 처리하기 위한 Swin Transformer의 솔루션을 설명합니다. Swin Transformer는 총 정보량을 일관되게 유지하면서 총 요소 수를 64개에서 16개로 줄이면서 4개의 창만 갖도록 블록을 재배열하여 이러한 창을 영리하게 결합합니다. 최적화 기술에는 순환 이동이 포함되며 선형 계층은 패치의 고장을 줄인 후 임베딩 크기의 깊이 또는 "C" 차원을 증가시키는 데 사용됩니다. 이 기술은 컴퓨팅 성능을 절약하고 어텐션을 수행하기 전에 제로 패딩의 순진한 솔루션을 방지합니다.

  • 00:45:00 이 섹션에서 연사는 이미지 처리의 효율성을 개선하기 위해 저자가 제안한 두 가지 최적화에 대해 논의합니다. 첫 번째 최적화는 어텐션을 계산하기 전에 이미지를 특정 부분으로 이동시킨 다음 이미 계산되었음을 표시하면서 다시 이동시키는 것입니다. 이렇게 하면 원하는 값을 얻기 위해 완전히 새로운 작업을 수행할 필요가 없으므로 컴퓨팅 성능이 최적화됩니다. 두 번째 최적화는 명시적으로 제공되는 대신 패치 위치 정보를 학습하는 위치 임베딩을 통해 계산해야 하는 주의 범위를 제한합니다. 편향 벡터 및 채널 크기 조작과 함께 이러한 최적화는 이미지 처리에서 self-attention 계산 성능에 도움이 됩니다.

  • 00:50:00 이 섹션에서는 Swin 변압기 모델의 2단계, 3단계 및 4단계에서 패치를 병합하는 과정에 대해 강의합니다. 패치의 차원을 줄이면 패치가 1/4로 줄어들어 3136 패치가 되고 인코딩 크기는 2배가 되어 384 인코딩이 됩니다. 이 프로세스는 3단계와 4단계에서 반복되며 프로세스의 마지막 구성 요소는 평균 풀링 레이어와 분류 헤드입니다. 강의는 CNN에 대한 유사한 접근 방식을 사용하여 귀납적 편향의 재도입에 대한 우려를 제기하지만, 연구에 따르면 Swin 모델은 부패 견고성 측면에서 잘 수행되고 Vision Transformers보다 형태 편향이 낮습니다. Transformer 아키텍처의 일반성 덕분에 데이터 유형이나 도메인에 관계없이 패턴을 정확하게 캡처할 수 있으며 데이터가 많을수록 성능이 향상됩니다.

  • 00:55:00 이 섹션에서 강사는 모든 종류의 데이터를 가져와서 처리하고 일반화 가능성으로 알려진 패턴을 추출할 수 있는 모델의 이점과 단점을 설명합니다. 모든 입력/출력을 처리할 수 있는 일반적인 인공 지능 모델에 대한 아이디어를 논의하고 자율 주행 자동차와 같은 분야에서 잠재적인 응용 프로그램을 탐색합니다. 강사는 또한 적대적 견고성 분야가 여전히 발전 중이며 더 발전된 적대적 공격에 대한 Swin과 같은 모델의 효능을 결정하기 위해 추가 테스트가 필요하다고 지적합니다.
 

CS 198-126: 강의 17 - 3D 비전 조사, 파트 1



CS 198-126: 강의 17 - 3D 비전 조사, 파트 1

이 비디오는 포인트 클라우드, 메쉬, 복셀 및 방사 필드를 포함하여 다양한 3D 시각적 표현과 장단점에 대해 설명합니다. 이 강의는 또한 레이캐스팅, 전방 및 후방뿐만 아니라 서로 교차하는 객체에 대한 색상화 및 렌더링 이미지를 단색 및 투명도에 대한 다양한 접근 방식으로 다룹니다. 강사는 차별화 가능한 렌더링의 한계와 Radiance Fields가 밀도 및 물리적 색상을 사용하여 각 XYZ 포인트에 대한 함수를 생성하여 학습하기 쉽게 만드는 방법에 대해 설명합니다.

  • 00:00:00 이 섹션에서 강사는 실제 세계가 3차원이므로 컴퓨터 비전을 3D로 확장해야 할 필요성에 대해 논의합니다. 자율주행, 형태 최적화, 가상 환경, 아바타 생성 등과 같은 3D에 대한 응용 프로그램은 무궁무진합니다. 그런 다음 2.5D, 포인트 클라우드, 메쉬, 복셀 그리드 및 영역 필드를 포함하여 3D 표현을 위한 다양한 방법이 제시됩니다. 그런 다음 강의에서는 이미징 작동 방식을 이해하고 시뮬레이션을 위해 공간에서 3D 개체를 렌더링하는 방법을 이해하는 데 중요한 핀홀 카메라 모델에 대해 자세히 설명합니다.

  • 00:05:00 강의의 이 섹션에서는 장면에서 카메라의 위치를 결정하는 수단으로 정방향 추적 및 역방향 추적의 개념을 소개합니다. 또한 강사는 RGB-D(2.5D) 이미지와 포인트 클라우드를 생성하는 데 사용할 수 있는 깊이 정보를 포함하는 방법과 표면의 메시를 만드는 데 사용할 수 있는 방법에 대해 설명합니다. 메쉬 생성에 포인트 클라우드를 사용할 때의 이점과 제한 사항도 살펴봅니다.

  • 00:10:00 이 섹션에서 강사는 3D 개체에 대한 다양한 표현을 설명합니다. 메시 구조와 그래프 작업 기술 부족으로 인해 기계 학습 설정에서 작업하기 어려운 방법에 대해 논의하는 것으로 시작합니다. 그런 다음 강의에서는 이진법 또는 반투명 방식으로 개체를 나타낼 수 있는 작은 입방체 또는 "레고"로 구성된 개별 3D 공간 구조인 복셀을 소개합니다. 그러나 고해상도에서 복셀을 사용하는 것은 계산 복잡성으로 인해 금지될 수 있습니다. 강의는 고주파수 디테일을 3D 객체에 표현하기 위한 솔루션으로 특정 XYZ 좌표에서 RGB 색상과 밀도를 출력하는 기능인 Radiance Field를 제시하며 강의를 마칩니다.

  • 00:15:00 이 섹션에서 강사는 포인트 클라우드, 메쉬, 복셀 및 방사 필드를 포함한 다양한 3D 표현에 대해 설명합니다. 각 유형에는 장단점이 있으며 특정 작업에 적합한 표현을 선택하는 것이 중요합니다. 3D 표현에 대해 논의한 후 강의는 레이캐스팅과 두 가지 유형의 레이캐스팅인 포워드 및 백워드로 이동합니다. 포워드 레이캐스팅은 장면의 모든 포인트를 볼 수 있게 해주기 때문에 포인트 클라우드를 렌더링하는 데 유용합니다. 반대로 역방향 레이캐스팅은 먼저 광선과 교차하는 표면을 볼 수 있기 때문에 메쉬 또는 복셀 그리드를 렌더링하는 데 더 적합합니다.

  • 00:20:00 비디오의 이 섹션에서 발표자는 서로 교차하는 다양한 개체의 이미지를 색상화하고 렌더링하는 과정에 대해 논의합니다. 이것은 효율적일 수 있는 모든 배열에 대해 세 개의 삼각형 교차점을 계산하여 수행됩니다. 물체가 반투명한 경우 교차하는 첫 번째 점의 색상뿐만 아니라 첫 번째와 두 번째 점의 밀도도 고려하는 과정이 포함됩니다. 연기와 같이 표면이 없는 영역의 경우 광선 샘플링을 사용하여 직선의 다른 지점을 샘플링하고 Radiance Field를 사용하여 각 지점에 대해 RGB 및 D를 출력하는 함수를 만듭니다. 이러한 색상 및 밀도 세트는 볼륨 렌더링을 사용하여 집계되어 하나의 픽셀 볼륨을 생성합니다.

  • 00:25:00 이 섹션에서 강사는 차별화 가능한 렌더링과 그 한계에 대해 설명합니다. 렌더링에서 논의된 모든 것은 미분 가능하지만 렌더링된 이미지에서 볼 수 있는 가시적 표면에 대해서만 미분 가능합니다. 래디언스 필드는 샘플링된 모든 단일 포인트가 최종 색상에 영향을 미치고 따라서 일부 출력 그라데이션을 가지므로 이 문제를 해결합니다. 또한 강사는 Radiance Fields가 한동안 존재했으며 밀도와 물리적 색상으로 모든 XYZ 포인트에 대한 함수를 생성하는 방법으로 기능한다고 언급합니다. 다음으로 강사는 Radiance Fields를 학습 가능하게 만들기 위해 f를 신경망으로 모델링하는 방법에 대해 설명합니다.

  • 00:30:00 이 섹션에서 화자는 트랜스포머 숙제가 일주일 지연되었다고 간략하게 언급하지만 맥락이나 설명은 제공하지 않습니다.
 

CS 198-126: 강의 18 - 3D 비전 조사, 파트 2



CS 198-126: 강의 18 - 3D 비전 조사, 파트 2

3D 비전에 대한 이 강의에서 강사는 복사 필드, 특히 공간에서 위치를 취하고 색상과 밀도를 출력하는 NeRF(신경 복사 필드)에 대해 설명합니다. 발표자는 카메라의 관점에서 쿼리하고 블랙박스 기능을 사용하여 이미지가 어떻게 보일지 파악하는 렌더링 과정을 설명합니다. 강의에서는 3D 비전에서 물체의 일관된 관점을 표현하는 것과 물체의 XYZ 데이터를 가져오고 밀도 및 RGB 정보를 출력하는 방향을 보는 데 MLP를 사용하는 문제에 대해 논의합니다. 강의는 또한 볼류메트릭 렌더링의 문제와 Nerf 파생물을 사용하여 컴퓨터 비전을 개선하는 문제를 다룹니다. 강사는 신경망을 사용하여 사실적인 3D 이미지를 생성하기 위해 공간 수축을 사용하는 방법을 시연하며 마무리합니다.

  • 00:00:00 강의의 이 섹션에서 강사는 복사 필드, 특히 공간에서 위치를 취하고 색상과 밀도를 출력하는 NeRF(Neural Radiance Fields)에 대해 논의합니다. 렌더링 프로세스에는 카메라의 관점에서 쿼리하고 블랙 박스 기능을 사용하여 이미지가 어떻게 보일지 파악하는 작업이 포함됩니다. 색상은 모든 샘플의 가중 평균이며 가시성은 밀도에 비례하고 카메라 앞에 있는 물체의 양에 반비례합니다. 강사는 카메라에 가장 가까운 물체가 색상에 가장 많이 기여하는 방식과 밀도가 무게에 미치는 영향을 포함하여 광휘장 뒤에 있는 직관을 설명하는 예를 제공합니다.

  • 00:05:00 이 섹션에서 발표자는 해당 개체의 여러 이미지를 기반으로 개체의 새로운 보기를 생성하기 위해 신경 방사 필드를 만드는 방법을 설명합니다. 목표는 새로운 이미지를 생성하기 위해 장면의 지점에서 쿼리할 수 있는 신경 Radiance 필드를 제시하는 것입니다. 그러나 이에 필요한 지상군 위치와 방향을 파악하는 것은 어렵고 시간이 많이 걸리는 작업이 될 수 있습니다. 이 프로세스에 도움이 될 수 있는 프로그램이 있지만 발표자는 이러한 도구에만 의존하는 것은 부정 행위로 간주될 수 있다고 지적합니다.

  • 00:10:00 이 섹션에서 강사는 장면의 새로운 보기를 생성하기 위한 3D 비전의 사용에 대해 논의합니다. 그들은 신경 Radiance 필드를 학습하면 다양한 뷰에서 모양 일관성이 가능하며 이는 딥 러닝으로 객체의 새로운 뷰를 렌더링하는 데 중요하다고 설명합니다. 이 병목 현상이 없으면 여러 뷰에서 일관되지 않은 모양을 생성한 StyleGAN의 예에서 볼 수 있듯이 일관성을 보장하기 어렵습니다. 강사는 객체의 3D 표현 학습이 일관된 모양으로 객체의 새로운 보기를 생성하는 데 필요하다고 주장합니다.

  • 00:15:00 이 섹션에서 발표자는 3D 비전에서 객체의 일관된 관점을 표현하는 데 따르는 어려움에 대해 논의합니다. Radiance Fields의 사용은 눈부심과 다른 각도에서의 반사와 같이 다른 방법으로는 캡처하기 어려운 물체 모양의 미세한 세부 사항을 나타내는 방법으로 설명됩니다. 발표자는 이 프로세스가 위치 및 보기 방향 데이터를 가져와서 관찰 중인 개체를 보다 정확하게 표현하는 방법에 대해 자세히 설명합니다. 개체의 다양한 측면을 표현하기 위해 밀도 및 색상 MLP를 사용하는 개념도 설명됩니다.

  • 00:20:00 이 섹션에서 발표자는 MLP(밀도 신경망)를 사용하여 개체의 XYZ 데이터와 해당 시야 방향을 가져와 밀도 및 RGB 정보를 출력하는 방법에 대해 설명합니다. 네트워크는 위치 인코딩을 사용하여 선명한 결정 경계를 생성하여 재생성되는 이미지의 선명도를 향상시킵니다. 이진 표현 및 논리 게이트를 사용하면 재생성된 이미지에서 날카로운 변화와 높은 빈도의 세부 정보를 얻을 수 있습니다. 발표자는 필요한 경우 위치 인코딩에 대한 보다 심층적인 설명을 제공할 수 있다고 말합니다.

  • 00:25:00 이 섹션에서 발표자는 눈부심 및 반사와 같은 효과에 대한 보기 종속성 및 선명한 경계에 대한 위치 인코딩 사용을 포함하여 3D 비전을 위한 Nerf(신경 방사 필드) 모델 구현의 다양한 측면에 대해 자세히 설명합니다. 발표자는 또한 두 라운드에서 샘플링 프로세스를 최적화하고 별도의 MLP를 사용하여 가장자리의 미세한 세부 사항을 학습하는 방법에 대해 논의합니다. 또한 발표자는 실측 이미지의 RGB 값을 비교하고 GPU 제한으로 인해 제한된 수의 광선을 렌더링하는 것과 관련된 네트워크 훈련에 사용되는 손실 함수에 대해 설명합니다. 밀도에 대한 직접적인 손실은 없지만 네트워크는 여전히 밀도와 색상 정확성 사이의 간접적인 관계를 통해 정확한 밀도를 학습합니다.

  • 00:30:00 강의의 이 섹션에서 연사는 체적 렌더링 프로세스와 정확한 예측을 위해 올바른 색상과 밀도가 필요한 방법에 대해 이야기합니다. 발표자는 카메라를 충분히 활용하면 물체의 여러 지점을 삼각 측량할 수 있으며 네트워크에서 손실을 줄이는 가장 쉬운 방법은 교차점에 대해 올바른 색상과 높은 밀도를 출력하는 것이라고 설명합니다. 발표자는 또한 실시간 렌더링 훈련을 위해 사전 처리 스크립트와 nerfacto라는 라이브러리를 사용하여 작업 중인 프로젝트를 보여줍니다. 발표자는 사전 처리가 어렵고 때로는 잘못된 방향으로 이어질 수 있다고 지적합니다.

  • 00:35:00 이 섹션에서 발표자는 3D 비전과 모든 방향에서 이미지 캡처와 관련된 문제에 대해 논의합니다. 비디오는 컴퓨터 비전을 개선하기 위해 Nerf 파생물을 사용하는 방법과 이 기술을 사용하여 장면 주변의 공간을 축소하여 네트워크가 좋은 값을 쉽게 학습할 수 있도록 하는 방법에 중점을 둡니다. 발표자는 이미지 주변의 경계 상자가 공간을 제한하는 데 도움이 되므로 네트워크는 -1과 1 사이의 값만 수신한다고 설명합니다. 동영상은 공간의 한 점을 가져와서 매핑하는 공식으로 공간 수축이 어떻게 작동하는지 보여줍니다. 네트워크가 포인트와 장면의 값을 더 쉽게 학습할 수 있도록 하는 단위 공입니다.

  • 00:40:00 비디오의 이 섹션에서 발표자는 공간 수축을 사용하여 신경망을 사용하여 사실적인 3D 이미지를 생성하는 방법을 보여줍니다. 그는 Campanilla의 이미지를 보여주고 훈련 데이터의 가장자리에 도달하면 네트워크가 점차 악화된다고 설명합니다. 발표자는 또한 며칠이 아닌 몇 초가 걸리는 3D 이미지 생성의 몇 가지 발전에 대해 언급합니다. 그는 왜 밀도함수가 학습 가능한지에 대해 토론할 시간이 충분하지 않았지만 강의가 끝난 후 청중과 토론을 할 것을 제안합니다.
 

CS 198-126: 강의 19 - 고급 시력 사전 교육



CS 198-126: 강의 19 - 고급 시력 사전 교육

이 비디오는 대조 학습, 노이즈 제거 자동 인코더, 컨텍스트 인코더 및 Mae 네트워크를 포함하여 고급 비전에서 자가 감독 사전 교육에 사용되는 다양한 기술을 다룹니다. 연사는 각 방법에 대한 개요를 제공하고 장단점에 대해 논의하며 개별적으로 두 방법 모두를 능가하는 BYOL 방법에서 대조 손실과 재구성 손실을 결합할 때의 이점을 강조합니다. 이 동영상은 자기 지도 학습의 최신 연구 동향과 컴퓨터 비전 모델의 성능을 개선할 수 있는 잠재력에 대한 유용한 통찰력을 제공합니다.

  • 00:00:00 이 섹션에서 강사는 SSL(self-supervised learning)의 개념을 소개합니다. SSL은 연결된 레이블 없이 데이터 세트에서 레이블을 만드는 비지도 학습의 한 가지입니다. 이 접근 방식은 작은 데이터 세트로 작업하거나 크고 다양한 데이터 세트에서 모델을 사전 훈련하여 다운스트림 작업으로 전송할 수 있는 표현을 추출할 때 유용합니다. 또한 강사는 SSL이 비지도 학습보다 더 많은 감독을 제공하고 감독 학습보다 적은 방법을 설명하기 위해 John McCune의 비유를 제공하여 컴퓨터 비전의 다양한 작업에 대한 귀중한 접근 방식을 만듭니다.

  • 00:05:00 이 섹션에서는 컴퓨터 비전의 맥락에서 지능의 기반이 되는 비지도 학습의 개념을 소개했습니다. 자기 지도 학습은 학습의 주요 형태로 처음부터 레이블을 만드는 방법으로 논의되었으며, 지도 학습과 강화 학습은 프로세스의 작은 부분에 불과했습니다. 대조 학습의 개념은 최적화 목표로서 유사성에 초점을 맞추는 대중적인 비지도 접근법으로 도입되었으며, 손실 함수의 목적은 가능한 한 입력에 대한 임베딩에 가깝게 포지티브 샘플에 대한 임베딩을 추진하는 것으로 설명되었습니다. 동시에 음성 샘플에 대한 임베딩을 입력 임베딩에서 더 멀리 밀어냅니다.

  • 00:10:00 이 섹션에서는 얼굴 인식 네트워크를 훈련하는 데 사용되는 삼중항 손실의 개념과 대조 손실 기능을 사용하여 이를 개선할 수 있는 방법을 설명합니다. 대조 손실 함수는 가능한 모든 음수 샘플에서 입력을 밀어내는 문제를 해결합니다. 이는 많은 수의 음수 샘플로 인해 실현 불가능합니다. 이 손실 함수의 구현은 양성 샘플이 올바른 레이블 역할을 하고 모든 음성 샘플이 잘못된 레이블 역할을 하는 분류 문제와 유사합니다. 그런 다음 비디오에서는 대조 학습을 미분 가능한 사전 수입으로 정의하는 MOCO 알고리즘을 소개하여 모든 기간과 쿼리를 한 곳에서 수집할 수 있도록 합니다.

  • 00:15:00 이 섹션에서는 발표자가 대조 학습 과정과 신경망을 통해 유사성을 정의하는 방법을 설명합니다. 저자는 인스턴스 차별로 알려진 동일한 네트워크를 사용하여 동일한 샘플을 통과하는 유사한 수단과 하이라이트를 정의합니다. 다운스트림 작업에 대한 좋은 표현을 생성하려면 키와 쿼리가 동일한 네트워크에서 나오므로 여러 네트워크를 사용하는 것은 그다지 유용하지 않으며 대신 더 나은 표현을 장려하기 위해 엄청난 양의 네거티브 풀이 필요합니다. 그러나 배치 크기를 제한하는 거대한 네거티브 풀에서 단일 포지티브를 선택하는 것은 계산적으로 어렵고 비실용적일 수 있습니다. 그런 다음 발표자는 단일 모델에서 모든 키와 쿼리를 미리 계산하는 아이디어에 대해 논의합니다.

  • 00:20:00 강의의 이 섹션에서 발표자는 시간이 지남에 따라 업데이트되는 단일 네트워크에서 모델을 교육하는 동안 임베딩을 미리 계산하고 대기열에 저장하는 아이디어에 대해 논의합니다. 이 접근 방식은 시간이 지남에 따라 일관성을 유지하는 데 도움이 되며 교육 프로세스에서 아주 먼 과거부터 임베딩이 저장되는 것을 방지합니다. 그러나 이 방법은 역방향 패스가 아닌 순방향 패스에서 임베딩을 계산하는 문제만 해결합니다. 연사는 일관성을 유지하면서 키 인코더의 가중치가 너무 빠르게 변경되지 않도록 쿼리 및 키 인코더의 속도의 이동 평균으로 키 인코더를 업데이트할 것을 제안합니다.

  • 00:25:00 비디오의 이 섹션에서 발표자는 레이블 없이 우수한 이미지 표현을 생성하기 위한 대조 학습 방법인 Moco 및 SimCLR 모델에 대해 설명합니다. Moco 모델에는 다운스트림 작업에 사용할 수 있는 우수한 표현을 생성하기 위해 교육이 진행됨에 따라 시간이 지남에 따라 업데이트되는 주요 인코더가 포함됩니다. SimCLR 모델은 단일 인코더를 사용하고 작은 MLP를 통해 임베딩을 전달하여 이 프로세스를 단순화하여 훨씬 더 나은 결과를 생성합니다. 이 방법은 이동 평균 또는 다른 네트워크를 유지할 필요가 없으며 딥 러닝 연구에서 인기 있는 대조 학습 방법이 되었습니다.

  • 00:30:00 이 섹션에서는 이미지 표현 교육을 위한 자체 감독 방법인 SimCLR 모델에 대해 알아봅니다. 이 모델은 임베딩을 계산하기 위해 대조 손실 및 온도 스케일링을 사용하고 동일한 이미지는 유사하고 다른 이미지는 그렇지 않다는 유사성 개념을 도입합니다. 모델에 사용된 데이터 증가 기술이 표시되며 놀랍게도 색상 기반 증가가 최상의 결과를 생성합니다. 더 긴 교육 세션과 더 큰 배치도 더 나은 결과를 보여줍니다. SimCLR은 이미지 분류에서 완전히 감독된 기준선을 능가하는 최초의 모델 방법이며 ImageNet 레이블의 1%와 10%만으로 미세 조정될 때 최상의 결과를 얻습니다.

  • 00:35:00 이 섹션에서는 고급 비전 사전 훈련을 위한 byol 방법을 다룹니다. 이 방법은 입력 이미지에 다양한 데이터 확대를 적용하고, 다양한 뷰를 생성하고, 인코더 네트워크를 통해 전달하고, 이들로부터 표현을 가져온 다음, 투영 C 및 C 프라임을 얻기 위해 작은 네트워크에 투영됩니다. 이 방법은 엄격하게 simclr과 같은 대조 학습 방법이 아니라 simclr 및 moco의 요소를 단일 목적 함수로 조합한 것입니다. 이 접근 방식은 부트스트래핑을 활용하고 두 개의 다른 네트워크를 유지하며 데이터 세트의 실제 메트릭을 사용하는 대신 다른 모델에서 추정된 메트릭을 기반으로 하나의 모델을 피팅합니다.

  • 00:40:00 이 섹션에서는 Deep Free Learning에서 일어나는 것과 동일한 Deep Key Learning in heavy에 대해 배웁니다. 이 접근 방식은 두 번째 네트워크가 첫 번째 네트워크에 대한 감독을 주도하고 그 반대의 경우도 마찬가지인 BYOL에 영감을 주었습니다. 이 부트스트래핑 프로세스를 사용하여 네트워크는 표현을 구축하기 위해 더 많은 표현을 학습하고 대조 학습이 아니기 때문에 배치 크기 및 조직 유형의 변화에 강력합니다. BYOL은 더 작은 배치 크기에서도 잘 작동하며 동일한 벤치마크에서 MCLR을 능가합니다. 그런 다음 입력이 파괴되고 원본 이미지를 재구성해야 하는 메서드의 두 번째 클래스로 이동합니다. 이러한 메서드는 자동 인코더 기반 구조와 잘 작동합니다. 이 프레젠테이션에서는 이미지에 노이즈를 추가하는 Denoising Model Encoder를 소개하며 목표는 노이즈 제거된 이미지를 예측하는 것입니다. Stack Denoising Model Encoder는 정말 잘 작동하고 네트워크가 파괴된 이미지에서도 의미 있는 것을 학습하기 때문에 매우 인기가 있었습니다.

  • 00:45:00 이 섹션에서 연사는 과거 신경망 훈련의 어려움과 해결 방법으로 DAE(denoising autoencoder)가 어떻게 사용되었는지에 대해 논의합니다. 그런 다음 강의는 컨텍스트 인코더라고 하는 숨겨진 영역을 예측하기 위해 이미지의 일부를 마스킹 아웃하는 개념으로 이동합니다. 버클리 연구실에서 2016년 도입한 이 방법은 검출과 세분화에서 좋은 결과를 얻을 수 있었지만 분류에서는 그렇지 못했다. 발표자는 컨텍스트 인코더의 구현과 목적 함수에 판별자를 추가하여 더 나은 표현을 이끌어낸 방법을 검토합니다.

  • 00:50:00 이 섹션에서는 다른 방법에서 사용되는 CNN 백본과 달리 Transformer 백본을 사용하는 Mae 네트워크에 대해 설명합니다. 네트워크는 vit으로 대체되고 이미지에서 패치를 마스킹하고 마스킹되지 않은 영역을 인코더로 전달하여 컨텍스트 디코더와 동일한 목적을 사용합니다. 그런 다음 인코딩된 임베딩은 원본 이미지 재구성을 목표로 디코더로 전달됩니다. 이 프로세스는 해당 형식에서 의미 있는 기능을 학습하고 네트워크는 Mae 논문의 여러 예제로 설명됩니다. 전체 시퀀스에 대한 정보를 캡처하는 클래스 토큰을 분류에 사용할 수 있습니다.

  • 00:55:00은 대조 학습과 오토인코더 기반 재구성을 혼합하여 사용하는 자체 지도 사전 교육에 중점을 두며 두 전략을 개별적으로 능가합니다. Contrastive Loss와 Reconstructive Loss 사이의 균형을 맞추는 새로운 손실 함수를 사용하여 방법을 결합합니다. 이는 자기 감독 방법의 성능을 개선할 수 있는 가능성을 보여주는 유망한 접근 방식이며 이러한 결과의 근본적인 이유를 이해하는 것이 현재 연구 분야입니다.

  • 01:00:00 이 섹션에서는 단일 모델을 통해 이미지 재구성과 대조 학습을 동시에 결합한 모델인 새로 출시된 MassS에 대해 발표자가 논의합니다. MassS는 동일한 이미지의 두 가지 보기를 생성하고 두 가지 다른 보기를 가리고 여기에 노이즈를 추가하여 노이즈 제거 목표를 결합합니다. Mass가 사용하는 손실 함수는 엔드포인트, 재구성 손실 및 노이즈 제거 손실의 더 나은 조합으로 이전 모델보다 더 나은 성능을 제공합니다. 발표자는 표현 학습 영역에 잘 작동하는 다른 많은 모델이 있으며 현재 이 분야가 연구하기에 뜨겁다고 언급합니다.
 

CS 198-126: 강의 20 - 이미지 스타일 지정



CS 198-126: 강의 20 - 이미지 스타일 지정

이 동영상에서는 쌍을 이룬 데이터가 필요한 신경 스타일 전송, GAN, Pix2Pix, 이미지 간 변환을 위해 쌍을 이루지 않은 데이터를 사용하는 CycleGAN을 포함하여 이미지 스타일화를 위한 다양한 기술에 대해 설명합니다. CycleGAN의 한계는 StarGAN으로 해결할 수 있습니다. StarGAN은 다중 도메인 이미지 전환 작업을 위해 생성기를 훈련시키기 위해 여러 도메인에서 정보를 가져올 수 있습니다. 발표자는 또한 BicycleGAN 모델로 예시되는 다양한 출력을 생성하기 위해 도메인 정보와 저차원 잠재 코드를 사용하는 다중 모드 비감독 이미지 대 이미지 변환에 대해 논의합니다. 마지막으로 이미지 변환 작업을 위해 GAN과 함께 Vision Transformers를 사용할 때의 잠재적 이점에 대해 언급하고 재미있는 이미지 예제와 질문 및 토론의 기회로 강의를 마무리합니다.

  • 00:00:00 이 섹션에서 화자는 이미지 간 변환, 특히 신경 스타일 전송에 대해 설명합니다. 작업에는 원본 이미지의 콘텐츠를 보존하면서 원본 도메인의 이미지를 대상 도메인의 해당 이미지로 변환하는 작업이 포함됩니다. 신경망 스타일 전송은 한 이미지의 내용과 다른 이미지의 스타일 참조가 일치하도록 출력 이미지를 최적화하여 두 이미지를 혼합하는 데 사용되는 기술입니다. Convolutional Nets는 두 이미지에서 관련 정보를 추출하고 원하는 스타일로 새 이미지를 만드는 데 사용됩니다. 발표자는 필요한 입력과 이 기술에 사용되는 아키텍처에 대해 자세히 설명합니다.

  • 00:05:00 이 섹션에서는 심층 CNN을 사용하여 이미지의 콘텐츠와 스타일을 나타내는 개념에 대해 강의합니다. 가장자리 및 텍스처와 같은 하위 수준 기능부터 시작하여 CNN은 개체 표현을 생성하기 전에 상위 수준 기능을 추상화합니다. 그런 다음 강의에서는 그램 매트릭스 계산을 사용하여 다양한 기능 맵에서 스타일의 유사성을 측정하는 방법을 탐색합니다. 강의에서는 CNN에서 콘텐츠와 스타일을 얻는 방법과 원하는 출력을 생성하기 위해 모델을 조정하는 각각의 손실 계산 방법을 설명합니다.

  • 00:10:00 강의의 이 섹션에서 연사는 이미지 처리를 위한 몇 가지 다른 기술에 대해 논의합니다. 먼저 옵티마이저에서 콘텐츠와 스타일 손실을 모두 추가하여 출력 이미지를 생성하는 프로세스에 대해 설명합니다. 콘텐츠 이미지와 스타일 이미지가 결합되어 최종 이미지를 생성하는 예를 보여줍니다. 콘텐츠 이미지의 하위 수준 기능과 스타일 이미지의 상위 수준 기능을 사용합니다. 다음으로 판별자와 생성자 부분에 중점을 두고 GAN을 간략하게 검토합니다. 그들은 또한 StyleGAN과 이미지에서 상위 및 하위 수준 속성을 분리하는 기능에 대해 언급합니다. 마지막으로 조건부 GAN을 사용하여 사용자가 제공한 추가 정보를 기반으로 출력 이미지를 생성하는 Pix2Pix라는 모델에 대해 논의합니다.

  • 00:15:00 이 섹션에서는 쌍으로 된 데이터가 필요한 GAN 및 pix2pix와 이미지 간 변환을 위해 쌍으로 되지 않은 데이터를 사용하는 CycleGAN을 포함하여 이미지 스타일화를 위한 다양한 기술에 대해 설명합니다. 그러나 CycleGAN에는 여러 도메인에서 정보를 가져와 생성기를 훈련할 수 있는 모델인 StarGAN으로 해결할 수 있는 한계가 있으므로 다중 도메인 이미지 전환 작업이 가능합니다. StarGAN의 핵심 아이디어는 이미지와 도메인 정보를 모두 입력으로 사용하는 유연한 번역 방법을 배우는 것입니다.

  • 00:20:00 강의의 이 섹션에서 연사는 다중 비감독 이미지에서 이미지로의 변환의 개념과 입력 이미지에서 여러 개의 사실적이고 다양한 출력을 생성하는 데 어떻게 사용할 수 있는지에 대해 논의합니다. 논의 중인 논문은 도메인 정보와 저차원 잠재 코드를 통합하여 보다 정확하고 충실한 출력을 생성합니다. BicycleGAN 모델은 이 접근 방식이 어떻게 모드 붕괴를 최소화하고 다양한 출력을 달성할 수 있는지에 대한 예로 제시되었습니다. 또한 이 논문은 출력을 잠재 공간에 다시 매핑하고 동일한 스타일이나 출력을 생성하는 두 개의 서로 다른 코드의 가능성을 최소화하기 위해 인코더를 학습하려고 시도합니다.

  • 00:25:00 강의의 이 섹션에서 연사는 이미지 변환과 같은 작업에 Vision Transformers를 사용할 때의 어려움과 GAN과 함께 사용할 때의 잠재적 이점에 대해 논의합니다. 그들은 이미지 변환 작업을 처리하기 위해 GAN과 함께 Vision Transformers의 이점을 활용하는 최근 기술을 언급하지만 이러한 작업에 GAN만 사용하는 것만큼 간단하지는 않습니다. 발표자는 이러한 기술의 능력을 보여주는 몇 가지 재미있는 이미지를 공유하고 질문과 토론의 장을 열어주는 것으로 결론을 내립니다.
 

CS 198-126: 강의 21 - 오디오 생성



CS 198-126: 강의 21 - 오디오 생성

제너레이티브 오디오에 대한 이번 강의에서는 발표자가 양자화, 앨리어싱, 신호 처리, 프로젝션, 딥 러닝, 트랜스포머 등 다양한 주제를 다룹니다. 강사는 연속 신호를 샘플링하고 양자화하는 방법과 비트 심도의 정밀도와 계산 능력 사이의 균형에 대해 설명합니다. Shannon-Nequist 샘플링 이론과 신호 재구성에 미치는 영향, 투영의 중요성 및 신호 재구성에 대한 사용에 대해서도 설명합니다. 오디오 재구성을 위한 딥 러닝을 탐색하고 발표자는 생성 오디오를 소개하고 손실되거나 손상된 녹음에서 음악을 재구성할 수 있는 방법을 소개합니다. 오디오 생성을 위한 Transformers의 사용에 대해 논의하고 음악을 일련의 토큰으로 표현하는 과정을 설명합니다. 발표자는 또한 크고 다양한 데이터 세트를 갖는 것의 중요성을 강조하고 음악 예측을 위한 변환기 모델의 작동에 대해 논의합니다. 강의는 미래의 음표를 정확하게 예측하는 모델의 능력을 보여주는 생성된 음악의 데모로 마무리됩니다.

  • 00:00:00 강의의 이 섹션에서는 생성 오디오와 컴퓨터가 오디오를 처리하는 데 필요한 연속 신호를 이산화하는 방법에 중점을 둡니다. 연속 신호를 샘플링하고 양자화하는 프로세스는 디지털 신호를 생성하는 데 사용됩니다. 강의에서는 아날로그-디지털 변환기가 샘플 앤 홀드 회로를 사용하는 방법과 필요한 정밀도 수준에 따라 출력을 이산화하는 방법을 설명합니다. 이 강의에서는 또한 디지털-아날로그 변환기에 대해 설명하고 신호 기울기를 결정하는 특정 컷오프 주파수와 함께 신호의 통과대역을 유지하기 위해 저역 통과 필터를 사용하는 방법에 대해 설명합니다. 이러한 개념은 생성 오디오에 필수적이며 강의의 이후 자료를 이해하는 데 중요한 토대를 마련합니다.

  • 00:05:00 이 섹션에서 강의는 양자화 수준과 양자화되는 신호의 동적 범위에 대한 상관 관계를 다룹니다. 비트 심도가 높을수록 신호 근사치가 더 정확해져 16비트 심도에서 거의 완벽한 근사치에 도달할 때까지 오류가 크게 줄어듭니다. 그러나 무손실 피치 또는 훨씬 더 빠른 손실 피치가 청취자의 귀에 충분한지 여부를 물을 수 있는 계산 능력에 관한 절충안이 있습니다. Shannon-Nequist 샘플링 정리는 원래 신호의 주파수가 샘플링 주파수의 절반 미만인 경우에만 정보 손실 없이 샘플에서 신호를 재구성할 수 있다고 주장합니다. 이 기준을 충족하지 못하면 앨리어싱이 발생하여 문제가 있는 신호 근사치를 생성합니다.

  • 00:10:00 이 섹션에서는 앨리어싱과 신호 처리에 미치는 영향, 특히 원래 입력과 비교하여 수정된 출력 신호를 초래하는 잘못된 샘플링 측면에서 배웁니다. 파형 시각화 및 이미지 샘플링을 통해 이에 대한 예를 볼 수 있습니다. 또한 기하학적 신호 이론, 특히 신호 재구성을 위한 프로젝션 사용 및 이미지 분할에서 디컨볼루션 사용에 대해 듣습니다. 마지막으로 발표자는 한 줄의 C 코드를 사용하여 8비트 음악을 생성하는 재미있는 데모를 공유합니다.

  • 00:15:00 이 섹션에서 강사는 예측과 재구성에 사용할 수 있는 방법에 대해 설명합니다. 프로젝션 공식은 두 벡터의 내적이며 이 유사성 척도는 다른 벡터 세트에 대한 프로젝션의 선형 조합을 사용하여 신호를 재구성하는 데 사용할 수 있습니다. 그러나 근거가 필요하며, 사용되는 벡터 집합은 서로 직교해야 최대한 많은 정보를 얻을 수 있습니다. 서로 직교하는 서로 다른 베이스에 투영을 수행함으로써 투영되는 벡터에 대한 정보를 얻고 궁극적으로 신호를 재구성할 수 있습니다.

  • 00:20:00 이 섹션에서 강사는 오디오 재구성을 위한 딥 러닝 사용과 저품질 파형을 재구성하여 고해상도 오디오를 생성하는 방법을 소개합니다. 모델 아키텍처는 업샘플링을 위해 하위 픽셀 컨볼루션의 1차원 표현을 활용하는 유닛의 아키텍처와 유사합니다. 다운샘플링된 파형은 스트라이드가 2인 컨벌루션 레이어를 사용하여 8개의 다운샘플링 블록을 통과하고 배치 정규화는 ReLU 활성화 함수로 적용됩니다. 다운샘플링 블록과 동일하게 구성된 병목 레이어에서 파형은 8개의 업샘플링 블록에 연결됩니다. 이러한 블록은 다운샘플링 블록에 대한 나머지 연결을 가지고 있으며 하위 픽셀 컨볼루션을 사용하여 특정 차원을 따라 정보를 재정렬하여 정보 게인을 확장하여 저해상도 파형의 기능을 유지하면서 파형의 해상도를 높입니다. 최종 컨볼루션 레이어는 서브픽셀 디컨볼루션 후 정보를 재정렬하는 재적층 연산을 가지며 평균 제곱 오류 손실 함수를 사용하여 출력 파형의 업샘플링을 생성합니다.

  • 00:25:00 이 섹션에서 강사는 생성 오디오의 사용과 1900년대 중후반에 녹음된 녹음이 완전한 품질로 보존되지 않았을 수 있는 밴드의 음악을 재구성하는 데 어떻게 사용될 수 있는지에 대해 논의합니다. 그녀는 다운샘플링된 스펙트럼과 선명도와 색상을 추가하여 실제 파형과 일치하도록 개선할 수 있는 방법에 대해 이야기합니다. 그런 다음 강사는 오디오 생성을 위해 트랜스포머로 전환하고 트랜스포머 아키텍처를 사용하여 멜로디의 음표를 예측하는 방법을 설명합니다. 이를 위해서는 음악 파일인 데이터를 토큰 시퀀스로 변환해야 하는데, 이는 악보, 키, 비트 등 캡처해야 하는 시계열로 인해 광범위하게 고려해야 하는 고유한 문제입니다.

  • 00:30:00 이 섹션에서 발표자는 생성 오디오를 위한 변환 모델에 공급할 수 있는 일련의 토큰으로 음악을 표현하는 프로세스에 대해 설명합니다. 피치, 지속 시간 및 기타 속성을 사용하여 음표에 대한 정보를 캡처하는 방법을 설명하고 2D 피아노 롤 데이터를 단일 차원으로 토큰화하는 문제에 대해서도 설명합니다. 일대다 노트 또는 많은 노트를 단일 토큰에 매핑하는 것과 같은 다양한 접근 방식을 비교하고 구분 기호 토큰 및 축소된 어휘 크기의 사용을 소개합니다. 스피커는 제너레이티브 오디오 모델을 위한 훈련 데이터의 다양성을 증가시키는 방법으로 데이터 확대를 언급하면서 결론을 내립니다.

  • 00:35:00 이 섹션에서 발표자는 생성 오디오 모델을 사용할 때 크고 다양한 데이터 세트를 갖는 것의 중요성에 대해 논의합니다. 단일 노래가 어떻게 다른 키의 12개 노래로 변환될 수 있는지, 그리고 모델이 더 많은 데이터와 일반화 가능성을 가질수록 성능이 더 좋아지는 방법을 설명합니다. 발표자는 또한 모델에 메타데이터를 제공하여 더 나은 음악적 타이밍 감각을 제공하는 방법으로 위치 비트 인코딩의 사용에 대해 논의합니다. 그들은 자연어 처리에서 사용되는 위치 구조의 방법이 음악에도 적용될 수 있다는 점에 주목합니다. 이 섹션은 모델이 한 번에 모든 정보에 액세스하지 못하도록 어텐션 마스크를 적용하고 다음에 예측해야 하는 토큰에 대한 정보를 유출하는 방법인 Teacher Forcing에 대해 논의하면서 결론을 내립니다.

  • 00:40:00 이 섹션에서는 스피커가 생성 오디오에 사용되는 변환기 모델이 작동하는 방식에 대해 설명합니다. 구현에 사용된 변환기 XL은 상대 위치 인코딩 및 숨겨진 상태 메모리를 특징으로 하여 음악 예측을 위한 빠르고 정확한 추론을 가능하게 합니다. 위치가 음악에서 중요하기 때문에 모델은 절대 위치 대신 상대 위치를 사용합니다. 또한 이 모델은 메모리에 저장하고 향후 음표를 정확하게 예측하기 위해 각 음표의 두 가지 속성, 즉 피치와 지속 시간을 캡처합니다. 그런 다음 발표자는 모델을 사용하여 생성된 파헬벨 캐논 D 장조의 데모를 제시합니다. 생성된 음이 원래 구성에서 벗어나더라도 여전히 좋은 소리를 낸다는 것을 보여줍니다.