머신 러닝 및 신경망 - 페이지 47

 

CS480/680 강의 6: 합 곱 네트워크(Pranav Subramani)



CS480/680 강의 6: 합 곱 네트워크(Pranav Subramani)

강의에서는 합계와 곱으로 구성된 네트워크인 SPN(Sum-Product Networks)의 개념에 대해 논의하며, 비지수 런타임을 생성하고 해석 가능성 및 쉬운 한계 밀도 계산과 같은 많은 응용 프로그램을 갖는 다루기 쉬운 확률 모델링에 사용됩니다. 비디오는 또한 컨볼루션 신경망을 사용한 SPN의 뛰어난 성능, GAN 및 변형 워터 인코더와 같은 모델과 결합할 때 더 나은 생성 모델을 구축할 수 있는 잠재력, 적대적 견고성, 강화 학습 시나리오 및 모델링 예상 유틸리티를 포함하여 SPN에 대한 미개척 잠재적 연구 영역에 대해 언급합니다. 게임에서. 모델 해석의 이론적 보장과 학자들이 기계 학습 분야에서 상당한 기여를 할 수 있는 기회도 강조되었습니다.

  • 00:00:00 이 섹션에서 연사는 일부 곱 네트워크를 사용하여 다루기 쉬운 확률 모델링에 대해 논의합니다. 이는 합계와 곱으로 구성된 네트워크(즉, '합-곱')이며 다음을 산출하는 방식으로 확률 함수를 모델링하는 다루기 쉬운 방법입니다. 비지수 런타임. 크기에도 불구하고 sum-product 네트워크 모델은 표현성, 해석 가능성, 쉬운 한계 밀도 계산, MAP 쿼리 계산 및 우도 계산 측면에서 매우 유용하며 Convolutional Neural Networks와 결합하여 우수한 성능을 나타냅니다. 이러한 모델은 최신 기술을 약 10% 능가할 수 있는 것으로 나타났으며 Gans 및 변형 워터 인코더와 같은 다른 모델과 결합하여 더 나은 생성 모델을 만들 수 있습니다.

  • 00:05:00 이 섹션에서 발표자는 일부 제품 네트워크(SPN)의 잠재적인 연구 영역에 대해 논의합니다. 연사는 먼저 "Amnesty 데이터 세트"와 같은 모델 및 데이터 세트의 해석을 허용하는 몇 가지 윤리적 속성을 소개합니다. 신경망과 달리 이 모델은 모델이 수행하는 작업을 어느 정도 해석할 수 있는 이론적 보증을 제공합니다. SPN에 대한 몇 가지 잠재적 연구 영역에는 SPN용 기본 라이브러리 위에 기능 구축, 적대적 견고성, 일부 제품 최대 네트워크를 사용한 강화 학습 시나리오 및 게임에서 예상되는 유틸리티 모델링이 포함됩니다. 이러한 연구 분야는 대부분 미개척되어 있어 학자들이 기계 학습 분야에서 상당한 기여를 할 수 있는 기회를 제공합니다.
 

CS480/680 강의 6: EM 및 혼합 모델(Guojun Zhang)



CS480/680 강의 6: EM 및 혼합 모델(Guojun Zhang)

CS480/680 강의 6에서 Guojun Zhang 교수는 비지도 학습 및 클러스터링의 기본 사항에 대해 논의하고 혼합 모델과 데이터 클러스터링에서의 사용에 중점을 둡니다. 강의는 Expectation-Maximization 알고리즘과 Estep 및 Mstep 프로세스, 그리고 최적화 방법인 Gradient Descent를 중심으로 합니다. 제안된 잠재적인 프로젝트에는 학습 혼합 모델에서 EM 및 경사 하강법이 어떻게 작동하는지 연구하는 것이 포함되며 궁극적인 목표는 잘못된 로컬 최소값을 피하기 위해 더 나은 알고리즘을 제안하는 것입니다. 프로젝트에 필요한 수학적 배경이 기록됩니다.

  • 00:00:00 이 섹션에서 Cody는 비지도 학습 및 클러스터링의 기본 사항과 혼합 모델과의 관계를 소개합니다. 혼합 모델은 확률 분포를 조건부 분포의 볼록한 조합으로 설명하는 방법입니다. 예를 들어 가우시안 분포와 Bernoulli 분포의 혼합을 사용하여 데이터를 클러스터링할 수 있습니다. 혼합 모델에 대한 솔루션을 찾으려면 최소화할 목적 함수를 공식화해야 합니다. 이에 대한 고전적인 알고리즘은 Expectation-Maximization 알고리즘입니다.

  • 00:05:00 이 섹션에서 강사는 혼합물 모델의 최적화에서 사후 분포를 평가하고 q 함수를 최대화하는 데 사용되는 Estep 및 Mstep 프로세스에 대해 이야기합니다. 기울기 하강법은 논의되는 또 다른 최적화 알고리즘이며 최적화 프로세스에서 검색되지 않을 수 있는 일부 클러스터가 있다는 점에 유의하십시오. 제안된 잠재적인 프로젝트는 학습 혼합 모델에서 EM 및 경사 하강법이 어떻게 작동하는지 연구하고 궁극적인 목표는 더 나은 알고리즘을 제안하는 것입니다. 강사는 이 프로젝트에 수학적 배경이 필요하다고 지적합니다.
 

CS480/680 강의 6: NLP(Ashutosh Adhikari)를 위한 모델 압축



CS480/680 강의 6: NLP(Ashutosh Adhikari)를 위한 모델 압축

이 비디오에서 발표자는 NLP에 대한 모델 압축의 개념과 심층 신경망의 수와 깊이가 증가함에 따라 처리 시간 및 메모리 요구 사항의 문제에 대해 논의합니다. 모델 압축 기술을 분류하고 가장 오래된 방법인 매개변수 가지치기 및 공유를 도입합니다. 발표자는 NLP에서 모델 압축을 위한 학생-교사 시스템의 개념과 정확성을 유지하면서 더 큰 모델을 더 작은 학생 모델로 압축하기 위해 목적 함수를 사용하는 방법에 대해 자세히 설명합니다. 마지막으로 대규모 NLP 모델 개발에 대한 최근 작업의 맥락에서 모델 압축의 잠재적 중요성이 강조됩니다.

  • 00:00:00 이 섹션에서 비디오 발표자는 처리 시간 및 메모리 요구 사항과 함께 심층 신경망의 수와 깊이가 증가함에 따라 모델 압축 문제에 대해 논의합니다. 목표는 신경망에 필요한 매개변수의 수를 줄이는 동시에 정확성과 지식을 유지하여 온라인 애플리케이션에서 더 빠르고 효율적으로 배포할 수 있도록 하는 것입니다. 모델 압축 기술을 분류하고 발표자는 1990년에 Yann LeCun이 개발한 가장 오래된 방법인 매개변수 가지치기 및 공유에 대해 자세히 설명합니다. 이 프레젠테이션에서는 컴퓨터 비전에서 컨볼루션 신경망으로 성공했지만 덜 알려진 채널 가지치기 기술도 다룹니다. NLP 모델로 탐색했습니다. 마지막으로 발표자는 NLP 작업을 위한 대규모 모델 개발에 대한 최근 작업의 맥락에서 모델 압축의 잠재적 중요성을 강조합니다.

  • 00:05:00 이 섹션에서 발표자는 NLP의 모델 압축을 위한 학생-교사 시스템의 개념을 소개합니다. 교사 모델은 표현을 추출하고 더 작은 학생 모델로 압축하는 데 사용되는 더 큰 모델입니다. 목적 함수는 학생 네트워크가 분류 목표와 함께 교사 네트워크에서 학습한 모든 표현을 캡처하는 데 사용됩니다. 프루닝(Pruning)과 공유(Shared) 방법은 자세히 다루지 않았지만 어텐션 메커니즘과 변환기는 향후 강의에서 다룰 것입니다. 발표자는 이러한 거대한 모델이 기본적으로 핵심에 있는 변압기이며 반복적으로 적용된다는 점에 주목합니다.
 

CS480/680 강의 7: 가우시안 혼합



CS480/680 강의 7: 가우시안 혼합

가우시안의 혼합에 대한 강의에서 발표자는 각 클래스에 대한 사전 분포를 구성하여 분류에 모델을 사용하는 방법을 설명합니다. 이를 통해 주어진 클래스에 대한 확률을 베이즈 정리를 사용하여 확률 모델을 구성할 수 있습니다. 데이터 포인트. 강의는 또한 특정 클래스에 속하는 데이터 포인트의 가능성을 계산하는 과정과 이것이 클래스 예측을 결정하는 데 사용되는 방법을 다룹니다. 강의 노트는 softmax 함수와 arc max 분포 간의 관계와 가우시안의 모양과 경계가 공분산 행렬에 의해 결정되는 방식을 탐구합니다. 마지막으로 강의에서는 최대 우도 학습 프로세스와 혼합 가우시안 모델에 대한 평균 및 공분산 행렬을 추정하는 데 어떻게 사용할 수 있는지 자세히 설명합니다.

  • 00:00:00 이 섹션에서 강사는 생성 모델 제품군의 통계 모델인 분류를 위해 가우시안 혼합을 사용하는 방법에 대해 설명합니다. 가우시안 분포를 사용하여 데이터의 부정확성과 노이즈를 모델링하는 방법을 설명합니다. 이 분포는 텍스트 및 이미지 생성과 같은 애플리케이션용 데이터 세트 생성을 시뮬레이션하는 데 사용할 수 있습니다. 강의에서는 선형 회귀의 예와 가우시안 분포를 사용하여 생성 모델로 변환할 수 있는 방법을 제공합니다.

  • 00:05:00 이 섹션에서 강사는 트레이닝 세트와 유사한 데이터를 생성할 수 있는 모델을 통해 유사한 사람들의 이미지를 생성할 수 있는 가능성에 대해 논의합니다. 강사는 선형 회귀를 예로 사용한 다음 각 클래스에 대한 사전 분포가 구성되는 분류로 이동합니다. 이 아이디어를 기반으로 베이즈 정리를 사용하여 주어진 데이터 포인트에 대한 클래스의 확률을 추정하는 확률 모델을 구성할 수 있습니다. 강의는 이것이 베이지안 학습이 아니라 오히려 베이지안 추론임을 강조한다.

  • 00:10:00 이 섹션에서 강사는 Mixture of Gaussians 모델에서 만든 가정과 베이지안 추론을 사용하여 클래스의 사후 확률을 계산하는 방법에 대해 설명합니다. 이 모델은 다항 분포를 사용하여 나타낼 수 있는 범주형 클래스의 수가 한정되어 있다고 가정합니다. 클래스 조건부 분포는 각 클래스에 대해 동일한 공분산 행렬을 갖는 가우시안 분포라고 가정합니다. 우도는 사전 및 클래스 조건부 분포의 산물이며 클래스에 의존하지 않는 첫 번째 용어를 취소하여 단순화할 수 있습니다. 이 단순화는 일반적으로 항상 유지되는 것은 아니지만 모든 클래스에 대해 동일한 공분산 행렬을 가정하기 때문에 가능합니다.

  • 00:15:00 이 섹션에서 발표자는 사후 함수를 로지스틱 시그모이드 함수로 표현할 수 있는 방법을 설명합니다. 이 함수는 임의의 실수를 취하고 0과 1 사이의 출력을 생성하므로 신경망에서 특히 많이 사용됩니다. 그들은 다음 식을 유도합니다. 사후에 대해 W(transpose)X + W_0으로 표현될 수 있음을 보여줍니다. 여기서 W는 x의 계수이고 W_0은 X에 의존하지 않는 상수 부분입니다. 로지스틱 함수는 특정 정의를 가지며 다음을 생성하는 데 사용됩니다. 확률로 해석할 수 있는 출력.

  • 00:20:00 이 섹션에서 강사는 가우시안 혼합의 맥락에서 로지스틱 함수의 사용에 대해 논의합니다. 로지스틱 함수는 출력을 0과 1 사이로 스쿼시하는 데 사용되며 X의 계수를 매개변수로, 상수 부분을 W naught로 처리하여 특정 정의를 얻을 수 있습니다. 평균 및 공분산 행렬과 클래스 확률을 함께 결합하여 원하는 매개변수를 제공할 수 있습니다. 이는 특정 클래스에 속하는 데이터 포인트의 사후 확률을 계산하는 데 도움이 됩니다. 강사는 또한 데이터 포인트의 클래스 확률을 찾는 데 가우시안 분포로 표현되는 클래스 조건의 사용을 설명합니다. 이러한 클래스 조건은 다른 종 모양을 가질 수 있으며 사후는 데이터 포인트와 일치하는 클래스에 대해 더 높은 확률을 갖습니다.

  • 00:25:00 비디오의 이 섹션에서 강사는 가우시안 혼합 모델에 대해 특정 클래스에 속하는 데이터 포인트의 우도를 계산하는 방법을 설명합니다. 두 가우스의 평균이 다르고 공분산 행렬이 같다고 가정하면 점의 위치에 따라 평균이 점에 가까운 가우스의 클래스에 속할 확률이 자연스럽게 높아집니다. 클래스 조건부 분포에 대한 공식이 제공되며 사후가 계산되면 해당 클래스가 0.5보다 큰 확률을 기반으로 클래스 예측을 수행할 수 있습니다. 강사는 또한 예측을 할 때 흥미로운 두 클래스 간의 경계를 보여줍니다.

  • 00:30:00 이 섹션에서 강의는 두 개의 가우시안이 있고 동일한 공분산 행렬을 가지고 있다고 가정하여 가우시안 혼합을 사용하는 클래스 경계와 경계가 어떻게 보이는지 탐구합니다. 경계는 각 클래스가 동일한 확률(0.5)에서 발생합니다. 이는 W 전치 X bar = 0으로 단순화되며, 이는 구분 기호가 선형임을 의미합니다. 이것은 단순 모델과 선형 구분 기호이며 두 개의 클래스가 있을 때 사용됩니다. 2개 이상의 클래스가 있는 경우 동일한 계산이 수행되고 결과는 신경망에서도 일반적으로 사용되며 가우시안 계산의 혼합에 뿌리를 둔 softmax 함수입니다.

  • 00:35:00 이 섹션에서 강사는 softmax 함수와 arc max 분포 사이의 관계와 왜 softmax라고 불리는지 설명합니다. arc max 분포는 가장 높은 값을 가진 분류자에 대해 확률 1을 할당하고 다른 모든 클래스에 대해서는 0을 할당하는 반면, softmax 함수는 모든 클래스에 0이 아닌 확률을 할당하여 더 부드러운 버전을 제공합니다. 지수 함수는 가우시안 혼합을 고려하고 여러 클래스에 대한 사후 분포를 계산할 때 발생합니다. 다른 클래스의 경계는 사후 분포에도 표시될 수 있습니다. 강의 노트에서는 softmax 함수가 출력 클래스를 결정하기 위해 신경망에서 널리 사용된다고 설명합니다.

  • 00:40:00 이 섹션에서 강사는 공분산 행렬에 의해 가우시안의 모양과 경계가 어떻게 결정되고 이것이 클래스 분리에 어떤 영향을 미치는지 설명합니다. 서로 다른 공분산 행렬을 사용하면 비선형 경계를 만들 수 있지만 동일한 것을 사용하면 선형 경계가 됩니다. 강사는 각 클래스의 확률을 나타내는 pi, mu 1, mu 2 및 Sigma와 같은 가우시안 모델의 혼합, 가우시안의 평균 및 잡음 공분산 행렬의 검정력을 각각 추정하는 방법에 대해서도 설명합니다. 이를 위해 최대 우도 방법이 사용됩니다.

  • 00:45:00 이 섹션에서 강사는 주요 문제가 데이터의 우도를 최대화하는 모델의 검정력을 찾는 최대 우도 학습 과정을 설명합니다. 이 최적화 문제를 해결하기 위해 강사는 식의 로그를 취하여 단순화합니다. 결과 표현식은 복잡해 보이지만 실제로는 훌륭하고 단일 전역 최적값을 갖는 오목한 형태를 가집니다. 이 방법을 사용하면 클래스 0과 1에 편리한 레이블을 사용하여 두 클래스에 대한 클래스 조건을 하나의 표현식으로 조합할 수 있습니다.

  • 00:50:00 강의의 이 섹션에서 화자는 대수 우도 함수의 최대화가 어떻게 오목 함수에 해당하는지에 대해 논의합니다. 가우시안 모델의 혼합. 각 클래스의 확률은 해당 클래스에 속하는 데이터의 일부를 취하여 추정할 수 있으며, 이는 최대 우도의 원칙에 의해 확인되는 직관적인 접근 방식입니다. 마찬가지로 각 클래스의 입력 평균은 모든 데이터 포인트의 합계를 해당 클래스의 포인트 수로 나누어 추정할 수 있습니다. 이러한 추정은 이러한 매개변수를 추정하는 직관적인 접근 방식에 대한 공식적인 정당성을 제공합니다.

  • 00:55:00 이 섹션에서 화자는 최대 우도 학습을 사용하여 혼합 가우시안 모델에 대한 평균 및 공분산 행렬을 추정하는 프로세스에 대해 설명합니다. 목표 출력 데이터가 제공되고 우도 함수가 최대화되어 평균 및 공분산 행렬에 대한 올바른 값을 결정합니다. 공분산 행렬을 추정할 때 각 클래스에 대한 경험적 공분산 행렬의 선형 조합을 취하고 각 클래스에 속하는 데이터 포인트의 수로 가중치를 부여합니다. 발표자는 이 과정에서 베이지안 추론과 최대 우도 학습이 모두 사용되지만 토론의 첫 번째 부분은 학습이 아니라 베이즈 정리를 사용한 추론이라고 설명합니다.

  • 01:00:00 이 섹션에서 발표자는 가우시안 혼합의 기계 학습 부분이 가우시안 모델의 각 기능에 필요한 검정력을 결정하는 것과 관련이 있다고 설명합니다. 이를 위해 최대 우도 학습을 사용하지만 베이지안 학습도 가능합니다. 그러나 강의는 최대 우도 학습만 다룰 것입니다. 그런 다음 연사는 섹션을 마무리하고 다음 수업에서 분류를 위해 이 주제의 확장을 다룰 것이라고 말합니다.
 

CS480/680 강의 8: 로지스틱 회귀 및 일반화 선형 모델



CS480/680 강의 8: 로지스틱 회귀 및 일반화 선형 모델

"CS480/680: 로지스틱 회귀 및 일반화 선형 모델"에 대한 강의의 첫 부분에서는 분포의 지수군에 대한 아이디어와 분류 문제에 사용되는 강력한 기술인 로지스틱 회귀와의 관계를 소개합니다. 강의에서는 로지스틱 회귀는 주어진 데이터셋에 대해 사후를 모델링하는 최상의 로지스틱 함수를 맞추는 것을 목표로 하며, 차원과 가중치가 적은 문제의 경우 뉴턴의 방법을 사용하여 목적 함수의 최소값인 볼록함수를 찾을 수 있다고 설명합니다. 기능. 강사는 또한 추천 시스템 및 광고 배치에서 로지스틱 회귀의 중요성을 강조합니다. 여기서 기술의 단순성과 효율성은 사용자 특성 및 행동을 기반으로 개인화된 추천을 만드는 데 이상적입니다.

강의는 또한 로지스틱 회귀 및 일반화 선형 모델의 주제를 다룹니다. 강사는 Hessian 행렬의 특이점 문제 및 임의의 큰 가중치로 인한 과적합 문제와 같은 로지스틱 회귀에 대한 Newton 방법의 한계에 대해 설명합니다. 과적합을 방지하기 위해 정규화가 제안됩니다. 강사는 비선형 구분 기호를 효율적으로 사용하는 데 사용할 수 있는 일반화 선형 모델(GLM)을 소개합니다. GLM은 매핑이 비선형인 한 선형 회귀 및 분류가 비선형 방식으로 수행될 수 있는 새로운 공간에 대한 입력 매핑을 포함합니다. 강의는 또한 비선형 회귀 및 분류를 수행하는 데 사용할 수 있는 기본 함수 및 해당 유형을 다룹니다.

  • 00:00:00 비디오의 이 섹션에서 강의는 가우시안 분포를 가정하는 가우시안 혼합을 기반으로 한 분류에 대한 통계 모델의 한계에 대해 논의합니다. 이러한 한계를 해결하기 위해 지수군으로 알려진 광범위한 분포를 도입하여 로지스틱 회귀라는 강력하고 유연한 기술을 개발했습니다. 강의는 가우스의 혼합을 설명하기 위해 칠판에 그림을 그리며 데이터가 특정 형태의 클러스터를 형성할 때 이 방법이 적합하다고 설명합니다. 그러나 데이터가 이러한 모양을 갖지 않는 경우 가우시안 분포의 가정을 완화해야 합니다. 이 강의에서는 분포의 지수군에 대한 아이디어를 소개하고 로지스틱 회귀 개발의 중요성을 설명합니다.

  • 00:05:00 이 섹션에서 발표자는 Bernoulli, Poisson 및 Gamma와 같은 많은 유명한 분포를 포함하는 Exponential Family에 대해 논의합니다. 제품군은 제품 밀도 함수가 지수를 갖기 때문에 지수라고 합니다. 지수는 세타에 선형 항, X에 일부 항, 세타와 X에 다른 항이 있습니다. 군에서 다른 분포의 핵심은 정확한 함수입니다. T of X, a of theta, B of X. 이 계열의 장점은 분포를 시그모이드 로지스틱 함수의 형태로 다시 작성할 수 있다는 것입니다. 이 특성을 통해 연사는 약간의 노이즈로 교란되는 데이터에 대한 가정을 하고 관련 분포의 매개변수를 추정하는 대신 로지스틱 함수의 매개변수를 직접 추정하는 것이 목표인 확률적 판별 모델을 도입할 수 있습니다.

  • 00:10:00 이 섹션에서는 주어진 데이터 세트에 대한 사후를 모델링하는 최상의 로지스틱 함수를 맞추거나 찾는 데 사용되는 기술인 로지스틱 회귀에 대해 배웁니다. 사후는 여러 클래스가 있을 때마다 소프트맥스 분포를 따릅니다. 주어진 데이터에서 사후를 최대화하는 W를 찾고 싶습니다. 이 최적화 문제는 음수 부호를 도입하여 최소화 문제로 변환됩니다. 목표는 올바른 클래스 Y의 확률이 대부분의 데이터 포인트에 대해 가능한 한 높도록 보장하는 최상의 W를 찾는 것입니다.

  • 00:15:00 이 섹션에서 강사는 로지스틱 회귀와 분류 문제에 사용할 수 있는 방법에 대해 설명합니다. 목표는 주관식을 최소화하는 W를 찾는 것이지만 이 기법을 로지스틱 회귀라고 하지만 실제로는 분류 문제라는 점에 유의해야 합니다. 그러나 아이디어는 로지스틱 회귀는 숫자 값인 X가 주어진 클래스의 사후 확률을 추정하려고 하기 때문에 회귀의 한 형태라는 것입니다. 강사는 계속해서 이 최적화 문제를 해결하기 위해 반복적인 방법이 필요하다고 설명합니다. 닫힌 형식의 표현식에서 변수를 분리할 수 있는 방법이 없기 때문입니다.

  • 00:20:00 강의의 이 섹션에서 강사는 로지스틱 회귀에서 비선형 방정식을 처리하는 방법에 대해 설명합니다. 로지스틱 회귀의 목적 함수는 볼록 함수로 표시되어 전역 최적값을 쉽게 찾을 수 있습니다. 강사는 기울기 하강법이나 뉴턴의 방법과 같은 반복적인 방법을 사용하여 목적 함수의 최소값을 찾을 수 있다고 설명합니다. 경사 하강법을 사용할 수는 있지만 효율적이지 않으며 올바른 단계 크기를 결정하기 어렵습니다. Newton의 방법은 훨씬 빠르고 더 적은 단계가 필요하므로 최적화를 위한 인기 있는 선택입니다.

  • 00:25:00 강의의 이 섹션에서 연사는 로지스틱 회귀에 대한 뉴턴의 방법이라는 방법에 대해 논의합니다. 이 방법은 경사 하강법보다 개선된 것입니다. 뉴턴의 방법은 W에 대한 초기 추측으로 시작한 다음 W에서 Hessian의 역수 곱하기 마지막 함수의 기울기를 빼는 것입니다. 이 방법은 본질적으로 반복되는 3개의 가중 최소 제곱을 포함하고 직선 대신 2차 함수로 목표를 근사화하여 곡선의 더 나은 근사와 더 빠른 수렴을 허용합니다. 이 방법의 장점은 2차 함수가 근사될 때마다 최소값을 닫힌 형태로 최적으로 풀 수 있어 스텝 길이를 계산할 필요가 없다는 것입니다.

  • 00:30:00 이 섹션에서 발표자는 각 단계에서 2차 방정식으로 함수를 근사하고 해당 2차 곡선의 최소값을 찾아 함수를 다시 피팅하는 2차 최적화 방법인 Newton의 방법을 소개합니다. 이것은 2차 함수를 최소화하는 경사 하강법과 다릅니다. 뉴턴의 방법은 일반 선형 회귀보다 2차 함수가 곡선에 더 잘 맞기 때문에 훨씬 더 빠르고 정확할 수 있지만 모든 2차 도함수를 포함하고 고차원 문제에서 비용이 많이 들 수 있는 Hessian을 계산해야 합니다. 따라서 크기와 무게가 적은 문제에 더 적합합니다.

  • 00:35:00 이 섹션에서 강사는 Newton의 방법을 사용하여 2차 함수로 로지스틱 회귀의 복잡한 비선형 함수를 근사화하는 근거를 설명합니다. 경사 하강법이 더 저렴하지만 2차 함수로 근사하는 것이 더 적합하여 더 나은 단계를 허용합니다. 이차 함수의 최소값을 찾는 것도 계산적으로 가능합니다. Newton의 방법은 non-convex 목적에 대한 전역 최적을 찾는 것을 보장하지 않지만 로지스틱 회귀 함수는 볼록하므로 단일 전역 최적이 있으며 Newton의 방법은 어디에서나 시작할 수 있습니다. Newton의 방법을 적용하기 위해 계산해야 하는 주요 사항은 Hessian이며, 이는 1의 행과 시그마의 대각선 행렬이 있는 데이터 세트를 포함하는 표현식을 도출하는 파생을 통해 얻을 수 있습니다.

  • 00:40:00 이 섹션에서 강사는 로지스틱 회귀와 특히 추천 시스템 및 광고 배치에 대한 기계 학습 기술로서의 중요성에 대해 논의합니다. 로지스틱 회귀는 사용자에게 제품 추천 또는 광고 추천과 같은 추천을 제공하는 데 사용됩니다. 아이디어는 사용자가 클릭할 확률이 높은 광고를 표시하는 것이며, 이는 분류 문제로 모델링할 수 있습니다. 강사는 또한 Hessian의 구조와 로지스틱 회귀 프로그래밍 및 Newton 방법 적용에 중요한 수식을 사용하여 이를 구하는 방법을 제시합니다. 일부 학생들은 수학이 압도적이라고 생각할 수 있지만 이러한 방법이 어떻게 발생하고 왜 작동하는지 알아보기 위해 이러한 방법을 이해하는 것이 중요합니다.

  • 00:45:00 이 섹션에서는 사용자의 특성과 행동을 기반으로 제품이나 앱과 같은 사용자에게 추천하는 방법으로 로지스틱 회귀의 개념을 설명합니다. 로지스틱 회귀는 내적 계산에 의존하는 예측과 함께 구현하는 것이 간단하고 유연하며 효율적이기 때문에 이러한 유형의 문제에 자주 사용됩니다. 추천을 위해 고려할 수 있는 기능의 예로는 특정 앱이 이미 다운로드 및 설치되었는지 여부, 연령, 성별, 위치 및 회사 또는 스마트폰이 사용자에 대해 가지고 있는 기타 관련 정보가 있습니다.

  • 00:50:00 이 섹션에서 강사는 이벤트 발생 확률이 0.5보다 크거나 같은 두 클래스의 분류 문제에 로지스틱 회귀를 사용하는 방법을 설명합니다. 여러 클래스가 있는 경우 모든 클래스 K에 대한 벡터 W와 함께 소프트맥스 분포를 사용할 수 있습니다. 강사는 로지스틱 회귀가 내적 계산만 포함하므로 예측을 간단하게 만들고 희소성을 활용하여 효율적으로 만들 수 있다고 강조합니다. 계산의 일부를 마비시킵니다.

  • 00:55:00 이 섹션에서 발표자는 로지스틱 회귀의 효율성과 희소성을 활용하고 계산을 병렬화하여 리소스가 적은 장치에서 실행할 수 있는 방법에 대해 설명합니다. 내적 계산은 0개 항목을 무시할 수 있으므로 수백만 개의 항목이 포함된 긴 벡터를 더 빠르게 계산할 수 있습니다. 학습 모델은 빠르고 확장 가능한 예측이 필요한 추천 시스템과 같은 시스템에 이상적인 GPU와 병렬화할 수도 있습니다. 또한 기능 확장이 쉽고 모든 것을 재설계하는 대신 확장만 하면 됩니다.

  • 01:00:00 이 섹션에서 교수는 로지스틱 회귀에 대한 뉴턴 방법의 한계와 과적합 문제에 대해 논의합니다. Newton의 방법은 빠른 최적화 기술이지만 대규모 데이터 세트와 수백만 개의 기능에 대해 확장할 수 없습니다. 로지스틱 회귀는 데이터에 너무 잘 맞는 전역 최적값을 찾는 볼록 최적화로 인해 쉽게 과대적합되는 경향이 있습니다. 과적합은 Hessian 행렬에 특이점을 발생시켜 Newton의 방법을 적용하는 것을 불가능하게 만들 수 있습니다. 로지스틱 회귀의 시그모이드 함수는 0에서 1로 이동하지만 점근적으로 1에 도달하지 않으므로 1에 가까운 확률을 달성하려면 W 전치 X 막대가 임의로 커야 과적합됩니다.

  • 01:05:00 이 섹션에서 강사는 로지스틱 회귀 모델의 과적합 문제에 대해 논의합니다. 그들은 W transpose X bar가 무한대로 가면서 W의 크기도 무한대가 되어 가중치가 임의로 커질 수 있다고 설명합니다. 또한 Hessian은 시그모이드 함수로 인해 0이 되는 경향이 있어 Hessian의 역을 수치적으로 계산할 수 없기 때문에 Newton의 방법을 적용하기 어렵습니다. 과적합을 방지하기 위해 강사는 가중치의 크기를 최소화하기 위해 페널티 항을 추가하는 정규화 사용을 제안합니다. 이것은 또한 특이점 문제를 방지하는 데 도움이 됩니다.

  • 01:10:00 비디오의 이 섹션에서 강사는 Newton의 방법을 사용하여 페널티 항을 추가하여 로지스틱 회귀 및 일반화 선형 모델에서 과적합을 방지하는 방법에 대해 설명합니다. 그러나 로지스틱 회귀의 한계는 클래스 간의 경계가 항상 선형이라는 것입니다. 이 제한을 극복하고 비선형 구분 기호로 작업하기 위해 강사는 매핑이 비선형인 경우 선형 회귀 및 분류가 비선형 방식으로 수행될 수 있는 새로운 공간에 대한 입력 매핑을 포함하는 일반화된 선형 모델을 소개합니다. 선의. 이 간단한 접근 방식은 비선형 설정에서 작동하는 선형 모델의 일반화를 허용하고 이 과정의 뒷부분에서 다루는 커널 방법의 기초 역할을 합니다.

  • 01:15:00 이 섹션에서 발표자는 비선형 회귀 및 일반화된 선형 모델을 사용하여 함수를 근사화하는 방법에 대해 설명합니다. 아이디어는 각 입력 X를 새 기능으로 매핑하는 Phi로 표시된 매핑 함수를 사용하여 원래 공간의 데이터를 새 공간으로 매핑하는 것입니다. 매핑 기능은 사용자가 원래 공간에서 새로운 공간으로 이동할 수 있도록 매핑을 정의하여 비선형으로 만들어 비선형을 캡처할 수 있는 기본 기능을 나타냅니다. 목표는 가중치와 같은 계수를 찾아 최상의 함수와 해당 가설 공간을 얻는 것입니다. 궁극적으로 이 기법을 사용하면 암묵적으로 원래 공간의 비선형성을 캡처하면서 선형 회귀 또는 분류를 수행할 수 있습니다.

  • 01:20:00 이 섹션에서 강사는 로지스틱 회귀 및 일반화 선형 모델을 사용하여 데이터 포인트를 분류하는 방법을 설명합니다. 이 프로세스에는 기본 함수를 사용하여 입력 공간을 더 높은 차원의 공간으로 매핑한 다음 이 더 높은 차원에서 데이터를 분리하기 위한 최적의 초평면을 검색하는 작업이 포함됩니다. 강사는 적절한 기저 함수를 선택하려면 함수의 가능한 공간에 대한 사전 지식이 필요하지만 학습 기저 함수에 사용할 수 있는 기술이 있음을 강조합니다. 또한 강사는 모델의 가중치가 초평면에 수직인 벡터를 정의하는 방법을 설명합니다.

  • 01:25:00 이 섹션에서 강사는 로지스틱 회귀 및 일반화 선형 모델에 사용할 수 있는 기본 함수 및 해당 유형에 대해 설명합니다. 강사는 X의 모든 거듭제곱을 어느 정도까지 취함으로써 다항 함수를 확장하는 데 사용할 수 있기 때문에 다항 기저 함수를 먼저 소개합니다. 그런 다음 강사는 비선형 기저 함수의 두 가지 예인 가우스 함수와 시그모이드 함수를 제시합니다. Gaussian 기저 함수는 mu와 s를 변경하여 사용할 수 있습니다. 여기서 mu는 x축에서 범프의 위치를 나타내고 s는 범프의 너비를 나타냅니다. 시그모이드 함수는 비선형 함수이지만 확률 분포가 아니며 X 빼기 mu J를 s로 나눈 값을 기본 함수로 하여 Sigma hat을 적용하여 사용할 수 있습니다. 기본 함수로 사용할 수 있는 다른 비선형 함수에는 웨이블릿, 사인 및 코사인이 있습니다.

  • 01:30:00 강의의 이 섹션에서 연사는 비선형 회귀 및 분류를 암시적으로 수행하기 위해 선형 모델을 일반화하는 방법에 대해 논의합니다. 입력 변수 X를 새로운 공간에 대한 입력인 X의 파이로 대체하여 다양한 비선형 함수를 활용할 수 있습니다. Phi 함수는 원래 입력 X의 다른 부분에 적용할 수 있으며 다항식 또는 가우시안과 같은 기본 함수 집합을 사용하여 기본 함수를 캡처하는 데 사용할 수 있습니다. 이것으로 비선형 로지스틱 회귀 및 일반화 선형 모델에 대한 기본적인 이해를 제공하는 항목을 마칩니다.
 

CS480/680 강의 9: 퍼셉트론과 단층 신경망



CS480/680 강의 9: 퍼셉트론과 단층 신경망

이 강의에서는 분류를 위한 선형 구분 기호를 생성하는 기본 유형인 퍼셉트론에 중점을 둔 신경망을 소개합니다. 이 강의에서는 출력을 생성하기 위해 활성화 함수를 통과하는 입력의 선형 조합을 계산하는 데 가중치를 사용하는 방법과 AND, OR 및 NOT 게이트와 같은 논리 게이트를 근사화하는 데 서로 다른 가중치를 사용할 수 있는 방법을 탐구합니다. 강사는 피드포워드 신경망과 퍼셉트론 학습 알고리즘이 이진 분류에 사용되는 방법과 경사 하강법이 가중치를 최적화할 수 있는 방법에 대해 설명합니다. 데이터를 분리하기 위해 선을 사용하는 것의 한계에 대해 논의하고, 가능한 해결책으로 로지스틱 시그모이드 활성화 함수를 소개하며, 로지스틱 시그모이드 활성화 함수를 사용하여 가중치를 훈련할 수 있는 방법에 중점을 둡니다.

퍼셉트론과 단층 신경망에 대한 이 강의에서는 제곱 오차를 최소화하기 위한 로지스틱 시그모이드 활성화 함수의 사용과 순차적 경사하강법에서 중요한 매개변수인 학습률의 도입을 다룹니다. 강사는 또한 휴지통 기능을 사용하여 임의의 기능에 근접하도록 여러 계층이 있는 신경망을 구성하는 방법과 역전파를 사용하여 네트워크가 임의의 기능을 학습하도록 훈련하는 방법을 보여줍니다. 강사는 음성 인식, 컴퓨터 비전, 기계 번역 및 단어 삽입과 같은 다양한 문제를 해결하는 데 널리 사용되는 신경망의 다양성과 효율성을 강조합니다.

  • 00:00:00 강의의 이 섹션에서는 숨겨진 계층이 없는 기본 유형의 신경망인 퍼셉트론을 특히 강조하여 신경망에 대한 간략한 소개에 중점을 둡니다. 분류를 위한 선형 구분 기호를 생성하고 신경망의 역사에서 중요한 역할을 합니다. 나중에 더 복잡한 형태의 신경망이 더 일반화됩니다. 강의는 또한 뇌가 작동하는 방식과 계산을 통해 어떻게 에뮬레이트될 수 있는지에 대해 다룹니다. 뇌는 뉴런으로 구성되어 있지만 컴퓨터는 전기 신호를 통해 통신하는 논리 게이트를 사용하여 작동하므로 계산이 순차적으로 이루어집니다. 그러나 뇌의 신호는 병렬로 전파되어 더 견고해집니다.

  • 00:05:00 이 섹션에서 연사는 인간의 두뇌와 비교하여 컴퓨터의 취약성과 신경망이 두뇌 조직을 모방하는 방법에 대해 논의합니다. 신경망은 실제 신경망의 뉴런에 해당하는 단위라는 노드와 시냅스에 해당하는 링크로 구성됩니다. 계산은 장치 간에 전송되는 숫자 신호를 통해 수행됩니다. 목표는 올바른 패턴이 입력될 때 뉴런을 활성화하여 정규화 기술을 사용하여 일부 뉴런의 삭제를 처리할 수 있는 보다 강력한 계산을 허용하는 것입니다. 신경망에 대한 영감은 실제 생물학적 신경망에서 화학 신호의 구성 및 전파에서 비롯됩니다.

  • 00:10:00 이 섹션에서 강사는 입력의 선형 조합을 계산하고 새 신호를 생성하기 위해 신경망에서 가중치를 사용하는 방법을 설명합니다. 이 새로운 신호는 출력을 생성하기 위해 약간의 비선형성을 적용하는 활성화 기능을 통해 전달됩니다. 네트워크의 각 노드는 입력을 수신하고 가중치로 크기를 조정하고 활성화 함수를 적용하여 네트워크의 다음 노드로 전달되는 출력을 생성합니다. 강사는 가중치가 네트워크의 동작에 중요하며 성능을 향상시키기 위해 학습 프로세스 중에 조정될 수 있다고 강조합니다.

  • 00:15:00 이 섹션에서 강사는 신경망의 단위가 각 입력에 할당된 가중치를 기반으로 입력의 선형 조합의 비선형 함수를 계산하는 방법에 대해 설명합니다. 입력 자체는 비선형 활성화 함수를 거친 이전 노드일 수 있습니다. 신경망은 입력을 새로운 공간에 매핑하는 기본 함수를 만드는 대신 네트워크의 일부가 입력을 새 공간에 다시 매핑하는 방법을 학습할 수 있도록 합니다. 비선형 활성화 함수는 네트워크를 보다 표현력 있게 만들기 위해 필요하며 강사는 이러한 함수의 두 가지 인기 있는 예인 임계값 활성화 함수와 시그모이드 함수를 설명합니다.

  • 00:20:00 강의의 이 섹션에서 교수는 신경망에서 활성화 기능의 사용, 특히 쓰레기 보유 기능과 시그모이드 기능에 대해 논의합니다. 그는 쓰레기 보유 기능이 0과 1을 출력하는 데 유용하지만 매끄럽고 연속적이지 않아 그래디언트 기반 방법과 함께 사용하기 어려울 수 있다고 설명합니다. 시그모이드 함수는 쓰레기 줍기 함수의 부드러운 버전으로 모양은 같지만 기울기를 조절할 수 있습니다. 그런 다음 교수는 AND, OR 및 NOT 게이트와 같은 기본 게이트를 에뮬레이트할 수 있는 신경망의 단위 설계를 탐구합니다. 그는 NAND 게이트를 에뮬레이트할 수 있는 쓰레기 보유 활성화 기능이 있는 장치의 예를 시연하고 입력의 끝에 해당하는 출력을 허용하기 위해 몇 가지 가중치를 제시할 수 있는지 질문합니다.

  • 00:25:00 이 섹션에서 강사는 퍼셉트론 신경망에서 논리 게이트(예: 게이트 아님)를 에뮬레이트하기 위해 다양한 가중치를 사용할 수 있는 방법에 대해 설명합니다. 퍼셉트론에 사용되는 가중치를 조정함으로써 각 게이트에 대해 원하는 진리표 출력을 생성하도록 신경망을 설계할 수 있습니다. 강사는 게이트가 아닌 엔드 게이트 또는 게이트에 대한 가중치를 포함하여 각 논리 게이트를 에뮬레이션하는 데 사용할 수 있는 다양한 가중치의 예를 제공합니다.

  • 00:30:00 이 섹션에서 강사는 네트워크의 두 가지 광범위한 클래스에 대해 설명합니다. 피드포워드 신경망은 한 방향으로 흐르는 노드의 방향성 그래프로 구성됩니다. 순환 신경망은 본질적으로 순환적이며 다양한 길이의 입력을 처리하는 데 유용하여 자연 언어 처리에서 널리 사용됩니다. 강사는 피드포워드 신경망에 중점을 두고 2개의 입력 단위, 2개의 단위가 있는 은닉층 1개, 출력 단위 1개로 간단한 예를 그립니다. 레이어 사이의 연결 가중치를 변경하여 부울 함수의 근사치를 허용하는 끝 또는 매듭 단위를 에뮬레이션할 수 있다고 설명합니다.

  • 00:35:00 이 섹션에서 강사는 본질적으로 이진 분류에 사용되는 간단한 단일 계층 피드포워드 신경망인 퍼셉트론의 개념을 설명합니다. 각 XY 쌍에 대한 데이터 세트를 반복하고 생성된 출력이 올바른지 여부에 따라 가중치를 조정하여 각 출력 단위가 개별적으로 훈련되는 퍼셉트론 훈련 알고리즘에 대해 설명합니다. 강의에서는 신경망의 가중치에 대한 행렬 표현의 사용에 대해서도 설명합니다.

  • 00:40:00 이 섹션에서 교사는 임계값 함수를 통과하는 단위를 처리하는 데 사용되는 퍼셉트론 학습 알고리즘을 설명합니다. 이 알고리즘은 네트워크 계산이 정확하면 가중치를 동일하게 유지할 수 있지만 출력이 올바르지 않으면 단순히 입력 X를 가중치에 더하거나 빼서 조정해야 하는 매우 간단한 규칙을 적용합니다. , 출력에 따라 다릅니다. 목표는 출력이 양수인 경우 입력과 가중치의 선형 조합을 늘리고 음수인 경우 감소하여 퍼셉트론이 출력을 계산하여 정답에 더 가깝게 만드는 것입니다. 핵심은 쓰레기 보유 함수가 선형 조합이 양수일 때 1을 반환하고 음수일 때 0을 반환한다는 사실을 활용하는 것입니다.

  • 00:45:00 이 섹션에서 화자는 경사 하강법을 사용하여 퍼셉트론 알고리즘의 가중치를 최적화하는 방법에 대해 설명합니다. 손실 함수는 오분류 오류로 정의되며, 여기서 모든 데이터 포인트 X & Y에 대해 YW 전치 X의 곱이 음수일 때 오분류된 것으로 간주됩니다. 포인트는 클래스 1에 속하면 양수이고 클래스 -1에 속하면 음수로 예상됩니다. 최소화할 수 있는 목표를 얻기 위해 잘못 분류된 점을 합산합니다. 기울기는 최적화를 위해 기울기의 반대 방향으로 단계를 수행하기 위해 목표에 대해 계산됩니다.

  • 00:50:00 퍼셉트론 및 단일 레이어 신경망 강의의 이 섹션에서 교수는 퍼셉트론 알고리즘에서 가중치를 업데이트하기 위해 순차 처리와 함께 경사 하강법을 사용하는 방법에 대해 설명합니다. 알고리즘은 선형적으로 분리 가능한 데이터에 의존하여 궁극적으로 모든 교육 인스턴스를 올바르게 분류합니다. 데이터가 선형적으로 분리 가능한 경우에만 임계값 퍼셉트론 학습 알고리즘이 수렴된다는 정리가 제시됩니다. 섹션은 선형적으로 분리 가능한 데이터 대 비선형적으로 분리 가능한 데이터의 설명 및 시각화로 끝납니다.

  • 00:55:00 강의의 이 섹션에서 교수는 데이터셋을 선으로 분리하려는 시도의 한계에 대해 논의하고 임계 활성화 함수 대신 로지스틱 시그모이드 활성화 함수를 사용할 가능성을 소개합니다. 로지스틱 시그모이드는 비선형일 수 있지만 여전히 각 클래스에 대해 확률이 0.5인 지점에서 선형 구분 기호를 생성합니다. 따라서 로지스틱 시그모이드를 사용하면 여전히 선형 구분 기호와 로지스틱 회귀와 동일한 가설 공간이 제공됩니다. 그런 다음 교수는 로지스틱 시그모이드 활성화 기능을 사용하여 퍼셉트론의 가중치를 훈련하는 방법에 대한 문제를 해결합니다.

  • 01:00:00 이 섹션에서 연사는 목표를 정의하고 로지스틱 시그모이드 활성화 기능을 사용하여 퍼셉트론의 제곱 오차를 최소화하는 접근 방식에 대해 설명합니다. 최대 가능성에 대한 알고리즘은 본질적으로 로지스틱 회귀와 동일하지만 제곱 오차를 최소화하려면 기울기를 찾고 그 방향으로 조치를 취해야 한다고 설명합니다. 그들은 또한 순차적 경사 하강법에서 단계 크기를 정의하기 위해 학습 속도를 사용하는 아이디어를 소개하고 종종 조정해야 하는 중요한 매개변수라고 언급합니다. 연사는 데이터 포인트의 미니 배치 또는 단 하나의 데이터 포인트와 관련하여 조치를 취하는 것이 실제로 일반적이라고 제안합니다.

  • 01:05:00 이 섹션에서 강사는 다중 레이어가 있는 신경망이 어떻게 임의의 함수에 근접하게 근사할 수 있는지 설명합니다. 서로 다른 뉴런을 함께 구성함으로써 그는 기울기가 반대인 두 개의 병렬 시그모이드 유닛을 추가하여 2D 능선을 생성한 다음 수직으로 교차할 때 두 개의 능선이 구성되어 범프를 형성하는 방법을 보여줍니다. 이 기술을 사용하면 하나의 작은 영역에 있는 한 클래스에 포인트를 할당하고 다른 모든 위치에 있는 다른 클래스에 포인트를 할당할 수 있는 분류기를 만들 수 있습니다. 강사는 4개의 시그모이드 유닛과 ID 활성화 기능이 있는 능선을 포함하는 해당 네트워크를 설명합니다.

  • 01:10:00 퍼셉트론 및 단층 신경망에 대한 강의의 이 섹션에서 교수는 쓰레기 보유 기능 또는 시그모이드를 사용하여 범프를 구성하는 방법과 곡선을 임의로 근접하게 근사하기 위해 함께 타일링 및 추가할 수 있는 방법에 대해 논의합니다. . 그는 이 접근법이 회귀에 사용될 수 있으며 역전파와 같은 알고리즘을 사용하여 임의의 함수를 학습하도록 신경망을 훈련시키는 것이 가능하다고 설명합니다. 역전파는 본질적으로 네트워크 구조를 이용하여 모든 편도함수를 동시에 계산하는 경사 하강법의 한 형태입니다.

  • 01:15:00 이 섹션에서 강사는 신경망의 모든 가중치에 대한 편도함수를 역전파 알고리즘을 사용하여 신경망을 통과하는 일정한 횟수로 동시에 얻을 수 있는 방법을 설명합니다. 강사는 신경망이 음성 인식 및 컴퓨터 비전과 같은 다양한 문제를 해결하는 다재다능함과 힘으로 인해 광범위한 인기를 얻었다고 강조합니다. 기계 번역 및 단어 임베딩의 최신 기술도 신경망을 사용하며 그 인기는 부분적으로 효율성 때문입니다.
 

CS480/680 강의 10: 다층 신경망과 역전파



CS480/680 강의 10: 다층 신경망과 역전파

다층 신경망과 역전파에 대한 강의로 선형 모델의 한계와 다층 신경망과 같은 비선형 모델의 필요성에 대해 설명합니다. 강사는 신경망에서 사용할 수 있는 다양한 활성화 함수와 비선형 기저 함수를 허용하는 방법에 대해 설명합니다. 계속해서 역전파 알고리즘을 사용하여 신경망의 모든 가중치에 대한 오차 기울기를 계산하는 방법을 설명합니다. 신경망에서 델타와 기울기를 효율적으로 계산하는 방법으로 자동 미분 도구도 논의됩니다. 전반적으로 강의는 광범위한 기능을 근사화하는 신경망의 유연성과 힘을 강조합니다.

이 비디오의 강사는 느린 수렴, 로컬 최적화, 비볼록 최적화 및 과적합과 같은 신경망 최적화 문제에 대해 논의합니다. 느린 수렴을 극복하기 위해 regularization 및 dropout과 같은 기술을 사용할 수 있습니다. 또한 연사는 최적화를 위한 경사 하강법의 동작을 설명하고 효율성을 개선하기 위해 단계 크기를 최적화해야 할 필요성을 강조합니다. 솔루션으로 각 차원의 학습률을 개별적으로 조정하는 DES 승인 알고리즘을 제안합니다. 연사는 이전 기울기의 가중 이동 평균인 RMSProp도 소개합니다. 마지막으로 연사는 기울기 자체의 가중 이동 평균을 취하는 Adam에 대해 논의하고 이것이 SGD Nesterov와 같은 다른 기술을 능가함을 보여줍니다.

  • 00:00:00 이 섹션에서 강사는 선형 회귀에 대한 빠른 요약과 선형 분류를 위한 세 가지 모델을 제공합니다. 그러나 이러한 모델의 문제는 여전히 선형 구분 기호를 제공한다는 것입니다. 따라서 강의에서는 논의를 비선형 모델로 전환하고 다층 신경망의 필요성을 소개합니다.

  • 00:05:00 이 섹션에서 강사는 퍼셉트론과 해당 임계값 활성화 함수, 시그모이드 활성화 함수를 포함한 선형 모델을 검토합니다. 강사는 직선이 아니라 곡선인 함수를 수용하기 위해 선형 모델을 비선형 모델로 확장할 수 있다고 설명합니다. 이를 달성하기 위해 매핑 함수인 Phi of X를 사용하여 데이터를 새로운 공간으로 이동시키는 비선형 회귀가 도입되었습니다. 강사는 또한 비선형 회귀를 위한 적응형 기저 함수를 제공하는 다층 신경망을 소개한 다음 이를 다시 일반화된 선형 회귀 모델과 연관시킵니다. 마지막으로 강사는 일반화된 비선형 분류에 대해 설명합니다.

  • 00:10:00 강의의 이 섹션에서 연사는 무제한 비선형 모델로 작업하는 방법에 대해 설명합니다. 지금까지 살펴본 기본 함수가 있는 선형 모델의 문제는 기본 함수를 선험적으로 선택해야 하고 이를 수행할 도메인 지식이 충분하지 않을 수 있다는 것입니다. 해결책은 데이터에 의존하는 기저 함수를 선택하고 비용을 지불하지 않고 매우 많은 수 또는 무한한 수의 기저 함수를 허용하는 것입니다. 이 아이디어는 처음에 커널 방법의 접근 방식이었으며 2010년경까지 지배적인 기술 집합이었습니다.

  • 00:15:00 이 섹션에서는 오늘날 딥 러닝에서 볼 수 있는 많은 성공을 이끈 딥 러닝에 다층 신경망을 도입한 비디오에 대해 설명합니다. 특히 이 비디오는 완전히 연결된 노드가 있는 2계층 신경망에 초점을 맞추고 있으며 각 연결에는 행렬로 나타낼 수 있는 가중치가 있습니다. 은닉 유닛과 출력 유닛은 활성화 함수와 선형 조합을 사용하여 계산되며 각 레이어에는 고유한 가중치 세트가 있습니다. 기본 기능 내부의 권한을 조정하여 교육 세트에 따라 조정하고 변경할 수 있으므로 보다 성공적인 딥 러닝 모델로 이어집니다.

  • 00:20:00 강의의 이 섹션에서 교수는 신경망이 본질적으로 여러 레이어와 가중치로 구성된 수학적 함수인 방법을 설명합니다. 비선형성을 추가하기 위해 시그모이드 또는 하이퍼볼릭 탄젠트와 같은 활성화 함수를 사용합니다. 이러한 활성화 함수는 다음 계층의 기본 함수 역할을 할 수 있으며 비선형 회귀에 사용할 수 있습니다. 첫 번째 계층의 비선형 활성화 함수와 출력 계층의 항등 함수를 사용하여 신경망을 비선형 기저 함수의 선형 조합으로 나타낼 수 있습니다.

  • 00:25:00 이 섹션에서 발표자는 비선형 회귀 및 분류를 위한 2계층 신경망에 대해 설명합니다. 2계층 신경망의 수학 공식에는 시그모이드 활성화 함수가 있는 숨겨진 단위와 항등 활성화 함수가 있는 출력 단위가 포함됩니다. 시그마는 일부 가중치에 의해 매개변수화되는 비선형 기저 함수 역할을 하여 모델이 훈련될 때 기저 함수가 적응할 수 있도록 합니다. 이 접근 방식은 비선형 회귀와 선형 회귀의 주요 차이점입니다. 마찬가지로 분류를 위해 화자는 첫 번째 레이어를 통해 비선형인 기본 함수를 계산하여 동일한 공식이 어떻게 적용되는지 보여줍니다.

  • 00:30:00 이 섹션에서 강사는 유사한 해석에도 불구하고 다층 신경망이 로지스틱 회귀와 어떻게 다른지 설명합니다. 신경망은 훈련 중에 업데이트되는 가중치를 사용하여 더 적응적인 기저 함수를 허용합니다. 비선형성은 가우시안 또는 10h 함수와 같은 다른 함수로 대체될 수 있는 시그마 함수의 사용에서 비롯됩니다. 신경망은 활성화 함수를 조정하여 분류와 회귀 모두에 사용할 수 있습니다. 또한 강사는 시그마 기능을 다른 적절한 기능으로 대체하여 네트워크에서 여러 클래스를 사용할 수 있다고 언급합니다.

  • 00:35:00 이 섹션에서는 선형 조합의 가중치와 비선형 기저 함수를 정의하는 가중치를 모두 포함하는 다층 신경망의 가중치 최적화에 대해 강의합니다. 최적화를 위해 가장 널리 사용되는 알고리즘은 신경망의 출력을 대상과 비교하고 그 차이를 계산하는 오류 최소화입니다. 역전파는 오류를 계산하고 네트워크를 통해 역전파하여 모든 가중치에 대한 그래디언트를 계산하는 인기 있는 알고리즘입니다. 그래디언트는 가중치를 최적화하기 위해 업데이트 알고리즘을 계산하는 데 사용됩니다. 역전파 알고리즘은 수작업으로 계산되지만 Tensor Flow 및 PyTorch와 같은 패키지는 자동 차별화를 위한 도구를 제공합니다.

  • 00:40:00 이 섹션에서 발표자는 신경망의 모든 가중치와 관련하여 오류의 기울기 또는 편도함수를 계산하는 데 사용되는 역전파 알고리즘을 설명합니다. 알고리즘은 입력을 기반으로 네트워크의 출력을 계산하는 정방향 단계와 오차의 척도인 델타를 역전파하여 모든 오차에 대한 편도함수를 계산하는 역방향 단계의 두 단계로 나뉩니다. 무게. 편도함수는 편도함수와 델타 J 및 Zi에 대한 체인 규칙을 사용하여 두 단계로 계산됩니다. 스피커는 2개의 입력, 2개의 은닉 장치 및 2개의 출력 장치로 구성된 완전히 연결된 네트워크로 알고리즘을 설명하고 알고리즘이 각 장치의 출력을 계산하고 오류를 역전파하는 방법을 보여줍니다.

  • 00:45:00 비디오의 이 섹션에서 연사는 역전파 알고리즘을 사용하여 다층 신경망에서 편도함수를 얻는 방법에 대해 설명합니다. 발표자는 출력 레이어에서 시작하여 출력 단위의 델타에 따라 달라지는 재귀 공식을 사용하여 모든 출력 단위 J에 대한 오차의 편도함수를 계산할 수 있다고 설명합니다. 그런 다음 화자는 순방향 및 역방향 단계를 사용하여 신경망에서 숨겨진 및 출력 단위의 출력을 계산하는 간단한 예를 보여줍니다.

  • 00:50:00 이 섹션에서 발표자는 신경망에서 델타와 기울기를 계산하는 방법과 자동 미분 도구가 이를 효율적으로 수행하는 데 어떻게 도움이 되는지 설명합니다. 숨겨진 레이어와 출력 레이어의 델타를 계산하기 위한 방정식을 제공하고 이를 사용하여 그래디언트를 계산하는 방법을 보여줍니다. 발표자는 자동 미분 도구가 다양한 아키텍처 및 기능으로 작업할 때 기울기를 수동으로 계산하는 데 드는 시간과 노력을 절약할 수 있다고 강조합니다. 이 섹션은 단 세 개의 은닉 유닛으로 신경망이 x-제곱, x의 절대값, x의 사인과 같은 임의의 함수를 어떻게 근사화할 수 있는지에 대한 예제로 결론을 내립니다.

  • 00:55:00 이 섹션에서 강사는 다양한 기능을 근사화하는 신경망의 기능에 대해 설명합니다. 네트워크는 2차 및 사인 함수와 같은 평활 함수를 아주 잘 근사화할 수 있는 비선형 기저 함수로 수렴할 수 있습니다. 그러나 절대 함수와 같은 매끄럽지 않은 함수의 경우 신경망은 숨겨진 단위가 충분하지 않으면 이를 근사화하는 데 어려움을 겪습니다. 그럼에도 불구하고 계단 함수와 같은 불연속 함수의 경우에도 네트워크는 여전히 합리적인 근사치를 제공할 수 있습니다. 그런 다음 강사는 자동 미분을 사용하여 기울기를 계산하고 확률적 기울기 하강법을 수행하는 것과 관련된 신경망 최적화에 대한 논의로 이동합니다. 이는 일반적인 최적화 기법이지만 추가 최적화 방법이 없으면 수렴이 느려질 수 있습니다.

  • 01:00:00 이 섹션에서 강사는 느린 수렴, 로컬 최적화, 비볼록 최적화 및 과적합을 포함하여 신경망 최적화에서 발생할 수 있는 문제에 대해 논의합니다. 느린 수렴은 정규화 및 드롭아웃과 같은 기술을 통해 극복할 수 있습니다. 느린 수렴의 개념을 설명하기 위해 강사는 오류 함수를 나타내는 공 모양의 표면 그림을 그립니다. 기울기 하강법은 전역 최소값 밖에서 시작할 때 느리게 수렴할 수 있으며 모멘텀 및 적응형 학습 속도와 같은 최신 기술은 수렴을 가속화할 수 있습니다.

  • 01:05:00 이 섹션에서 강사는 최적화를 위한 경사 하강법 동작에 대해 설명합니다. 기울기의 방향은 일반적으로 등고선에 수직이며, 그 방향으로 한 걸음 나아가면 최소값을 넘을 수 있다는 문제가 있습니다. 반면 기울기가 작으면 최소값에 도달하기 위해 많은 작은 단계를 거쳐야 할 수 있습니다. 따라서 더 큰 조치를 취해야 하는 지역과 더 작은 조치가 더 적합한 지역이 있습니다. 이 동작은 경사하강법의 효율성을 개선하기 위해 단계 크기를 최적화해야 할 필요성을 강조합니다.

  • 01:10:00 이 섹션에서 발표자는 신경망에서 단계 크기를 결정하기 위해 기울기 크기에 의존하는 것과 관련된 잠재적인 문제에 대해 논의합니다. 그래디언트의 크기가 차원에 따라 일정하지 않을 수 있으므로 DES 승인 알고리즘에서 제안하는 한 가지 솔루션은 지금까지 본 그래디언트의 제곱의 합을 취하여 단계 크기를 나누어 각 차원의 학습 속도를 개별적으로 조정하는 것입니다. 해당 값의 제곱근으로. 이를 통해 각 차원의 그래디언트 크기에 따라 단계 크기를 조정할 수 있습니다. 그러나 일부 응용 프로그램에서는 학습 속도가 너무 빨리 감소하여 진행을 방해할 수 있습니다.

  • 01:15:00 이 섹션에서 발표자는 신경망에서 경사하강법의 문제와 학습률을 조정하면 확률적 경사하강법을 수행하는 데 어떻게 도움이 되는지 설명합니다. 화자는 가중치당 하나의 차원이 있는 신경망의 "차원" 개념을 소개합니다. 그들은 많은 금액이 축적되는 문제와 이러한 단계의 크기를 줄여야 할 필요성을 설명합니다. 발표자는 이전 그래디언트를 잊어버리는 지수적 감쇠가 있는 이전 그래디언트의 가중 이동 평균인 rmsprop을 도입하여 이 문제에 대한 해결책을 제안합니다. 그러나 이 방법은 완벽하지 않으며 화자는 그 한계를 인정합니다.

  • 01:20:00 이 섹션에서 강사는 기울기가 안정적인 영역에서 모멘텀이 부족한 문제에 대해 논의하여 방향이 동일할 때 단계 크기를 늘리는 방법이 필요합니다. 이것은 기울기 자체의 가중 이동 평균을 취하고 그것을 sT에 저장하는 것과 관련된 Adam으로 알려진 휴리스틱 버전으로 이어집니다. 업데이트를 수행할 때 작업 및 기울기 단계를 수행하는 대신 해당 이동 평균 작업에서 단계를 수행합니다. 이 기술은 2015년 ICLR에 발표된 휴리스틱이며 이전 기술과의 주요 차이점은 속성에 대한 몇 가지 이론과 수렴 증명이 함께 제공된다는 것입니다. 그러나 그것이 출판되었을 때 일부 증거에 문제가 있었고, 이로 인해 더 원칙적인 것을 제시하기 위해 더 많은 증거로 수정이 이루어졌습니다.

  • 01:25:00 이 섹션에서 화자는 몇 가지 좋은 단계를 수행하는 것과 각 단계에 대해 높은 비용을 지불하는 것 또는 좋지 않은 작은 단계를 빠르게 수행하는 것 사이의 절충안을 설명하지만 전반적으로 여전히 끝납니다. 최소에 가깝습니다. 그는 또한 Newton의 기법과 같은 2차 최적화 기법과 같이 잘 확장되지 않는 최적화 기법에 대해서도 논의합니다. 실제로 휴리스틱은 좋은 이론이 부족함에도 불구하고 잘 작동하는 경향이 있습니다. 그런 다음 연사는 Adam과 SGD Nesterov와 같은 다른 기술 간의 경험적 비교를 제공하고 Adam이 꽤 잘 수행하는 경향이 있음을 보여줍니다.
 

CS480/680 강의 11: 커널 방법



CS480/680 강의 11: 커널 방법

본 강의에서는 비선형 함수를 이용하여 한 공간에서 새로운 공간으로 데이터를 매핑하여 일반화된 선형 모델을 확장하는 방법으로 커널 방법의 개념을 소개합니다. 듀얼 트릭 또는 커널 트릭은 추가 비용을 지불하지 않고 고차원 공간에서 작업할 수 있는 기술로 설명되며, 새로운 공간에서 점 쌍의 내적을 계산하는 커널 함수를 사용하게 됩니다. 데이터 포인트 간의 유사성을 측정하는 데 사용할 수 있고 분류 작업에 유용한 다항식 및 가우시안 커널을 포함하여 커널을 구성하는 다양한 방법에 대해 설명합니다. 커널 구성 규칙도 도입되어 복잡성을 제어할 수 있는 새 커널을 구성합니다. 이 강의에서는 그램 행렬이 양의 준정부호여야 하고 고유값이 0보다 크거나 같아야 하므로 Phi 전치 Phi와 일치하는 함수를 선택하는 것의 중요성을 강조합니다.

커널 방법에 대한 이 강의에서 발표자는 커널을 행렬 곱하기 행렬로 분해할 수 있는 양의 준정부호 함수로 정의합니다. 다항식 및 가우시안과 같은 다양한 유형의 커널과 문자열, 세트 및 그래프와 같은 다양한 유형의 데이터를 비교하기 위한 응용 프로그램에 대해 설명합니다. 발표자는 또한 하위 문자열 커널이 하위 문자열의 길이를 늘리고 동적 프로그래밍을 사용하여 단어 간의 유사성을 빠르게 계산하는 방법을 설명합니다. 또한 지원 벡터 기계는 Reuters의 뉴스 기사를 사용하여 문서 분류를 수행하는 데 효과적인 것으로 나타났습니다.

  • 00:00:00 이 섹션에서 발표자는 일반화된 선형 모델을 확장하는 데 유용한 커널 방법을 소개합니다. 일반화 선형 모델과 신경망 사이의 유사점과 차이점에 대한 간략한 요약이 제공되며 고정된 비선형 기저 함수가 선형 모델에 사용되며 최적화가 더 쉽고 일반적으로 볼록한 경향이 있는 반면 적응형 기저 함수는 신경망에 사용된다는 점을 강조합니다. , 최적화가 더 어려운 경향이 있습니다. 커널의 도입은 비선형 매핑을 포함하는 모델로 작업할 때 더 큰 공간에 대한 비용을 지불하지 않는 트릭으로 이어질 것입니다.

  • 00:05:00 이 섹션에서 강사는 기계 학습 패러다임의 진화에 대해 설명하면서 데이터 양이 충분하지 않을 때 제한된 가설 공간이 중요한 문제가 되지 않았음을 강조합니다. 하지만 2009년부터 시작된 신경망 시대는 많은 데이터와 연산 능력을 가져왔기 때문에 더 풍부한 가설 공간을 갖는 것이 필수적이었습니다. 강사는 비선형 함수를 사용하여 데이터를 새로운 공간에 매핑하여 추가 비용 없이 고차원 공간에서 작업할 수 있는 계산 기법인 듀얼 트릭 또는 커널 트릭을 소개합니다. 그는 커널 함수와 함께 이 트릭을 사용하여 명시적으로 계산할 필요 없이 기본 함수의 많거나 무한한 수를 고려할 수 있는 방법을 설명합니다.

  • 00:10:00 이 섹션에서 강사는 새로운 공간에서 점 쌍 사이의 내적을 계산하는 것을 목표로 하는 커널 방법에 초점을 맞추고 이러한 내적을 계산하는 비용을 훨씬 더 저렴하게 만들어 더 나은 크기 조정을 수행하는 방법을 찾습니다. 알고리즘. 따라서 내적은 커널 함수로 이름이 바뀌고 모든 점 쌍에 대해 이러한 커널의 출력을 결정할 수 있으면 커널 정의의 핵심인 X의 파이로 정의된 기본 기능 공간을 계산할 필요가 없습니다. 평가가 빠르고 X의 Phi와 관련하여 계산이 필요하지 않습니다. 선형 회귀가 예로 사용되며 강사는 W가 실제로 계수 X n의 Phi인 데이터 포인트의 선형 조합임을 보여줍니다. W를 Phi 곱하기 A라는 다른 식으로 대체합니다. 여기서 Phi는 새 공간에 대한 모든 점의 행렬입니다.

  • 00:15:00 이 섹션에서 화자는 매핑 기능을 사용하여 한 공간에서 새로운 공간으로 데이터를 매핑하는 커널 방법의 개념을 소개합니다. 그는 가중치 행렬(W)이 아닌 매핑된 점의 선형 조합 계수(a)를 사용하여 새 공간에서 선형 회귀 문제의 최적화를 수행할 수 있는 방법을 보여줍니다. 이것은 그람 행렬로 정의되는 새로운 공간에서 점 쌍의 내적을 계산하는 커널 함수의 사용으로 이어집니다. 결과는 커널 함수를 사용하여 계수를 최적화하여 회귀 문제에 대한 솔루션을 찾는 대체 방법입니다.

  • 00:20:00 이 섹션에서 강사는 이중 공간에서 솔루션을 사용하여 예측을 수행하는 방법에 대해 논의하며, 이로 인해 원시 공간에서와 다른 계산 복잡성이 발생합니다. 원시 공간에서는 기본 함수의 수에 따라 복잡도가 달라지지만 이중 공간에서는 데이터의 양에 따라 복잡도가 증가하지 않고 고차원 공간이 가능합니다. 핵심은 새로운 공간의 점을 참조하지 않고 커널 함수를 계산하는 것이며 암시적으로 내적에 해당하는 커널 함수를 정의하는 다양한 방법이 있습니다. 그람 행렬은 양의 준정부호여야 하고 0보다 크거나 같은 고유값을 가져야 하므로 Phi 전치 Phi와 일치하는 함수를 선택하는 것이 중요합니다. 강사는 커널을 직접 정의하고 해당 매핑을 파악하는 방법에 대한 예제를 제공합니다.

  • 00:25:00 이 섹션에서 강사는 커널 함수를 원래 공간 제곱에 있는 두 벡터의 내적으로 정의합니다. 이것이 공간 변환 함수인 Phi를 참조하지 않고 계산할 수 있는 유효한 커널 함수인지 의문이 제기됩니다. 함수를 확장함으로써 강사는 명시적으로 계산하지 않고 Phi의 매핑을 정의할 수 있으며 기본 함수가 있는 유효한 커널 함수에 도달합니다. 일반적으로 커널 함수는 먼저 Phi를 정의한 다음 내적을 수행하여 계산되지만 이 방법을 사용하면 원래 공간에서 커널 함수를 직접 계산할 수 있습니다.

  • 00:30:00 이 섹션에서는 강사가 커널 구성 방법에 대해 설명합니다. 아이디어는 복잡성을 제어할 수 있는 새로운 커널을 구성하고 새로운 공간에 의존하지 않도록 하는 것입니다. 강사는 유효한 새 커널을 만들기 위해 커널을 구성하는 10가지 규칙을 설명하고 함수가 유효한 커널이 아닌 경우 더 복잡한 커널을 얻기 위해 함께 구성하는 데 도움이 되는 기본 구성 요소가 있습니다. 강의에서는 다항식 커널과 같이 실제로 사용되는 일반적인 커널을 소개합니다. 여기서 원래 공간의 내적은 일부 거듭제곱되어 특성 공간이 X에 있는 항목의 모든 차수 M 곱이 됩니다. 강의는 계속됩니다. 다음 수업에서 가우시안 커널에 대한 토론에 대해.

  • 00:35:00 이 섹션에서 강사는 계산 비용을 지불하지 않고 회귀 또는 분류 모델에서 유연성을 달성하려면 문제가 될 수 있는 고차원성이 필요하다고 설명합니다. 이 문제를 방지하기 위해 새 공간의 점 쌍 사이의 내적을 알려주는 함수를 지정하는 커널이 사용됩니다. 그런 다음 다항식 커널을 공통 커널로 도입하여 원래 공간에서 내적을 M으로 높입니다. 강사는 2D 공간에서 커널의 구체적인 예를 제공하고 이를 확장하여 해당 내적을 시연합니다. 3D 공간.

  • 00:40:00 이 섹션에서 강사는 입력 공간을 원래 공간에 있지 않더라도 클래스가 선형적으로 분리될 수 있는 고차원 공간으로 암묵적으로 변환하는 데 사용되는 커널 방법을 설명합니다. 강의에서는 이 방법이 임의의 고배율 M으로 일반화되는 방법을 설명합니다. 여기서 기본적으로 M 가능한 기능의 모든 조합인 새로운 기능을 생성합니다. 그러나 이것은 기하급수적으로 큰 수요 공간으로 이어질 것이며, 이는 이미지에 대해 계산적으로 불가능할 것입니다. 이 문제를 해결하기 위해 커널에 상수 C를 추가하여 M까지의 모든 기능을 고려할 수 있습니다.

  • 00:45:00 이 섹션에서는 다항식 커널과 가우시안 커널의 개념을 설명했습니다. 다항 커널은 두 벡터의 내적을 계산하는 데 사용되며 최대 2차까지 두 데이터 포인트 간의 유사성을 측정할 수 있습니다. 한편, 가우시안 커널은 두 데이터 포인트 간의 유사도를 계산하는 공식으로 표시되며 기계 학습에서 널리 사용되는 커널입니다. 커널은 본질적으로 새로운 공간에서 내적을 계산하는 지름길이며 분류 작업에 유용한 데이터 포인트 간의 유사성 측정으로 해석될 수 있습니다.

  • 00:50:00 이 섹션에서 강사는 가우시안 커널이 두 점 사이의 유사성 척도로 볼 수 있는 방법을 설명합니다. 점이 동일하면 값이 높고 멀리 떨어져 있으면 값이 낮습니다. 그러나 가우스 커널이 유효한 커널임을 증명하는 것은 기능 공간이 무한하기 때문에 어렵습니다. 대신 강사는 커널의 유효성을 정당화하기 위해 이전 강의의 규칙, 특히 커널의 지수를 취하면 다른 유효한 커널이 생성된다는 규칙 4번을 사용하고, 가우시안 커널을 표현하기 위해 다른 규칙을 추가로 검토합니다. 유효한 커널의 조합으로.

  • 00:55:00 비디오의 이 섹션에서 강사는 XX 프라임의 K(마이너스 X 마이너스 X 프라임을 2 시그마 제곱으로 나눈 e와 같음)가 유효한 커널임을 보여주기 위해 다양한 규칙을 사용하는 방법을 보여줍니다. . 강사는 규칙 1, 2, 4 및 8을 사용하여 유효한 커널임을 보여주기 전에 X 빼기 X 프라임을 확장하고 용어를 다른 지수로 분리합니다. 사용된 규칙에는 a를 항등 행렬로 바꾸고 X 전치 X 프라임을 시그마 제곱으로 나눈 값과 e를 X 전치 X 프라임으로 나눈 시그마 제곱이 유효한 커널임을 보여주는 것이 포함됩니다.

  • 01:00:00 이 섹션에서 화자는 커널이 포지티브 준정부호 함수라고 설명합니다. 이 함수는 전치를 곱한 행렬로 분해할 수 있습니다. 그는 또한 예를 들어 다항식 커널을 사용하려면 모든 단항식을 일정 수준까지 구성해야 하므로 지수 차원이 발생한다고 설명합니다. 그러나 커널과 직접 작업함으로써 필요한 것은 각 데이터 포인트 쌍 간의 유사성을 계산하여 계산 효율성을 높이는 것입니다. 가우스 커널에 대해서도 설명합니다. 이 커널은 무한한 기능 공간을 가지고 있어 임의의 함수를 표현하는 데 강력합니다. 또한 발표자는 커널이 벡터와 관련하여 정의되지만 집합, 문자열 또는 그래프와 같은 다른 유형의 개체에도 적용될 수 있다고 설명합니다.

  • 01:05:00 이 섹션에서 강사는 커널 메서드를 사용하여 문자열과 문서를 매핑하는 아이디어에 대해 설명합니다. 이 기술은 두 문서 또는 문자열 사이의 유사성을 두 문서에 나타나는 모든 비연속 하위 문자열의 가중 합계로 측정하는 커널을 정의하는 것과 관련됩니다. 그러나 이러한 모든 기능을 열거하는 것은 시간 소모적이고 리소스 집약적일 수 있으며, 여기서 비벡터 커널이 작동합니다. 이러한 커널은 새롭거나 발명된 단어를 포함할 수 있는 문서를 비교할 때 유용하며 모든 문자열 또는 문서를 문자열이 특정 하위 문자열을 포함하는지 여부에 해당하는 새로운 기능 공간으로 매핑할 수 있습니다.

  • 01:10:00 이 섹션에서 화자는 두 단어 간의 유사성을 결정하는 데 사용되는 하위 문자열 커널의 개념을 설명합니다. 하위 문자열 커널은 하위 문자열의 길이를 나타내는 거듭제곱인 람다 값을 사용합니다. 이 값은 더 중요한 일치 항목의 경우 더 낮고 덜 중요한 일치 항목의 경우 더 높습니다. 커널은 두 단어로 존재하는 다양한 길이의 하위 문자열로 구성된 기능 공간에서 내적을 효율적으로 계산할 수 있습니다. 이러한 커널을 효율적으로 계산하기 위해 논문에서는 동적 프로그래밍을 사용하여 하위 문자열의 길이를 점진적으로 늘릴 것을 제안합니다. 이것은 커널의 선형 시간 계산을 허용하며, 그렇지 않으면 지수적입니다.

  • 01:15:00 이 섹션에서 발표자는 훨씬 더 풍부한 공간에서 작업하기 위해 서포트 벡터 머신을 커널과 함께 사용할 수 있는 방법에 대해 설명합니다. 화자는 Reuters의 뉴스 기사를 사용하여 문서 분류를 수행하는 논문을 인용하고 이 기술을 사용한 결과를 보여줍니다. 이 접근법은 매우 강력할 수 있으며 다음 수업에서 더 자세히 논의될 것입니다.
 

CS480/680 강의 13: 서포트 벡터 머신



CS480/680 강의 13: 서포트 벡터 머신

이 강의는 분류에 사용되는 일종의 커널 방법으로 SVM(Support Vector Machine)에 대해 소개합니다. SVM은 데이터가 적은 문제에 여전히 인기가 있으며 데이터의 하위 집합으로 작업하고 나머지는 무시할 수 있으므로 희소한 것으로 간주됩니다. 발표자는 결정 경계에 가장 가까운 데이터 포인트인 지원 벡터의 개념과 마진을 최대화하면서 클래스를 구분하기 위한 선형 구분 기호를 찾는 SVM의 시각적 예를 설명합니다. SVM과 퍼셉트론의 차이점에 대해 설명합니다. SVM은 고유한 최대 마진 선형 구분 기호를 사용하고 과적합될 가능성이 적습니다. SVM에 대한 최적화 문제는 Lagrangian을 사용하여 다시 작성할 수 있으므로 제약 조건 없이 동일한 문제가 발생합니다. Lagrangian에서 얻은 솔루션을 다시 대체하여 커널 함수와 관련된 표현식을 얻을 수 있으므로 이중 문제 최적화로 이어집니다. 데이터 포인트 쌍 간의 유사성을 계산하는 커널 함수를 사용하여 이중 공간에서 작업할 때의 이점도 설명합니다. SVM은 쿼리 포인트와 모든 지원 벡터 간의 유사도를 계산하여 가장 유사한 항목을 결정하고 지원 벡터의 수와 이것이 포인트 분류에 미치는 영향에 대해서도 논의합니다.

이 비디오에서는 문서가 단어 수의 벡터로 표현되는 텍스트 분류의 SVM(Support Vector Machine) 개념에 대해 설명합니다. SVM은 최악의 손실을 최소화하는 데 효과적이며, 다른 데이터 세트에 대해서도 가능한 모든 샘플에 적합하도록 분류기를 만듭니다. 연구자들은 이중 표현 및 커널 매핑과 함께 SVM을 사용하여 정확성을 잃거나 확장성을 희생하지 않고 데이터를 더 높은 차원의 공간으로 매핑했습니다. 이 강의에서는 데이터 세트에서 관련 문서를 검색하고 정밀도와 재현율의 균형을 맞추는 데 SVM을 사용하는 방법도 다룹니다. 비디오는 데이터에 대한 선형 또는 비선형 구분 기호를 제공하는 SVM의 기능과 다중 클래스 분류 및 비선형적으로 분리 가능한 데이터와 관련된 문제에 대한 논의로 끝납니다.

  • 00:00:00 이 섹션에서 발표자는 분류에 사용되는 일종의 커널 방법인 SVM(Support Vector Machine)을 소개합니다. 역사적으로 SVM은 2010년 이후 신경망이 인수될 때까지 기계 학습에서 가장 중요하고 널리 사용되는 분류 기술이었습니다. 그러나 SVM은 여전히 데이터가 적은 문제에 대해 잘 수행되며 데이터의 하위 집합으로 작업할 수 있고 데이터를 무시할 수 있으므로 희소한 것으로 간주됩니다. 나머지. 그런 다음 발표자는 데이터의 두 클래스에 대한 시각적 예와 SVM이 각 클래스에서 가장 가까운 지점까지의 최소 거리인 여백을 최대화하면서 이러한 클래스를 구분하기 위해 선형 구분 기호를 찾는 방법을 제공합니다.\

  • 00:05:00 이 섹션에서는 SVM(Support Vector Machine)의 지원 벡터 개념에 대해 설명합니다. 서포트 벡터는 결정 경계에 가장 가까운 중요한 데이터 포인트이며 기본적으로 선형 구분자가 어디로 갈지 결정합니다. 가장 가까운 데이터 포인트까지의 거리를 최대화하는 SVM의 최종 선형 구분 기호는 최적화 문제를 해결하여 얻습니다. 마진 최대화 이면의 직관은 노이즈가 있을 수 있는 데이터 포인트가 결정 경계에 의해 잘못 분류되지 않도록 하는 것입니다.

  • 00:10:00 이 섹션에서는 더 나은 분류를 위해 SVM(Support Vector Machine)의 최대 마진 개념에 대해 설명합니다. 최대 마진은 분류가 노이즈에 대해 더 견고하고 향후 예제에 대해 더 잘 일반화될 수 있도록 합니다. 점에서 구분 기호까지의 거리는 해당 데이터 점에 대한 가중치 벡터와 특징 벡터 사이의 내적을 사용하여 계산된 다음 최대 마진을 제공하도록 정규화됩니다. 어떤 지점에서 분리기까지의 거리를 계산하는 공식도 제공되며 SVM에서 최적화되는 목표에 대해 설명합니다. 최대 마진이 있는 고유한 라인이 있으므로 마진이 동일한 두 라인은 최대 마진 라인이 아님이 강조됩니다.

  • 00:15:00 이 섹션에서는 SVM(Support Vector Machine)과 퍼셉트론의 차이점에 대해 설명합니다. 퍼셉트론은 선형 구분 기호를 찾지만 이 구분 기호는 가중치 초기화에 사용되는 시작 값에 따라 달라집니다. 퍼셉트론은 또한 교육을 위해 간단한 업데이트 규칙을 사용하고 선형 구분 기호와 데이터 포인트 사이의 거리를 측정하기 위해 레이블 뒤집기에 의존합니다. 반대로 SVM은 2차 최적화 문제를 사용하여 초기화에 덜 의존하는 최대 여백 선형 구분 기호를 찾습니다. SVM은 또한 소프트 마진 분류를 허용하고 비선형 분류를 위한 커널 트릭을 갖도록 여유 개념을 도입합니다. 전반적으로 SVM은 퍼셉트론에 비해 분류 정확도가 더 높습니다.

  • 00:20:00 이 섹션에서 강사는 표준 퍼셉트론과 지원 벡터 머신(SVM)을 대조합니다. 전자는 견고성이 부족하고 빠르게 과적합될 수 있지만 후자는 고유한 최대 마진 선형 구분 기호를 사용하며 과적합될 가능성이 적습니다. SVM은 볼록 2차 최적화를 통해 최적화되어 모든 데이터 포인트가 선형 구분 기호에서 최소 1단위 거리에 있다는 제약 조건 하에서 가중치를 최소화합니다. 이 최적화는 복잡해 보일 수 있지만 실제로는 사용 가능한 많은 최적화 패키지를 사용하여 계산적으로 수행하기가 매우 쉽습니다.

  • 00:25:00 이 섹션에서 발표자는 점 사이의 거리가 최소 1로 고정되고 W의 크기가 최소화되는 서포트 벡터 머신에 대한 보다 편리한 최적화 문제를 소개합니다. 화자는 이 문제가 이전 최적화 문제와 동일함을 보여줍니다. 이 새로운 공식은 가우스 프로세스에서 수행된 것과 유사하게 커널 함수로 대체할 수 있는 내적 측면에서 새 기능 공간의 계산을 수행할 수 있는 이중 표현을 허용합니다.

  • 00:30:00 이 섹션에서 발표자는 서포트 벡터 머신에 대한 최적화 문제를 라그랑지안을 사용하여 다시 작성하여 제약 조건이 없는 동등한 문제를 생성하는 방법을 설명합니다. 이 새로운 목표에는 위반이 발생할 때 반드시 양수이고 0보다 큰 새 변수 a에 종속되는 위반된 각 제약 조건에 대한 페널티 기간이 포함됩니다. 이 변수 a를 라그랑지안의 최소값을 최대화하도록 설정하면 새 문제는 제약 조건이 있는 원래 문제와 수학적으로 동일합니다. 이 기술은 최적화 프로세스를 단순화하고 보다 효율적으로 만드는 데 도움이 됩니다.

  • 00:35:00 이 섹션에서 강사는 서포트 벡터 머신에 대한 최적화 문제에서 페널티 용어 및 제약 조건의 사용에 대해 논의합니다. 그들은 점 사이의 거리를 제한하는 제약 조건을 계수를 선택하여 최적화되는 페널티 항으로 대체할 수 있다고 설명합니다. 그러나 이 최적화 문제는 해결하기 쉽지 않은 최대 문제를 초래합니다. 이를 해결하기 위해 강사는 내부 최소화 문제를 닫힌 형식으로 계산하는 방법을 설명하고 W가 새로운 기능 공간에서 데이터 포인트의 선형 조합인 솔루션에 도달합니다. 서포트 벡터인 0이 아닌 계수가 W의 값을 결정합니다.

  • 00:40:00 이 섹션에서 강사는 라그랑지안에서 얻은 솔루션을 다시 대체하여 커널 함수와 관련된 표현식을 얻는 방법을 설명합니다. 이 커널 함수를 사용하면 모든 점 쌍 사이에서 직접 커널 함수를 계산할 수 있으므로 차원에 대한 걱정 없이 고차원 공간에서 작업할 수 있습니다. 이것은 계수를 얻기 위해 다른 변수 세트를 최적화하는 이중 문제 최적화로 이어집니다. 이러한 계수의 대부분은 결국 0이 되어 최적화 문제를 희박하게 만들고 계산 복잡성을 줄입니다. 계수가 있으면 이를 사용하여 피처와 계수의 내적을 취하고 다른 클래스에 해당하는 양수 또는 음수 결과로 데이터 포인트를 분류할 수 있습니다.

  • 00:45:00 이 섹션에서 강사는 선형 분리 가능한 사례에서 SVM(Support Vector Machine)의 개념을 설명합니다. 그들은 2차원 공간의 선형 구분 기호가 법선 벡터와 입력 기능의 내적으로 표현될 수 있음을 보여줍니다. 선형 구분 기호의 점은 내적이 0인 것에 해당합니다. 그런 다음 가중치를 데이터 점 쌍 간의 유사성을 계산하는 커널 함수로 대체하는 이중 공간 작업의 이점을 설명합니다. 결과 합계는 서포트 벡터의 수에만 의존하며 쿼리 포인트와 데이터 세트의 모든 포인트 사이의 커널 선형 조합의 사인을 기반으로 분류할 수 있습니다.

  • 00:50:00 이 섹션에서 강사는 SVM 알고리즘이 가장 유사한 것을 결정하기 위해 쿼리 포인트와 모든 지원 벡터 간의 유사도를 계산한다고 설명합니다. 이러한 가장 유사한 지원 벡터의 클래스는 쿼리 지점의 예측된 클래스에 대해 "투표"합니다. 이는 가중치가 적용된 가장 가까운 이웃 접근법과 유사하며 가중치는 커널 함수에 의해 결정됩니다. 그러나 서포트 벡터의 수는 각 클래스마다 반드시 같을 필요는 없으며 공간의 차원에 따라 달라질 수 있습니다.

  • 00:55:00 이 섹션에서는 지원 벡터의 수와 이것이 포인트 분류에 미치는 영향에 대해 논의합니다. 한 클래스에 더 많은 지원 벡터가 있음에도 불구하고 지원 벡터의 수는 해당 클래스의 포인트를 분류하는 경향에 영향을 미치지 않습니다. 그 이유는 모든 지원 벡터가 양수이든 음수이든 합계에 기여하여 포인트가 지원 벡터와 동일한 클래스에 속하는지 여부를 나타냅니다. 또한 서포트 벡터 머신은 일반화를 잘하는 것으로 알려져 있으며 마진을 최대화하는 것은 기본 입력 분포에 대한 최악의 손실에 대한 상한을 최소화하는 것과 동일하기 때문에 과적합될 가능성이 적습니다.

  • 01:00:00 강의의 이 섹션에서 발표자는 서포트 벡터 머신의 개념과 텍스트 분류에서 작동하는 방식을 설명합니다. 서포트 벡터 머신은 최악의 손실을 최소화하고 다른 데이터 세트에 해당할 수 있는 모든 가능한 샘플과 관련하여 분류기가 양호한지 확인하는 데 효과적입니다. 이 강의는 분류자가 이미 분류된 뉴스 기사 아카이브로 훈련되는 텍스트 분류 사례 연구를 제공합니다. 인기 있는 접근 방식은 단어의 순서가 무시되고 사전의 길이인 벡터가 생성되는 벡터 공간 모델을 사용하여 모든 문서를 단어 수의 벡터로 변환하는 것입니다. 이 접근 방식은 기사 분류를 자동화하고 확장성을 개선하는 데 도움이 되었습니다.

  • 01:05:00 강의의 이 섹션에서 교수는 문서의 사전에 있는 단어에 해당하는 각 기능을 사용하여 문서를 고차원 벡터로 표현하는 방법을 설명합니다. 특징 추출을 통해 이러한 벡터의 차원을 줄이려는 것은 자연스러운 일이지만 대부분의 단어가 일정 수준의 관련성을 가지고 있기 때문에 이로 인해 정보 손실이 발생할 수 있습니다. 이 문제를 해결하기 위해 연구자들은 이중 표현 및 커널 매핑이 있는 지원 벡터 머신을 사용하여 데이터를 더 높은 차원의 공간에 매핑했습니다. 이 접근 방식은 차원 수에 따라 잘 확장되므로 고차원 데이터를 분석하는 데 유용한 도구가 됩니다.

  • 01:10:00 이 섹션에서 발표자는 데이터 세트에서 문서를 검색할 때 서포트 벡터 머신을 사용하는 방법에 대해 설명합니다. 정밀도와 재현율은 각각 검색된 관련 문서의 백분율과 데이터 세트에서 관련 문서의 백분율을 추정하는 데 사용되는 척도입니다. 목표는 정밀도와 재현율의 균형을 맞추는 것이며 지원 벡터 머신이 이 목적에 가장 적합한 알고리즘인 것으로 나타났습니다. 그들은 모든 기능을 유지하고 정확도를 잃거나 확장성을 희생하지 않고 더 높은 차원의 공간에 매핑할 수 있었습니다. 고차원 공간에서 필요한 서포트 벡터의 수는 증가할 수 있지만 해당 공간에서 작업하는 것과 관련된 추가 비용은 없습니다.

  • 01:15:00 이 섹션에서는 SVM(Support Vector Machine)에 대해 알아보고 SVM이 데이터에 대한 선형 또는 비선형 구분 기호를 제공하는 방법을 알아봅니다. SVM은 우수한 일반화를 위한 마진을 최대화하기 위해 고유한 초평면을 사용하고 볼록 2차 최적화를 사용하여 전역 최적성을 보장할 수 있습니다. 그러나 해결해야 할 두 가지 중요한 질문이 있습니다. 다중 클래스 분류를 수행할 수 있습니까? 데이터가 선형적으로 분리되지 않는 경우 어떻게 해야 합니까? 다음 슬라이드에서는 이러한 문제를 다룰 것입니다.
 

CS480/680 강의 14: 서포트 벡터 머신(계속)



CS480/680 강의 14: 서포트 벡터 머신(계속)

이번 강의에서는 SVM(Support Vector Machine)을 사용할 때 slack 변수를 도입하고 소프트 마진을 고려하여 비선형적으로 분리 가능한 데이터와 중복 클래스를 처리하는 방법에 대해 중점적으로 설명합니다. 발표자는 여유 변수를 통해 분류 오류를 도입하지 않고 여백 내의 포인트를 분류할 수 있는 방법을 설명합니다. 페널티 항이 최적화 문제에 추가되어 여유 변수의 사용을 규제하고 가중치 C로 제어되며 오류 최소화와 모델 복잡성 사이의 절충안을 조정합니다. 연사는 또한 일대일, 쌍별 비교 및 연속 순위 지정을 포함하여 다중 클래스 분류 문제에 SVM을 사용하는 다양한 접근 방식에 대해 논의합니다. 후자는 여러 클래스가 있는 SVM에 대한 사실상의 접근 방식입니다. 또한 각 클래스 쌍에 대한 가중치 벡터의 차이로 정의되는 선형 구분자 주변의 버퍼를 포함하는 다중 클래스 마진 개념이 도입되었습니다.

  • 00:00:00 이 섹션에서 강사는 지원 벡터 머신(SVM)을 사용할 때 비선형적으로 분리 가능한 데이터 및 중첩 클래스를 처리하는 방법에 대해 설명합니다. 해결책은 여유 변수를 도입하고 소프트 마진이라고 알려진 것을 고려하여 모든 포인트가 구분 기호에서 최소 한 단위 떨어져 있어야 한다는 가정을 완화하는 것입니다. 여유 변수는 마진이 1보다 작을 수 있도록 허용하므로 마진 내의 포인트도 분류 오류 없이 분류할 수 있습니다.

  • 00:05:00 이 섹션에서는 여유 변수를 도입하여 여백 내에서 잘못 분류된 점과 점을 허용하는 방법으로 소프트 마진의 개념을 소개합니다. 여유 변수의 사용을 규제하고 여유 변수 패널티가 최소화되도록 최적화 문제에 페널티 항도 추가됩니다. 이것은 가중치 C에 의해 제어되며 오류 최소화와 모델 복잡성 간의 절충도 제어합니다. 여유 변수의 합은 일반적으로 오분류 수의 상한입니다. 가중치 C는 오류 최소화와 모델 복잡도 사이의 균형을 조정하는 정규화 계수로 생각할 수 있으며 C가 무한대가 되면 원래의 하드 마진 분류기가 복구됩니다.

  • 00:10:00 이 섹션에서 발표자는 계속해서 서포트 벡터 머신과 오분류 및 이상치를 처리하는 방법에 대해 논의합니다. 소프트 마진은 사소한 오분류를 처리할 수 있지만 여전히 이상값에 민감합니다. 서포트 벡터는 등가를 갖는 활성 제약 조건에 해당하는 반면, 거리가 이미 1보다 큰 경우 부등호가 있는 것은 활성이 아니므로 모든 여유 변수가 0이 됩니다. 연사는 또한 역사적으로 세 가지 접근 방식이 고려된 여러 클래스와 함께 작동하도록 서포트 벡터 머신을 확장하는 방법에 대해 설명합니다. 그 중 하나는 각 서포트 벡터 머신이 클래스와 다른 모든 클래스를 구별하는 "일대일" 방식입니다.

  • 00:15:00 강의의 이 섹션에서 연사는 서포트 벡터 머신을 사용하여 여러 클래스로 데이터를 분류하는 다양한 접근 방식을 설명합니다. 첫 번째 접근 방식인 일대일 방식은 각 클래스와 나머지 클래스에 대해 서포트 벡터 머신을 훈련하는 것과 관련되지만 분류에서 충돌을 일으킬 수 있습니다. 두 번째 접근 방식인 쌍별 비교에서는 모든 클래스 쌍에 대해 지원 벡터 머신을 훈련해야 하는데, 이는 계산 비용이 많이 들 수 있습니다. 세 번째 접근 방식인 연속 순위 지정은 해당 값을 기반으로 클래스 순위 지정을 위해 연속 값을 반환하도록 단일 지원 벡터 머신을 훈련합니다. 화자는 예제를 사용하여 이러한 접근 방식을 설명하고 계산 비용으로 인해 쌍별 비교가 이상적이지 않다고 결론을 내립니다. 여러 클래스가 있는 지원 벡터 머신을 사용하기 위한 사실상의 접근 방식으로 일대일 비교가 가장 불리하고 지속적인 순위 지정으로 남습니다.

  • 00:20:00 이 섹션에서 강사는 다중 클래스 분류 문제에 서포트 벡터 머신을 사용하는 다양한 접근 방식에 대해 설명합니다. 여러 선형 구분 기호를 사용하여 서로 다른 클래스를 구별하는 방법이 모호한 지점으로 이어지는 방법과 대체 접근 방식인 연속 순위 지정 방법을 설명합니다. 이 접근법의 기본 아이디어는 각 클래스에 대해 별도의 가중치 벡터를 사용하고 입력 데이터의 내적의 크기를 각 클래스의 가중치 벡터와 비교하여 내적이 가장 큰 클래스를 선택하는 것입니다. 이 접근 방식은 여백 개념을 일반화하여 서로 다른 클래스의 내적을 비교하고 올바른 클래스의 내적이 모든 잘못된 클래스보다 적어도 하나 더 큰 내적을 갖도록 합니다.

  • 00:25:00 강의의 이 섹션에서 발표자는 SVM(Support Vector Machine)의 다중 클래스 마진 개념을 설명합니다. 다중 클래스 마진은 각 클래스 쌍에 대한 가중치 벡터의 차이로 정의되는 선형 구분자 주위에 버퍼가 있는 것에 해당합니다. 최적화 문제는 바이너리 SVM의 문제와 동일하며 제약 조건만 대체됩니다. 클래스가 겹치고 여러 클래스가 있는 경우 여유 변수 및 페널티 용어를 도입하여 소프트 마진으로 다중 클래스 분류를 처리할 수 있습니다. 다중 클래스 SVM은 이제 다중 클래스 및 중첩 클래스에서 작동하는 일반 공식입니다.