머신 러닝 및 신경망 - 페이지 46

 

기계 학습에 대한 CS480/680 소개 - 2019년 봄 - 워털루 대학교


CS480/680 강의 1: 과정 소개

이 강의에서는 컴퓨터에게 명령을 적지 않고도 복잡한 작업을 수행하도록 가르칠 수 있는 컴퓨터 과학의 새로운 패러다임인 기계 학습의 개념을 소개합니다. 이 비디오는 기계 학습의 간략한 역사를 제공하고 기계 학습 알고리즘의 세 가지 핵심 구성 요소인 데이터, 작업 및 성능을 소개합니다.

  • 00:00:00 이 강의에서는 컴퓨터가 명령을 적지 않고도 복잡한 작업을 수행하도록 가르칠 수 있는 컴퓨터 과학의 새로운 패러다임인 기계 학습의 개념을 소개합니다.

  • 00:05:00 이 비디오는 기계 학습의 간략한 역사를 제공하고 기계 학습 알고리즘의 세 가지 핵심 구성 요소인 데이터, 작업 및 성능을 소개합니다.

  • 00:10:00 이 강의에서는 지도 학습, 비지도 학습 및 강화 학습의 세 가지 주요 유형의 기계 학습 알고리즘에 대해 설명합니다. 지도 학습은 입력과 출력을 모두 포함하는 일련의 데이터를 컴퓨터에 제공하는 것이고, 비지도 학습은 컴퓨터에 데이터를 제공하지만 미리 답을 주지 않는 것입니다. 강화 학습은 컴퓨터에 방법을 나타내는 피드백을 제공하는 중간 지점입니다.
    잘하고 있지만 정답이 무엇인지에 대한 정해진 답이 없습니다.

  • 00:15:00 영상은 손글씨 숫자를 우편번호의 일부로 인식하는 문제에 대해 토론하고 암기에 기반한 솔루션을 제시합니다. 제안된 접근 방식은 쿼리 비트맵을 이미 메모리에 있는 비트맵과 비교하고 일치하는 항목을 찾는 것입니다. 이것은 암기의 인스턴스이지만 가능한 비트맵의 수로 인해 오류가 발생하기 쉽습니다.

  • 00:20:00 감독 학습은 알려진 함수를 근사화하는 함수를 찾는 데 사용되는 기술입니다. 이는 일련의 예제에 대해 기계 학습 모델을 교육한 다음 데이터에 최대한 근접하게 맞는 함수를 찾으려고 시도함으로써 수행됩니다.

  • 00:25:00 이 비디오는 데이터를 나타내는 데 사용할 수 있는 다양한 곡선과 "공짜 점심 금지 정리"에 대해 설명합니다. 데이터를 나타내는 데 사용할 수 있는 완벽한 곡선이 없으며 사람의 가정에 따라 다른 곡선이 정당화될 수 있음을 보여줍니다.

  • 00:30:00 기계 학습은 어렵지만 강력합니다. 데이터를 관리하는 규칙을 명시적으로 지정할 필요 없이 데이터에서 학습할 수 있기 때문입니다. 감독 학습에서는 알려진 예제 세트의 데이터를 사용하여 모델을 훈련한 다음 새 데이터를 예측하는 데 사용할 수 있습니다. 비지도 학습에서는 데이터를 관리하는 규칙을 지정하지 않고 데이터를 사용합니다. 일반화는 알고리즘의 효율성을 판단하는 핵심 기준이며 보이지 않는 예제와 관련하여 얼마나 잘 수행되는지로 측정됩니다.

  • 00:35:00 이 영상에서 저자는 컴퓨터가 데이터의 패턴을 인식하도록 훈련시키는 과정인 기계 학습의 개념을 소개합니다. 비지도 학습은 기계 학습의 더 어려운 형태로, 컴퓨터에 레이블(각 이미지에 대한 올바른 클래스)이 제공되지 않습니다. 자동 인코더는 데이터를 압축하는 데 사용할 수 있는 기계 학습 기술의 한 예입니다.

  • 00:40:00 이 강의에서는 교육 데이터에 레이블이 지정되지 않은 머신 러닝의 한 유형인 감독되지 않은 머신 러닝의 개념을 소개합니다. 이미지에서 특징을 자동으로 감지하도록 신경망을 설계하는 방법을 보여주고 이것이 얼굴 인식 및 기타 작업에 어떻게 사용될 수 있는지 설명합니다.

  • 00:45:00 이 강의는 지도 학습과 비지도 학습, 강화 학습, 이 세 가지 학습 형태의 차이점을 포함하여 기계 학습의 기본 사항을 다룹니다. 또한 강화 학습의 이론과 컴퓨터에서 구현하는 방법을 다룹니다.

  • 00:50:00 이 비디오는 행동을 수정하기 위해 긍정 및 부정 피드백에 의존하는 학습 방법인 강화 학습의 개념을 소개합니다. DeepMind의 AlphaGo 프로그램은 인간이 할 수 없는 수준에서 플레이하는 법을 학습함으로써 이 방법을 사용하여 최고의 인간 플레이어를 물리칠 수 있었습니다.

  • 00:55:00 이 강의는 체스와 같은 경우에 인간이 할 수 있는 것보다 더 나은 결과를 얻기 위해 강화 학습이 어떻게 사용되는지 설명합니다. AlphaGo는 지도 학습과 강화 학습의 조합을 통해 이를 달성했습니다. 기준선을 제공하기 위해 감독 학습 부분이 필요했지만 최상의 솔루션을 찾기 위해 강화 학습이 필요했습니다.

  • 01:00:00 이 강의는 Alphago 게임을 중심으로 지도 및 비지도 머신러닝에 대한 간략한 소개를 제공합니다. 그것은 그 움직임이 만들어질 당시 많은 사람들에게 좋은 움직임으로 여겨졌다고 설명하고 강화 학습이 우리가 미래에 더 나은 결정을 내리는 법을 배우는 데 도움이 될 수 있다고 지적합니다.
 

CS480/680 강의 2: K-최근접 이웃


CS480/680 강의 2: K-최근접 이웃

이 비디오는 분류와 회귀의 차이점을 포함하여 지도 학습의 기본 사항을 다룹니다. 또한 기계 학습에 대한 간략한 소개를 제공하고 최근접 이웃 알고리즘의 작동 방식을 설명합니다. 마지막으로 교차 검증을 사용하여 알고리즘을 평가하는 방법과 과소적합이 기계 학습에 미치는 영향에 대해 설명합니다. 이 강의에서는 k-최근접 이웃 알고리즘을 회귀 및 분류에 사용하는 방법과 거리에 따라 이웃에 가중치를 부여하는 방법에 대해 설명합니다. 교차 검증은 하이퍼파라미터를 최적화하는 데 사용되며 전체 데이터 세트는 모델 학습에 사용됩니다.

  • 00:00:00 이 강의는 귀납과 연역을 포함한 지도 학습의 기본 사항과 분류와 회귀의 주요 차이점을 다룹니다.

  • 00:05:00 이 강의에서 저자는 분류와 회귀의 차이점에 대해 논의하고 두 가지 예를 제공합니다. 그는 또한 머신 러닝에 대한 간략한 소개를 제공하며 이 두 가지 유형의 학습을 구분하는 것의 중요성을 강조합니다.

  • 00:10:00 처음 두 예제는 분류 문제이고 다음 두 예제는 회귀 문제입니다.

  • 00:15:00 강의에서는 다양한 유형의 음성 인식에 대해 논의하고 계속해서 숫자 인식에 대해 논의합니다. 디지털 단어를 나타내는 불연속 값을 정렬하는 좋은 방법이 없기 때문에 이것은 일반적으로 분류 문제라는 점에 유의하십시오.

  • 00:20:00 이 강의에서는 K-최근접 이웃을 사용하여 해결할 수 있는 문제의 네 가지 예에 대해 설명합니다. 첫 번째 예는 입력이 비트맵 이미지이고 출력이 숫자 분류인 분류 문제입니다. 두 번째 예는 입력이 집과 관련된 기능 집합이고 출력이 달러 값인 회귀 문제입니다. 세 번째 예는 날씨입니다.
    입력이 센서 데이터와 위성 이미지이고 출력이 비가 올지 여부에 대한 예측인 예측 문제. 네 번째 예는 입력이 사람의 수면 습관에 대한 질문이고 출력이 그 사람이 숙면을 취할 것인지에 대한 예측인 문제입니다.

  • 00:25:00 이 강의에서 교수는 기계 학습이 어떻게 작동하고 순수 최적화와 어떻게 다른지 설명합니다. 계속해서 기계 학습을 사용하여 분류 및 회귀와 같은 문제를 해결하는 방법에 대해 논의합니다.

  • 00:30:00 이 영상은 잘 일반화되는 가설을 찾는 강의의 목표에 대해 논의합니다. 주어진 예는 유한 차수의 다항식 공간의 일부가 아닌 함수를 찾으려고 시도하는 것입니다.

  • 00:35:00 발표자는 데이터에 노이즈가 있을 때 데이터를 정확하게 예측하는 함수를 찾는 데 어려움을 토의합니다. 이러한 어려움은 대부분의 데이터가 복잡하고 표현력이 없다는 사실로 인해 더욱 복잡해집니다. 그는 실제로 가설 공간의 표현력과 복잡성 사이에서 절충이 필요한 경우가 많다고 제안합니다.

  • 00:40:00 가장 가까운 이웃 분류기는 거리 측정에 따라 데이터 공간을 영역으로 나누고 각 영역에서 가장 가까운 지점의 레이블을 반환합니다. 이를 통해 가장 가까운 이웃 분류기에 어떤 일이 일어나고 있는지 더 명확하게 이해할 수 있습니다. 그러나 불안정하고 데이터의 노이즈에 속을 수 있습니다.

  • 00:45:00 이 강의에서 강사는 최근접 이웃 알고리즘의 간단한 일반화인 K 최근접 이웃 알고리즘에 대해 논의합니다. 그런 다음 그는 알고리즘이 가장 빈번한 클래스를 기반으로 데이터 세트를 영역으로 분할하는 방법을 보여줍니다. 마지막으로 그는 가장 가까운 이웃의 수를 늘리는 것이 분할에 어떤 영향을 미치는지 보여줍니다.

  • 00:50:00 이 비디오는 "교차 검증"이라는 표준 절차를 사용하여 기계 학습에서 알고리즘을 평가하는 방법에 대해 설명합니다. 이 절차는 데이터 세트를 훈련과 테스트의 두 부분으로 나누고 훈련 세트에서 훈련하고 테스트 세트에서 테스트합니다. 알고리즘의 정확도는 테스트 세트에서 측정되며 이웃 수가 증가함에 따라 정확도가 감소하면 알고리즘이 "편향"되었다고 합니다.

  • 00:55:00 이 동영상은 과소적합 현상과 이것이 기계 학습에 미치는 영향에 대해 설명합니다. 알고리즘이 다른 가설의 미래 정확도보다 낮은 가설을 찾을 때 과소적합이 발생한다고 설명합니다. 이는 분류자가 충분히 표현하지 못하기 때문에 발생할 수 있습니다. 즉, 가설 공간이 충분히 표현되지 않는다는 의미입니다.

  • 01:00:00 이 비디오에서 저자는 과적합과 과소적합을 수학적으로 결정하는 방법을 설명합니다. 과대적합은 알고리즘이 데이터에서 가장 높은 전력 Eh 값을 찾을 때 발생하는 반면, 과소적합은 훈련 정확도와 미래 정확도 간의 차이가 가능한 최대 값보다 작을 때 발생합니다. 트레이닝 세트에 대한 테스트는 과적합의 양을 정확하게 반영하지 않기 때문에 오해의 소지가 있습니다.

  • 01:05:00 이 강의에서 교수는 기계 학습 알고리즘에 대한 키를 선택하는 방법에 대해 논의하며 최소 권한의 원칙을 준수하는 것이 중요합니다. 그는 또한 테스트 세트와 관련하여 하이퍼파라미터를 최적화함으로써 이 원칙을 위반할 수 있으며, 그러면 더 이상 신뢰할 수 없다고 지적합니다. 이를 방지하기 위해 그는 데이터를 세 세트로 나누고 각 세트에서 차례로 훈련할 것을 제안합니다.

  • 01:10:00 이 강의에서 강사는 "k-최근접 이웃"의 개념과 주어진 문제에 대해 최상의 K를 선택하는 방법에 대해 설명합니다. 그는 또한 교육 및 검증에 사용되는 데이터가 가능한 대표성을 갖도록 교차 검증을 사용하는 방법에 대해서도 설명합니다.

  • 01:15:00 이 비디오에서 강사는 4중 교차 검증을 사용하여 모델을 검증하고 교육하는 방법을 보여줍니다.

  • 01:20:00 이 강의에서는 KNN(K-Nearest Neighbor)과 교차 검증을 사용하여 하이퍼파라미터를 최적화하는 단계에 대해 설명합니다. 하이퍼파라미터는 데이터의 하위 집합을 사용하여 평가되며 최상의 KNN이 원하는 정확도를 달성하면 가설이 반환됩니다. 마지막으로 전체 데이터 세트는 하이퍼파라미터를 훈련하는 데 사용됩니다.

  • 01:25:00 이 강의에서 강사는 회귀 및 분류를 위해 K 최근접 이웃을 사용하는 방법을 설명합니다. 그는 또한 거리를 기준으로 가장 가까운 이웃에 가중치를 부여하는 방법에 대해서도 설명합니다.
 

CS480/680 강의 3: 선형 회귀



CS480/680 강의 3: 선형 회귀

선형 회귀에 대한 강의는 주어진 점 집합에 가능한 한 근접한 최상의 선을 찾는 문제에 대한 소개로 시작됩니다. 강사는 선형 함수가 가중 입력의 조합으로 표현될 수 있다고 설명합니다. 볼록 최적화 문제를 사용하여 효율적으로 수행할 수 있는 가중치 벡터를 변경하여 유클리드 손실을 최소화하는 것을 목표로 최적화를 통해 선형 회귀를 해결할 수 있습니다. 선형 회귀 방정식을 푸는 과정에는 행렬 반전 또는 반복 방법과 같은 기술을 사용하여 수행할 수 있는 목적 함수에 대한 전역 최소값을 제공할 W 변수 또는 가중치를 찾는 것이 포함됩니다. 가중치의 크기를 제한하고 가능한 한 작게 강제하기 위해 목적 함수에 페널티 항을 추가하여 과적합을 방지하는 정규화의 중요성에 대해서도 설명합니다. 강의는 선형 회귀에서 과적합 문제를 해결하는 것의 중요성을 논의하면서 끝납니다.

  • 00:00:00 이 섹션에서는 강사가 회귀에 대한 표준 기계 학습 기법인 선형 회귀를 소개하고 문제를 직관적으로 설명합니다. 문제는 주어진 점 집합에 가능한 한 근접한 최상의 선을 찾는 것입니다. 데이터는 입력 기능 X와 대상 출력 T로 구성됩니다. 목표는 H가 선형이라고 가정하고 X를 T에 매핑하는 가설 H를 찾는 것입니다. 선형 함수는 가중치에 입력을 곱한 다음 함께 더하는 입력의 가중치 조합을 취하는 방식으로 항상 나타낼 수 있습니다.

  • 00:05:00 이 섹션에서 연사는 선형 함수의 공간과 손실 함수를 최소화하기 위한 최상의 선형 함수를 찾는 목적에 대해 논의합니다. 유클리드 손실 함수가 사용되며, 여기서 대상에서 예측을 빼서 거리 제곱을 구합니다. 화자는 Y가 선형 함수인 예측기의 출력이고 T1은 집이 팔린 가격이며 실측값이라고 설명합니다. 욕실 및 침실 수와 같은 여러 기능이 집 평가에서 고려되어 크기 25-30의 벡터가 됩니다. 발표자는 또한 슬라이드에 사용된 표기법에 대해 논의하고 이론상 2로 나누는 것이 반드시 필요한 것은 아니라고 언급합니다.

  • 00:10:00 강의의 이 섹션에서 교수는 선형 회귀를 언급할 때 과정 전체에서 사용할 표기법에 대해 논의합니다. 그는 가설에 대한 변수 H, 데이터 포인트에 대한 X, 모든 데이터 포인트에 대한 출력 벡터에 대한 Y, 가중치 벡터에 대한 W를 도입합니다. 그는 또한 스칼라 1과 연결된 데이터 포인트를 나타내는 X 막대의 사용에 대해 언급합니다. 교수는 W를 변경하여 유클리드 손실을 최소화하는 것을 목표로 최적화를 통해 선형 회귀를 해결할 수 있다고 설명합니다. 그는 이 최적화 문제가 볼록하기 때문에 쉽다는 점에 주목합니다. 즉, 최소값이 하나 있고 전역 최적값을 안정적으로 찾을 수 있음을 의미합니다.

  • 00:15:00 선형 회귀 강의의 이 섹션에서 연사는 최소값에 도달할 때까지 함수의 곡률을 따르는 경사 하강법을 사용하여 볼록 최적화 문제를 효율적으로 해결할 수 있는 방법을 설명합니다. 그러나 화자는 볼록하지 않은 대물렌즈가 다중 최소값을 가질 수 있어 전역 최적값을 안정적으로 찾기 어렵다고 지적합니다. 선형 회귀의 목표는 볼록하므로 보다 효율적인 솔루션은 그래디언트를 계산하고 0으로 설정한 다음 이 방정식을 충족하는 단일 점을 해결하는 것입니다. 이는 최소값을 보장하는 데 필요하고 충분합니다.

  • 00:20:00 강의의 이 섹션에서 교수는 선형 회귀 방정식을 해결하여 목적 함수에 대한 전역 최소값을 제공하는 W 변수 또는 가중치를 찾는 과정을 설명합니다. 선형 방정식 시스템은 W를 분리하여 W = B의 형태로 다시 작성할 수 있으며 입력 데이터를 나타내는 행렬 A를 반전하여 W를 풀 수 있습니다. 그러나 가우시안 제거와 같은 다른 기술이 있습니다. 켤레 기울기 및 더 빠르고 효율적일 수 있는 반복 방법. 교수는 또한 데이터 포인트와 선 사이의 수직 거리를 축소하여 출력 또는 Y축에 대한 유클리드 거리를 최소화하는 선을 찾는 개념을 그림으로 보여줍니다.

  • 00:25:00 이 섹션에서 강사는 단일 솔루션을 얻기 위해 선형 회귀에서 수직 거리를 최소화하는 직관을 설명합니다. 목적 함수는 볼록하고 공 모양 함수는 단일 최소값을 갖습니다. 그러나 최소 제곱 목적을 최소화하여 얻은 솔루션은 안정적이지 않아 과적합이 발생할 수 있습니다. 강사는 두 가지 예를 들어 이를 설명합니다. 그 중 하나는 입력을 엡실론 단위로 교란합니다. 강의는 또한 특이점 또는 특이점에 근접하여 행렬 A를 반전할 수 없는 중요한 문제에 대해 논의합니다.

  • 00:30:00 강의의 이 섹션에서 강사는 행렬 A는 동일하지만 대상 값 B가 다른 선형 회귀의 두 가지 수치 예를 제공합니다. 첫 번째 예는 첫 번째 데이터 포인트에 대해 정확히 1의 대상 값을 가집니다. 두 번째 예는 동일한 데이터 포인트에 대해 목표 값 1 + 엡실론을 가집니다. 목표 값의 차이는 엡실론이 매우 작은 값임에도 불구하고 출력에 상당한 변화를 가져옵니다. 강사는 그래픽 표현으로 문제를 설명하고 입력 값의 변화의 중요성과 이것이 선형 회귀에서 문제가 되는 이유를 강조합니다.

  • 00:35:00 이 섹션에서 강사는 두 개의 데이터 포인트를 사용하여 선형 회귀를 설명합니다. X에는 두 개의 항목이 있지만 두 번째 차원은 다양하며 첫 번째 항목은 무시됩니다. 강사는 두 개의 데이터 포인트를 그립니다. 하나는 X가 0이고 목표가 1 + Epsilon이고 다른 하나는 X가 Epsilon이고 목표가 1입니다. 첫 번째 데이터 포인트의 값이 1에서 1 + Epsilon으로 증가하여 데이터 부족과 노이즈로 인한 과적합을 나타냅니다. 더 많은 데이터 또는 더 높은 차원이 있더라도 솔루션이 불안정합니다.

  • 00:40:00 이 섹션에서는 선형 회귀의 정규화 개념을 소개합니다. 정규화는 가중치의 크기를 제한하는 페널티 항을 추가하여 가능한 한 작게 만듭니다. 이 페널티 항은 출력과 대상 사이의 유클리드 거리를 최소화하는 원래 목적에 추가됩니다. 정규화의 사용은 수치적 및 통계적 관점 모두에서 의미가 있으며 다음 강의에서 설명할 것입니다. 문제에 따라 페널티 기간의 중요성을 결정하는 하이퍼 매개변수 람다는 교차 검증을 통해 조정해야 합니다. 선형 회귀에서 정규화는 선형 방정식 시스템을 람다 I + A 곱하기 W = B로 변경합니다. 정규화를 통해 선형 시스템의 고유값은 최소 람다여야 하며, 이는 0에서 멀어지도록 제한하여 수치적 불안정성과 오류를 방지합니다.

  • 00:45:00 이 섹션에서 강사는 과적합을 방지하기 위해 선형 회귀에서 정규화를 적용하는 방법에 대해 설명합니다. 정규화 아이디어는 페널티 항을 목적 함수에 추가하고 파라미터 람다를 도입하여 페널티 항에 할당된 가중치의 양을 제어하는 것을 포함합니다. 강사는 이 정규화 기법이 선형 대수학의 관점에서 어떻게 작동하는지 설명합니다. 또한 정규화가 선형 회귀에서 얻은 솔루션을 안정화하고 과적합을 방지하는 방법을 설명하는 예제가 제공됩니다. 예제는 가중치를 최소화하고 페널티 항을 추가함으로써 서로 더 가까운 솔루션을 얻을 수 있음을 보여줍니다.

  • 00:50:00 이 섹션에서 강사는 선형 회귀에서 과적합 문제를 완화하기 위한 정규화의 중요성에 대해 논의합니다. 과적합은 모델이 훈련 데이터에서는 잘 수행되지만 테스트 데이터에서는 제대로 수행되지 않는 일반적인 문제입니다. 정규화는 이 문제를 해결하는 한 가지 방법이며 과정에서는 다른 접근 방식도 다룰 것입니다. 다음 수업에서는 주제를 통계적 관점에서 접근합니다.
 

CS480/680 강의 4: 통계 학습



CS480/680 강의 4: 통계 학습

이번 통계 학습 강의에서는 주변화 규칙, 조건부 확률, 결합 확률, 베이즈 규칙, 베이지안 학습 등 다양한 개념을 설명한다. 이러한 개념에는 학습 시 불확실성을 줄이기 위해 확률 분포를 사용하고 이를 업데이트하는 것이 포함됩니다. 강의는 다양한 알고리즘을 정당화하고 설명하기 위해 이러한 개념을 이해하는 것이 중요함을 강조합니다. 강의는 또한 특히 큰 가설 공간을 다룰 때 이러한 개념의 한계를 강조합니다. 이러한 한계에도 불구하고 베이지안 학습은 사전이 정확하고 사용자에게 의미 있는 정보를 제공하는 한 최적으로 간주됩니다.

이 강의에서 강사는 베이지안 학습의 다루기 쉬운 문제에 대한 해결책으로 근사 베이지안 학습의 개념을 설명합니다. 최대 우도 및 최대 a-posteriori는 통계 학습에서 일반적으로 사용되는 근사치이지만 베이지안 학습보다 과적합 및 덜 정확한 예측과 같은 고유한 약점이 있습니다. 강의는 또한 가능성을 최대화할 때 발생하는 최적화 문제, 다양한 문제에 필요한 데이터의 양, 과정 할당을 위한 다음 몇 개의 슬라이드의 중요성을 다룹니다. 강사는 일부 비율을 실현할 수 없는 경우에도 알고리즘이 주어진 공간 내에서 최상의 가설을 향해 수렴할 것이라고 강조하면서 결론을 내립니다.

  • 00:00:00 강의의 이 섹션에서 교수는 학습할 때 불확실성을 캡처하고 줄이기 위해 통계 및 확률 이론을 사용하는 것과 관련된 통계 학습 주제를 소개합니다. 아이디어는 확률 분포를 사용하여 불확실성을 정량화하고 학습이 진행됨에 따라 업데이트하는 것입니다. 강의는 또한 확률 분포에 대한 검토와 다중 확률 변수에 대한 공동 확률 분포의 개념을 제공합니다. 궁극적으로 통계적 학습은 통계적 관점에서 정규화를 포함한 알고리즘을 설명하고 정당화하는 데 도움이 됩니다.

  • 00:05:00 이 섹션에서 강사는 주변화 규칙을 사용하여 공동 분포에서 특정 분포를 추출하는 방법을 설명합니다. 그는 기상 조건, 두통 상태 및 매일의 확률이라는 세 가지 변수에 대한 공동 분포가 주어진 예를 제공합니다. 그는 주변 분포를 사용하여 확률 계산을 시연하여 공동 확률 또는 특정 날씨 또는 두통 시나리오의 확률을 찾는 것이 가능한 방법을 보여줍니다. 이 방법을 사용하여 그는 28점에 도달하는 두통이나 맑은 파티에 도달하여 결합 분포에서 특정 분포를 추출하는 방법을 보여줍니다.

  • 00:10:00 이 섹션에서는 한 변수가 주어진 다른 변수의 확률로 표시되는 조건부 확률의 개념에 대해 설명합니다. 세로 막대는 분수에 대한 참조를 나타내고 분자는 두 변수가 모두 참인 세계를 나타냅니다. 이 개념을 설명하기 위해 두 변수를 모두 가진 사람 수의 비율을 고려한 그래픽 표현이 사용됩니다. 이 개념은 독감에 걸렸을 때 두통이 생길 확률과 같은 드물게 발생하는 사건을 결정하는 데 사용됩니다.

  • 00:15:00 이 섹션에서는 화자가 계산 및 시각화 방법을 사용하여 조건부 확률을 계산하는 방법을 설명합니다. 조건부 확률에 대한 일반 방정식은 특정 변수가 있는 세계의 수를 나타내는 두 영역의 비율입니다. 결합 확률과 주변 확률의 개념을 소개하고 결합 분포를 조건부 확률과 주변 확률로 인수분해할 수 있는 사슬 규칙 방정식을 설명합니다. 화자는 또한 독감에 걸리면 두통이 생길 확률과 독감에 걸리면 두통이 생길 확률이 같다고 가정하는 일반적인 실수에 대해 경고하고 이것이 잘못된 이유를 설명합니다.

  • 00:20:00 이 섹션에서 화자는 증상을 기반으로 질병을 진단하는 맥락에서 조건부 확률을 탐구합니다. 조건부 확률에서 인수의 순서는 왼쪽이 추정되고 오른쪽이 컨텍스트이기 때문에 중요합니다. 화자는 두통이 있는 독감에 걸릴 확률을 계산하는 예를 통해 이를 설명합니다. 독감과 두통에 걸릴 확률은 연쇄법칙을 사용하여 계산한 다음, 이 확률을 두통에 걸릴 한계 확률로 나누어 조건부 확률을 구합니다. 또 다른 예는 두통, 화창함, 추위의 세 가지 무작위 변수로 제공됩니다. 맑은 날씨에 대한 두통과 추위의 조건부 확률은 물론 두통과 추위에 대한 맑은 날씨의 역 조건부 확률도 계산됩니다.

  • 00:25:00 강의의 이 섹션에서 강사는 특정 상황에서 여러 이벤트에 대한 공동 확률 계산을 설명하고 특정 상황에서 확률이 1이 되지 않는 이유에 대해 설명합니다. 주어진 예는 하루가 맑은지 여부에 관계없이 두통과 감기에 걸릴 확률을 포함합니다. 그런 다음 강사는 확률의 합이 1이어야 하는지 결정하기 위해 수직 막대의 왼쪽에 있는 모든 결과를 고려하는 것이 중요함을 강조하고 이벤트의 맥락을 변경하면 결과가 발생할 것이라고 가정하는 일반적인 실수에 대해 경고합니다. 합이 1이 되는 확률에서.

  • 00:30:00 이 섹션에서는 강사가 기계 학습 및 추론에 사용되는 베이즈 규칙을 설명합니다. 베이즈 규칙을 사용하면 인수 교환을 통해 두 조건부 확률 간의 관계를 계산할 수 있습니다. 사후 분포를 얻기 위해 사전 분포를 수정하는 데 사용되는 증거 또는 데이터 세트가 뒤따르는 초기 불확실성을 캡처하는 사전 분포와 함께 사용됩니다. 이 규칙은 또한 특정 데이터 세트를 얻을 가능성을 측정하는 데 사용할 수 있으며 불확실성을 정량화하는 분포를 수정하여 학습에 효과적인 도구가 될 수 있습니다. 베이즈 규칙의 방정식은 사전을 증거로 나누는 대신 우도와 상수를 곱하는 것을 포함합니다.

  • 00:35:00 강의의 이 섹션에서 화자는 증거의 속성이 학습 관점에서 정규화 상수라고 설명합니다. 결과 숫자가 0과 1 사이가 되도록 분자를 정규화하는 목적이 있습니다. 베이지안 학습 프로세스는 사후 분포를 제공하지만 실제로 원하는 것은 예측을 수행하는 데 사용할 가설입니다. 이를 위해 가설의 가중 조합을 사용하여 해당 사후 확률에 따라 가중치를 부여하여 예측을 수행합니다.

  • 00:40:00 이 섹션에서는 기계 학습에 대한 다양한 가설에 대한 가중치를 정의하기 위해 사후 분포를 사용하는 개념에 대해 설명합니다. 사탕 한 봉지의 맛 비율을 추정하기 위해 베이지안 학습을 사용하는 예가 제공되며, 여기서 사전 분포는 처음에 추측한 것이며 증거는 사탕을 먹음으로써 얻은 데이터에 해당합니다. 사후 분포는 불확실성을 줄이고 맛의 비율에 대해 학습하는 데 사용됩니다. 초기 믿음은 주관적이며 교육받은 추측을 기반으로 할 수 있습니다.

  • 00:45:00 강의의 이 섹션에서 연사는 사탕 한 봉지의 맛 비율을 추정하기 위한 베이지안 학습에 대해 논의합니다. 우도 분포는 사탕이 동일하고 독립적으로 분포된다는 가정을 기반으로 계산됩니다. Bayes의 정리를 사용하고 사전에 우도를 곱하면 사후 분포가 얻어지고 각 가설에 대한 사후 확률이 제공됩니다. 발표자는 사후 분포를 그래픽으로 보여주고 지금까지 먹은 모든 사탕이 라임일 때 모든 라임이 우세하다는 가설의 확률을 설명합니다.

  • 00:50:00 통계 학습에 관한 비디오의 이 섹션에서 발표자는 사탕을 봉지에서 임의로 뽑고 그 맛을 기록하는 사탕 봉지 실험의 결과에 대해 논의합니다. 관찰을 기반으로 백의 풍미 비율에 대한 가설을 업데이트하고 확률을 계산합니다. 가방에 체리만 들어 있다는 가설의 확률은 라임이 관찰될 때 0으로 떨어지는 반면, 라임이 75%이고 체리가 25%라는 가설의 확률은 라임과 함께 증가하지만 사탕 4개 후에는 다시 감소합니다. 또한 발표자는 각 가설에 대해 선택한 초기 확률이 사전 믿음을 나타내며 선택은 전문가의 믿음에 따라 주관적이라고 설명합니다. 마지막으로 발표자는 사용자에게 의미 있는 정보를 제공하기 위해 사후 분포를 사용하여 예측하는 것이 중요함을 강조합니다.

  • 00:55:00 강의의 이 섹션에서 연사는 베이지안 학습과 그 속성에 대해 논의합니다. 베이지안 학습은 사전이 정확하고 원칙에 입각한 예측 방법을 제공하는 한 최적으로 간주됩니다. 또한 일반적으로 기계 학습에서 중요한 문제인 과적합에 영향을 받지 않습니다. 그러나 베이지안 학습의 주요 단점은 특히 큰 가설 공간을 처리할 때 일반적으로 다루기 어렵다는 것입니다. 이로 인해 사후 분포 및 예측 계산이 문제가 됩니다.

  • 01:00:00 이 섹션에서는 베이지안 학습의 다루기 쉬운 문제에 대한 솔루션으로 근사 베이지안 학습의 개념을 소개합니다. 최대 a-posteriori는 사후 확률이 가장 높은 가설을 선택하고 이를 기반으로 예측하는 것과 관련된 일반적인 근사입니다. 이 접근 방식은 과적합을 제어할 수는 있지만 제거할 수는 없으며 단일 가설에 의존하기 때문에 베이지안 예측보다 정확도가 떨어집니다. 최대 우도는 데이터에 가장 잘 맞고 사전 확률을 사용하지 않는 가설을 선택하는 것과 관련된 또 다른 근사치로, 베이지안 학습보다 더 간단하지만 덜 정확합니다. 두 근사는 다루기 힘든 문제를 해결하지만 최적화 문제로 대체합니다.

  • 01:05:00 비디오의 이 섹션에서 강사는 데이터에 가장 잘 맞는 가설인 최대 가능성의 개념을 설명합니다. 그러나 여기에는 과적합으로 이어질 수 있는 잡음을 포함하여 모든 것을 맞추는 것이 포함될 수 있습니다. 우도를 최대화하면 계산을 단순화할 수 있지만 베이지안 및 MAP 예측보다 정확도가 떨어집니다. 우도 최대화에서 발생하는 최적화 문제는 여전히 다루기 힘들 수 있지만 과정의 많은 알고리즘은 통계적 관점에서 우도를 최대화할 것입니다. 마지막으로 강사는 학습 이론 분야에 속하고 가설 공간의 크기에 주관적인 다양한 문제에 필요한 데이터의 양에 대해 논의합니다.

  • 01:10:00 이 섹션에서 발표자는 강의를 마치지만 다음 강의에서 과제에 중요한 몇 가지 슬라이드를 더 다룰 것이라고 언급합니다. 그는 또한 일부 비율을 실현할 수 없더라도 알고리즘은 여전히 주어진 공간 내에서 예측을 수행하는 데 가장 적합한 가설을 향해 수렴할 것이라고 언급합니다.
 

CS480/680 강의 5: 통계적 선형 회귀



CS480/680 강의 5: 통계적 선형 회귀

통계적 선형 회귀에 대한 이 강의에서 교수는 잡음이 많고 손상된 데이터에 대한 최대 우도 및 가우시안 우도 분포의 개념부터 시작하여 다양한 주제를 다룹니다. 데이터 세트의 모든 데이터 포인트에 대해 최대 확률을 제공하는 가중치를 찾는 데 최대 우도 기법을 사용하는 방법을 설명합니다. 그런 다음 강의에서는 MAP(Maximum a-posteriori), 구형 가우시안 및 공분산 행렬에 대한 아이디어를 탐구합니다. 연사는 또한 선험적 정보 및 정규화의 사용에 대해 논의합니다. 그런 다음 선형 회귀에서 예상되는 오류는 두 가지 용어로 분류됩니다. 하나는 잡음을 설명하고 다른 하나는 가중치 벡터 W에 따라 달라지며 편향과 분산으로 더 세분화할 수 있습니다. 강의는 사후 분포를 계산하기 위한 베이지안 학습의 사용에 대한 토론으로 끝납니다. 전반적으로 강의는 통계적 선형 회귀와 관련된 광범위한 주제를 다루고 예측 오류를 줄이기 위해 모델을 최적화하는 데 유용한 통찰력을 제공합니다.

강의는 더 많은 데이터 포인트가 관찰됨에 따라 실제 가중치 집합으로 수렴되는 사후 분포를 추정하는 베이지안 회귀에 중점을 둡니다. 사전 분포는 W naught와 W1의 쌍에 대한 분포로 표시되며 선의 분포입니다. 데이터 포인트를 관찰한 후 사전 및 우도 분포를 사용하여 사후 분포를 계산하여 라인 위치에 대한 업데이트된 믿음을 얻습니다. 예측을 하기 위해 사후 분포를 기반으로 가설 예측의 가중 조합을 취하여 특정 공식에 의해 주어진 평균과 분산을 갖는 가우시안 예측으로 이어집니다. 실제 포인트 예측을 얻는 요령은 가우시안 예측의 평균을 취하는 것입니다.

  • 00:00:00 이 섹션에서는 선형 회귀의 맥락에서 최대 우도 및 최대 적대적 구상 학습의 개념을 소개합니다. 데이터는 잡음이 많고 손상된 측정값에서 나온 것으로 가정합니다. 관찰된 출력은 일부 노이즈가 추가된 기본 함수 출력의 손상된 버전입니다. 가우시안은 노이즈를 나타내는 것으로 가정합니다. 우도 분포는 데이터 세트의 각 입력에 대한 특정 출력을 측정할 우도를 결정하기 위해 표현됩니다. 이러한 이해는 정규화를 위한 더 나은 선택을 하는 데 도움이 됩니다.

  • 00:05:00 강의의 이 섹션에서 교수는 선형 회귀의 맥락에서 가우시안 분포에 대해 논의합니다. 기본 함수가 선형이고 결정론적이라고 가정할 때 결과 분포는 평균이 W 전치 X와 같고 분산이 시그마 제곱과 같은 가우시안 분포라고 설명합니다. 그런 다음 가우시안 분포의 그래프를 그려 평균 주변의 값을 측정할 확률이 더 높다는 것을 설명하고 곡선의 너비는 시그마 제곱으로 결정됩니다. 교수는 이것이 우도 함수이며 최대 우도 기술을 사용하여 데이터 세트의 모든 데이터 포인트에 대해 최대 확률을 제공하는 W를 찾을 수 있다고 지적합니다.

  • 00:10:00 이 섹션에서 강사는 통계적 선형 회귀를 위한 최상의 모델을 선택하는 방법을 설명합니다. 먼저 특정 입력 X와 분산 시그마가 있는 잡음 수준에서 관찰된 Y의 확률을 최적화하는 것부터 시작합니다. 그런 다음 강사는 자연 로그를 취하고 관련 없는 요소를 제거하여 이 식을 볼록 목적으로 단순화하고 크기를 조정하는 방법에 대한 유도를 보여줍니다. 결과는 선형 회귀에서 점과 선 사이의 거리를 최소화하는 직관적인 접근 방식을 보여주는 원래의 최소 제곱 문제입니다.

  • 00:15:00 이 섹션에서 발표자는 통계적 관점과 가우시안 노이즈가 있는 모델을 가정하여 측정을 관찰할 가능성이 가장 높은 W를 찾는 방법에 대해 논의합니다. 최적화 문제는 수학적으로 동일하므로 이 접근 방식에 더 높은 신뢰도를 제공합니다. 합계의 모든 항에서 시그마를 제거하는 것은 수학적으로 합계에서 빼내는 것과 동일하며 W가 선택될 때 모든 단일 측정에 대해 동일한 노이즈가 존재한다고 가정할 수 있습니다. 화자는 또한 최적의 솔루션을 찾기 위해 노이즈에 대한 모델을 갖고 이를 고정하기 위해 반복 실험을 기반으로 시그마를 추정하는 것이 중요하다고 언급합니다. 사후분포는 사후분포를 우도와 정규화 상수로 사전분포의 곱으로 계산하여 사후분포에서 가장 확률이 높은 W를 찾아 계산한다.

  • 00:20:00 강의의 이 섹션에서 강사는 MAP(Maximum a-posteriori)의 개념과 이것이 최대 우도와 어떻게 다른지에 대해 설명합니다. MAP는 가설의 분포를 구체화하기 위해 계산에 사전 분포를 포함하여 불확실성을 줄입니다. 강사는 가중치 벡터(W)에 대한 가우시안 사전 분포를 정의하는 방법과 다변량 가우스의 PDF를 계산하는 방법을 설명합니다. 강사는 또한 가우시안 분포의 모양을 설명하기 위해 등고선을 그리는 예를 제공합니다.

  • 00:25:00 강의의 이 섹션에서 강사는 구형 가우시안의 개념과 이것이 공분산 행렬과 어떻게 관련되는지 설명합니다. 공분산 행렬의 대각선 항목은 각 가중치의 분산을 나타내고 비대각선 항목은 가중치 간의 공분산을 나타냅니다. 그런 다음 강사는 공분산 행렬의 역이 항등 행렬의 람다 곱과 같다고 가정하고 파생을 사용하여 사후의 최대값을 찾는 방법을 보여줍니다. 이런 식으로 표현은 페널티 항이 W의 제곱 표준의 람다 배인 정규화된 최소 제곱 문제와 동일합니다. 정규화 항은 이제 새로운 방식으로 해석될 수 있으므로 이전 분포에서 온 것임을 분명히 합니다. W의 노름을 최소화하는 것은 가중치를 분포의 평균에 더 가깝게 만드는 것과 같습니다.

  • 00:30:00 이 섹션에서 발표자는 통계적 선형 회귀에서 공분산 행렬을 선택하기 위해 선험적 정보를 사용하는 방법에 대해 설명합니다. 솔루션이 0에 가까워야 함을 시사하는 정보가 있는 경우 특정 스프레드가 있는 종 모양 분포로 정의된 공분산 행렬과 함께 사전 제로 평균이 사용됩니다. 우도를 최대화하는 것은 이 사전을 사용할 때 페널티 항으로 정규화된 목표를 최소화하는 것과 같습니다. 가우시안이 구형이 아닌 보다 일반적인 형태인 상황에서는 각 차원의 반지름이 다르므로 대각선 항목에 다른 값이 있음을 의미합니다. 공분산 행렬이 모든 방향에서 동일한 너비를 갖는 대각선 형태를 가지며 실제로 잘 작동하는 경향이 있다고 가정하는 것이 타당합니다.

  • 00:35:00 이 섹션에서 연사는 조직 용어로 손실 제곱을 최소화하고 사후 가설을 최대화하는 접근 방식이 잠재적으로 다른 손실 결과로 이어질 수 있는 방법에 대해 논의합니다. 이 섹션에서는 손실 함수를 분석하고 예상 손실을 두 가지 용어로 분류합니다. 람다의 선택은 솔루션과 예상 손실에 영향을 미칩니다. 그런 다음 화자는 주어진 W가 어떻게 예상 손실로 이어질 수 있는지, 그리고 이 손실이 어떻게 두 가지 다른 용어로 분해될 수 있는지에 대한 수학적 유도를 보여줍니다. 분석은 샘플 데이터 세트와 기본 분포를 기반으로 하며 결과는 주어진 W의 예상 손실과 다양한 람다의 영향을 이해하는 데 사용할 수 있습니다.

  • 00:40:00 강의의 이 섹션에서 화자는 선형 회귀 모델에서 예상되는 오류의 도출을 설명합니다. 예상 오차는 노이즈를 설명하는 항과 가중치 벡터 W에 종속되는 항의 두 항으로 나뉩니다. 이 두 번째 항은 편향 제곱과 분산으로 분해될 수 있음을 보여주기 위해 더 확장될 수 있습니다. . 바이어스는 모델의 출력과 근사화되는 실제 기본 함수 간의 평균 차이를 측정하는 반면 분산은 평균에 대한 모델 출력의 가변성을 측정합니다. 예상 오류에 대한 편향과 분산의 기여를 이해함으로써 데이터 과학자는 모델을 더 잘 최적화하여 예측 오류를 줄일 수 있습니다.

  • 00:45:00 강의의 이 섹션에서 교수는 예상 손실을 노이즈, 분산 및 바이어스 제곱의 세 가지 용어로 분해하는 방법을 설명합니다. 이것은 x축이 할당에서 정규화 용어의 가중치인 람다인 그래프로 이어집니다. 람다가 증가함에 따라 오류는 처음에 감소한 다음 다시 증가합니다. 예상 손실은 노이즈 더하기 분산 더하기 바이어스 제곱으로 구성됩니다. 그래프는 분산 더하기 편향 제곱에 대한 곡선이 분산 및 편향 제곱에 대한 개별 곡선의 합임을 보여줍니다. 교차 검증은 달성된 오류를 제어할 수 있는 최상의 람다 값을 찾는 데 사용되는 반면 예상 손실과 실제 손실의 차이는 모든 경우에 존재하는 노이즈입니다.

  • 00:50:00 이 섹션에서 강사는 비선형 회귀의 예를 제공하여 서로 다른 데이터 세트로 최대 a-posteriori 학습을 적용하여 얻은 서로 다른 곡선이 바이어스 및 분산과 어떻게 관련되는지 설명합니다. 강사는 람다가 감소함에 따라 바이어스가 감소하고 분산이 증가한다고 설명합니다. 목표는 곡선에 표시된 대로 편향과 분산 간에 최상의 절충점을 제공하는 람다를 찾는 것입니다. 강사는 또한 오차는 제곱 거리로 측정되며 람다는 정규화에 사용되는 매개변수라고 언급합니다.

  • 00:55:00 이 섹션에서 강사는 제곱 거리를 최소화하고 페널티 항을 추가하는 아이디어에 대해 논의합니다. 여기서 람다는 페널티 항의 가중치입니다. 다양한 람다는 편향과 분산에 영향을 미치므로 최적의 W 값이 달라지며 예상 손실은 람다의 함수로 생각할 수 있습니다. 베이지안 학습은 사전에서 시작하여 기계 학습을 통해 불확실성을 줄임으로써 사후 분포를 계산하는 것을 수반합니다. 사후 분포는 가우시안 사전 확률과 가우스 우도를 곱하여 계산되어 가우스 사후가 됩니다.

  • 01:00:00 이 섹션에서는 선을 나타낼 수 있는 w의 공간에서 가우시안 사전 분포의 도움으로 베이지안 회귀의 개념을 설명합니다. 사전 분포는 w naught 및 w1 쌍에 대한 분포로 표시되며 선의 분포입니다. 그런 다음 단일 데이터 포인트를 관찰한 후 사전 분포와 우도 분포를 곱하여 사후 분포를 계산합니다. 결과적인 후방 분포는 산등성이를 따라 길어지고 다소 둥글게 되므로 선의 위치에 대한 업데이트된 믿음이 됩니다.

  • 01:05:00 이 섹션에서 강사는 베이지안 학습이 더 많은 데이터 포인트가 관찰됨에 따라 실제 가중치 집합으로 수렴하는 사후 분포를 추정하는 방법을 설명합니다. 빨간색 선은 데이터 공간에서 해당 선을 정의하는 가중치에 대한 분포인 해당 사후 분포의 샘플을 나타냅니다. 그러나 최종 사후 분포를 기반으로 예측을 수행하는 방법에 대한 질문은 여전히 남아 있습니다.

  • 01:10:00 이 섹션에서 발표자는 각 가설에 의해 만들어진 예측의 가중 조합을 포함하는 베이지안 학습을 사용하여 예측하는 방법을 설명합니다. 새로운 입력에 대한 예측이 이루어지며 가중치는 사후 분포에 의해 결정됩니다. 화자는 특정 공식에 의해 주어진 평균 및 분산과 함께 가우시안 예측에 도달하기 위해 가우시안 사후 및 우도를 사용합니다. 마지막으로 실제 포인트 예측을 얻기 위한 일반적인 트릭은 가우시안 예측의 평균을 취하는 것입니다.
 

CS480/680 강의 6: 조사 도구(Paulo Pacheco)



CS480/680 강의 6: 조사 도구(Paulo Pacheco)

이 동영상에서 Paulo Pacheco는 Google Scholar와 RefWorks라는 설문조사를 위한 두 가지 학술 도구를 소개합니다. 그는 Google Scholar를 사용하여 학술 논문을 검색하고 인용순으로 정렬하는 방법을 설명하고 오래된 논문에서 최신 논문을 필터링하도록 제안합니다. Pacheco는 인용 내보내기 및 관리의 중요성을 강조하고 이 작업을 위한 도구로 RefWorks를 소개합니다. 또한 창의적인 키워드 검색을 사용하고 잠재적으로 대학 네트워크 액세스 또는 VPN이 필요한 등 학술 출판물에 액세스하는 데 필요한 팁을 제공합니다.

  • 00:00:00 이 섹션에서 Paulo Pacheco는 설문조사를 수행하기 위한 두 가지 도구인 Google Scholar와 도서관의 RefWorks를 소개합니다. 그는 Google Scholar를 사용하여 학술 논문을 검색하고 대략적인 인용순으로 정렬하는 방법을 설명합니다. 그는 또한 오래된 논문을 걸러내고 최신 논문에 집중하는 방법을 제안합니다. Pacheco는 학술 작업을 위한 인용 내보내기 및 관리의 중요성을 강조하고 이러한 프로세스를 지원할 수 있는 도구로 RefWorks를 언급합니다.

  • 00:05:00 이 섹션에서 발표자는 특히 Google Scholar 및 University of Waterloo 라이브러리를 통해 학술 출판물에 액세스하기 위한 다양한 도구와 팁에 대해 논의합니다. 그는 Google Scholar를 사용하여 관련 논문을 찾고 연도 또는 인용 횟수별로 정렬하는 방법을 설명하고 전문에 액세스하려면 대학 네트워크 액세스 또는 VPN 사용이 필요할 수 있음을 언급합니다. 또한 그는 "NLP를 위한 멋진 데이터 세트" 또는 "컴퓨터 비전을 위한 멋진 링크"와 같은 창의적인 키워드 검색을 사용하여 영감과 고품질 리소스를 찾을 것을 제안합니다.
 

CS480/680 강의 6: Kaggle 데이터 세트 및 대회



CS480/680 강의 6: Kaggle 데이터 세트 및 대회

이 강의에서는 상금을 위해 제공된 데이터 세트를 사용하여 후원 대회에서 경쟁할 수 있는 데이터 과학 실무자를 위한 커뮤니티인 Kaggle, 기계 학습 모델 교육 및 데이터 기능 추출을 위한 커널, 알고리즘 설계에 사용할 거의 17,000개에 달하는 방대한 데이터 세트에 대해 설명합니다. 강사는 또한 회사 GitHub 리포지토리가 귀중한 데이터 세트, 코드 및 경쟁을 위한 게시된 논문을 제공할 수 있다고 언급합니다.

  • 00:00:00 이 섹션에서 강사는 데이터 사이언스 실무자가 데이터 세트와 상금을 제공하는 민간 기업이 후원하는 대회에서 경쟁할 수 있는 데이터 사이언스 커뮤니티인 Kaggle에 대해 이야기합니다. 참가자는 데이터를 다운로드하고, 기계 학습 알고리즘을 훈련하고, 경쟁에 예측을 제출하여 예측이 데이터 세트에 가장 적합한 경우 승리할 수 있습니다. Kaggle은 또한 여러 사용자가 제출한 커널, 기능 추출 또는 일부 데이터에 대한 특정 유형의 모델 교육에 유용한 코드 스니펫을 제공합니다. 경쟁 및 커널 외에도 Kaggle은 생각할 수 있는 모든 분야를 다루는 거의 17,000개의 데이터 세트를 제공합니다. 사용자는 알고리즘 설계에 필요한 가정을 충족할 수 있는 데이터 세트를 찾기 위해 약간의 쇼핑을 할 수 있습니다.

  • 00:05:00 이 섹션에서 발표자는 다양한 대회에 대한 데이터 세트를 찾을 수 있는 몇 가지 소스에 대해 논의합니다. 그는 Kaggle을 훌륭한 데이터세트 소스로 언급합니다. 그는 또한 코드를 실행하는 데 사용할 수 있는 데이터와 함께 유료 코드 및 게시된 문서를 사용할 수 있는 회사 GitHub 리포지토리를 조사할 것을 제안합니다. 이는 고품질 데이터 세트를 얻기 위한 귀중한 리소스가 될 수 있습니다.
 

CS480/680 강의 6: 흐름 정규화(Priyank Jaini)



CS480/680 강의 6: 흐름 정규화(Priyank Jaini)

이 비디오는 알려진 분포를 알려지지 않은 관심 분포로 변환하는 것을 목표로 하나의 분포를 다른 분포로 변환하는 함수를 학습하는 기술인 심층 생성 모델에서 흐름을 정규화하는 방법을 소개합니다. 비디오는 또한 흐름 정규화와 관련된 다양한 논문 및 발전에 대한 조사 수행 및 단일 가우시안을 혼합된 가우시안으로 변환하는 것을 포함하여 흐름 정규화와 관련된 가능한 연구 프로젝트에 대해 논의합니다. 강사는 정규화 흐름의 다양한 응용 프로그램을 탐색하도록 권장합니다.

  • 00:00:00 이 섹션에서 발표자는 심층 생성 모델의 흐름을 정규화하는 방법을 소개합니다. 분포를 학습하는 것은 기계 학습의 핵심 측면이며, 발표자는 흐름을 정규화하는 것이 하나의 분포를 다른 분포로 변환하는 기능을 학습하는 기술이라고 설명합니다. 목표는 가우스 분포와 같은 알려진 분포를 알려지지 않은 관심 분포로 변환하는 것입니다. 실제로 신경망은 이러한 변환에 사용되며 연구 초점은 원하는 분포를 얻기 위한 신경망 설계에 있었습니다.

  • 00:05:00 이 섹션에서 강사는 최근 몇 년 동안 많은 관심을 받고 있는 기계 학습의 뜨거운 주제인 정규화 흐름과 관련된 가능한 연구 프로젝트에 대해 논의합니다. 한 가지 프로젝트 아이디어는 잠재적으로 게시할 수 있는 흐름 정규화와 관련된 다양한 논문 및 발전에 대한 설문 조사를 수행하는 것입니다. 또 다른 아이디어는 특정 함수를 사용하여 단일 가우시안을 혼합 가우시안으로 변환하고 이것이 지수 및 스튜던트 T 분포와 같은 다른 분포로 확장될 수 있는 방법을 분석하는 것입니다. 강사는 또한 금융 자본 시장에서 무거운 꼬리 행동을 포착하는 데 이론적으로 열린 질문을 강조합니다. 전반적으로 강사는 정규화 흐름의 다양한 응용 프로그램을 탐색하도록 권장하고 관심 있는 학생들이 t에 대한 더 많은 지식을 얻기 위해 연락하는 것을 환영합니다.
 

CS480/680 강의 6: 자율 번역(Kira Selby)



CS480/680 강의 6: 자율 번역(Kira Selby)

이 비디오는 교차 언어 정보나 사전 일치 없이 언어 간 번역을 수행하도록 기계 학습 모델을 교육하는 비지도 단어 번역에 대해 설명합니다. Muse 모델은 언어 간 정보 없이 수백 가지 언어에 대해 최첨단 정확도를 달성할 수 있는 접근 방식으로 도입되었으며 성능 면에서 감독 모델에 근접합니다. 감독되지 않은 단어 번역 프로세스는 GAN 또는 생성적 적대 신경망을 사용하여 다른 언어 단어의 임베딩 공간을 번역하는 매트릭스를 사용합니다. 이 두 모델을 서로 훈련함으로써 두 분포를 하나의 공간에 매핑하는 방법이 생성되어 더 나은 변환 결과를 제공합니다. 이 모델은 단어 간 번역에서 82.3%의 정확도를 달성할 수 있습니다.

  • 00:00:00 이 섹션에서 강사는 교차 언어 정보나 사전 일치 없이 언어 간에 번역하도록 기계 학습 모델을 교육하는 비지도 단어 번역의 주제에 대해 논의합니다. 강사는 단어가 모델의 일부가 될 수 있는 벡터로 변환되는 단어 임베딩의 개념을 설명합니다. 강사는 선형 변환이 다른 언어의 벡터 공간을 연결할 수 있다는 간단한 가설을 사용하는 Muse 모델을 소개합니다. Muse는 언어 간 정보 없이 수백 가지 언어에 대해 최첨단 정확도를 달성할 수 있으며 성능 면에서 감독 모델에 근접합니다.

  • 00:05:00 이 섹션에서 Kira Selby는 다른 언어 단어의 임베딩 공간을 번역하는 매트릭스를 사용하여 감독되지 않은 단어 번역 프로세스를 설명합니다. 행렬은 한 언어 공간에서 다른 언어 공간으로 변환된 벡터의 전체 무리를 비교할 수 있습니다. 목표는 번역을 달성하기 위해 일치하는 언어 공간을 달성하는 것입니다. 이 프로세스는 생성자가 소스 공간 벡터를 취하고 대상 공간 벡터를 제공하는 행렬 u인 GAN 또는 생성적 적대적 네트워크를 사용합니다. 한편, 판별자는 벡터 세트가 실제 프랑스어 데이터에서 나온 것인지 모델에서 생성한 대략적인 프랑스어 데이터에서 나온 것인지를 구분하는 방법을 학습합니다. 이 두 모델을 서로 훈련함으로써 두 분포를 하나의 공간에 매핑하는 방법이 생성되어 더 나은 변환 결과를 제공합니다. 이 모델은 단어 대 단어 번역에서 82.3%의 정확도를 달성할 수 있지만 영어에서 페르시아어, 힌디어, 일본어 및 베트남어와 같은 여러 언어에 대해서는 아직 수렴되지 않았습니다.
 

CS480/680 강의 6: 사실 확인 및 강화 학습(Vik Goel)



CS480/680 강의 6: 사실 확인 및 강화 학습(Vik Goel)

컴퓨터 과학자 Vik Goel은 사실 확인 온라인 뉴스에서 강화 학습의 적용에 대해 논의하고 추천 시스템을 사용하여 지원 증거를 실시간으로 삽입할 것을 제안합니다. 그는 인용이 필요한 위치를 예측하기 위해 분류기를 훈련하기 위해 많은 학술 논문 모음을 데이터 소스로 사용할 것을 제안합니다. 또한 Goel은 연구원들이 프로세스를 가속화하고 비디오 게임에서 다양한 객체를 인식하기 위해 인간 우선 순위를 강화 학습 모델로 인코딩하기 시작한 방법을 설명합니다. 이는 추가 사전이 학습 과정을 개선할 수 있는 유망한 연구 영역을 제시합니다.

  • 00:00:00 강의의 이 섹션에서 Vik Goel은 강화 학습을 사용하여 온라인 뉴스 사실을 확인하는 아이디어에 대해 논의합니다. 그는 Google이 뉴스 기사의 진실성을 판단하기 위해 분류 모델을 교육하는 데 사용할 수 있는 사실 확인 웹사이트의 데이터 세트를 편집했다고 설명합니다. 그러나 대부분의 뉴스 기사에는 텍스트 내 인용이 부족하기 때문에 Goel은 지원 증거를 실시간으로 삽입하는 추천 시스템을 개발할 것을 제안합니다. 그는 방대한 학술 논문 모음을 데이터 소스로 사용하고 분류기를 훈련하여 각 논문에서 인용이 필요한 위치를 예측할 것을 제안합니다. 그런 다음 추천 시스템을 적용하면 인용해야 할 출처를 제안하여 온라인에서 잘못된 정보가 확산되는 것을 방지할 수 있습니다.

  • 00:05:00 이 섹션에서는 컴퓨터 과학자 Vik Goel이 에이전트가 환경에서 보상을 최대화하여 목표를 달성하려고 시도하는 강화 학습의 개념을 설명합니다. 현재 모델은 환경과 수백만 번의 상호 작용을 하기 때문에 비디오 게임을 배우기가 어렵습니다. 프로세스를 가속화하기 위해 연구자들은 에이전트가 게임에서 다양한 개체를 이해하고 인식할 수 있도록 인간의 우선 순위를 모델로 인코딩하는 방법을 모색하기 시작했습니다. 이 접근법은 과학자들이 학습 과정을 극적으로 개선하기 위해 더 많은 사전을 추가할 수 있는 폭넓은 연구 영역을 제시합니다.