머신 러닝 및 신경망 - 페이지 36

 

Matt Zeiler의 심층 신경망 시각화 및 이해



Matt Zeiler의 심층 신경망 시각화 및 이해

Matt Zeiler가 이미지 및 비디오의 객체 인식을 위한 CNN(컨볼루션 신경망)을 시각화하고 이해하는 방법에 대해 설명합니다. 그는 객체 인식에서 인간 및 영장류와 비교하여 심층 신경망이 어떻게 수행되는지 설명하고 CNN이 레이어를 통과하여 객체를 식별하는 방법을 학습하는 방법을 보여줍니다. Zeiler는 CNN 아키텍처를 개선하는 과정을 설명하고 제한된 데이터로 훈련할 때의 한계에 대해 논의합니다. 마지막으로 그는 상위 계층에서 하위 계층을 사용하는 것과 신경망에서 컨볼루션을 적용하는 것에 대한 질문에 답합니다.

  • 00:00:00 이 섹션에서 Matt Zeiler는 이미지와 비디오에서 개체를 인식하는 데 사용되는 컨볼루션 네트워크를 시각화하는 기술을 설명합니다. 이를 통해 각 레이어가 학습하는 내용을 이해하고 성능을 향상시키기 위한 통찰력을 얻을 수 있습니다. 컨볼루션 신경망은 80년대 후반부터 사용되어 왔으며 이전과 거의 동일한 아키텍처를 사용하는 새로운 접근 방식이 있습니다. Geoff Hinton 팀의 신경망이 일반적인 벤치마크인 ImageNet의 오류율을 일반적인 26%가 아닌 10% 감소시켜 인식 작업에서 더 나은 성능을 이끌어 내면서 이 분야의 돌파구를 마련했습니다.

  • 00:05:00 이 섹션에서 Matt Zeiler는 심층 신경망의 성능을 영장류 및 인간의 물체 인식 성능과 비교하는 최근 연구에 대해 설명합니다. 한 연구에서는 이미지가 제시되었을 때 원숭이의 뇌에서 전극 발사를 기록하고 인식 정확도를 심층 신경망 및 인간의 인식 정확도와 비교했습니다. 결과는 이미지가 100밀리초 미만 동안 표시될 때 인간, 심층 신경망 및 원숭이의 IT 피질이 거의 동일하게 수행됨을 보여주었습니다. 또한 Zeiler는 컨볼루션 네트워크가 실제로 학습하는 것을 학습하는 것을 목표로 이미지를 재구성하는 동시에 최상위 기능을 희소하게 만드는 데 사용되는 감독되지 않은 학습 모델인 D 컨볼루션 네트워크에 대해 설명합니다.

  • 00:10:00 이 섹션에서 Matt Zeiler는 특히 여러 계층의 정보를 처리할 때 좋은 재구성을 달성하기 위해 컨볼루션 네트워크에서 작업을 가역적으로 만드는 것의 중요성을 설명합니다. 그는 한 번에 가장 강력한 활성화가 있는 단일 기능 맵을 선택하고 이를 컨볼루션 네트워크의 상단에 대한 입력으로 사용하여 네트워크에서 가장 높은 레이어가 어떻게 시각화되는지(50,000개 이미지의 유효성 검사 세트 사용) 시연합니다. 아래에서 위로. 첫 번째 레이어 피처 맵의 시각화는 연구자들이 이전에 예상했던 다양한 방향과 빈도에서 방향이 지정된 가장자리와 색상 가장자리로 구성된 필터를 보여줍니다. 그러나 상위 계층의 시각화는 여러 이미지에서 가장 강력한 활성화 및 불변성을 보여줌으로써 네트워크가 다양한 객체를 학습하고 분류하는 방법에 대한 새로운 통찰력을 제공합니다.

  • 00:15:00 이 섹션에서 Zeiler는 신경망의 두 번째 레이어 개발에 대해 설명합니다. 이 레이어는 첫 번째 레이어보다 훨씬 더 복잡한 패턴 세트를 나타냅니다. 가장자리, 평행선, 곡선, 원 및 다채로운 블록의 조합은 다른 구조 중에서 두 번째 레이어에 있습니다. 풀링을 통해 이미지에서 처리할 수 있는 범위가 더 넓어집니다. Zeiler는 세 번째 레이어를 보면서 강아지의 얼굴이나 사람의 얼굴과 같은 객체의 표현을 구축하는 데 중요한 객체 부분을 학습하는 방법을 보여줍니다. 그룹화 기능은 세 번째 레이어에 남아 있지만 더 의미론적으로 관련된 그리드 또는 특정 얼굴 구조의 그룹화로 존재합니다.

  • 00:20:00 이 섹션에서는 신경망이 레이어를 통과할 때 특정 객체를 식별하는 방법을 학습하는 방법에 대해 설명합니다. 네트워크의 네 번째 계층에서 연결은 더 많은 개체에 따라 달라지고 잔디와 같이 작업에서 명시적이지 않은 범주가 기능이 됩니다. 이 모델은 또한 서로 다른 품종의 개 또는 서로 다른 방향에서 서로 다른 유형의 키보드와 같은 복수의 기능을 인식하는 방법을 배웁니다. 마지막 컨볼루션 레이어는 분류 레이어에 가까워질수록 컨볼루션에 대한 경계 효과 때문에 더 커집니다. 이 마지막 레이어의 콘텐츠는 모델이 이미지가 속한 클래스에 대한 결정을 내려야 하고 이 레이어에는 256개의 피처만 존재하므로 매우 개체 특정적입니다.

  • 00:25:00 이 섹션에서 Matt Zeiler는 시각화가 이미지의 관련 부분에서 트리거되는지 확인하기 위한 실험에 대해 설명합니다. 그들은 이미지 위에 평균 픽셀 128이 있는 0 블록을 슬라이드하고 모델의 활성화 또는 확률을 기록했습니다. 포메라니안 강아지의 얼굴을 가리면 포메라니안일 확률이 현저히 떨어지는 반면, 얼굴을 가리면 테니스공일 확률이 가장 높다는 사실을 발견했습니다. 흥미롭게도 그들은 다섯 번째 레이어가 이미지의 텍스트를 차단할 때 기능을 크게 떨어뜨리는 텍스트 감지기를 학습하여 레이어가 텍스트를 다른 클래스와 연결할 수 있다는 개념을 제공한다는 것을 발견했습니다. 마지막으로 그들은 2012년 ImageNet 챌린지에서 우승한 Toronto 그룹의 모델을 사용했고 첫 번째 레이어에서 필터의 정규화에서 큰 격차를 발견했습니다.

  • 00:30:00 비디오의 이 섹션에서 Matt Zeiler는 심층 신경망의 아키텍처를 개선하는 프로세스에 대해 설명합니다. 그는 재정규화 문제를 수정한 후 첫 번째 레이어 필터가 너무 커서 죽은 필터가 발생했다는 것이 분명해졌다고 설명합니다. 두 번째 레이어도 블로킹 아티팩트가 많아 정보 손실이 발생하여 컨볼루션의 보폭을 작게 만들고 블로킹 아티팩트를 제거하고 두 번째 레이어에서 유연성을 높였습니다. 이러한 수정은 2013년 ImageNet 대회에서 우승하는 데 도움이 되었으며, 이후 대회에서도 이러한 접근 방식을 다시 사용하여 좋은 결과를 얻었습니다. Zeiler는 또한 일반화 기능과 현저성을 결정하는 데 이러한 신경망을 사용하는 방법에 대해 설명합니다.

  • 00:35:00 이 섹션에서 Zeiler는 적은 양의 훈련 데이터만 사용될 때 모델이 기능을 제대로 학습하는 데 어려움을 겪는 심층 모델의 한계에 대해 설명합니다. 그는 이러한 모델이 일반적으로 물체 인식에 중요한 기능을 인식하는 데 능숙하며 다양한 표와 그래프를 통해 표시되는 몇 가지 예만으로 다른 작업으로 옮길 수 있다고 설명합니다. 또한 Zeiler는 모든 중간 계층과 다양한 유형의 분류기를 살펴봄으로써 심층 모델을 교육하는 것이 얼마나 중요한지 조사합니다. 마지막으로 Zeiler는 훈련된 모델을 활용하여 수집된 라벨 데이터를 정리하는 것이 가능하며 잠재적으로 훈련 모델을 개선할 수 있다고 제안합니다.

  • 00:40:00 이 섹션에서 Zeiler는 분류에서 괜찮은 성능을 보인 신경망의 하위 계층을 상위 계층이나 분류 출력 근처에서 사용할 수 있는지 여부에 대한 질문에 응답합니다. 그는 반복된 추출로 인해 상위 계층에 더 많은 정보가 있을 수 있지만 다른 유형의 정보도 도움이 될 수 있다고 설명합니다. 그런 다음 대화는 대규모 신경망 훈련을 위한 다양한 계층의 성능 및 하드웨어 고려 사항으로 이동합니다. Zeiler는 미묘한 감정이나 제스처와 같은 덜 구체적인 클래스를 인식하는 신경망의 기능과 다양한 레이어 크기의 매핑에 대해서도 논의합니다.

  • 00:45:00 이 섹션에서 발표자는 신경망의 이미지 및 기타 레이어에 컨볼루션이 적용되는 방식을 설명합니다. 컨볼루션의 적용은 필터의 크기와 필터가 적용되는 보폭의 두 가지 매개변수에 따라 달라집니다. 하위 계층에서 화자는 공간 콘텐츠가 너무 많고 모든 위치에서 계산하는 데 비용이 너무 많이 들기 때문에 2의 보폭이 사용된다고 설명합니다. 그러나 이렇게 하면 정보가 손실될 수 있습니다. 화자는 또한 신경망의 처음 몇 계층에는 비지도 학습이 없으며 "포기"와 같은 설명 단어가 이미 어휘에 포함되어 있다고 언급합니다.
 

ChatGPT 교육 방법



ChatGPT 교육 방법

ChatGPT는 인간의 대화를 모방하도록 설계된 기계 학습 시스템입니다. 대량의 구조화되지 않은 텍스트 데이터에 의존하는 생성적 사전 훈련 접근 방식을 사용하여 먼저 훈련한 다음 강화 학습을 사용하여 미세 조정하여 사용자의 기본 설정에 더 잘 적응합니다.

  • 00:00:00 ChatGPT는 인간의 대화를 모방하도록 설계된 기계 학습 시스템입니다. 방대한 양의 구조화되지 않은 텍스트 데이터에 의존하는 생성적 사전 훈련 방식을 사용하여 훈련됩니다.

  • 00:05:00 ChatGPT는 사용자 요청에 사람처럼 응답하도록 훈련된 챗봇입니다. 먼저 원하는 동작을 설명하는 수동으로 구성된 예제에서 모델을 조정한 다음 강화 학습을 사용하여 모델을 사용자의 기본 설정에 맞게 조정합니다.

  • 00:10:00 ChatGPT는 주어진 입력에 대해 K개의 출력에 대한 순위를 사용하여 훈련되는 챗봇입니다. 보상 모델은 로짓 또는 정규화되지 않은 로그 확률을 나타내는 쌍의 각 구성원에 스칼라 점수를 할당합니다. 점수가 높을수록 모델이 해당 응답에 배치될 확률이 높아집니다. 보상 모델을 이진 분류기로 처리하는 손실에는 표준 교차 엔트로피가 사용됩니다. 일단 훈련되면 스칼라 점수를 보상으로 사용할 수 있습니다. 이렇게 하면 순전히 감독되는 설정보다 더 많은 대화식 교육이 가능합니다. 강화 학습 단계에서 챗봇인 정책 모델은 최종 지도 모델에서 미세 조정됩니다. 대화 환경에서 사람에게 응답할 때 일련의 토큰을 액션으로 내보냅니다. 대화 기록 및 해당 작업인 특정 상태가 주어지면 보상 모델은 숫자 보상을 반환합니다. 개발자는 여기에서 강화 학습 알고리즘으로 근위 정책 최적화 또는 PPO를 사용하도록 선택합니다. 이 비디오에서는 PPO에 대해 자세히 다루지 않겠지만 이것은 다양한 도메인에서 인기 있는 선택이었습니다. 이제 우리가 여기에서 최적화하고 있는 학습된 보상 모델은 우리가 관심을 갖는 진정한 목표에 대한 적절한 근사치입니다. 그러나 여전히 대리 목표의 근사치일 뿐입니다.
 

생성 AI의 진정한 잠재력



생성 AI의 진정한 잠재력

Generative AI는 개발자의 프로토타이핑, 평가 및 사용자 지정을 지원하여 제품 생성 방식을 혁신할 수 있는 잠재력을 가지고 있습니다. 그러나 이 기술은 아직 초기 단계에 있으며 윤리적이고 안전하게 사용하려면 더 많은 연구가 필요합니다.

  • 00:00:00 이 비디오는 대규모 언어 모델을 사용할 때의 잠재적 이점과 문제점에 대해 논의하고 계속해서 Human Loop가 이러한 모델 위에 차별화된 애플리케이션을 구축하는 데 어떻게 도움이 되는지 설명합니다.

  • 00:05:00 이 동영상에서는 생성 AI가 개발자가 응용 프로그램의 프로토타이핑, 평가 및 사용자 지정을 지원하는 방법에 대해 설명합니다. AI 기술이 작업 흐름을 강화하는 데 도움이 되므로 개발자의 직업은 미래에 바뀔 가능성이 있다고 지적합니다.

  • 00:10:00 이 비디오는 제너레이티브 AI의 잠재력에 대해 논의하고 널리 채택되는 데 방해가 되는 몇 가지 장애물에 대해 논의합니다. 이 기술은 큰 잠재력을 가지고 있지만 아직 초기 단계에 있으며 윤리적이고 안전하게 사용하려면 더 많은 연구가 필요합니다.

  • 00:15:00 생성 AI의 잠재력은 방대하며 가까운 미래에 많은 잠재적 용도로 사용될 수 있습니다. 스타트업은 캄브리아기의 새로운 애플리케이션 폭발에 대비해야 하며 그 중 일부는 예측하기 어려울 수 있습니다.

  • 00:20:00 이 비디오는 생성 AI의 잠재력과 새롭고 혁신적인 제품을 만드는 데 어떻게 사용될 수 있는지에 대해 설명합니다.
 

Vrije Universiteit Amsterdam 기계 학습 2019 - 1 기계 학습 입문(MLVU2019)



Vrije Universiteit Amsterdam 기계 학습 2019 - 1 기계 학습 입문(MLVU2019)

이 비디오는 기계 학습에 대한 소개를 제공하고 이와 관련된 다양한 주제를 다룹니다. 강사는 과정을 준비하는 방법을 설명하고 위협적인 기계 학습에 대한 일반적인 우려 사항을 해결합니다. 그는 다양한 유형의 기계 학습을 소개하고 기존의 규칙 기반 프로그래밍과 구별합니다. 이 비디오는 또한 지도 학습의 기본 사항을 다루고 기계 학습이 분류 및 회귀 문제에 어떻게 사용될 수 있는지에 대한 예를 제공합니다. 특징 공간, 손실 함수 및 잔차의 개념도 설명합니다.

비디오의 두 번째 부분에서는 기계 학습에 대한 소개를 제공하고 패턴을 찾고 정확한 모델을 생성하여 데이터 세트에서 결과를 예측하는 주요 목표를 설명합니다. 연사는 과적합을 피하고 일반화를 달성하기 위해 특정 알고리즘과 데이터 분할을 사용하는 것의 중요성에 대해 논의합니다. 그는 또한 밀도 추정의 개념과 복잡한 데이터의 어려움을 소개합니다. 발표자는 기계 학습과 다른 분야의 차이점을 명확히 하고 정확한 예측을 위해 빅 데이터 세트를 세분화하는 전략을 암시합니다. 또한 영상에서는 딥러닝의 발달로 머신러닝에 종사하는 사람들의 증가에 대해 언급하고 초보자가 현장에서 시작할 수 있는 팁을 제공합니다.

  • 00:00:00 이 섹션에서는 연사가 기계 학습 과정을 준비하는 방법에 대해 이야기합니다. 그들은 학생들이 주요 과정 자료를 주의 깊게 읽고 필요한 것에 집중해야 한다고 제안합니다. 또한 학생들이 이해도를 테스트하고 강사가 말한 내용을 암기할 수 있는 퀴즈가 있습니다. 학생들은 숙제를 받고 공식이 있는 인쇄된 시트를 사용하여 나머지 영역에 펜으로 메모를 작성할 수 있습니다.

  • 00:05:00 이 섹션에서 발표자는 특히 컴퓨터 과학에 대한 배경 지식이 없는 사람들에게 머신 러닝이 무섭고 위협적이라는 우려를 다룹니다. 그는 이 프로젝트의 목적이 탐색하고 실험할 수 있는 데이터 세트와 리소스를 제공하여 개인이 기계 학습에 익숙해지도록 돕는 것이라고 설명합니다. 연사는 협업의 중요성을 강조하고 제공된 워크시트와 컴퓨팅 도구를 사용하여 학습을 촉진하도록 권장합니다.

  • 00:10:00 이 섹션에서 연사는 기계 학습 분야에서 그룹 역학 및 커뮤니케이션 기술의 중요성에 대해 논의합니다. 그는 그룹에서 효과적으로 작업하고 의사소통할 수 있는 것이 기술적인 작문 기술만큼 중요하다고 강조합니다. 연사는 또한 참가자들이 그룹 세션에 등록하고 효과적인 업무 관계를 형성하기 위해 프로그램의 다른 사람들에게 다가가도록 권장합니다. 그는 참가자들에게 온라인 토론 포럼과 같은 사용 가능한 리소스를 사용하여 프로그램의 다른 구성원과 연결하고 생산적이고 협력적인 관계를 형성하도록 조언합니다.

  • 00:15:00 이 섹션에서는 연사가 지도 머신 러닝을 시작으로 다양한 유형의 머신 러닝을 소개합니다. 그들은 두 가지 유형의 감독 기계 학습(분류 및 회귀)을 검토할 것이며 휴식 시간 후에 회귀에 대해 논의할 것이라고 설명합니다. 연사는 비지도 머신 러닝에 대해 간략하게 논의하고 머신 러닝이 일반 기계와 다른 이유에 대해 설명할 것이라고 언급합니다.

  • 00:20:00 이 섹션에서 발표자는 기본적으로 사전 결정된 일련의 지침을 따르는 기존의 규칙 기반 프로그래밍과 대규모 데이터 집합을 사용하여 사용할 수 있는 예측 모델을 구축하는 프로세스인 기계 학습을 구분합니다. 새로운 데이터를 기반으로 결정을 내립니다. 기계 학습은 의사 결정이 빠르고 안정적이며 부패하지 않아야 하는 상황에서 유용합니다. 그러나 기계 학습 모델은 완벽하지 않고 예기치 않게 실패할 수 있으므로 최종 결정을 내리려면 사람의 입력이 여전히 필요하다는 점을 기억하는 것이 중요합니다. 임상 의사 결정 지원은 기계 학습을 사용하여 의사의 의사 결정에 도움이 되는 추가 정보를 제공하는 방법의 한 예입니다.

  • 00:25:00 이 섹션에서는 화자가 기계 학습에서 온라인 또는 증분 학습의 개념을 설명합니다. 그들은 온라인 학습이 데이터의 지속적인 흐름이 있고 모델이 새로운 정보를 계속 업데이트하고 예측해야 하는 어려운 작업인 상황에서 효과적일 수 있다고 말합니다. 따라서 모델이 보다 쉽게 예측할 수 있도록 기반 데이터를 분리하고 재연하여 온라인 학습을 적용하는 데 중점을 둘 것을 권장합니다. 또한 발표자는 1950년대와 60년대 과학자들이 퍼셉트론이라는 단순한 인공 두뇌를 사용하여 뇌가 학습하는 방식을 탐구한 방법에 대해 설명합니다. 퍼셉트론을 훈련시켜 남성과 여성의 차이를 인식하는 것과 같은 예를 사용합니다.

  • 00:30:00 비디오의 이 섹션에서 연사는 기계 학습의 기본 사항에 대해 논의하고 지도 학습의 개념을 소개합니다. 여기서 기계는 입력 기능을 기반으로 데이터를 특정 범주로 분류하도록 훈련됩니다. 특정 단어의 빈도와 같은 기능을 측정하여 이메일을 스팸 또는 스팸이 아닌 것으로 분류하는 예가 제공됩니다. 목표는 이 데이터를 모델을 생성하는 학습 알고리즘에 제공하여 보이지 않는 새로운 예의 클래스를 정확하게 예측할 수 있도록 하는 것입니다. 이러한 유형의 문제에 사용할 수 있는 다양한 분류 알고리즘이 있습니다.

  • 00:35:00 이 섹션에서 발표자는 기계 학습이 분류 문제에 어떻게 사용될 수 있는지에 대한 두 가지 예를 제공합니다. 첫 번째 예는 이미지 분류를 사용하여 애리조나 계약에서 여러 자리 숫자를 인식하는 것과 관련이 있습니다. 그들은 숫자의 28x28 픽셀 이미지를 기능으로 사용하며 목표는 이미지에 어떤 숫자가 있는지 예측하는 것입니다. 두 번째 예는 기계 학습을 사용하여 자동차에 운전 방법을 가르치는 것입니다. 여기서 그들은 스티어링 휠의 센서를 통해 데이터를 수집하고 이를 프레임으로 분해하고 960 기능을 사용하여 자동차의 방향을 분류합니다.

  • 00:40:00 이 섹션에서 발표자는 회귀 문제를 해결하기 위해 알고리즘을 구축하는 방법에 대해 논의합니다. 주어진 예는 승객 수를 기반으로 버스 탑승 시간을 예측하는 것입니다. 발표자는 또한 과정에 대한 전체 일정이 있는 페이지가 있다고 언급하는데, 이는 그룹 간의 시간 변경과 때때로 변경될 수 있는 시각적 요소로 인해 중요합니다. 마지막으로 화자는 지도 학습 문제의 한 예인 사람의 키를 예측하기 위해 두 가지 기능을 사용하는 것에 대해 이야기합니다.

  • 00:45:00 이 섹션에서 발표자는 축을 사용하여 기능 공간에서 데이터를 표현하는 개념을 소개합니다. 이를 통해 요소와 해당 인터페이스를 시각적으로 표현할 수 있습니다. 이 공간에 선을 그리면 한 영역이 선 위의 모든 것을 나타내고 다른 영역은 그 아래의 모든 것을 나타내는 두 영역으로 공간을 나누는 분류자를 만들 수 있습니다. 로지스틱 젖꼭지는 선을 사용할 때 가장 좋은 선택이며 각 선은 3D 공간의 평면에서 속성을 정의하는 세 개의 숫자로 설명할 수 있습니다. 교환 가능한 함수인 손실 함수는 모델이 잘못되는 예의 수를 계산할 수 있으며 값이 낮을수록 모델이 더 잘 적합함을 의미합니다.

  • 00:50:00 이 섹션에서 발표자는 공간의 예와 공간을 사용하여 모델을 만드는 방법을 제공합니다. 그는 결정 트리의 개념과 큰 공간에서 어떻게 복잡해질 수 있는지 설명합니다. 그는 또한 사양 및 다양화에 대한 몇 가지 변형을 사용하여 분류 프로세스를 간단하고 강력하게 만들 수 있는 방법을 보여줍니다. 마지막으로 발표자는 다중 클래스 및 다중 레이블 분류와 개체가 상호 배타적이지 않은 경우에 유용할 수 있는 방법에 대해 설명합니다.

  • 00:55:00 이 섹션에서는 화자가 중요한 데이터를 기반으로 기능을 생성하여 적절한 클래스 확률 점수 및 출력 공간을 결정하는 방법을 설명합니다. 라인 세타 및 근육 손실 함수를 평가하기 위해 모델의 예측 값과 실제 출력 값 사이의 거리를 측정하는 잔차 방법이 배포됩니다. 회귀를 사용하여 잔차를 플로팅하고 잔차 제곱합을 계산하면 적절한 제곱 거리를 기준으로 데이터 방향으로 선을 당기기 때문에 예측 정확도가 향상될 수 있습니다.

  • 01:00:00 이 섹션에서 연사는 다중 선형 회귀와 같은 특정 알고리즘을 사용하여 데이터를 분석하고 모델을 만드는 것의 중요성에 대해 논의합니다. 그는 이러한 모델이 과대적합으로 인해 항상 정확한 것은 아니며, 따라서 데이터를 서로 다른 청크로 분할하고 그에 따라 분석해야 한다고 설명합니다. 연사는 또한 모델이 새로운 데이터로 결과를 정확하게 예측할 수 있도록 기계 학습 알고리즘을 만들 때 일반화가 가장 중요한 측면임을 강조합니다.

  • 01:05:00 이 섹션에서는 기계 학습에 대해 설명하고 대량의 데이터에서 학습하는 방법에 대해 설명합니다. 기계 학습 모델은 패턴을 찾고 기능을 기반으로 레이블을 정확하게 예측할 수 있는 모델을 만드는 것을 목표로 데이터를 기능 및 레이블 집합에 입력하여 구축됩니다. k-평균 클러스터링과 같은 기술을 사용하여 유사한 기능으로 데이터 포인트를 그룹화할 수 있으므로 보다 정확한 모델을 구축하는 데 도움이 됩니다. 또한 최적의 모델을 찾는 데는 많은 시행착오가 필요하며 무엇이 가장 잘 작동하는지 사전에 알 수 있는 간단한 방법이 없다는 점을 이해하는 것이 중요합니다.

  • 01:10:00 이 섹션에서 발표자는 밀도 추정의 개념과 이것이 데이터의 확률 분포를 식별하는 데 어떻게 도움이 되는지 소개합니다. 밀도 추정은 관심 분포를 가정하고 샘플 데이터를 기반으로 캡처하여 수행됩니다. 이 모델은 피처의 모든 포인트에 대한 확률 밀도를 예측하고 다른 속도의 가능성을 나타내는 숫자를 할당합니다. 그러나 사람의 사진과 같은 복잡한 데이터의 경우 고차원 특징으로 인해 밀도 추정이 어려워지고 다른 유사한 샘플을 제공하기 위한 대안적 접근이 필요합니다.

  • 01:15:00 이 섹션에서 연사는 도시 계획이나 욕실 계획과 같이 사람들이 기계와 관련되어 있다고 생각하도록 혼동할 수 있는 기계 학습 이외의 분야가 있다고 언급합니다. 그러나 이러한 분야에 반드시 많은 지출이나 시간이 필요한 것은 아닙니다. 발표자는 또한 정확한 예측을 위해 빅 데이터 세트를 더 작은 그룹으로 나누는 것과 관련하여 다음 주에 더 심도 있게 논의될 전략을 암시합니다. 이 전략은 음성 인식이나 문자 인식과 같은 분야에서 자주 사용됩니다.

  • 01:20:00 이 섹션에서 연사는 기계 학습에 대한 다양한 사고 방식과 이에 사용할 수 있는 기존 기술 및 모델에 대해 논의합니다. 그는 또한 딥 러닝이 기계 학습에 종사하는 사람들의 수가 증가하는 데 어떻게 기여했는지에 대해서도 언급합니다. 또한 그는 기계 학습을 시작하려는 초보자를 위한 팁을 제공하고 학습 여정에 도움이 되는 리소스의 가용성에 대해 언급합니다.
 

2 선형 모델 1: 초평면, 임의 검색, 경사 하강법(MLVU2019)



2 선형 모델 1: 초평면, 임의 검색, 경사 하강법(MLVU2019)

이 비디오는 선형 모델, 검색 방법 및 최적화 알고리즘의 기본 사항을 다룹니다. 선형 모델은 2차원과 다차원으로 모두 설명되며, 임의 탐색, 경사하강법 등의 방법을 통해 좋은 모델을 찾는 과정을 다룬다. 기계 학습에서 볼록성의 중요성을 설명하고 볼록하지 않은 환경에서 무작위 검색의 단점을 설명합니다. 비디오는 또한 검색 방법으로 진화 방법과 분기 검색을 소개합니다. 마지막으로 초평면에 대한 최속하강법의 방향을 찾는 과정을 포함하여 미적분학 및 경사하강법을 사용하여 손실 함수를 최적화하는 방법을 설명합니다.

두 번째 부분에서는 기울기 하강법과 알고리즘이 손실 함수의 음의 기울기 방향으로 단계를 수행하여 매개 변수를 업데이트하는 선형 모델에 대한 적용에 대해 설명합니다. 학습률은 알고리즘이 최소값으로 얼마나 빨리 수렴하는지 결정하는 데 중요하며 선형 함수를 사용하면 검색하지 않고도 최적의 모델을 해결할 수 있습니다. 그러나 더 복잡한 모델에는 경사 하강법을 사용해야 합니다. 비디오는 또한 분류 및 결정 경계를 소개합니다. 여기에서 목표는 최적으로 작동하는 선을 찾아 빨간색 점에서 파란색 점을 분리하는 것입니다. 선형 모델의 한계는 비선형적으로 분리 가능한 데이터 세트를 분류할 수 없다는 점을 포함하지만 계산 비용이 저렴하고 고차원 기능 공간에서 잘 작동합니다. 강사는 또한 기계 학습 방법론과 같이 논의될 향후 주제를 미리 봅니다.

  • 00:00:00 이 섹션에서 연사는 문제 추상화, 인스턴스 및 기능 선택, 모델 클래스 선택 및 좋은 모델 검색과 관련된 기계 학습의 기본 레시피를 설명합니다. 그런 다음 선택한 모델 클래스로 선형 모델을 소개하고 수학적 언어로 작성하는 방법에 대해 논의합니다. 그들은 경사 하강법을 포함한 검색 방법에 대해 이야기하고 이러한 방법이 선형 모델에만 국한되지 않으며 다른 맥락에서 나타날 것이라고 강조합니다. 인스턴스와 해당 값을 일치시키기 위해 위첨자를 사용하여 데이터 세트를 설명하는 표기법도 도입되었습니다. 마지막으로 간단한 회귀 데이터 세트가 강의 전반에 걸쳐 실행 예제로 사용됩니다.

  • 00:05:00 이 섹션에서 발표자는 선형 모델과 한 공간을 다른 공간에 매핑하는 데 사용할 수 있는 방법에 대해 설명합니다. 선형 모델은 이를 달성하기 위해 선을 설명하는 함수를 사용합니다. 라인 함수에는 각각 기울기와 편향을 나타내는 두 개의 매개변수 W와 B가 있습니다. 연사는 데이터 세트의 기능 수는 임의적일 수 있으며 모델은 여러 기능과 함께 작동해야 한다고 설명합니다. 여러 기능의 경우 각 인스턴스는 굵은 문자 표기법을 사용하여 벡터로 표시되며 이러한 각 벡터는 단일 값에 매핑됩니다.

  • 00:10:00 이 섹션에서 발표자는 모든 기능에 가중치를 할당하고 단일 B 값을 유지하여 평면에서 초평면으로 선형 모델을 확장하는 방법을 설명합니다. 이 함수는 W와 X + B의 내적으로 표현할 수 있으며, 이는 길이가 같은 두 벡터의 간단한 연산입니다. 내적은 공간에서 두 벡터의 길이와 두 벡터 사이의 각도의 코사인으로 표현될 수도 있습니다. 화자는 또한 모델에 간단한 기능을 추가하면 모델이 더 강력해질 수 있다는 흥미로운 원칙을 언급합니다. 마지막으로 좋은 모델을 찾기 위해 손실함수를 사용하고, 그 손실함수를 최소화하는 값을 찾기 위해 모든 모델의 공간을 찾는 방법이다.

  • 00:15:00 이 섹션에서 화자는 선형 회귀에 사용되는 평균 제곱 오류 손실 함수에 대해 설명합니다. 이 함수는 모델 예측과 실제 값 사이의 거리를 측정하고 거리를 제곱하고 모든 잔차를 합산하여 손실을 결정합니다. 값이 낮을수록 모델이 더 좋습니다. 화자는 양수 값과 음수 값이 상쇄되는 것을 방지하기 위해 함수가 절대값을 사용하는 대신 값을 제곱하는 이유를 설명합니다. 사각형은 또한 이상값에 추가 페널티를 부여하여 손실 함수에서 더 많은 가중치를 부여합니다. 또한 이 섹션에서는 모델 및 기능 공간과 손실 환경에서 낮은 손실 값을 검색하여 모델을 데이터에 맞추는 방법에 대해 간략하게 설명합니다.

  • 00:20:00 간단한 모델, 무작위 검색을 사용하여 임의의 점에서 시작하고 루프를 사용하여 매우 가까운 다른 점을 선택하고 두 점의 손실을 계산하고 새 포인트에 대한 손실이 더 좋으며 새 포인트로 전환합니다. 프로세스는 최적의 매개변수 값에 도달할 때까지 계속됩니다. 이것은 등산객이 산비탈이 가장 많이 오르는 곳을 결정하기 위해 모든 방향으로 작은 걸음을 내딛고 계곡에 도달할 때까지 그 방향으로 걸음을 내딛음으로써 눈보라 속을 항해하는 등산객과 유사합니다. 그러나 공간이 다차원인 기계 학습 설정에서는 전체 그림을 한 번에 볼 수 없으므로 그 과정은 눈보라 속의 등산객과 유사합니다. 최적의 값에 도달할 때까지 임의의 방향.

  • 00:25:00 이 섹션에서는 기계 학습의 볼록성 개념과 모델 검색 방법으로 임의 검색을 사용할 때의 영향에 대해 설명합니다. 볼록한 손실 표면 또는 수학적으로 그래프로 나타낼 때 그릇 모양의 손실 표면에는 최소값이 하나만 있으므로 전역 최소값을 찾을 수 있습니다. 그러나 손실 표면이 볼록하지 않고 여러 개의 로컬 최소값이 있는 경우 임의 검색이 중단되고 로컬 최소값에 수렴할 수 있습니다. 이를 해결하기 위해 시뮬레이션 어닐링을 검색 방법으로 도입하여 오르막으로 이동할 확률을 허용하여 로컬 최소값을 벗어나 전역 최소값을 찾을 수 있는 가능성을 허용합니다.

  • 00:30:00 이 섹션에서는 손실 함수를 블랙 박스로 간주하여 연속 또는 불연속 모델 공간을 최적화하기 위해 임의 검색 및 시뮬레이션 어닐링과 같은 블랙 박스 최적화 방법을 사용하는 방법에 대해 설명합니다. 모델의 내부 작동에 대한 지식. 이러한 방법은 전역 최적값을 찾을 가능성을 높이기 위해 여러 검색을 동시에 실행하도록 병렬화될 수도 있습니다. 또한 비디오는 이러한 최적화 방법이 종종 진화 알고리즘, 입자 및 식민지와 같은 자연 현상에서 영감을 얻었다고 언급합니다.

  • 00:35:00 이 섹션에서 화자는 진화에서 영감을 얻은 진화적 검색 방법의 기본 알고리즘을 소개합니다. 이 방법은 모델 모집단으로 시작하여 손실을 계산하고 순위를 매긴 다음 모집단의 절반을 죽이고 나머지 절반을 번식시켜 새로운 모집단을 만듭니다. 새 모델은 이전 모델의 속성을 기반으로 선택되며 일부 변형은 돌연변이를 사용하여 모집단에 추가됩니다. 발표자는 또한 랜덤 검색의 변형인 분기 검색 방법에 대해 설명합니다. 여기서는 임의 방향을 하나 선택하는 대신 K개의 임의 방향을 선택하고 손실이 가장 적은 방향을 선택합니다. 발표자는 진화적 방법의 유연성과 강력함을 언급하면서 결론을 내리지만 값비싼 계산 비용과 매개변수 조정 요구 사항에 대해 주의를 기울입니다.

  • 00:40:00 이 섹션에서 발표자는 주어진 문제에 대한 최적의 모델을 찾기 위한 다양한 검색 방법에 대해 논의합니다. 모델의 수가 증가함에 따라 로컬 곡률을 탐색하는 데 더 많은 시간을 할애하여 최적을 향한 보다 직선적인 선으로 이어집니다. 무작위로 발걸음을 옮기는 대신 이동하기 전에 지역 이웃을 이해하고 최적의 방향을 파악하는 데 더 많은 시간을 할애할 수 있습니다. 그런 다음 저자는 손실 함수를 살펴보고 미적분학을 통해 함수가 가장 빨리 감소하는 방향을 계산하는 경사 하강법을 소개합니다. 이 방법은 함수가 미분 가능하고 매끄럽고 연속적이어야 하며 더 이상 블랙박스 모델이 아닙니다.

  • 00:45:00 이 섹션에서 화자는 손실 함수와 관련된 기울기와 접선에 대해 설명합니다. 손실 표면은 선형 함수가 아니지만 손실 함수의 도함수를 나타내는 접선의 기울기는 함수가 감소하는 방향과 속도를 나타낼 수 있습니다. 더 높은 차원에서 접선에 해당하는 것은 접선 초평면이며 손실 표면이 가장 빠르게 감소하는 방향을 제공할 수도 있습니다. 강의는 또한 초평면과 같은 선형 함수를 다룰 때 유용한 벡터를 공간의 한 점 또는 방향으로 해석하는 방법을 다룹니다.

  • 00:50:00 이 섹션에서 연사는 도함수를 여러 차원으로 일반화하는 방법과 초평면의 가장 가파른 하강 방향을 찾는 방법에 대해 논의합니다. 여러 차원에서 도함수를 취하는 것과 동등한 것은 X, Y 및 Z에 대한 편미분 도함수로 구성된 벡터인 기울기를 계산하는 것입니다. 이 세 값은 함께 평면에 대한 세 가지 매개변수를 정의하고 세 값은 함께 평면을 정의합니다. 초평면. 최속강하의 방향 W는 W의 노름 곱하기 a의 코사인을 최대화하여 찾을 수 있습니다. 이는 X와 W 사이의 거리가 X와 W 사이의 각도와 같거나 X와 W가 같을 때 최대화됩니다. 따라서 가장 가파른 내리막 방향은 W입니다.

  • 00:55:00 이 섹션에서 화자는 기울기 하강법이라는 손실 함수의 최소값을 찾는 간단한 알고리즘을 설명합니다. 알고리즘은 모델 공간의 임의 지점에서 시작하여 해당 지점에서 손실의 기울기를 계산하고 anta라는 작은 값을 곱한 다음 모델에서 뺍니다. 무작위성은 없으며 순전히 결정론적인 단계만 있습니다. 그래디언트는 방향과 단계 크기를 모두 제공합니다. 그런 다음 화자는 계속해서 미적분학을 사용하여 손실 풍경에 대한 기울기를 계산하고 합계 및 체인 규칙을 설명하고 W 및 B에 대한 손실 함수 파생의 2차원 벡터로 끝납니다.

  • 01:00:00 이 섹션에서 발표자는 Python에서 경사 하강법을 구현하는 방법과 최소값을 찾고 거기에 머무르기 위해 표면의 곡률을 따라 벡터 방향으로 단계를 허용하는 방법에 대해 설명합니다. 이를 시연하기 위해 그들은 사용자가 경사 하강법을 사용하여 간단한 선형 모델을 실험할 수 있도록 해주는groundground.tensorflow.org라는 웹 사이트를 소개합니다. 그러나 화자는 또한 경사 하강법에는 학습 속도를 선택해야 할 필요성과 로컬 최소값에 갇힐 가능성과 같은 몇 가지 제한 사항이 있음을 지적합니다.

  • 01:05:00 이 섹션에서는 비디오에서 경사 하강법에 대해 자세히 설명하고 선형 모델에 적용합니다. 기울기 하강법을 사용하면 알고리즘은 손실 함수의 음의 기울기 방향으로 단계를 수행하여 매개변수를 업데이트하고 이 프로세스는 최소값에 도달할 때까지 반복됩니다. 학습률은 각 단계의 크기를 결정하며 알고리즘이 최소값으로 수렴하는 속도에 영향을 미치므로 너무 크거나 작지 않은 학습률을 찾는 것이 중요합니다. 선형 함수를 사용하면 검색하지 않고도 최적의 모델을 해결할 수 있습니다. 그러나 더 복잡한 모델에는 경사 하강법을 사용해야 합니다. 경사 하강법은 빠르고 메모리가 적고 정확하지만 로컬 최소값을 벗어나지 않으며 부드러운 손실 함수가 있는 연속 모델 공간에서만 작동합니다. 마지막으로 비디오는 기능 공간에서 최적으로 작동하는 선을 찾아 파란색 점과 빨간색 점을 분리하는 것이 목표인 분류 및 결정 경계를 소개합니다.

  • 01:10:00 이 섹션에서 화자는 6개의 인스턴스로 구성된 단순 분류 데이터 세트에 대한 분류자를 찾는 프로세스에 대해 설명합니다. 이를 위해 그들은 좋은 평가를 얻기 위해 잘못 분류된 포인트의 수를 최소화하기 위해 데이터 세트에서 잠재적인 선형 모델 또는 평면을 평가하는 데 사용할 수 있는 손실 함수를 검색합니다. 그러나 그들이 초기에 사용하는 손실 함수는 평면 구조를 가지고 있어 임의 탐색 및 경사 상승이 비효율적이기 때문에 최적의 모델을 찾는 데 적합하지 않습니다. 그런 다음 화자는 때때로 손실 함수가 평가 함수와 달라야 한다고 말하고 원하는 지점 주변에서 최소값을 갖지만 모든 곳에서 매끄러운 손실 함수를 제시합니다.

  • 01:15:00 이 섹션에서 강사는 회귀에 사용되는 최소 제곱 원리가 포인트 값을 할당하고 문제를 회귀 문제로 처리하여 분류에 어떻게 적용할 수 있는지 보여줍니다. 이 접근 방식은 선형으로 분리 가능한 지점을 클러스터링하는 데 적합하지만 선형으로 분리할 수 없는 클러스터를 분리한다는 보장은 없습니다. 손실 함수를 최소화하기 위해 기능 공간에서 결정된 단계를 수행하여 경사 하강법 알고리즘이 작동하는 방식을 보여줍니다. 사용된 예는 선형적으로 분리 가능한 점이 있는 데이터 세트이며 강사는 또한 복잡한 경계를 가진 핵심 데이터 세트의 예에서 보여지는 것처럼 선형 모델이 표현할 수 있는 것에 제한이 있음을 강조합니다.

  • 01:20:00 이 섹션에서 강사는 선형 모델의 한계와 나선형 패턴이 있는 데이터 세트와 같이 비선형적으로 분리 가능한 데이터 세트를 분류하지 못하는 방법에 대해 설명합니다. 그러나 선형 모델은 고차원 기능 공간에서 잘 작동할 수 있으며 계산 비용도 저렴합니다. 강사는 확률적 경사하강법이 강력한 최적화 도구이지만 불연속 손실 함수의 프록시로 사용되는 부드러운 손실 함수가 필요하다고 설명합니다. 강사는 기계 학습 방법론과 같이 논의될 향후 주제를 미리 보면서 결론을 내립니다.
 

2 선형 모델 1: 초평면, 임의 검색, 경사 하강법(MLVU2019)



2 선형 모델 1: 초평면, 임의 검색, 경사 하강법(MLVU2019)

이 비디오는 선형 모델, 검색 방법 및 최적화 알고리즘의 기본 사항을 다룹니다. 선형 모델은 2차원과 다차원으로 모두 설명되며, 임의 탐색, 경사하강법 등의 방법을 통해 좋은 모델을 찾는 과정을 다룬다. 기계 학습에서 볼록성의 중요성을 설명하고 볼록하지 않은 환경에서 무작위 검색의 단점을 설명합니다. 비디오는 또한 검색 방법으로 진화 방법과 분기 검색을 소개합니다. 마지막으로 초평면에 대한 최속하강법의 방향을 찾는 과정을 포함하여 미적분학 및 경사하강법을 사용하여 손실 함수를 최적화하는 방법을 설명합니다.

두 번째 부분에서는 기울기 하강법과 알고리즘이 손실 함수의 음의 기울기 방향으로 단계를 수행하여 매개 변수를 업데이트하는 선형 모델에 대한 적용에 대해 설명합니다. 학습률은 알고리즘이 최소값으로 얼마나 빨리 수렴하는지 결정하는 데 중요하며 선형 함수를 사용하면 검색하지 않고도 최적의 모델을 해결할 수 있습니다. 그러나 더 복잡한 모델에는 경사 하강법을 사용해야 합니다. 비디오는 또한 분류 및 결정 경계를 소개합니다. 여기에서 목표는 최적으로 작동하는 선을 찾아 빨간색 점에서 파란색 점을 분리하는 것입니다. 선형 모델의 한계는 비선형적으로 분리 가능한 데이터 세트를 분류할 수 없다는 점을 포함하지만 계산 비용이 저렴하고 고차원 기능 공간에서 잘 작동합니다. 강사는 또한 기계 학습 방법론과 같이 논의될 향후 주제를 미리 봅니다.

  • 00:00:00 이 섹션에서 연사는 문제 추상화, 인스턴스 및 기능 선택, 모델 클래스 선택 및 좋은 모델 검색과 관련된 기계 학습의 기본 레시피를 설명합니다. 그런 다음 선택한 모델 클래스로 선형 모델을 소개하고 수학적 언어로 작성하는 방법에 대해 논의합니다. 그들은 경사 하강법을 포함한 검색 방법에 대해 이야기하고 이러한 방법이 선형 모델에만 국한되지 않으며 다른 맥락에서 나타날 것이라고 강조합니다. 인스턴스와 해당 값을 일치시키기 위해 위첨자를 사용하여 데이터 세트를 설명하는 표기법도 도입되었습니다. 마지막으로 간단한 회귀 데이터 세트가 강의 전반에 걸쳐 실행 예제로 사용됩니다.

  • 00:05:00 이 섹션에서 발표자는 선형 모델과 한 공간을 다른 공간에 매핑하는 데 사용할 수 있는 방법에 대해 설명합니다. 선형 모델은 이를 달성하기 위해 선을 설명하는 함수를 사용합니다. 라인 함수에는 각각 기울기와 편향을 나타내는 두 개의 매개변수 W와 B가 있습니다. 연사는 데이터 세트의 기능 수는 임의적일 수 있으며 모델은 여러 기능과 함께 작동해야 한다고 설명합니다. 여러 기능의 경우 각 인스턴스는 굵은 문자 표기법을 사용하여 벡터로 표시되며 이러한 각 벡터는 단일 값에 매핑됩니다.

  • 00:10:00 이 섹션에서 발표자는 모든 기능에 가중치를 할당하고 단일 B 값을 유지하여 평면에서 초평면으로 선형 모델을 확장하는 방법을 설명합니다. 이 함수는 W와 X + B의 내적으로 표현할 수 있으며, 이는 길이가 같은 두 벡터의 간단한 연산입니다. 내적은 공간에서 두 벡터의 길이와 두 벡터 사이의 각도의 코사인으로 표현될 수도 있습니다. 화자는 또한 모델에 간단한 기능을 추가하면 모델이 더 강력해질 수 있다는 흥미로운 원칙을 언급합니다. 마지막으로 좋은 모델을 찾기 위해 손실함수를 사용하고, 그 손실함수를 최소화하는 값을 찾기 위해 모든 모델의 공간을 찾는 방법이다.

  • 00:15:00 이 섹션에서 화자는 선형 회귀에 사용되는 평균 제곱 오류 손실 함수에 대해 설명합니다. 이 함수는 모델 예측과 실제 값 사이의 거리를 측정하고 거리를 제곱하고 모든 잔차를 합산하여 손실을 결정합니다. 값이 낮을수록 모델이 더 좋습니다. 화자는 양수 값과 음수 값이 상쇄되는 것을 방지하기 위해 함수가 절대값을 사용하는 대신 값을 제곱하는 이유를 설명합니다. 사각형은 또한 이상값에 추가 페널티를 부여하여 손실 함수에서 더 많은 가중치를 부여합니다. 또한 이 섹션에서는 모델 및 기능 공간과 손실 환경에서 낮은 손실 값을 검색하여 모델을 데이터에 맞추는 방법에 대해 간략하게 설명합니다.

  • 00:20:00 간단한 모델, 무작위 검색을 사용하여 임의의 점에서 시작하고 루프를 사용하여 매우 가까운 다른 점을 선택하고 두 점의 손실을 계산하고 새 포인트에 대한 손실이 더 좋으며 새 포인트로 전환합니다. 프로세스는 최적의 매개변수 값에 도달할 때까지 계속됩니다. 이것은 등산객이 산비탈이 가장 많이 오르는 곳을 결정하기 위해 모든 방향으로 작은 걸음을 내딛고 계곡에 도달할 때까지 그 방향으로 걸음을 내딛음으로써 눈보라 속을 항해하는 등산객과 유사합니다. 그러나 공간이 다차원인 기계 학습 설정에서는 전체 그림을 한 번에 볼 수 없으므로 그 과정은 눈보라 속의 등산객과 유사합니다. 최적의 값에 도달할 때까지 임의의 방향.

  • 00:25:00 이 섹션에서는 기계 학습의 볼록성 개념과 모델 검색 방법으로 임의 검색을 사용할 때의 영향에 대해 설명합니다. 볼록한 손실 표면 또는 수학적으로 그래프로 나타낼 때 그릇 모양의 손실 표면에는 최소값이 하나만 있으므로 전역 최소값을 찾을 수 있습니다. 그러나 손실 표면이 볼록하지 않고 여러 개의 로컬 최소값이 있는 경우 임의 검색이 중단되고 로컬 최소값에 수렴할 수 있습니다. 이를 해결하기 위해 시뮬레이션 어닐링을 검색 방법으로 도입하여 오르막으로 이동할 확률을 허용하여 로컬 최소값을 벗어나 전역 최소값을 찾을 수 있는 가능성을 허용합니다.

  • 00:30:00 이 섹션에서는 손실 함수를 블랙 박스로 간주하여 연속 또는 불연속 모델 공간을 최적화하기 위해 임의 검색 및 시뮬레이션 어닐링과 같은 블랙 박스 최적화 방법을 사용하는 방법에 대해 설명합니다. 모델의 내부 작동에 대한 지식. 이러한 방법은 전역 최적값을 찾을 가능성을 높이기 위해 여러 검색을 동시에 실행하도록 병렬화될 수도 있습니다. 또한 비디오는 이러한 최적화 방법이 종종 진화 알고리즘, 입자 및 식민지와 같은 자연 현상에서 영감을 얻었다고 언급합니다.

  • 00:35:00 이 섹션에서 화자는 진화에서 영감을 얻은 진화적 검색 방법의 기본 알고리즘을 소개합니다. 이 방법은 모델 모집단으로 시작하여 손실을 계산하고 순위를 매긴 다음 모집단의 절반을 죽이고 나머지 절반을 번식시켜 새로운 모집단을 만듭니다. 새 모델은 이전 모델의 속성을 기반으로 선택되며 일부 변형은 돌연변이를 사용하여 모집단에 추가됩니다. 발표자는 또한 랜덤 검색의 변형인 분기 검색 방법에 대해 설명합니다. 여기서는 임의 방향을 하나 선택하는 대신 K개의 임의 방향을 선택하고 손실이 가장 적은 방향을 선택합니다. 발표자는 진화적 방법의 유연성과 강력함을 언급하면서 결론을 내리지만 값비싼 계산 비용과 매개변수 조정 요구 사항에 대해 주의를 기울입니다.

  • 00:40:00 이 섹션에서 발표자는 주어진 문제에 대한 최적의 모델을 찾기 위한 다양한 검색 방법에 대해 논의합니다. 모델의 수가 증가함에 따라 로컬 곡률을 탐색하는 데 더 많은 시간을 할애하여 최적을 향한 보다 직선적인 선으로 이어집니다. 무작위로 발걸음을 옮기는 대신 이동하기 전에 지역 이웃을 이해하고 최적의 방향을 파악하는 데 더 많은 시간을 할애할 수 있습니다. 그런 다음 저자는 손실 함수를 살펴보고 미적분학을 통해 함수가 가장 빨리 감소하는 방향을 계산하는 경사 하강법을 소개합니다. 이 방법은 함수가 미분 가능하고 매끄럽고 연속적이어야 하며 더 이상 블랙박스 모델이 아닙니다.

  • 00:45:00 이 섹션에서 화자는 손실 함수와 관련된 기울기와 접선에 대해 설명합니다. 손실 표면은 선형 함수가 아니지만 손실 함수의 도함수를 나타내는 접선의 기울기는 함수가 감소하는 방향과 속도를 나타낼 수 있습니다. 더 높은 차원에서 접선에 해당하는 것은 접선 초평면이며 손실 표면이 가장 빠르게 감소하는 방향을 제공할 수도 있습니다. 강의는 또한 초평면과 같은 선형 함수를 다룰 때 유용한 벡터를 공간의 한 점 또는 방향으로 해석하는 방법을 다룹니다.

  • 00:50:00 이 섹션에서 연사는 도함수를 여러 차원으로 일반화하는 방법과 초평면의 가장 가파른 하강 방향을 찾는 방법에 대해 논의합니다. 여러 차원에서 도함수를 취하는 것과 동등한 것은 X, Y 및 Z에 대한 편미분 도함수로 구성된 벡터인 기울기를 계산하는 것입니다. 이 세 값은 함께 평면에 대한 세 가지 매개변수를 정의하고 세 값은 함께 평면을 정의합니다. 초평면. 최속강하의 방향 W는 W의 노름 곱하기 a의 코사인을 최대화하여 찾을 수 있습니다. 이는 X와 W 사이의 거리가 X와 W 사이의 각도와 같거나 X와 W가 같을 때 최대화됩니다. 따라서 가장 가파른 내리막 방향은 W입니다.

  • 00:55:00 이 섹션에서 화자는 기울기 하강법이라는 손실 함수의 최소값을 찾는 간단한 알고리즘을 설명합니다. 알고리즘은 모델 공간의 임의 지점에서 시작하여 해당 지점에서 손실의 기울기를 계산하고 anta라는 작은 값을 곱한 다음 모델에서 뺍니다. 무작위성은 없으며 순전히 결정론적인 단계만 있습니다. 그래디언트는 방향과 단계 크기를 모두 제공합니다. 그런 다음 화자는 계속해서 미적분학을 사용하여 손실 풍경에 대한 기울기를 계산하고 합계 및 체인 규칙을 설명하고 W 및 B에 대한 손실 함수 파생의 2차원 벡터로 끝납니다.

  • 01:00:00 이 섹션에서 발표자는 Python에서 경사 하강법을 구현하는 방법과 최소값을 찾고 거기에 머무르기 위해 표면의 곡률을 따라 벡터 방향으로 단계를 허용하는 방법에 대해 설명합니다. 이를 시연하기 위해 그들은 사용자가 경사 하강법을 사용하여 간단한 선형 모델을 실험할 수 있도록 해주는groundground.tensorflow.org라는 웹 사이트를 소개합니다. 그러나 화자는 또한 경사 하강법에는 학습 속도를 선택해야 할 필요성과 로컬 최소값에 갇힐 가능성과 같은 몇 가지 제한 사항이 있음을 지적합니다.

  • 01:05:00 이 섹션에서는 비디오에서 경사 하강법에 대해 자세히 설명하고 선형 모델에 적용합니다. 기울기 하강법을 사용하면 알고리즘은 손실 함수의 음의 기울기 방향으로 단계를 수행하여 매개변수를 업데이트하고 이 프로세스는 최소값에 도달할 때까지 반복됩니다. 학습률은 각 단계의 크기를 결정하며 알고리즘이 최소값으로 수렴하는 속도에 영향을 미치므로 너무 크거나 작지 않은 학습률을 찾는 것이 중요합니다. 선형 함수를 사용하면 검색하지 않고도 최적의 모델을 해결할 수 있습니다. 그러나 더 복잡한 모델에는 경사 하강법을 사용해야 합니다. 경사 하강법은 빠르고 메모리가 적고 정확하지만 로컬 최소값을 벗어나지 않으며 부드러운 손실 함수가 있는 연속 모델 공간에서만 작동합니다. 마지막으로 비디오는 기능 공간에서 최적으로 작동하는 선을 찾아 파란색 점과 빨간색 점을 분리하는 것이 목표인 분류 및 결정 경계를 소개합니다.

  • 01:10:00 이 섹션에서 화자는 6개의 인스턴스로 구성된 단순 분류 데이터 세트에 대한 분류자를 찾는 프로세스에 대해 설명합니다. 이를 위해 그들은 좋은 평가를 얻기 위해 잘못 분류된 포인트의 수를 최소화하기 위해 데이터 세트에서 잠재적인 선형 모델 또는 평면을 평가하는 데 사용할 수 있는 손실 함수를 검색합니다. 그러나 그들이 초기에 사용하는 손실 함수는 평면 구조를 가지고 있어 임의 탐색 및 경사 상승이 비효율적이기 때문에 최적의 모델을 찾는 데 적합하지 않습니다. 그런 다음 화자는 때때로 손실 함수가 평가 함수와 달라야 한다고 말하고 원하는 지점 주변에서 최소값을 갖지만 모든 곳에서 매끄러운 손실 함수를 제시합니다.

  • 01:15:00 이 섹션에서 강사는 회귀에 사용되는 최소 제곱 원리가 포인트 값을 할당하고 문제를 회귀 문제로 처리하여 분류에 어떻게 적용할 수 있는지 보여줍니다. 이 접근 방식은 선형으로 분리 가능한 지점을 클러스터링하는 데 적합하지만 선형으로 분리할 수 없는 클러스터를 분리한다는 보장은 없습니다. 손실 함수를 최소화하기 위해 기능 공간에서 결정된 단계를 수행하여 경사 하강법 알고리즘이 작동하는 방식을 보여줍니다. 사용된 예는 선형적으로 분리 가능한 점이 있는 데이터 세트이며 강사는 또한 복잡한 경계를 가진 핵심 데이터 세트의 예에서 보여지는 것처럼 선형 모델이 표현할 수 있는 것에 제한이 있음을 강조합니다.

  • 01:20:00 이 섹션에서 강사는 선형 모델의 한계와 나선형 패턴이 있는 데이터 세트와 같이 비선형적으로 분리 가능한 데이터 세트를 분류하지 못하는 방법에 대해 설명합니다. 그러나 선형 모델은 고차원 기능 공간에서 잘 작동할 수 있으며 계산 비용도 저렴합니다. 강사는 확률적 경사하강법이 강력한 최적화 도구이지만 불연속 손실 함수의 프록시로 사용되는 부드러운 손실 함수가 필요하다고 설명합니다. 강사는 기계 학습 방법론과 같이 논의될 향후 주제를 미리 보면서 결론을 내립니다.
 

3 방법론 1: 곡선 아래 영역, 편향 및 분산, 공짜 점심 없음(MLVU2019)



3 방법론 1: 곡선 아래 영역, 편향 및 분산, 공짜 점심 없음(MLVU2019)

이 비디오는 기계 학습 모델을 평가할 때 AUC(곡선 아래 영역) 메트릭을 사용하는 방법과 편향 및 분산의 개념, "공짜 점심은 없다" 정리를 소개합니다. AUC 메트릭은 ROC 곡선 아래 영역을 계산하여 분류 모델의 성능을 측정합니다. 또한 편향과 분산은 모델이 훈련 데이터에 얼마나 잘 맞고 새로운 데이터로 일반화되는지에 중요한 역할을 하기 때문에 논의됩니다. 또한 "공짜 점심은 없다" 정리는 모든 기계 학습 문제에 보편적으로 적용할 수 있는 알고리즘이 없기 때문에 각 특정 문제에 대해 적절한 알고리즘을 선택해야 할 필요성을 강조합니다.

이 비디오는 세 가지 중요한 기계 학습 개념인 AUC(곡선 아래 영역), 편향 및 분산, "공짜 점심은 없다" 정리를 다룹니다. AUC는 이진 분류 모델을 평가하는 데 사용되는 메트릭이며 바이어스 및 분산은 모델의 예측 값과 데이터 세트의 실제 값 간의 차이를 나타냅니다. "공짜 점심은 없다" 정리는 주어진 문제에 대해 적절한 알고리즘을 선택하는 것의 중요성을 강조합니다. 가능한 모든 문제와 데이터 세트에서 최적으로 수행할 수 있는 단일 알고리즘이 없기 때문입니다.

  • 00:20:00 이 섹션에서 발표자는 기계 학습 모델을 평가하기 위한 첫 번째 방법인 AUC(곡선 아래 영역) 메트릭에 대해 논의합니다. AUC는 ROC(수신기 작동 특성) 곡선 아래 영역을 계산하여 분류 모델의 성능을 측정합니다. 연사는 또한 모델이 훈련 데이터에 얼마나 잘 맞는지와 새 데이터에 얼마나 잘 일반화되는지를 각각 측정하는 편향과 분산의 개념을 소개합니다. 마지막으로 연사는 모든 기계 학습 문제에 대해 만병통치약 알고리즘이 없다는 "공짜 점심은 없다" 정리를 설명하고 각 특정 문제에 대해 적절한 알고리즘을 선택하는 것의 중요성을 강조합니다.

  • 01:10:00 이 섹션에서 연사는 기계 학습 방법론의 세 가지 핵심 개념인 AUC(곡선 아래 면적), 편향 및 분산, "공짜 점심은 없다" 정리를 소개합니다. AUC는 이진 분류 모델의 성능을 평가하는 데 사용되는 메트릭이며 모델이 무작위로 선택된 긍정적 예를 무작위로 선택한 부정적 예보다 더 높게 평가할 확률을 나타냅니다. 편향은 모델 예측의 예상 값과 데이터 세트의 실제 값 간의 차이를 의미하는 반면, 분산은 다른 데이터 세트에서 교육을 받았을 때 모델 예측의 분산을 의미합니다. "공짜 점심은 없다" 정리는 가능한 모든 문제와 데이터 세트에서 가장 잘 수행할 수 있는 하나의 알고리즘이 없다고 말하며 주어진 문제에 대해 적절한 알고리즘을 선택하는 것의 중요성을 강조합니다.
 

4 방법론 2: 데이터 정리, 주성분 분석, 고유면(MLVU2019)



4 방법론 2: 데이터 정리, 주성분 분석, 고유면(MLVU2019)

비디오의 이 첫 번째 부분은 기계 학습 알고리즘을 적용하기 전에 데이터 전처리 및 정리의 여러 가지 중요한 측면을 다루며 데이터 편향 및 편향을 이해하는 것이 매우 중요합니다. 그런 다음 발표자는 누락된 데이터, 이상값, 클래스 불균형, 기능 선택 및 정규화를 처리하는 방법에 대해 논의합니다. 비디오는 계속해서 기저의 개념과 MVN 분포에 대해 논의하고, 화이트닝을 사용하여 정규화를 위해 데이터를 정규 분포로 변환하는 방법을 설명하고, 차원 축소를 위해 주성분 분석(PCA)을 사용하는 것으로 결론을 내립니다. 교육 세트 조작에서 대치 방법 사용에 이르기까지 PCA는 원본 데이터의 정보를 유지하면서 데이터를 더 낮은 차원 공간으로 투영합니다.

비디오의 이 두 번째 부분에서는 기계 학습을 위한 데이터 정리 및 차원 축소에 주성분 분석(PCA)을 사용하는 방법에 대해 설명합니다. 이 방법은 데이터의 평균 중심화, 샘플 공분산 계산 및 고유 분해를 사용하여 분해하여 가장 큰 분산을 캡처하는 축과 정렬된 고유 벡터를 얻습니다. 첫 번째 K 주성분을 사용하면 우수한 데이터 재구성을 제공하여 기계 학습 성능을 향상할 수 있습니다. 고유면(Eigenfaces)의 개념도 소개되며, PCA는 기계 학습에 필요한 대부분의 정보를 유지하면서 데이터를 30차원으로 압축하는 데 효과적인 것으로 나타났습니다. 인류학에서의 사용과 DNA 및 얼굴과 같은 복잡한 데이터 세트 연구를 포함하여 PCA의 다양한 응용에 대해 논의합니다.

  • 00:00:00 비디오의 이 섹션에서 발표자는 기계 학습 알고리즘을 적용하기 전에 데이터 정리 및 사전 처리의 기본 사항에 대해 설명합니다. 데이터를 액면 그대로 받아들이지 않는 것의 중요성은 생존 인구에만 초점을 맞추면 왜곡된 결과를 초래할 수 있는 생존 편향을 논의함으로써 강조됩니다. 그런 다음 발표자는 누락된 데이터, 이상값, 클래스 불균형, 기능 선택 및 정규화 처리와 같은 기술에 대해 논의합니다. 마지막으로 비디오의 후반부는 주성분 분석 알고리즘을 사용하여 차원 감소를 논의하는 데 중점을 둡니다.

  • 00:05:00 이 섹션에서는 중요하지 않은 누락된 기능이나 인스턴스를 제거하고 제거로 인해 데이터 분포가 변경되지 않도록 하는 등 데이터 정리 및 데이터 세트에서 누락된 데이터 처리에 대한 실용적인 팁을 소개합니다. 누락된 값을 제거하는 것보다 교육 데이터용으로 유지하고 모델의 응답을 테스트하는 것이 더 유용할 수 있습니다. 학습 데이터의 양을 최대화하기 위해 모드나 평균값을 사용하는 것과 같이 누락된 데이터에 대해 추측을 채우는 대치 방법을 사용할 수 있습니다. 누락된 데이터를 처리하기 위한 기본 원칙은 실제 사용 사례 또는 생산 환경을 고려하여 예상되는 누락된 데이터를 가장 적절하고 실용적인 방식으로 처리하도록 모델을 준비하는 것입니다.

  • 00:10:00 이 섹션에서 발표자는 데이터의 두 가지 유형의 이상치인 기계적 이상치와 자연적 이상치에 대해 설명합니다. 기계적 아웃라이어는 데이터 누락이나 데이터 입력 실수 등의 오류로 인해 발생하며, 누락된 데이터로 처리하여 정리해야 합니다. 반면에 특정 변수의 비정규 분포로 인해 자연스러운 이상치가 발생하며 더 나은 적합성을 보장하기 위해 데이터 세트에 보관해야 합니다. 화자는 얼굴 데이터 세트의 특이한 얼굴 특징과 소득 분포 데이터 세트의 매우 높은 소득을 포함하여 두 가지 유형의 이상값에 대한 예를 제공합니다.

  • 00:15:00 이 섹션에서는 데이터의 정규성 가정을 확인하는 것의 중요성에 대해 설명합니다. 예를 들어 선형 회귀는 이러한 가정을 기반으로 하므로 정규성을 확인하고 가정이 알려지지 않은 채 모델에 숨길 수 있음을 인식하는 것이 중요합니다. 데이터를 모델링하고 검증할 때 이상값도 고려해야 하며, 모델이 이상값을 적절하게 처리할 수 있도록 생산 상황을 나타내는 교육 세트로 모델을 테스트하는 것이 중요합니다. 또한 기계 학습 알고리즘을 위해 데이터를 범주형 또는 숫자 기능으로 변환하는 것의 중요성과 그러한 변환과 관련된 정보의 잠재적 손실에 대해 논의합니다.

  • 00:20:00 이 섹션에서 발표자는 기계 학습 알고리즘에 적합한 기능을 선택하는 것의 중요성과 데이터에서 의미 있는 정보를 추출하는 방법에 대해 논의합니다. 그들은 단순히 전화번호와 같은 숫자를 숫자 값으로 해석하는 것은 유용하지 않다고 설명하고 대신 지역 번호 또는 모바일 대 유선 상태와 같은 범주 기능을 찾을 것을 제안합니다. 기계 학습 알고리즘이 숫자 기능만 허용하는 경우 연사는 데이터에 임의의 순서를 부과하지 않도록 정수 코딩 대신 하나의 핫 코딩을 사용할 것을 권장합니다. 목표는 필수 세부 사항을 잃지 않고 필요한 정보를 추출하고 당면한 작업에 필요한 정보를 정확하고 효과적으로 전달하는 기능을 선택하는 것입니다.

  • 00:25:00 이 섹션에서 발표자는 모델을 더욱 강력하게 만들기 위해 기능을 확장하는 것의 가치에 대해 논의합니다. 이메일 스팸 분류를 위한 데이터 세트의 예를 사용하여 스피커는 두 개의 상호 연관된 기능이 서로의 값을 모르면 해석될 수 없으므로 선형 분류기가 클래스 사이에 경계를 그리는 것을 불가능하게 만드는 방법을 설명합니다. 이 제한을 해결하기 위해 연사는 기존 기능의 값을 곱하는 교차 제품 기능을 추가하여 원래 공간에서 선형으로 분리할 수 없더라도 더 높은 기능 공간에 분류 경계를 그릴 수 있도록 합니다. 그런 다음 화자는 기능 확장의 중요성을 추가로 설명하기 위해 원형 결정 경계가 있는 포인트 클래스의 예를 제공합니다.

  • 00:30:00 이 섹션에서 발표자는 추가 기능을 추가하여 선형 분류기가 분류 문제를 해결하는 데 어떻게 도움이 되는지 설명합니다. x 및 y 좌표의 제곱을 결정 경계 문제에 기능으로 추가함으로써 선형 분류기를 사용하여 두 클래스의 점을 구별할 수 있습니다. 발표자는 TensorFlow Playground를 사용하여 분류자를 교육하면 인간의 눈에 원형으로 보이는 결정 경계가 어떻게 생성되는지 보여줍니다. 특성의 가중치도 표시되며 이 분류 문제를 해결하는 데 하나의 특성만 필요함을 보여줍니다.

  • 00:35:00 비디오의 이 섹션에서 발표자는 기능 공간을 확장하여 회귀의 경우에도 더 강력한 모델로 이어질 수 있는 방법에 대해 설명합니다. 그들은 선형 회귀 모델에 제곱 변수를 추가하면 데이터에 더 잘 맞는 포물선이 되는 방법을 보여줌으로써 이 점을 설명합니다. 연사는 또한 오버샘플링 또는 데이터 확대와 같은 기술을 통해 훈련 세트를 조작할 것을 제안하면서 클래스 불균형을 처리하는 방법에 대해 조언합니다. 마지막으로 정규화 주제를 소개하고 단위의 차이가 K 최근접 이웃 분류 모델의 성능에 어떻게 영향을 미칠 수 있는지에 대한 동기 부여 예를 제공합니다.

  • 00:40:00 비디오의 이 섹션에서 연사는 기계 학습 알고리즘을 위한 데이터 정규화의 중요성에 대해 논의합니다. 데이터를 정규화하는 세 가지 방법인 정규화, 표준화 및 미백을 설명합니다. 정규화는 데이터 범위를 0과 1 사이의 범위로 압축하는 것과 관련되지만 표준화는 데이터의 평균이 0이고 분산이 1이 되도록 하는 것입니다. 세 번째 방법인 미백은 데이터의 모든 상관 관계를 고려하여 기능 공간에서 구형으로 줄이는 약간 더 좋은 정규화입니다. 화자는 미백이 차원 감소에 유용하다고 설명합니다.

  • 00:45:00 이 섹션에서 발표자는 데이터를 상관되지 않은 기능 집합으로 변환하는 것과 관련된 미백 데이터의 개념을 설명합니다. 발표자는 선형 대수학을 사용하여 새로운 축 시스템에 대해 두 개의 다른 벡터를 선택하여 데이터의 다른 기준을 선택하는 방법을 보여줍니다. 원래 표준 좌표계에서 (3,2)로 표시되는 파란색 점은 새로운 기본 시스템에 대해 다시 계산되어 (2.5, 0.5)의 새 좌표를 갖습니다. 이것은 기본 벡터를 열로 행렬에 고정시키는 일반화된 표기법으로 이어집니다.

  • 00:50:00 이 섹션에서 발표자는 기저의 개념과 행렬 전치의 도움으로 서로 다른 기저 사이를 변환하는 데 기저가 어떻게 사용될 수 있는지에 대해 설명합니다. 행렬 역연산은 비용이 많이 들고 수치적으로 부정확하므로 기저 벡터의 길이가 1이고 서로 직교하는 정규 직교 기저가 선호됩니다. 그런 다음 연사는 어떻게 다변량 정규 분포가 정규 분포를 다차원으로 일반화하고 데이터를 해석하는 데 도움이 되는지 설명합니다. 분포의 평균은 벡터이고 분산은 다변량 정규분포에서 공분산행렬이 됩니다. 발표자는 또한 다변량 정규 분포를 데이터에 맞추기 위한 샘플 공분산을 계산하는 공식을 간략하게 설명합니다.

  • 00:55:00 이 섹션에서는 평균이 0이고 모든 방향에서 분산이 1이고 상관관계가 없으며 다른 MVN 분포로 변환할 수 있는 다변량 정규(MVN) 분포의 개념을 소개합니다. MVN 분포의 변환이 역으로 되어 정규화를 위해 데이터를 정규 분포로 변환하는 데이터 화이트닝 프로세스가 추가로 설명됩니다. 또한 미백과 차원 축소를 동시에 수행하는 방법인 주성분 분석(PCA)을 통해 고차원 데이터의 차원을 줄이는 데 중점을 둡니다. 가능한 한 많은 관련 정보를 유지하는 원본 기능에서 파생된 새로운 기능을 찾아 PCA는 원본 데이터의 필수 정보를 유지하면서 데이터를 더 낮은 차원의 공간으로 투영합니다.

  • 01:00:00 비디오의 이 섹션에서 발표자는 PCA(Principal Component Analysis)와 캡처된 분산별로 차원을 정렬하여 유용한 데이터 재구성 및 차원 감소를 허용하는 방법에 대해 설명합니다. 발표자는 고유 벡터와 고유 벡터가 변환 시 방향이 변경되지 않는 특수 벡터인 이유와 원본 데이터에서 최대 분산을 찾는 데 사용할 수 있는 방법에 대해 설명합니다. 또한 발표자는 대각 행렬에 대한 고유 벡터를 찾는 방법과 축을 따라 고유 벡터를 정렬하기 위해 행렬을 회전하는 방법을 설명합니다.

  • 01:05:00 이 섹션에서는 PCA(주성분 분석)를 사용하여 기계 학습 알고리즘을 위한 데이터 전처리에 대해 알아봅니다. 먼저 번역을 제거하기 위해 데이터를 중앙에 배치한 다음 샘플 공분산을 계산하고 고유 분해를 사용하여 분해합니다. 그런 다음 데이터를 다시 표준 다변량 정규(MVN) 공간으로 변환하고 첫 번째 K 기능을 제외한 모든 기능을 버립니다. 분해에서 얻은 고유 벡터는 축과 정렬되어 가장 분산이 많은 방향을 유지할 수 있습니다. 그 결과 차원이 크게 줄어들어 기계 학습 성능이 향상됩니다.

  • 01:10:00 이 섹션에서는 발표자가 주성분 분석(PCA)을 사용하여 차원 축소의 개념을 설명합니다. 차원 감소의 목표는 가능한 한 많은 데이터를 유지하면서 불변성을 유지하는 것입니다. 투영의 분산을 최대화하는 것은 원본 데이터와 투영된 데이터의 차이를 측정하는 데 사용되는 손실 함수인 재구성 오류를 최소화하는 것과 같습니다. 첫 번째 주성분은 가장 많은 분산을 캡처하는 선이고 다음 구성요소는 나머지 분산을 캡처합니다. 첫 번째 K 주성분을 사용하면 좋은 데이터 재구성이 가능합니다.

  • 01:15:00 이 섹션에서 발표자는 연구 응용 프로그램에서 주성분 분석(PCA)을 사용하는 방법에 대해 설명합니다. 이러한 응용 분야 중 하나는 화석화된 뼈의 특성을 정량화하고 입증하는 데 사용할 수 있는 인류학 분야입니다. 뼈의 다양한 측면을 측정하고 비교를 위해 기능의 고차원 공간을 생성함으로써 PCA를 사용하여 데이터의 크기를 두 가지 주요 구성 요소로 줄여 시각적 클러스터링 및 이상값 식별을 허용할 수 있습니다. 또한 PCA는 유럽 인구의 DNA 연구에 적용되어 DNA가 고차원 특징 벡터로 변환되고 PCA를 사용하여 데이터의 패턴과 클러스터를 나타낼 수 있습니다.

  • 01:20:00 이 섹션에서 발표자는 주성분 분석(PCA)이 DNA 특징 데이터 세트에 어떻게 적용될 수 있고 유럽의 대략적인 모양을 결정하는 데 어떻게 사용될 수 있는지에 대해 논의합니다. 출신 국가별로 색상이 지정된 DNA 데이터 세트의 두 가지 주요 구성 요소를 살펴봄으로써 사람 또는 그 조상이 북쪽 또는 서쪽/동쪽으로 얼마나 멀리 살았는지 확인할 수 있습니다. PCA는 고유 얼굴에 적용된 얼굴 데이터 세트의 고유 벡터와 같은 복잡한 데이터 세트에 대한 통찰력을 제공하는 기능 때문에 종종 마법의 방법으로 간주됩니다. 얼굴 데이터 집합의 평균을 계산하고 해당 데이터 집합의 공분산 고유 벡터를 보면 PCA는 얼굴 이미지의 고차원 공간에서 방향을 제공할 수 있습니다.

  • 01:25:00 이 섹션에서 발표자는 고유면의 개념과 주성분 분석(PCA)이 데이터 정리에 어떻게 도움이 되는지에 대해 설명합니다. 작은 양의 첫 번째 고유 벡터를 평균 얼굴에 추가함으로써 화자는 이것이 어떻게 얼굴 특징의 나이에 해당하는지 보여줍니다. 두 번째와 네 번째 고유 벡터는 각각 조명과 성별에 해당합니다. 다섯 번째 고유 벡터는 입이 얼마나 열려 있는지 또는 닫혀 있는지를 나타냅니다. 고유 벡터는 새 공간의 기본 역할을 하며 데이터를 30차원으로 압축하면 원래 얼굴을 잘 표현할 수 있습니다. 변곡점은 약 30개의 고유 벡터에서 발생하며 여기서 나머지 세부 정보는 폐기되어 기계 학습에 필요한 대부분의 정보를 유지할 수 있습니다.
 

강의 5 확률 1: 엔트로피, (나이브) 베이즈, 교차 엔트로피 손실(MLVU2019)



5 확률 1: 엔트로피, (나이브) 베이즈, 교차 엔트로피 손실(MLVU2019)

이 비디오는 확률 이론의 다양한 측면과 기계 학습에서의 응용을 다룹니다. 발표자는 시스템의 불확실성의 양을 측정하는 엔트로피를 소개하고 그것이 나이브 베이즈 및 교차 엔트로피 손실과 어떻게 관련되는지 설명합니다. 표본 공간, 사건 공간, 무작위 변수 및 조건부 확률의 개념에 대해서도 설명합니다. Bayes의 정리는 기계 학습의 기본 개념으로 설명되고 고려됩니다. 이 비디오는 또한 확률 분포를 시뮬레이션하기 위해 접두사 없는 코드를 사용하는 것뿐만 아니라 최대 우도 추정 원리와 베이지안 확률을 다룹니다. 마지막으로 연사는 Naive Bayes 분류기를 포함하여 이진 분류를 위한 차별적 대 생성적 분류기에 대해 논의합니다.

두 번째 부분에서는 다변량 정규 분포 모델을 사용하여 특정 클래스에 속하는 새 포인트에 대한 확률 계산의 개념을 설명합니다. 분류기에 대한 확률 분포를 효율적으로 맞추기 위한 기능의 조건부 독립성과 제로 인스턴스를 처리하기 위해 의사 관찰을 평활화하거나 조정해야 하는 필요성에 대해 설명합니다. 발표자는 또한 정확도보다 선형 분류기에 더 효과적인 손실 함수로 엔트로피 손실을 소개하고 교차 엔트로피 손실 함수가 예측 데이터와 실제 데이터 간의 차이를 측정하는 기능에 대해 논의합니다. 시그모이드 함수는 함수의 대칭성을 축소하여 단순화합니다. 마지막으로 동영상은 다음 강의에서 최종 손실 함수로 SVM 손실을 다룰 것임을 암시합니다.

  • 00:00:00 확률에 관한 비디오의 이 섹션에서 연사는 학생들에게 아직 그룹 프로젝트에 참여하지 않은 경우 그룹 프로젝트에 참여하고 완벽한 그룹을 찾는 것에 대해 너무 걱정하지 말고 대신 최고의 결과를 얻으라고 조언하는 것으로 시작합니다. 그들이 얻는 것. 그런 다음 연사는 기계 학습과 밀접하게 관련되고 유용한 확률 이론과 엔트로피를 소개합니다. 그는 이 맥락에서 엔트로피가 시스템의 불확실성 또는 무작위성의 양을 측정하는 것을 의미한다고 설명합니다. 엔트로피의 개념은 기계 학습에서 중요하며 나이브 베이즈와 교차 엔트로피 손실을 설명하는 데 사용됩니다. 이에 대해서는 강의 후반부에 설명합니다. 강의는 또한 분류 및 선형 분류기의 기초를 다룰 것입니다.

  • 00:05:00 이 섹션에서 발표자는 손실 함수에 대해 논의하고 매우 우수한 손실 함수로 간주되는 교차 엔트로피 손실을 소개합니다. 그들은 십대의 온라인 도박과 관련된 예를 제시하고 이 시나리오에서 확률이 어떻게 작용하는지 설명합니다. 연사는 빈도와 확률의 개념과 그것이 실제 상황에 어떻게 적용되는지에 대해서도 다룹니다.

  • 00:10:00 이 섹션에서 화자는 주관적 확률과 객관적 확률의 차이에 대해 설명합니다. 주관적 확률은 개인의 믿음과 경험에 기초하고 객관적 확률은 실험과 관찰에서 도출된 빈도주의자 확률에 기초한다고 설명합니다. 연사는 기계 학습에서 훈련 세트를 기반으로 테스트 세트의 손실을 최소화하는 데 중점을 두고 있으며 확률 이론은 확률을 설명하기 위한 수학적 프레임워크로 사용된다는 점에 주목합니다. 발표자는 또한 무작위 변수와 표본 공간의 개념을 소개합니다.

  • 00:15:00 이 섹션에서는 확률 이론에서 샘플 공간과 이벤트 공간의 개념을 설명하는 비디오입니다. 샘플 공간은 가능한 모든 결과를 포함하며 두 결과 사이에 다른 결과가 없습니다. 이벤트 공간에는 샘플 공간의 하위 집합 집합이 포함되어 있어 주사위 굴림에서 홀수 또는 짝수를 얻는 것과 같은 다양한 이벤트의 확률을 식별할 수 있습니다. 불연속 및 연속 표본 공간 모두에 확률을 할당할 수 있습니다. 또한 비디오는 이벤트 결과의 가능성을 설명하는 데 도움이 되는 확률적 데이터 세트를 모델링하기 위해 무작위 변수 및 기능을 사용하는 것을 언급합니다.

  • 00:20:00 이 섹션에서 화자는 확률 변수와 함수로의 표현을 포함하여 확률의 기본 개념을 소개합니다. 발표자는 임의의 변수가 하나의 숫자로 표시되고 변수로 인스턴스화될 수 있다고 설명합니다. 또한 등호 표기법의 사용과 함수 또는 특정 값으로 무작위 변수를 참조할 수 있는 방법에 대해 설명합니다. 그런 다음 스피커는 두 개의 임의 변수 X와 Y로 정의되는 이벤트 공간의 예를 제공하고 조건부 확률의 개념을 소개합니다.

  • 00:25:00 이 섹션에서 연사는 확률과 다양한 사건의 확률을 결정하기 위해 확률을 다시 작성하고 투영하는 방법에 대해 논의합니다. 그들은 두 변수가 독립적인 경우 하나의 값을 아는 것이 다른 변수의 확률을 변경하지 않는다고 설명합니다. 그런 다음 화자는 도시의 서로 다른 지역에 사는 두 사람의 예를 사용하여 한 사람이 정시에 출근할 확률이 다른 사람이 정시에 출근할 확률에 영향을 미치지 않는 방법을 설명합니다. 그러나 그들은 두 사람의 확률이 연결될 수 있는 드문 가능성이 하나 있다고 지적합니다.

  • 00:30:00 이 섹션에서는 화자가 기계 학습의 기본 개념인 확률과 베이즈 정리에 대해 논의합니다. 화자는 조건부 독립을 설명하기 위해 교통 체증의 예를 사용하고 Alice가 직장에 늦는 것을 아는 것이 Bob도 늦었다는 믿음을 약간 증가시키는 방법을 설명합니다. 베이즈 정리는 이 분야에서 가장 중요한 공식으로 간주되며 조건부 확률을 어떻게 뒤집을 수 있는지 설명합니다. 마지막으로 발표자는 기계 학습이 확률 분포를 데이터에 맞추는 방법과 빈도주의적 접근 방식이 주어진 정보에서 최상의 매개변수를 결정하는 방법을 설명합니다.

  • 00:35:00 이 섹션에서 화자는 최대 우도 추정 원리와 베이지안 확률에 대해 설명합니다. 최대 우도 추정 원칙은 관찰된 데이터 포인트가 독립적이고 이러한 포인트의 확률이 우도율을 최대화한다는 가정을 기반으로 합니다. 반면에 베이지안 확률은 사전 지식과 관찰된 데이터를 기반으로 자신의 믿음을 업데이트하는 것을 포함합니다. 베이지안 확률은 기계 학습에서 잘 작동하는 신념 분포를 표현하기 위해 빈도주의자와 베이지안이라는 두 당사자 간의 절충안을 사용합니다.

  • 00:40:00 이 섹션에서 화자는 확률 분포의 개념과 단일 결과를 갖는 트리 없이 확률 분포를 시뮬레이션하는 방법에 대해 논의합니다. 접두사 없는 코드 또는 접두사 트리의 사용은 광범위한 확률 분포를 생성하는 수단으로 제시됩니다. 발표자는 이 접근 방식이 다양한 시나리오에서 특정 결과의 확률을 찾고 커뮤니케이션에 사용될 수 있다고 설명합니다. 동전을 사용하여 3면 주사위를 시뮬레이션하고 균일한 분포를 달성하는 예도 제공됩니다.

  • 00:45:00 이 섹션에서 발표자는 접두사 없는 코드 알고리즘을 사용하여 설명할 수 있는 확률 분포 계열에 대해 설명합니다. Naive Bayes로 알려진 이 알고리즘은 데이터에 효율적이며 설명 방법과 확률 분포 사이에 좋은 연결을 제공합니다. 이 알고리즘의 주요 용도는 무작위 변수의 불확실성 측정인 엔트로피를 설명하는 것입니다. 발표자는 이 알고리즘을 사용하여 특정 확률 분포에서 데이터를 인코딩하고 주어진 데이터에 잘 맞는 확률 분포를 얻는 방법을 설명합니다.

  • 00:50:00 이 섹션에서 연사는 데이터 균일성의 척도로서 엔트로피 및 교차 엔트로피 손실에 대해 설명합니다. 엔트로피는 서로 다른 요소 간의 데이터 균일성을 나타내는 데 사용할 수 있으며 엔트로피가 작을수록 더 균일한 데이터를 나타냅니다. 교차 엔트로피는 다른 코드가 사용될 때 예상되는 코드 길이를 나타내는 데 사용되며 최소값은 0으로 항상 엔트로피보다 크거나 같습니다. 이러한 측정은 두 확률 분포 사이의 거리를 이해하는 데 도움이 되며 일련의 무작위 변수로 데이터 세트를 분석하기 위한 이론적 근거를 제공합니다.

  • 00:55:00 이 섹션에서 화자는 이진 분류를 위한 판별 및 생성 분류기의 개념을 설명합니다. 판별 분류는 단순히 인스턴스를 판별하는 반면, 생성 분류는 클래스가 지정된 데이터의 확률을 모델링합니다. 생성 분류기는 Bayes 최적 분류기에서 Naive Bayes 분류기에 이르기까지 다양합니다. Naive Bayes 분류기는 조건부 독립 가정을 하고 올바르지 않은 것으로 간주되지만 여전히 매우 잘 작동하고 저렴합니다.

  • 01:00:00 이 섹션에서는 화자가 다변량 정규 분포 모델을 사용하여 특정 클래스에 속하는 새 포인트의 확률을 계산하는 방법을 설명합니다. 그들은 확률 분포를 추정하고 채우면 가장 높은 우도를 기준으로 각 클래스에 확률을 할당할 수 있다고 설명합니다. 그러나 고차원을 처리할 때 모델을 정확하게 맞추는 데 충분한 데이터가 없을 수 있으며, 이 경우 Bernoulli 분포로 피처를 모델링하는 대신 범주형 분포를 사용할 수 있습니다.

  • 01:05:00 이 섹션에서는 분류기에 대한 확률 분포의 효율적인 피팅을 허용하는 기능의 조건부 독립 개념에 대해 설명합니다. 그러나 단일 0 확률 값은 분류기의 정확도에 큰 영향을 미칠 수 있으며, 각 기능에 대해 적어도 하나의 관찰이 있도록 의사 관찰을 평활화하거나 조정하여 해결할 수 있습니다. 이렇게 하면 확률이 0이 되지 않고 분류기 정확도가 부정적인 영향을 받지 않습니다.

  • 01:10:00 이 섹션에서 발표자는 가능한 모든 클래스 및 기능에 대한 값이 있는 인스턴스가 하나 이상 있는지 확인하여 기계 학습 모델에서 왜곡된 결과를 방지하는 방법에 대해 논의합니다. 그들은 크고 고차원 데이터 세트와 잘 작동하지만 제로 인스턴스를 처리하기 위해 라플라스 스무딩이 필요한 독립 가정을 갖는 것으로 생성 분류기를 요약합니다. 스피커는 정확도와 비교하여 선형 분류기에 대한 더 효과적인 손실 함수로서 엔트로피 손실의 개념을 소개합니다.

  • 01:15:00 이 섹션에서 발표자는 분류기 모델에 값을 할당하는 대신 로지스틱 시그모이드 함수를 사용하여 확률을 할당할 수 있는 방법을 설명합니다. 선형 모델이 여전히 사용되지만 0과 1 사이의 범위로 압착됩니다. 이 방법을 사용하면 긍정 및 부정 인스턴스를 보다 정확하게 해석할 수 있습니다.

  • 01:20:00 이 섹션에서 발표자는 기계 학습 모델이 예측하는 것과 데이터가 말하는 것 사이의 차이를 측정하는 데 사용되는 교차 엔트로피 손실 함수를 설명합니다. 손실 함수는 파란색 선을 위로 밀고 모든 선의 음의 로그를 최소화하여 궁극적으로 이 선의 크기를 최대화하는 것을 목표로 예측과 데이터 사이의 선 크기를 최대화하도록 설계되었습니다.

  • 01:25:00 이 섹션에서 화자는 작은 잔차보다 큰 잔차를 처리하여 교차 엔트로피 손실 함수가 작동하는 방식에 대해 설명합니다. P 대 M의 함수는 또한 작은 막대가 손실에 크게 기여한다는 것을 보여줍니다. 이는 이전 모델의 제곱과 동일합니다. 그런 다음 스피커는 로그의 도함수와 상수 승수가 방정식에 포함되는 방법에 대해 설명합니다. 수학을 단순화하기 위해 상수 승수를 무시하거나 이진 로그를 자연 로그로 정의할 수 있습니다.

  • 01:30:00 이 섹션에서 발표자는 교차 엔트로피 손실과 이를 단순화하는 시그모이드 함수의 역할에 대해 설명합니다. 시그모이드 함수의 대칭성은 손실 함수의 붕괴를 허용하여 궁극적으로 더 간단하게 만듭니다. 로지스틱 시그모이드는 로지스틱 회귀에 적용될 때 문제 없이 결정 경계에서 멀리 떨어진 지점을 처리할 수 있습니다. 로지스틱 회귀는 불확실성 영역에서 여러 가지 좋은 솔루션을 제공할 수 있습니다.

  • 01:35:00 이 섹션에서는 강사가 확률의 개념을 설명하고 확률 값에 따라 포인트를 파란색 또는 빨간색으로 분류합니다. 그는 또한 다음 강의에서 최종 손실 함수로 SVM 손실을 다룰 것이라고 암시합니다.
 

강의 6 선형 모델 2: 신경망, 역전파, SVM 및 커널 방법(MLVU2019)



6 선형 모델 2: 신경망, 역전파, SVM 및 커널 방법(MLVU2019)

선형 모델에 대한 비디오의 첫 번째 부분은 선형 모델에 비선형성을 도입하는 데 중점을 두고 기능 공간 확장에 의존하는 두 가지 모델인 신경망과 지원 벡터 머신(SVM)을 살펴봅니다. 신경망의 경우 발표자는 시그모이드 또는 소프트맥스와 같은 활성화 함수를 사용하여 회귀 및 분류 문제에 대한 네트워크를 설정하는 방법을 설명합니다. 그런 다음 강의에서는 신경망에서 사용되는 그래디언트를 계산하는 데 사용되는 방법인 역전파에 대해 자세히 설명합니다. SVM의 경우 화자는 각 클래스의 가장 가까운 지점으로 마진을 최대화하는 개념을 소개하고 이를 제한된 최적화 문제로 표현할 수 있는 방법을 보여줍니다. 이 동영상은 신경망과 SVM의 원리를 명확하게 소개하며 학생들에게 나머지 과정의 시작점으로 강의 전반부에 집중할 것을 권장합니다.

비디오의 두 번째 부분에서는 SVM(Support Vector Machine), 소프트 마진 SVM, 커널 트릭 및 SVM과 신경망 간의 차이점에 대한 주제를 다룹니다. 소프트 마진 SVM은 비선형적으로 분리 가능한 데이터를 처리하는 방법으로 도입되어 분류 제약 조건을 준수하지 않는 포인트에 페널티 값을 추가할 수 있습니다. 커널 트릭을 사용하면 고차원 공간에서 내적을 계산할 수 있으므로 기능 공간을 확장하여 모델의 성능을 크게 높일 수 있습니다. SVM과 신경망의 차이점을 설명하고, 완전히 이해하지는 못하더라도 고급 유형의 분류를 수행할 수 있는 능력으로 인해 신경망으로의 전환에 대해 논의합니다.

  • 00:00:00 이 섹션에서는 화자가 지난주에 앞서 설명한 사용 중인 기능에서 파생된 기능인 추가 기능을 추가하여 선형 모델을 사용하여 비선형 기능을 학습하는 방법에 대해 설명합니다. 그런 다음 연사는 기능 공간 확장에 의존하는 두 가지 모델, 즉 신경망과 지원 벡터 머신에 초점을 맞춥니다. 신경망은 학습 가능한 기능 추출기가 필요한 반면 지원 벡터 머신은 커널 트릭을 사용하여 더 큰 기능 공간으로 확장합니다. 이 강의에서는 신경망에서 사용되는 기울기를 계산하는 특정 방법인 역전파와 지원 벡터 머신에서 사용되는 힌지 손실 함수에 대해 설명합니다. 연사는 나머지 과정의 시작점 역할을 하는 선형 모델에 대한 더 나은 이해를 위해 강의 전반부에 집중할 것을 권장합니다.

  • 00:05:00 이 섹션에서 연사는 연구자들이 AI 시스템을 개발하기 위해 인간의 두뇌에서 영감을 얻기 시작한 50년대 후반과 60년대 초반으로 거슬러 올라가 신경망의 역사에 대해 논의합니다. 그들은 선형 모델로 작동하고 분류에 사용되는 퍼셉트론이라는 뉴런의 단순화된 버전을 만들었습니다. 그러나 뇌에 대한 흥미로운 점은 많은 뉴런이 함께 작동하는 방식이므로 연구자들은 이러한 퍼셉트론을 함께 연결하여 네트워크를 구축하기 시작했습니다.

  • 00:10:00 선형 모델 강의의 이 섹션에서 연사는 일반적으로 비선형 함수와 더 흥미로운 모델을 학습할 수 있는 능력을 갖기 위해 퍼셉트론 네트워크에 비선형성을 도입하는 방법을 설명합니다. 이를 수행하는 한 가지 방법은 시그모이드 함수를 사용하는 것입니다. 이 함수는 숫자 범위를 가져와 0에서 1 범위로 압축합니다. 비선형 활성화 함수가 있는 퍼셉트론을 피드 포워드 네트워크 또는 다층 퍼셉트론으로 연결하면 조정이 필요한 네트워크의 매개 변수를 나타내는 각 라인과 함께 회귀 또는 분류 모델로 전환할 수 있습니다. 학습 문제를 해결하기 위해 이러한 숫자를 조정하는 과정을 역전파(backpropagation)라고 하며 강의 후반부에서 논의할 것입니다.

  • 00:15:00 "6 선형 모델 2: 신경망, 역전파, SVM 및 커널 방법(MLVU2019)"이라는 제목의 비디오 섹션에서 발표자는 회귀 및 분류 문제를 위한 신경망을 설정하는 방법을 설명합니다. 회귀의 경우 하나의 숨겨진 레이어가 있고 출력 레이어에 활성화되지 않은 네트워크가 설정되고 회귀 손실 함수가 적용됩니다. 이진 분류의 경우 출력 레이어에 시그모이드 활성화가 추가되고 획득된 확률은 입력이 양수일 확률로 해석될 수 있습니다. 다중 클래스 분류의 경우 각 클래스에 대해 하나의 출력 노드를 생성하고 확률을 정규화하여 합이 1이 되도록 하는 소프트맥스 활성화가 추가됩니다. 손실 함수는 교차 엔트로피 손실이 최소화될 때까지 네트워크의 가중치를 훈련하는 데 사용됩니다.

  • 00:20:00 이 섹션에서 연사는 경사 하강법을 사용하는 신경망의 기본 원리에 대해 설명합니다. 그러나 전체 데이터 세트에 대한 손실을 계산하는 데 비용이 많이 들 수 있으므로 데이터 세트의 한 예만 손실을 계산하는 데 사용되는 확률적 경사 하강법을 사용하여 해당 단일 예에 대한 모델을 최적화합니다. Stochastic Gradient Descent는 임의성을 추가하고 약간의 임의성을 생성하여 로컬 최소값을 피하는 데 도움이 됩니다. 그런 다음 화자는 확률적 분류가 표시되는 분류를 위해 주의 꽃 놀이터에 숨겨진 레이어를 추가합니다. 그러나 이 모델은 이 특정 문제에 대해 잘 수행되지 않는 것 같습니다.

  • 00:25:00 비디오의 이 섹션에서 연사는 시그모이드 및 ReLU 활성화 함수를 비교하여 선형 모델의 활성화 함수에 대해 설명합니다. ReLU 함수는 데이터를 더 빠르게 피팅하고 결정 경계는 조각별 선형인 반면 시그모이드는 굽은 결정 경계를 만듭니다. 연사는 모델을 더 강력하게 만들기 위해 추가 레이어를 실험할 것을 권장하지만 추가된 복잡성으로 인해 훈련하기가 더 어려워집니다. 그런 다음 컴퓨터가 기하급수적인 비용 없이 기호 미분을 사용하여 기울기를 효율적으로 계산할 수 있게 해주는 역전파에 대해 설명합니다. 화자는 함수를 모듈의 구성으로 기술하고 체인룰을 반복적으로 적용하는 것이 기본 아이디어라고 설명한다.

  • 00:30:00 이 섹션에서 역전파 알고리즘은 각 하위 모듈의 그래디언트를 곱하여 특정 입력에 대한 전역 그래디언트를 계산하기 위해 주어진 모델을 가져와 모듈 체인으로 분해하는 방법으로 설명됩니다. 함께. 이 프로세스는 펜과 종이를 사용하여 상징적으로 입력과 관련하여 각 모듈의 도함수를 계산한 다음 수치 계산으로 이동하는 것으로 시작됩니다. 로컬 파생물을 사용하고 글로벌 파생물을 파생시키기 위해 체인 규칙을 반복적으로 적용하여 함수를 일련의 모듈로 구성하는 아이디어를 설명하기 위해 간단한 예가 제공됩니다. 결과 요인은 각각 전역 및 지역 파생물이라고 합니다.

  • 00:35:00 이 섹션에서 비디오는 시스템을 모듈로 분해하고 이를 시그모이드 활성화가 있는 2계층 신경망에 적용하는 역전파에 대해 설명합니다. 초점은 입력이 아닌 가중치에 대한 손실 함수의 도함수를 찾는 데 있습니다. 첫 번째 모듈은 손실 함수이고 그 다음은 선형 활성화 함수인 Y입니다. 각각의 숨겨진 값은 자체 활성화 함수(이 경우 시그모이드 함수)가 적용된 모듈을 가져옵니다. H2 프라임은 활성화 함수에 대한 선형 입력입니다. 마지막으로 비디오는 입력에 대한 모델의 도함수와 가중치에 대한 손실 함수의 도함수의 차이를 인식하는 것이 중요하다고 말합니다.

  • 00:40:00 이 섹션에서 발표자는 각 모듈의 로컬 그래디언트, 특히 V2에 대한 V2 및 Y에 대한 손실의 도함수에 대해 설명합니다. Y에 대한 L의 도함수는 체인 규칙을 사용하여 단순화되며 Y 빼기 T의 2배가 됩니다. 이는 표준 제곱 오차입니다. V2에 대한 Y는 선형 함수이고 도함수는 단순히 H2입니다. 매개변수 z2에 경사하강법을 적용할 때 오류 곱하기 H2 활성화를 빼서 업데이트합니다. 연사는 최상위에 총리, 두 번째 계층에 장관, 첫 번째 계층에 공무원이 있는 정부로서의 신경망에 비유합니다. 장관들이 공무원의 말을 듣고 어떤 결정에 대해 더 크게 소리치는 것은 긍정적인 신뢰로 해석되고, 침묵하는 것은 부정적인 신뢰로 해석된다. 총리는 오류를 기반으로 신뢰 수준을 조정하고 업데이트를 위해 네트워크로 다시 전파합니다.

  • 00:45:00 이 섹션에서 발표자는 모델 출력의 오류에 대한 모든 가중치에 책임을 할당하여 역전파가 작동하는 방식을 설명합니다. 그는 전체 오류가 계산되고 문제에 기여한 목사에 대한 신뢰 수준이 곱해짐을 보여주기 위해 인위적인 비유를 사용합니다. 그런 다음 연사는 신뢰 수준을 업데이트할 때 활성화 기능을 어떻게 고려해야 하는지 보여줍니다. 역전파는 기본적으로 오류를 네트워크로 다시 전파하여 모델의 가중치를 업데이트합니다. 연사는 신경망이 선형 및 비선형 기능의 조합이며 가장 간단한 버전은 피드포워드 네트워크라고 요약합니다.

  • 00:50:00 이 섹션에서는 비디오에서 신경망의 역사와 문제점, 그리고 훈련의 어려움과 매개변수 조정과 관련된 불확실성으로 인해 신경망에 대한 관심이 어떻게 감소했는지에 대해 설명합니다. 모델 작동 여부에 대한 즉각적인 피드백을 허용하는 볼록한 손실 표면이 있는 지원 벡터 머신은 학습과 관련된 불확실성 부족으로 인해 더욱 대중화되었습니다. 그런 다음 비디오는 마진을 가장 가까운 지점으로 최대화하고 이를 지원 벡터라고 부르는 개념을 사용하여 유사한 데이터에서 다르게 수행되는 여러 모델의 문제에 대한 솔루션으로 지원 벡터 머신을 소개합니다.

  • 00:55:00 이 섹션에서는 이진 분류 문제에 대한 결정 경계를 찾는 방법으로 SVM(Support Vector Machine)의 개념을 소개합니다. SVM 알고리즘은 결정 경계와 각 클래스의 가장 가까운 점 사이의 거리 또는 마진을 최대화하는 선을 찾는 것을 목표로 합니다. SVM의 목적은 제한된 최적화 문제로 표현될 수 있습니다. 여기서 목표는 모델의 출력이 포지티브 서포트 벡터의 경우 +1이고 네거티브 서포트 벡터의 경우 -1임을 보장하는 제약 조건을 충족하면서 마진을 최대화하는 것입니다. SVM은 포인트가 양수인지 음수인지를 인코딩하는 레이블 매개변수를 도입하여 두 목표를 초평면 매개변수로 완전히 작성할 수 있는 단일 목표로 줄일 수 있도록 하여 더욱 단순화할 수 있습니다.

  • 01:00:00 이 섹션에서 발표자는 지원 벡터 머신(SVM)에서 결정 경계 사이의 마진을 최대화하는 개념에 대해 설명합니다. 여백의 크기는 모델의 매개변수에 의해 결정될 수 있는 벡터의 길이에 따라 다릅니다. 목표는 여전히 특정 제약 조건을 충족하면서 이 마진을 최대화하는 것입니다. 그러나 데이터를 선형적으로 분리할 수 없는 경우 모델이 더 나은 피팅을 찾기 위해 특정 제약 조건을 위반할 수 있도록 여유 매개변수를 추가하여 모델을 느슨하게 해야 합니다. 각 데이터 포인트에는 0 또는 양수 값으로 설정할 수 있는 고유한 여유 매개변수가 있습니다.

  • 01:05:00 이 섹션에서 강사는 분류 제약 조건을 준수하지 않는 포인트에 페널티 값을 추가하여 선형으로 분리할 수 없는 데이터 세트를 처리할 수 있는 소프트 마진 SVM의 개념에 대해 설명합니다. 이 페널티는 기울기 하강법을 사용하여 최소화할 수 있는 손실 함수를 통해 표현됩니다. 강사는 또한 제한된 최적화 문제를 해결할 수 있는 커널 트릭의 대안으로 지원 벡터 측면에서 손실 함수를 다시 작성하는 옵션을 제시합니다. 이러한 페널티 시스템을 구현하기 위한 방법으로 힌지 손실 함수를 제시한다.

  • 01:10:00 이 섹션에서 강사는 정확도, 최소 제곱, 교차 엔트로피 손실 및 소프트 마진 SVM 손실과 같은 기계 학습의 다양한 손실 함수에 대해 설명합니다. 소프트 마진 SVM은 결정 경계와 페널티가 있는 가장 가까운 지점 사이의 마진을 최대화하여 작동합니다. 그러나 이 최적화 함수는 제약조건과 안장점이 있기 때문에 경사하강법으로 효과적으로 해결할 수 없습니다. 강사는 제약 조건을 제거하지 않고 제약 조건이 있는 최적화 문제를 훨씬 간단한 형태로 다시 작성하는 데 도움이 되는 LaGrange 승수 방법을 소개합니다. 강사는 이 방법을 사용하여 소프트 마진 SVM 최적화 기능을 다시 작성하여 커널 트릭을 적용할 수 있는 방법을 보여줍니다.

  • 01:15:00 이 섹션에서 발표자는 지원 벡터 머신(SVM)과 데이터 세트에 있는 점 쌍의 내적을 다른 내적으로 대체하는 방법인 커널 트릭에 대해 설명합니다. SVM은 알파 크기에 불이익을 주고 어떤 점이 지원 벡터인지 표시하고 데이터 세트의 모든 점 쌍을 합산하는 방식으로 작동합니다. 커널 트릭을 사용하면 고차원 공간에서 내적을 계산할 수 있으므로 선형 모델을 계산하는 것과 비슷한 비용으로 훨씬 더 강력한 모델을 얻을 수 있습니다. 모든 외적을 추가하여 기능을 확장하여 기능 공간을 크게 늘리고 훨씬 더 강력한 모델을 허용하는 예가 제공됩니다.

  • 01:20:00 이 섹션에서는 커널 함수를 사용하여 분류를 위한 고차원 특징 공간을 달성하는 개념에 대해 설명합니다. 내적을 사용하고 이를 더 높은 거듭제곱으로 확장하면 낮은 비용을 유지하면서 교차 곱과 무한 차원의 특징 공간을 포함하도록 기능 공간을 확장할 수 있습니다. 그러나 이 방법은 과적합되기 쉽고 구현하기가 복잡할 수 있습니다. 커널 함수의 사용은 직접 특징 추출이 간단하지 않은 텍스트 또는 단백질 시퀀스와 같은 비수치 데이터로 확장될 수도 있습니다. 커널 기능은 현재 유행하지 않을 수 있지만 특정 경우에는 여전히 유용할 수 있습니다.

  • 01:25:00 이 섹션에서는 SVM(Support Vector Machine)과 신경망 간의 차이점에 대해 설명합니다. SVM은 학습 시간이 2차라는 점에서 제한적이지만 신경망은 데이터에 대한 특정 수의 패스만 필요합니다. 그러나 SVM은 여전히 경사 하강법으로 훈련할 수 있지만 이 방법은 커널 트릭을 간과합니다. 2005년경에는 관련 데이터의 양으로 인해 SVM 교육이 점점 어려워져 신경망이 부활했습니다. 게다가 기계 학습 내부의 문화는 신경망의 성공 배경이 아직 완전히 이해되지 않았음에도 불구하고 신경망이 작동한다는 것을 받아들이는 쪽으로 바뀌었습니다. 궁극적으로 이러한 변화로 인해 신경망 모델을 사용하여 다음 섹션에서 설명할 보다 고급 유형의 분류를 수행할 수 있게 되었습니다.