머신 러닝 및 신경망 - 페이지 27

 

강의 14. A의 낮은 순위 변화와 그 역함수



14. A의 낮은 순위 변화와 그 역

이 비디오는 낮은 순위 행렬의 개념과 함수 행렬에서의 중요성, 특히 단순한 1 x 1 행렬의 관점에서 N x n 행렬의 역수를 찾는 행렬 반전 공식에 대해 설명합니다. 이 수식은 순위 섭동이 낮은 행렬의 역행렬을 찾는 데 유용하며 역행렬을 찾는 프로세스를 단순화할 수 있습니다. 발표자는 두 번째 행렬에 대한 공식을 제시하여 공식이 어떻게 작동하는지 보여주고 답에 도달하기 위해 동일한 논리가 어떻게 적용되었는지 보여줍니다. 이 비디오는 특히 최소 제곱 문제와 Kalman 필터에서 이 공식의 실제 적용에 대해서도 설명합니다.

  • 00:00:00 이 섹션에서 교수는 하위 행렬의 개념과 함수 행렬에서의 중요성에 대해 논의합니다. 초점 주제는 행렬 역전 공식이라고 하는 유명한 공식에 관한 것입니다. 이 공식은 A의 낮은 순위 변화와 그 역으로도 알려져 있습니다. 이 수식은 UV 전치를 사용하고 1에서 V 곱하기 U의 전치를 뺀 더 간단한 1 x 1 행렬의 관점에서 N x n 행렬의 역을 찾습니다. 섭동 순위를 매기고 역을 찾는 프로세스를 단순화하는 데 사용할 수 있습니다. 교수는 이 공식의 작동 방식과 실제 적용 방법을 설명합니다.

  • 00:05:00 이 섹션에서 발표자는 순위 1로 행렬을 변경하면 순위 1로 역행렬이 어떻게 변경되는지 설명합니다. 그가 제시한 공식은 매우 유용한 1 x 1 역의 관점에서 N x n 역을 계산합니다. 그런 다음 발표자는 주장된 역행렬에 원래 행렬을 곱하고 항등 행렬을 얻기를 희망하여 공식을 확인하는 방법을 보여줍니다. 발표자는 두 번째 행렬에 대한 공식을 제시하여 공식이 어떻게 작동하는지 보여주고 답에 도달하기 위해 동일한 논리가 어떻게 적용되었는지 보여줍니다.

  • 00:10:00 행렬 A의 낮은 순위 변화에 대한 공식과 그 역수. 공식은 N x n 행렬의 역수를 포함하지만 K x K 행렬로 전환할 수 있습니다. 이는 항등 행렬의 더 작은 섭동입니다. 이 공식은 검사를 통해 참으로 표시되며 행렬 A를 교란하는 데 유용할 수 있습니다. 이 공식을 발견한 개인의 이름도 나열됩니다.

  • 00:15:00 이 섹션에서 화자는 하위 행렬 A의 역행렬을 취할 때 발생하는 변화에 대해 논의하고 있습니다. 그들은 대수적 조작을 사용하여 A의 역행렬을 취할 때 다음과 같은 특정 항이 있음을 보여줍니다. 제거되어 단순화된 표현으로 이어집니다. 발표자는 항등행렬을 생성하는지 확인하여 공식을 증명할 수 있지만 처음에 공식을 도출할 수 있는 방법을 고려하는 것이 중요하다고 말합니다. 그들은 공식을 사용하여 최소 제곱법에서 새로운 측정 또는 관찰로 선형 시스템을 풀 것을 제안합니다.

  • 00:20:00 이 섹션에서 발표자는 최소 제곱 문제를 해결할 때 새로운 측정을 처리하는 방법을 설명합니다. 직사각형 행렬 A를 사용하여 솔루션에 하나 이상의 측정 또는 데이터 포인트를 추가하면 새로운 행렬과 해결해야 할 오른쪽이 생성됩니다. 그러나 발표자는 행렬 곱셈 A^TA를 다시 계산하는 대신 새로운 측정값으로 행렬을 확장하고 이를 전치하고 업데이트된 솔루션을 계산하는 데 사용하는 방법을 설명합니다. 이미 계산된 것을 사용하여 최소 제곱 문제를 보다 효율적으로 계산할 수 있습니다.

  • 00:25:00 이 섹션에서 발표자는 교란 A와 A 전치 A에서 순위 1 변화를 제공하는 새로운 데이터로 그 역에 대해 설명합니다. 이 개념은 최소 제곱 문제에 적용할 수 있으며 Kalman 필터는 다음의 예입니다. 이 접근법을 사용하는 재귀적 최소 제곱 방법. Kalman 필터는 새로운 데이터를 추적하고 솔루션을 업데이트하여 미사일과 위성을 유도하는 데 활용되며, 이는 실제로 이 개념의 중요한 적용입니다.

  • 00:30:00 비디오의 이 섹션에서 발표자는 Sherman-Morrison-Woodbury 공식을 적용하여 A 및 그 역의 하위 순위 변경을 계산하는 방법을 설명합니다. 동적 최소 제곱에 사용되는 Kalman 필터에는 공분산 행렬과 상태 방정식이라는 두 가지 추가 요소가 고려됩니다. 공분산 행렬은 오류의 상관 관계를 처리하고 상태 방정식은 위성(예제에서)이 얼마나 움직여야 하는지 알려줍니다. Kalman 필터는 큰 부분을 변경하지 않고 변경하는 측정값을 처리하는 재귀적 제곱의 개선된 버전입니다.

  • 00:35:00 이 섹션에서 연사는 선형 시스템을 풀 때 낮은 순위 업데이트 공식을 사용하는 방법에 대해 설명합니다. 공식은 해결된 문제의 행렬을 순위 1로 교란하고 원래 행렬의 역행렬을 사용하여 새로운 문제를 신속하게 해결하는 것을 포함합니다. 이 접근 방식은 새로운 문제를 해결하는 데 필요한 시간을 크게 줄일 수 있으며 기존의 소거 방법으로는 시간이 많이 걸리는 대형 매트릭스에 특히 유용합니다.

  • 00:40:00 이 섹션에서 발표자는 다양한 문제에 대한 솔루션을 결합하여 행렬의 역행렬을 찾는 방법을 설명합니다. 행렬 A를 Lu로 인수분해하면 모든 어려운 작업은 왼쪽에서 수행되며 다른 오른쪽에 대한 솔루션을 찾는 데는 역대입만 필요합니다. Sherman-Morrison-Woodbury 공식을 사용하면 해 W와 Z를 결합하여 답 X를 얻을 수 있습니다. 이 공식은 Sherman-Morrison Woodbury에서 나온 용어로 해 W를 변경하고 분자의 용어는 다음의 배수입니다. Z 곱하기 X.

  • 00:45:00 이 섹션에서 발표자는 행렬 A의 낮은 순위 변경이 행렬 A의 역행렬에 어떤 영향을 미칠 수 있는지 논의하고 K행렬을 전환 및 반전하여 N행렬행렬을 반전시키는 공식을 제공합니다. 이 공식은 역의 복사본을 빼고 몇 가지 다른 조각을 추가하는 것을 포함하며 궁극적으로 원래의 역에 대한 순위 K 변경을 초래합니다. 발표자는 이 공식이 실용적으로 적용될 수 있으며 시청자가 나중에 참조할 수 있도록 기록하도록 권장합니다.

  • 00:50:00 이 섹션에서 화자는 K by K 행렬의 역행렬에 대해 논의하고 지난 1시간 50분 동안 다룬 많은 공식을 인정합니다. 이 섹션은 노트가 일부 응용 프로그램을 다루고 낮은 순위의 다른 측면을 다루도록 이동할 것이라고 말하면서 결론을 내립니다.
 

강의 15. 행렬 A(t) t에 따라 미분 = dA/dt



15. 행렬 A(t) t에 따라 미분 = dA/dt

이 비디오는 행렬과 행렬의 역행렬의 변화, 고유값과 특이값의 시간 경과에 따른 변화를 포함하여 행렬과 관련된 다양한 주제를 다룹니다. 발표자는 이러한 변화를 계산하기 위한 주요 공식을 설명하고 선형 대수학에서 미적분을 이해하는 것의 중요성을 강조합니다. 또한 강의에서는 정규화의 중요성에 대해 논의하고 대칭 및 랭크 1 행렬 모두에서 고유값에 대한 인터레이스 정리를 탐구합니다. 마지막으로 비디오는 다룬 주제에 대한 검토와 향후 강의에서 이를 확장하겠다는 약속으로 마무리됩니다.

  • 00:00:00 이 섹션에서 화자는 행렬이 변경될 때 행렬, 고유값 및 특이값의 변화에 대해 설명합니다. 행렬의 변화에 따른 역행렬의 변화, 역행렬의 도함수, 고유값과 특이값의 변화에 대한 공식을 이해하는데 중점을 둔다. 화자는 고유값과 특이값의 변화에 대한 정확한 공식이 정확하지 않을 수 있다고 설명합니다.
    가능하다면 변화가 얼마나 클 수 있는지 이해하기 위해 여전히 불평등을 도출할 수 있습니다. 강의는 또한 시간(T)과 역 A 역에 따라 달라지는 행렬 A의 설정을 다룹니다.

  • 00:05:00 이 섹션에서 발표자는 행렬의 역행렬에 대한 이전 섹션의 논의를 보완하는 미적분학의 정체성에 대해 논의합니다. 공식에 따르면 역행렬의 미분은 역행렬의 음수 곱하기 행렬의 미분과 행렬의 역수를 곱한 것과 같습니다. 화자는 역행렬의 도함수를 "역의 변화"라고 부르고 공식의 양변을 델타 T로 나누어 구하는 방법을 설명합니다. 마지막으로 화자는 미적분학을 적용하여 델타 T가 0이 되도록 하여 직관적 공식의 이해. 화자는 또한 대학 수학에서 미적분학이 강조하는 것에 대한 의견을 표명하며 그것이 선형 대수학을 압도한다고 말했습니다.

  • 00:10:00 이 섹션에서 발표자는 델타 T가 0이 될 때 시간 t에 대한 dA/dt로 행렬 A의 도함수에 대한 공식을 설명합니다. 델타 a를 델타 T 비율로 나눈 값은 의미가 있으며 델타 T가 0에 가까워지면 방정식은 역이 됩니다. one by one 경우에서 1 나누기 X의 도함수는 1 나누기 X 제곱이며, 이것은 델타 a가 전체 크기이지만 낮은 순위일 때 공식과 유사합니다. 그런 다음 강의의 초점은 람다의 고유값과 행렬이 변경될 때 고유값이 어떻게 변경되는지, 두 가지 가능성, 하나의 작은 변경 및 하나의 전체 크기 순서로 이동합니다. 강의는 고유값과 고유벡터를 둘러싼 사실로 끝납니다.

  • 00:15:00 이 섹션에서는 매개변수에 의존하는 행렬에 대한 고유 벡터 및 고유 값의 개념을 설명합니다. 행렬 A는 AX와 동일한 고유 값을 갖는 왼쪽의 고유 벡터 X와 함께 자세히 탐색됩니다. 대조적으로 대칭 행렬 A에 대한 고유 벡터 Y는 A 또는 AT의 전치와 동일한 방식으로 사용됩니다. 정규화의 중요성, 특히 Y 전치 곱하기 X = 1이 강조됩니다. 그런 다음 저자는 공식의 미분을 진행하고 이 새로운 상황에 맞게 방정식을 왜곡하는 방법에 대해 설명합니다.

  • 00:20:00 이 섹션에서 발표자는 행렬의 도함수를 사용하여 시간이 변함에 따라 고유값과 고유벡터의 도함수를 찾는 방법을 설명합니다. 제품 규칙을 사용하여 시간에 따라 달라지는 세 항의 제품 파생에 대한 공식을 유도합니다. 용어를 재정렬하고 대각화 공식을 적용하면 고유값의 도함수에 대한 간단한 공식에 도달합니다. 연사는 이것이 고전적인 기술이지만 항상 널리 알려지거나 과정에서 가르치는 것은 아니라고 지적합니다.

  • 00:25:00 이 섹션에서 발표자는 행렬이 변경되는 속도와 왼쪽 및 오른쪽의 고유 벡터를 사용하여 고유 값의 도함수를 찾는 공식에 대해 설명합니다. 공식을 단순화하여 두 항이 서로 상쇄되고 나머지 항이 미분에 대한 정답임을 보여줍니다. 그들은 이 취소를 증명하기 위해 1의 도함수가 0이라는 사실을 사용합니다. 화자는 또한 이 공식이 고유 벡터의 도함수를 포함하지 않으며 더 높은 수준의 도함수를 찾는 데에도 사용할 수 있다고 언급합니다.

  • 00:30:00 이 섹션에서 발표자는 대칭 행렬에 대한 순위 1 변경 후 고유값의 변경에 대해 설명합니다. 그는 변화가 진정한 벡터이지 미분이 아니라 새로운 고유값에 대한 정확한 공식이 없다고 지적합니다. 그러나 그는 고유값이 내림차순이고 순위 1 변화가 양의 준정부호라는 몇 가지 알려진 사실을 공유합니다. 그는 또한 청중에게 uu 전치 행렬의 고유 벡터를 고려하도록 요청하고 전체 n x n 행렬 열 x 행이라고 설명합니다. 그는 이 계산에서 나온 숫자가 0보다 크다고 말하면서 결론을 내립니다.

  • 00:35:00 이 섹션에서 발표자는 대칭 행렬에 대해 논의하고 여기에 랭크 1 행렬을 추가하면 어떻게 되는지 설명합니다. 그들은 이것이 양의 준정부호 행렬을 생성하고 새로운 고유값(람다)이 원래 고유값(감마)보다 크다고 결론지었습니다. 그러나 크기의 차이는 중요하지 않으며 고유값이 서로 전달되지 않도록 하는 "인터레이스"라는 정리가 있습니다. 구체적으로, 람다 1은 감마 1보다 크지만, 람다 2는 감마 1보다 작다. 이는 대칭행렬에 양의 랭크 1 행렬을 더했을 때 고유값의 순서를 보장해주는 유용한 정리이다.

  • 00:40:00 이 섹션에서 교수는 대칭 행렬과 랭크 1 변화로 인한 랭크 2 행렬의 고유값에 대해 설명합니다. 그는 변경 행렬의 순위가 2이며 2개의 0이 아닌 고유값을 나타내며 양의 준정부호 특성으로 인해 원래 행렬에 고유값을 추가하면 고유값이 증가한다는 것을 의미한다고 설명합니다. 그러나 그는 양의 준정부호 행렬을 추가할 때 고유값이 원래 고유값보다 높을 수 없다는 정리를 밝힙니다. 그는 이것을 알파 값에 적용하고 람다와 비교하여 궁극적으로 알파 2 값은 람다 1을 통과할 수 없고 알파 3 값은 알 수 없는 상태로 남아 있다는 결론을 내립니다.

  • 00:45:00 이 섹션에서 강사는 대칭 행렬의 예를 들어 고유값의 인터레이스를 설명합니다. 이 행렬의 축소된 버전에도 고유값이 있으며 원래 행렬의 고유값과 인터레이스됩니다. 그러나 강사는 순위가 변경될 때 고유값의 인터레이스에 대해 우려를 제기합니다. 새로운 고유 벡터에 큰 수를 곱하면 잠재적으로 고유 값을 위로 이동할 수 있으며 이는 인터레이스 정리와 모순되는 것처럼 보입니다. 강사는 이것을 다음 강의에서 대답할 질문으로 남겨둔다.

  • 00:50:00 이 섹션에서 강사는 고유값과 고유벡터에 대해 논의하고 고유값 람다 2 더하기 20을 갖는 특정 고유벡터가 이전 진술을 무효화하지 않는 이유에 대해 설명합니다. 강의는 다룬 주제에 대한 복습과 다음 수업에서 토론을 계속하기 위한 메모로 마무리됩니다.
 

강의 16. 역함수와 특이값의 도함수


16. 역함수와 특이값의 도함수

이 비디오는 행렬의 역행렬 및 특이값의 도함수, 인터레이스, 행렬의 핵 노름을 비롯한 다양한 주제를 다룹니다. 화자는 SVD를 사용하여 특이값의 미분에 대한 공식을 제시하여 대칭 행렬에서 고유값의 변화에 대한 경계를 설정하면서 시간에 따라 행렬이 어떻게 변하는지 이해합니다. Vial의 부등식은 행렬의 람다 값을 추정하는 방법으로 도입되었으며 기저 추구는 행렬 완성 문제에서 사용됩니다. 발표자는 또한 매트릭스의 핵 놈이 놈이 아닌 놈에서 나온다는 생각에 대해 논의하고 다음 강의에서 논의할 Lasso 및 압축 감지의 개념을 소개합니다.

  • 00:00:00 이 섹션에서 강사는 역행렬의 도함수, 고유값의 도함수 및 특이값의 도함수를 찾는 것을 포함한 다양한 주제에 대해 논의합니다. 강사는 자신이 최근에 발견한 특이값의 도함수 공식을 공유하고 역함수의 도함수 공식이 단순히 원래 행렬의 도함수가 아니라고 언급합니다. 그는 또한 실험실 숙제에 대해 이야기하고, 프로젝트에 대한 조언을 구하고, Applied Linear Algebra에 대한 Townsend 교수의 다가오는 강의에 대해 언급합니다. 강사는 계속해서 제곱 행렬의 도함수를 체계적으로 찾는 방법과 일반적으로 가정하는 공식이 잘못된 이유를 설명합니다.

  • 00:05:00 이 섹션에서 화자는 고유값의 파생물과 유사한 특이값의 파생물에 대해 설명합니다. 특이값의 도함수 공식은 a의 특이 벡터에 da/dt를 곱한 값의 전치로 제공됩니다. 이 공식은 a 곱하기 V가 시그마 U와 같다는 SVD에 의존합니다. 이러한 사실을 사용하고 방정식을 조작하여 특이값의 도함수에 대한 공식을 유도할 수 있습니다. 이 공식은 매트릭스가 시간에 따라 어떻게 변하는지 이해하는 데 유용하며 물리학 및 공학과 같은 다양한 분야에 적용될 수 있습니다.

  • 00:10:00 이 섹션에서 화자는 역함수와 특이값의 도함수에 대해 설명합니다. 그들은 행렬의 SVD 측면에서 특이값에 대한 공식을 설명하는 것으로 시작한 다음 방정식의 도함수를 취합니다. 화자는 제품 규칙을 사용하고 결과 방정식을 단순화하여 원하는 답을 제공할 항을 찾습니다. 그런 다음 다른 두 항이 0이 될 것임을 입증하여 선택한 항이 올바른 항임을 증명합니다. 마지막으로 그들은 내적과 숫자를 사용하여 U와 U 전치의 도함수가 0과 같음을 보여줍니다.

  • 00:15:00 이 섹션에서 화자는 대칭 행렬의 특이값 및 고유값의 도함수에 대해 설명합니다. 특이값 또는 고유값의 변화에 대한 정확한 공식을 계산할 수는 없지만 고유값의 양의 변화가 고유값을 감소시키지 않는다는 것을 인식하여 범위를 설정할 수 있습니다. 이전 값과 새 값의 인터레이스는 두 번째 고유값이 첫 번째 이전 고유값을 초과하지 않고 첫 번째 새 고유값이 첫 번째 이전 고유값보다 작지 않아 이러한 개념이 SVD를 이해하는 데 유용하다는 사실로 설명됩니다.

  • 00:20:00 비디오의 이 섹션에서 화자는 행렬의 고유값에 대한 두 번째 고유 벡터의 하이핑 효과에 관한 퍼즐 질문을 제기합니다. 그는 두 번째 고유값이 세타로 표시되는 일정량만큼 증가하면 결국 첫 번째 고유값을 초과할 수 있어 잠재적인 문제를 제기한다고 지적합니다. 그러나 그는 자신의 사고 과정을 설명하고 첫 번째 고유값은 변경되지 않고 두 번째 고유값은 올라가지만 결국 람다 1과 세타의 합으로 수렴하기 때문에 이것이 실제로 문제가 되지 않는다는 것을 보여줍니다.

  • 00:25:00 이 섹션에서 화자는 인터레이스와 Vial의 부등식에 대해 설명합니다. Vial의 부등식은 행렬의 람다 값을 추정하는 방법입니다. 이 값은 가장 큰 것에서 가장 작은 것의 순서로 정렬되는 고유값입니다. 부등식은 모든 대칭 행렬에 대해 참이며 두 대칭 행렬의 합의 가장 큰 고유값이 개별적으로 각 행렬의 가장 큰 고유값의 합보다 작거나 같다고 말합니다. 이 인터레이스 속성은 랭크 1 섭동뿐만 아니라 다른 랭크의 섭동에도 적용됩니다. 화자는 양의 행렬 T를 S에 추가하는 예를 사용하여 이것이 Vial의 부등식과 어떻게 관련되는지 설명합니다.

  • 00:30:00 이 섹션에서 화자는 Vile의 불평등과 그것이 인터레이스와 어떻게 관련되는지에 대해 논의합니다. Vile의 부등식은 고유값이 얼마나 증가할 수 있는지에 대한 범위를 제공하며 이 사실은 인터레이스 현상을 이해하는 데 중요합니다. 화자는 Vile의 부등식과 그래프를 포함하는 또 다른 방법을 포함하여 인터레이스를 증명하는 두 가지 방법이 있다고 언급합니다. 이 섹션에서는 비디오의 다음 부분에서 설명할 압축 감지도 소개합니다.

  • 00:35:00 이 섹션에서는 행렬의 특이값의 합인 행렬의 핵 놈(nuclear norm) 개념을 소개합니다. 이것은 벡터의 L1 표준으로 생각할 수 있습니다. 제약 조건을 사용하여 핵 규범을 최소화하면 희소 솔루션이 되는 L1 규범과 유사한 특수 속성이 있습니다. 이 속성은 행렬에서 누락된 데이터를 채워야 하는 행렬 완성 문제에서 유용합니다. 핵 노름을 최소화하는 숫자는 누락된 데이터를 채우기에 좋은 선택입니다. 0이 아닌 개수를 나타내는 벡터의 제로 노름은 노름이 아니지만 가장 가까운 노름인 L1 노름으로 이동할 수 있습니다. 이 노름은 벡터 구성요소의 절대값의 합입니다. 일부 조건에 따라 이 규범을 최소화하는 것을 기저 추구라고 하며 행렬 완성 문제에 사용됩니다.

  • 00:40:00 이 섹션에서 화자는 행렬의 핵 놈이 표준이 아닌 놈에서 나온다는 생각에 대해 논의합니다. 그는 행렬의 랭크가 이 노름과 동일하지만 행렬의 크기가 두 배가 되면 확장할 수 없기 때문에 노름이 되지 못한다고 설명합니다. 연사는 계속해서 경사하강법의 딥러닝 알고리즘이 핵 규범의 최소 문제에 대한 해결책을 찾는 추측을 설명하고, 다음 강의에서 더 논의될 Lasso 및 압축 감지의 개념을 소개합니다.
 

강의 17: 특이값의 급속한 감소



강의 17: 특이값의 급속한 감소

강의는 행렬과 행렬의 순위, 계산 수학에서 특이값이 얼마나 빠르게 감소하는지에 중점을 둡니다. 강사는 하위 행렬을 검사하고 특이값 시퀀스에 0이 얼마나 많은지 보여줍니다. 전체 순위 형식보다 낮은 순위 형식으로 친구에게 행렬을 보내는 것이 더 효율적입니다. 그들은 또한 행렬의 특이 값의 허용 오차를 정의할 수 있는 약간의 흔들림을 허용하여 정의되는 행렬의 수치 순위를 소개합니다. 다항식으로 잘 근사할 수 있는 평활 함수를 샘플링하면 숫자 순위가 낮아져 행렬 X의 낮은 순위 근사가 될 수 있습니다. 또한 강의에는 가우시안 및 방데르몽드 행렬의 예가 포함되어 어떻게 다음으로 이어질 수 있는지 설명합니다. 낮은 순위의 행렬, 경계 특이 값에서 Zolotarev 숫자의 유용성에 대해 설명합니다.

  • 00:00:00 이 섹션에서 교수는 계산 수학의 세계에서 하위 행렬이 왜 그렇게 널리 퍼져 있는지 설명합니다. 그는 행렬의 랭크와 그것이 낮은 랭크 행렬에 의해 얼마나 잘 근사될 수 있는지에 대해 알려주는 특이값의 중요성에 대해 논의합니다. 그는 계속해서 행렬 X가 K개의 0이 아닌 특이값을 갖는 경우 K개의 순위 1 행렬의 합으로 분해될 수 있다고 설명합니다. 또한 X의 열 공간과 행 공간은 모두 차원 K를 가집니다. 특이값 시퀀스는 행렬에 고유하며 다양한 수학 문제에서 낮은 순위 행렬이 나타나는 X의 속성을 식별하는 데 중점을 둡니다.

  • 00:05:00 이 섹션에서 강사는 하위 행렬에 대해 설명하고 특이값 시퀀스에 0이 많이 있는 방법에 대해 설명합니다. 낮은 랭크 매트릭스는 전체 랭크 형태보다 낮은 랭크 형태로 친구에게 매트릭스를 보내는 것이 더 효율적인 매트릭스입니다. 강의에서는 낮은 순위 행렬의 개념을 설명하기 위해 다양한 플래그를 사용하며, 매우 낮은 순위는 행과 열의 좌표와 잘 정렬됩니다. 순위가 증가하면 정렬이 흐려지고 행렬이 낮은 순위인지 확인하기가 더 어려워집니다. 높은 등급의 행렬은 낮은 등급의 형태로 보내기에 비효율적입니다.

  • 00:10:00 이 섹션에서 강사는 대각선 패턴이 낮은 순위 압축에 적합하지 않은 이유를 이해하기 위해 삼각형 플래그 행렬을 검사합니다. 모든 1의 행렬은 그 역을 취했을 때 Gil이 가장 좋아하는 행렬과 유사한 속성을 가지고 있습니다. 이 행렬의 특이값을 조사하여 강사는 삼각형 패턴이 낮은 순위 압축에 적합하지 않음을 보여줍니다. 다만 원형 케이스와 일장기 문양은 하위 압축에 편리하다.

  • 00:15:00 이 섹션에서 강사는 원의 순위, 특히 일장기에 대해 논의합니다. 깃발을 원형, 중앙의 랭크 1조각, 사각형으로 분해하여 각 조각의 랭크를 더하여 순위를 결정할 수 있습니다. 강사는 랭크 1 조각이 1로 묶여 있음을 보여주고 대칭을 사용하여 원의 반지름에 따라 달라지는 정사각형 조각의 랭크를 결정합니다. 강사는 삼각법으로 몇 가지 계산을 수행하여 순위가 약 1/2이라는 결론을 내리므로 낮은 순위 형식으로 일장기를 나타내는 것이 효율적입니다. 그러나 전산 수학에서 대부분의 행렬은 유한 순위가 아니라 순위와 유사하지만 어느 정도 근사치를 허용하는 숫자 순위입니다.

  • 00:20:00 이 섹션에서는 행렬의 특이 값의 허용 오차를 정의할 수 있는 약간의 흔들림을 허용하여 정의되는 행렬의 수치 순위에 대해 배웁니다. K가 공차를 나타내는 엡실론 위의 첫 번째 특이값이고 랭크가 엡실론 위의 마지막 특이값과 같고 엡실론 아래의 첫 번째 특이값이면 수치 순위는 K입니다. 수치적으로 낮은 순위 행렬은 낮은 순위 행렬일 뿐만 아니라 특이값이 급격히 감소하는 전체 순위 행렬입니다. 이를 통해 실제로 합리적인 허용 오차 수준을 허용하면서 낮은 순위 근사를 사용하여 행렬을 압축할 수 있습니다. 힐베르트 행렬은 숫자 순위가 낮은 전체 순위 행렬의 예입니다.

  • 00:25:00 이 섹션에서 강사는 행렬이 낮은 수치 등급일 수 있지만 일반적으로 반드시 낮은 등급일 필요는 없는 방법에 대해 설명합니다. Vandermonde 행렬이 이에 대한 고전적인 예로 사용됩니다. 이 행렬은 실제 지점에서 다항식 보간으로 나타나며 종종 수치적으로 낮은 순위이므로 반전하기 어렵습니다. 그러나 수치적으로 낮은 순위가 항상 바람직한 것은 아니며, 특히 역을 찾으려고 할 때 그러합니다. 강사는 낮은 순위의 행렬이 많은 이유는 세상이 매끄럽기 때문이라고 설명합니다. 즉, 행렬이 수치적으로 낮은 순위임을 의미합니다. 두 변수의 다항식이 샘플링되는 예가 제공되며 결과 행렬은 엡실론이 0인 수학적으로 낮은 순위임을 보여줍니다.

  • 00:30:00 이 섹션에서 발표자는 함수를 샘플링하고 해당 함수를 다항식으로 근사화하여 행렬 X에 대한 낮은 순위 근사값을 얻는 방법에 대해 설명합니다. 두 변수의 다항식이 x와 y 모두에서 차수가 M인 다음 샘플링될 수 있는 경우 결과 x는 엡실론이 0이고 최대 M 제곱 순위를 갖는 낮은 순위를 갖습니다. 다항식으로 잘 근사할 수 있는 부드러운 함수를 샘플링하면 수치 순위가 낮아져 행렬 X의 낮은 순위 근사가 될 수 있습니다. 그러나 이 방법의 추론은 힐베르트 행렬에 대해 잘 작동하지 않습니다. 풀랭크다.

  • 00:35:00 이 섹션에서 강사는 행렬의 순위를 제한하는 적절한 이유를 찾는 방법에 대해 설명합니다. 많은 사람들이 행렬의 랭크를 정확하게 예측할 수 있는 다항식을 고안하려고 노력했지만 그 방법은 만족스럽지 못했습니다. 강사는 실베스터 방정식이라는 특정 방정식을 만족하는 행렬인 실베스터 행렬에 대한 아이디어를 소개합니다. 방정식을 만족하는 A, B 및 C를 찾으면 행렬이 수치적으로 낮은 순위임을 나타낼 수 있습니다. 강사는 실베스터 방정식을 만족시키기 위해 Hilbert 행렬과 왼쪽과 오른쪽에 반씩 곱하는 구체적인 방법을 사용하는 예를 제공합니다.

  • 00:40:00 이 섹션에서 강의는 순열과 곱셈이 낮은 순위의 행렬로 이어질 수 있는 방법을 설명하기 위해 가우시안 및 Vandermonde 행렬의 예를 제공했습니다. 강의에서는 X가 학기 방정식을 만족하면 Frobenius norm이라고 하는 Gaussian 및 Vandermonde 행렬과 유사한 표현을 만족하는 모든 행렬의 특이값에서 범위를 찾을 수 있다고 설명합니다. 풀러 및 바운드는 특정 방정식을 만족하는 것과 실제로 이러한 낮은 순위 행렬의 모양 사이의 연결을 보여 주기 위해 제공된 예제와 함께 행렬에서 이 수치적 낮은 순위를 입증하는 데 사용됩니다.

  • 00:45:00 이 섹션에서 강사는 많은 사람들이 이전에 이 숫자를 연구했기 때문에 Zolotarev 숫자로 묶인 특이값의 추상 문제가 얼마나 유용한지 논의합니다. 이것이 유용한 주요 이유는 세트 E와 F가 분리되어 있고 이것이 Zolotarev 수가 k로 매우 빠르게 작아지는 이유입니다. 강사는 Hilbert 행렬을 예로 사용하여 Zolotarev 수가 숫자 순위에 경계를 제공하는 방법을 보여주고 계산 수학에 낮은 순위 행렬이 많은 이유를 나타냅니다. 강사는 또한 Zolotarev 문제를 해결한 두 핵심 인물을 둘러싼 비공식적 저주에 대해 언급합니다. 둘 다 31세에 사망했기 때문에 Pencil의 이름 옆에 물음표가 있습니다.
 

강의 18: SVD, LU, QR, Saddle Points의 계수 매개변수



강의 18: SVD, LU, QR, Saddle Points의 계수 매개변수

이 강의에서는 L&U, Q&R, 고유 벡터 행렬과 같은 다양한 행렬 인수 분해를 검토하고 이러한 각 행렬에서 자유 매개변수의 수를 계산합니다. 또한 Q 대 SVD의 계산에 대해 논의하고 순위 R 행렬에 대한 SVD의 매개변수 수를 계산합니다. 강사는 또한 행렬의 안장점 개념과 최적화 기술 및 라그랑주 승수를 사용하여 안장점을 찾는 방법을 설명합니다. 마지막으로 강사는 대칭행렬의 고유값 부호와 레일리 지수가 행렬의 최대값과 해당 고유벡터를 결정하는 데 어떻게 도움이 되는지 설명합니다.

  • 00:00:00 이 섹션에서 발표자는 L&U, Q&R 및 고유 벡터 행렬과 같은 행렬의 큰 분해를 검토하고 이러한 각 행렬에서 자유 매개변수의 수를 계산합니다. 발표자는 L&U 또는 Q&R의 자유 매개변수 수가 원래 행렬의 매개변수 수와 일치해야 하며 고유값 및 고유벡터 행렬의 자유 매개변수를 더하면 N 제곱이 된다는 점에 주목합니다. 발표자는 이 연습이 교과서에서 자주 볼 수 없지만 선형 대수학을 이해하기 위한 중요한 복습이라고 언급합니다.

  • 00:05:00 이 섹션에서 발표자는 SVD, LU, QR 및 극좌표 분해를 포함하여 다양한 행렬 분해에서 자유 매개변수의 수에 대해 논의합니다. 발표자는 정규화 및 직교성 조건으로 인해 N x n 직교 행렬 Q의 자유 매개변수 수가 첫 번째 열의 경우 N-1이고 후속 열의 경우 N-2임을 주목합니다. 또한 1/2 N 곱하기 N 빼기 1 더하기 대각선 요소 수인 대칭 행렬 S의 자유 매개변수 수에 대해 설명합니다. 그런 다음 L 곱하기 U, Q 곱하기 R 및 Q 곱하기 S를 포함하여 이러한 계수가 서로 다른 분해에 대해 어떻게 합산되는지 보여줍니다. 마지막으로 대칭 행렬에 직교 곱하기를 초래하는 또 다른 분해로 극좌표 분해를 언급합니다.

  • 00:10:00 이 섹션에서 강사는 Q와 SVD의 계산에 대해 논의한 다음 SVD의 매개변수를 계산합니다. 직사각형 행렬이 가질 수 있는 가장 큰 랭크는 M이며 SVD에 대한 MxN 행렬이 됩니다. 강사는 MN 매개변수가 있는 원래 행렬의 합계에 이를 추가할 것으로 예상합니다. S의 카운트는 M과 같고 V의 카운트는 N과 같습니다. M x M 직교 행렬인 경우 U의 카운트는 1/2(M^2 + M)입니다.

  • 00:15:00 이 섹션에서 발표자는 순위 R 행렬에 대한 행렬의 특이값 분해(SVD)에서 중요한 매개변수를 계산하는 방법을 설명합니다. 0이 아닌 특이값에 해당하는 V의 M 열은 행렬의 유일한 중요한 부분입니다. 매개변수의 수를 계산하기 위해 화자는 V의 각 직교 열에서 M번째 열까지 필요한 매개변수의 서로 다른 수를 설명하는 공식을 사용합니다. 공식은 각 열에 대해 1에서 NM을 더하고 M 제곱 더하기 M 더하기 1의 절반에서 해당 숫자를 뺍니다. 공식의 결과는 rank-R 행렬의 SVD에 있는 매개변수의 최종 개수입니다.

  • 00:20:00 이 섹션에서 화자는 순위 R 행렬과 해당 행렬이 가진 매개변수 수에 대해 설명합니다. 순위 R의 행렬은 부분 공간이 아닙니다. 다른 행렬이 같은 순위를 가질 수 있기 때문에 조각이 다른 표면과 더 비슷해지기 때문입니다. 화자는 랭크 R의 행렬에 R 매개변수가 있다고 믿습니다. 그런 다음 계속해서 순위 R 행렬에서 매개변수의 수를 찾습니다. 매개변수의 수는 시그마의 경우 R, V의 경우 (R + 1) / 2, U의 경우 (M - 1) + (M - 2) + ... + (M - R)입니다.

  • 00:25:00 강의의 이 섹션에서 강사는 최대 및 최소와 다른 행렬의 안장점 개념에 대해 설명합니다. 안장점은 라그랑주 승수를 사용하여 선형 제약 조건에 따라 2차 비용 함수를 최적화할 때 발생합니다. 강사는 람다를 소개하고 X와 람다 모두에 의존하는 함수를 형성하기 위해 라그랑지안에서 어떻게 사용되는지 보여줍니다. 그런 다음 이 기능을 최적화하여 발생할 수 있는 안장 지점을 찾을 수 있습니다. 강사는 또한 양의 정부호 또는 음의 정부호가 아닌 행렬에서 발생하는 안장점의 또 다른 원인에 대해 언급합니다.

  • 00:30:00 이 섹션에서 발표자는 함수의 안장점을 찾는 방법과 블록 행렬로 표현되는 중요한 문제 클래스에서 어떻게 발생하는지 보여줍니다. 함수에는 최대값이 아니라 안장점이 있습니다. 이 문제에 대한 Lagron의 기여는 X 및 람다에 대한 도함수를 취하여 각각 n 및 m 방정식을 생성하는 것입니다. 궁극적으로 블록 행렬로 표현되는 행렬은 양의 정부호가 아님을 나타내며 이 정보는 안장점을 결정하는 데 사용될 수 있습니다.

  • 00:35:00 이 섹션에서 강사는 행렬의 결정자가 고유값의 부호를 결정하는 데 어떻게 도움이 되는지 설명합니다. 간단한 예를 사용하여 결정자가 음수이면 두 기호의 고유값이 있어야 함을 보여줍니다. 그런 다음 그는 이것을 최적화에 사용되는 KKT 행렬과 관련시키고 일반적으로 부정확하지만 그들과 관련된 긍정적인 명확한 블록이 있다고 주장합니다. 그는 이 양의 정부호 블록에서 블록 제거를 사용할 때 모든 n 피벗이 양수이므로 KKT 행렬이 양수 고유값과 음수 고유값을 모두 갖는다는 결론에 도달한다는 것을 보여줍니다.

  • 00:40:00 이 섹션에서 강사는 안장 지점과 안장 지점이 구속과 어떻게 관련되는지에 대해 설명합니다. 그는 피벗의 부호를 기반으로 대칭 행렬의 고유값 부호를 결정하는 방법을 설명합니다. 강사는 또한 Rayleigh 지수를 정의하고 대칭 행렬의 최대값과 해당 고유 벡터를 결정하는 데 어떻게 도움이 되는지 검토합니다. 강의는 레일리 지수에 연결한 값이 어떻게 최대값보다 작아지는지에 대한 설명으로 끝납니다.

  • 00:45:00 이 섹션에서 화자는 레일리 지수의 안장점 개념에 대해 설명합니다. 최소값과 최대값 사이의 중간 람다를 처리하기 어렵습니다. 그러나 최대값과 최소값에서는 몫 값을 쉽게 측정할 수 있습니다. 임의의 차원에서 임의의 벡터를 선택하면 최대값과 최소값 사이에 있는 X의 R을 계산할 수 있습니다. 발표자는 안장점에 대한 자세한 이야기는 다음 강의를 위해 남겨두겠다고 말하지만 그 전에 오버피팅, 딥러닝에 대해 가르치는 세 번째 랩이 주어질 것이며 휴식 시간 이후에 있을 예정입니다.
 

강의 19. Saddle Points Continue, Maxmin 원리



19. 계속되는 안장점, Maxmin 원리

이 비디오에서 연사는 계속해서 안장점과 2차원 공간에서 레일리 지수를 사용하여 최소값과 최대값을 찾는 방법에 대해 논의합니다. 최대값과 최소값을 빠르게 찾기 위해 안장점을 최소값의 최대값으로 쓰는 인터레이스 정리를 설명합니다. 연사는 또한 고차 다항식으로 데이터를 피팅할 때 과적합에 대해 경고하고 안장점과 간단한 신경망을 포함하는 수업용 개방형 랩 2개에 대해 논의합니다. 통계의 평균과 분산, 표본 분산과 공분산의 개념을 설명하고 화자는 완전히 종속적인 출력에 대한 공분산 행렬이 가역적이지 않으며 한 집에 여러 사람이 거주하는 폴링 시나리오의 경우 약간의 공분산이 예상되지만 완전히 독립적이지 않습니다.

  • 00:00:00 이 섹션에서 연사는 딥 러닝에서 총 비용 함수의 최소값을 찾는 것과 관련하여 안장점을 이해하는 것의 중요성에 대해 논의합니다. 안장점의 주요 사실, 함수의 최대값과 최소값, 안장점의 존재를 설명하기 위해 레일리 지수와 간단한 행렬 S의 예를 제공합니다. 발표자는 또한 실험실 3, 프로젝트 및 기본 통계, 특히 공분산 행렬에 대해 논의할 계획을 언급합니다.

  • 00:05:00 이 섹션에서 발표자는 안장점과 모든 것을 하나의 변수에 로드하고 도함수를 계산하여 0과 같은 위치를 찾아 최소값과 최대값을 찾는 방법에 대해 설명합니다. 그들은 최소값을 찾는 방법을 보여주고 행렬의 고유 벡터와 고유 값이 안장점의 위치와 값을 찾는 데 도움이 된다는 것을 보여줍니다. 화자는 또한 2차 도함수와 대칭 행렬을 계산하는 방법에 대해서도 이야기합니다. 그들은 안장점 값을 계산하는 것의 중요성을 강조하고 코드 작업과 프로세스에 유의할 것을 제안합니다.

  • 00:10:00 이 섹션에서 발표자는 안장점의 개념과 이를 최대값과 최소값으로 빠르게 되돌리기 위해 최소값의 최대값으로 작성하는 방법에 대해 논의합니다. 그는 이것이 인터레이스 정리로 이어진다고 설명하고 레일리 지수의 최소값을 찾기 위해 2차원 부분 공간에서 최소값을 취하는 예를 제공합니다. 모든 부분 공간에 대해 최소값의 최대값을 취함으로써 안장점 값인 람다를 얻을 수 있습니다.

  • 00:15:00 이 섹션에서 화자는 레일리 지수를 사용하여 2차원 공간에서 최대값과 최소값을 찾는 방법을 설명합니다. 그는 가능한 모든 2D 공간에서 최대값을 취하고 이 V의 특정 선택이 3이라는 대답을 제공함을 보여줌으로써 최대값이 3임을 입증합니다. 그런 다음 화자는 다른 부분 공간에 대해 최소값이 어떻게 3 미만이 되는지 설명합니다. 즉, 최소값의 최대값도 3이라는 의미입니다. 안장점의 개념도 논의되며, 화자는 이러한 점들이 특정 지역의 가장 높은 지점에서 자주 발생하며 극소 중의 극대 또는 극대 극소가 될 수 있음을 지적합니다. 비디오는 프로젝트에 대한 토론과 시청자가 프로젝트에 대해 질문하도록 초대하는 것으로 마무리됩니다.

  • 00:20:00 이 섹션에서 화자는 5차 다항식을 사용하여 6개 점을 맞추는 과적합 모델을 설명합니다. 화자는 5차 다항식이 데이터 포인트에 정확히 맞지만 부드럽거나 좋지 않기 때문에 결함이 있는 모델이 될 것이라고 지적합니다. 이 예는 모델이 너무 복잡하고 교육 데이터에 너무 가깝게 맞을 때 발생하는 과적합에 대한 경고 역할을 합니다.

  • 00:25:00 이 섹션에서 발표자는 높은 차수의 다항식으로 데이터를 맞추는 문제에 대해 논의합니다. 직선을 피팅하면 과소적합이 발생할 수 있지만, 고차 다항식을 피팅하면 데이터의 노이즈를 고려하지 않고 주어진 모든 데이터 포인트에 대해 완벽한 피팅을 생성하므로 과적합이 발생할 수 있습니다. 완벽한 맞춤이라는 아이디어는 Vandermonde 행렬과 관련이 있는데, 완벽한 맞춤으로 인한 거대한 계수 벡터로 인해 큰 역수가 있습니다. 행렬에는 일반적인 크기의 값과 함께 작은 값이 발생하는 광범위한 특이 값이 있습니다. 따라서 과소적합과 과적합 사이의 균형을 맞추기 위해 데이터에 적합한 다항식의 올바른 차수를 찾는 것이 어려울 수 있습니다.

  • 00:30:00 이 섹션에서 발표자는 자신의 수업을 위한 개방형 실험실의 두 가지 예를 설명합니다. 하나는 안장점을 포함하고 다른 하나는 간단한 신경망을 포함합니다. 안장점 예의 경우 화자는 등급 범위에 데이터 도표와 표를 제출하고 K 증가의 안전성과 위험에 대한 결론을 도출할 것을 제안합니다. 신경망 예와 관련하여 화자는 기본 분류 문제를 설명하고 학생들에게 여전히 선형 대수학을 사용하면서 적합하다고 생각되는 대로 모델링합니다. 연사는 또한 컴퓨팅 사고 과정에 대한 MIT의 계획에 대한 곧 있을 교수 회의에 대해 언급하며 이 과정이 한 예입니다. 마지막으로 연사는 대략적인 프로젝트 아이디어와 그룹 선호도를 이메일로 보내도록 학생들을 초대합니다.

  • 00:35:00 이 섹션에서 교수는 수업을 위한 프로젝트 아이디어에 대해 논의하고 그 범위를 명확히 합니다. 그는 프로젝트가 너무 크지는 않을 것이며 아마도 세 개의 숙제와 같을 것이지만 사소하지도 않을 것이라고 언급했습니다. 그는 학생들에게 프로젝트에 대한 질문과 의견을 묻고 컨볼루션 신경망과 같은 주제를 포함할 가능성을 제안합니다. 교수는 또한 일부 학생들이 Media Lab에서 회의를 시작했으며 성공적으로 진행되었다고 언급했습니다. 그는 사람들이 봄방학 후에 다시 그런 모임에 관심을 가질 것인지 묻습니다.

  • 00:40:00 이 섹션에서 발표자는 통계의 평균 및 분산 개념, 실제 출력 및 예상 출력과의 관계, 샘플 평균과 예상 평균의 차이를 소개합니다. 샘플 평균은 실험의 실제 출력에서 계산되는 반면 예상 평균은 해당 결과의 확률에서 계산됩니다. 샘플 분산과 예상 분산이 구별되는 분산도 논의됩니다. 화자는 평균과 분산의 기대값이 샘플이나 가능성의 수가 증가함에 따라 실제 값에 근접할 것이라고 설명합니다.

  • 00:45:00 이 섹션에서는 n개 샘플 집합의 평균에서 평균 제곱 거리를 측정하는 샘플 분산의 개념에 대해 설명합니다. 통계에서 n-1을 나눈다는 것은 이 거리가 0이 아닌 표본 평균에서 계산된다는 것을 의미하며 n이 클 때 n과 n-1의 차이는 중요하지 않습니다. 반면에 공분산은 여러 실험을 수행할 때 행렬 조작과 관련된 더 깊은 아이디어이며 두 개의 개별 이벤트의 결합 확률이 계산됩니다.

  • 00:50:00 이 섹션에서 발표자는 공분산 출력의 두 극단인 독립 출력과 완전히 종속 출력에 대해 설명합니다. 독립적인 출력의 공분산은 0이지만 완전히 종속된 출력의 최대 공분산은 하나의 출력이 다른 출력에 의해 완전히 결정됩니다. 화자는 이 개념을 설명하기 위해 함께 붙인 동전 뒤집기의 예를 사용합니다. 종속 출력에 대한 공분산 행렬은 가역적이지 않고 양의 정부호 대칭이거나 함께 붙어 있는 경우의 준정부호가 아닙니다. 연사는 여러 사람이 한 집에 사는 투표 시나리오에서 약간의 공분산이 예상되지만 완전히 독립적이지는 않을 것이라고 언급합니다.
 

강의 20. 정의와 불평등



20. 정의와 불평등

비디오의 이 섹션에서 연사는 기대값, 분산 및 공분산 행렬을 포함하여 확률 이론의 다양한 개념에 대해 논의합니다. Markov의 부등식과 Chebyshev의 부등식도 확률을 추정하기 위한 기본 도구로 소개되었습니다. 그런 다음 화자는 Markov의 부등식과 Chebychev의 부등식 사이의 관계를 설명하면서 동일한 결과로 이어지는 방법을 설명합니다. 확률 이론의 기본 도구인 공분산 및 공분산 행렬의 개념도 소개되었습니다. 이 비디오는 또한 결합 확률과 텐서의 아이디어를 탐구하여 동전을 함께 붙이면 어떻게 의존성이 추가되고 확률이 변경되는지 설명합니다. 마지막으로 화자는 공분산 행렬의 속성에 대해 논의하며 항상 양의 준정부호 행렬이고 순위 1 양의 준정부호 행렬의 조합임을 강조합니다.

  • 00:00:00 이 섹션에서 강사는 기대값, 분산 및 공분산 행렬에 대해 설명합니다. 'e'로 표시된 기대값은 확률에 기반한 모든 가능한 결과의 가중 평균으로 정의됩니다. 반면 분산은 평균과 각 데이터 포인트 사이의 거리 제곱의 기대값입니다. 공분산 행렬도 비슷한 방식으로 표현할 수 있습니다. 그런 다음 강사는 제곱을 작성하고 다르게 결합하여 분산에 대한 두 번째 표현을 탐색하여 분산을 보다 효율적으로 계산할 수 있는 방법을 찾습니다.

  • 00:05:00 이 섹션에서 연사는 x의 제곱의 기대값을 찾기 위해 방정식을 단순화하는 대수적 프로세스에 대해 논의합니다. 그는 x 제곱의 기대값 빼기 x의 기대값 빼기 M 제곱이 x 제곱 확률의 합과 같다는 것을 보여줍니다. 그런 다음 연사는 계속해서 확률과 기대치를 포함하는 통계적 부등식인 Markov 부등식을 소개합니다. 그는 Markov가 훌륭한 러시아 수학자였으며 나중에 책에서 Markov 체인과 프로세스를 보게 될 것이라고 언급합니다.

  • 00:10:00 이 섹션에서 화자는 X가 특정 숫자보다 크거나 같을 확률을 추정하는 데 도움이 될 수 있는 Markov의 부등식을 설명합니다. 부등식은 X가 a보다 크거나 같을 확률이 X의 평균을 a로 나눈 값보다 작거나 같다는 것을 나타냅니다. 화자는 1의 평균과 3의 값을 사용하여 X가 3보다 크거나 같을 확률이 1/3보다 작거나 같음을 보여주는 예를 제공합니다. 그러나 화자는 이 부등식이 음수가 아닌 이벤트에만 적용되며 음수에서 양수 무한대 범위의 출력이 있는 이벤트에는 사용할 수 없다고 지적합니다.

  • 00:15:00 비디오의 이 섹션에서 화자는 3보다 크거나 같을 확률을 보여주기 위해 특별한 경우를 사용하는 것에 대해 이야기합니다. 그들은 평균의 정의를 사용하여 특정 방정식을 작성한 다음 가정을 합니다. Markov 부등식을 만족시키기 위해 X1에서 X5까지의 값에 대해 그들은 확률의 합이 1이고 모두 0보다 크거나 같다는 사실을 말합니다. 그런 다음 화자는 방정식을 조작하여 3보다 크거나 같을 확률이 1/보다 작거나 같다는 것을 보여줍니다. 방정식에서 특정 값을 빼서 3. 방정식이 Markov 부등식을 만족함을 보여줌으로써 결론을 내립니다.

  • 00:20:00 이 섹션에서 발표자는 확률의 Markov 및 Chebyshev 부등식에 대해 설명합니다. Markov의 부등식은 변수가 특정 값보다 크거나 같을 확률을 추정하는 것과 관련되며 변수가 모두 0보다 크거나 같은 경우에만 적용됩니다. 반면 체비쇼프 부등식은 변수가 평균에서 일정 거리 떨어져 있을 확률을 다루며 입력에 대해 어떠한 가정도 하지 않습니다. 이 두 부등식은 확률 이론에서 확률을 추정하기 위한 기본 도구입니다.

  • 00:25:00 이 섹션에서 화자는 Markov의 부등식과 Chebychev의 부등식 사이의 관계를 설명합니다. 그는 X에서 M의 제곱을 뺀 새로운 변수 Y를 소개하고 그 평균을 계산하는 방법을 설명합니다. 그런 다음 화자는 마르코프의 부등식을 Y에 적용하고 체비쇼프의 부등식을 X에 적용하여 동일한 결과를 도출하는 방법을 보여줍니다. 마지막으로 그는 공분산 및 공분산 행렬의 개념을 소개합니다.

  • 00:30:00 이 섹션에서 연사는 공분산 및 공분산 행렬의 개념을 소개합니다. 공분산 행렬은 M x M 행렬입니다. 여기서 M은 한 번에 수행되는 실험의 수입니다. 이 개념을 설명하기 위해 화자는 동전 하나당 하나의 출력(X)으로 두 개의 동전을 던지는 예를 사용합니다. 두 개의 동전이 독립적으로 뒤집히면 출력 간에 상관 관계가 없지만 함께 붙어 있으면 출력이 상관되고 결합 확률이 2x2 행렬에 입력됩니다.

  • 00:35:00 이 섹션에서 발표자는 독립적인 동전과 관련된 실험 설정을 위한 결합 확률 및 행렬의 개념에 대해 논의합니다. 그들은 독립적인 공정한 동전으로 세 가지 실험이 있거나 동전이 함께 붙어 있는 경우 삼원 구조 또는 텐서의 아이디어를 탐구합니다. 텐서의 결과 항목은 서로 다른 결과의 확률을 계산하는 데 사용할 수 있는 결합 확률입니다. 연사는 접착되지 않은 실험의 간단한 경우 항목이 1/8이지만 동전을 함께 접착하면 의존성이 추가되고 확률이 변경된다고 지적합니다.

  • 00:40:00 비디오의 이 섹션에서 연사는 동전 3개를 던질 공동 확률과 이를 3원 행렬로 나타낼 수 있는 방법에 대해 논의합니다. 그는 텐서와 공분산 행렬의 개념을 언급하며 후자를 가능한 모든 결과의 합으로 표현되는 두 실험 X와 Y의 공동 결과의 분산으로 정의합니다. 연사는 또한 P IJ 기호와 그것이 서로 다른 구성으로 동전을 붙이고 떼는 것과 어떻게 관련되는지 설명합니다.

  • 00:45:00 비디오의 이 섹션에서 발표자는 두 이벤트(X 및 Y)의 공동 확률과 서로 다른 값 쌍에 대한 이 확률을 계산하는 방법에 대해 설명합니다. 화자는 특정 나이와 키의 확률을 계산하는 것을 포함하여 결합 확률을 사용하는 방법에 대한 예를 제공합니다. 또한 화자는 각 사건의 개별 확률인 주변 확률을 정의하고 행렬의 행 또는 열을 따라 확률을 더하는 방법을 설명합니다. 그런 다음 화자는 계속해서 공분산 행렬을 정의하고 항목을 계산하는 방법을 설명합니다.

  • 00:50:00 이 섹션에서 화자는 공분산 행렬과 그 속성에 대해 이야기합니다. 그는 X 실험의 분산은 모든 P IJ를 합산하여 도출되는 반면 Y 실험의 분산은 시그마 Y 제곱 값으로 제공된다고 설명합니다. X와 Y 사이의 공분산은 PIJ에 평균에서 X까지의 거리와 평균에서 Y까지의 거리를 곱한 값의 합입니다. 독립적인 동전의 경우 공분산은 0이 되는 반면, 접착된 동전의 경우 시그마 X 제곱 시그마 Y 제곱과 동일합니다. 행렬의 행렬식은 붙인 동전의 경우 0이며, 이는 제곱 공분산이 시그마 X 제곱 시그마 Y 제곱과 동일함을 나타냅니다. 공분산 행렬은 항상 양의 준정부호이고 순위 1 양의 준정부호의 조합이므로 양의 준정부호 또는 양의 정부호입니다.
 

강의 21: 단계별 함수 최소화



강의 21: 단계별 함수 최소화

이 동영상 강의에서는 함수를 최소화하는 데 사용되는 기본 알고리즘과 수렴률, 특히 Newton의 방법과 최속강하법에 대해 설명합니다. 또한 함수가 하나의 최소값을 갖도록 하는 볼록성의 중요성을 강조하고 볼록 집합 및 볼록 함수의 개념을 소개합니다. 강사는 글로벌 최소값과 달리 안장점 또는 로컬 최소값이 있는지 여부를 결정하는 함수의 볼록성을 테스트하는 방법을 설명합니다. 비디오는 완전히 2차가 아닌 Newton 방법의 저렴한 버전인 Levenberg Marquardt에 대한 논의로 끝납니다.

  • 00:00:00 이 섹션에서 강사는 딥 러닝에 들어가는 기본 알고리즘인 최적화의 기본 사항에 대해 설명합니다. 강의는 Taylor 급수를 설명하는 것으로 시작하여 함수가 하나 이상의 변수일 때 Taylor 급수를 확장하는 방법을 보여줍니다. 그런 다음 강사는 각 X 변수에 대한 F의 편도함수인 F의 기울기를 소개합니다. 마지막으로 2차항에 대해 설명하고, 2차 도함수와 더 많은 변수에 따라 어떻게 변하는지에 대해 논의하며 강의를 마칩니다.

  • 00:05:00 강의의 이 섹션에서는 함수의 2차 미분 행렬인 Hessian 행렬의 개념을 소개합니다. Hessian 행렬은 대칭이며 그 계산은 n의 작은 값에서 중간 정도의 큰 값에 대해 실행 가능합니다. 야코비 행렬인 벡터 함수에 대한 병렬 그림이 있으며 항목은 다른 변수에 대한 함수의 도함수입니다. 이것은 최적화 문제에서 방정식을 푸는 데 사용되는 다변수 미적분학의 사실입니다.

  • 00:10:00 이 섹션에서 강사는 주어진 함수를 최소화하는 것과 관련된 n개의 미지 방정식 시스템을 푸는 뉴턴의 방법에 대해 설명합니다. 뉴턴의 방법은 n개의 미지수에서 n개의 방정식을 푸는 가장 좋은 방법입니다. 이는 F = 0으로 표현될 수 있습니다. 여기서 F의 1은 0이고 총 n개의 방정식이 있습니다. 강사는 함수로 쓸 수 있는 방정식 x 제곱 빼기 9 = 0을 풀기 위해 뉴턴의 방법을 사용하는 방법을 보여주고 방법을 단계별로 적용하는 방법을 보여줍니다.

  • 00:15:00 이 섹션에서 강사는 뉴턴의 방법을 사용하여 함수를 최소화하는 방법과 함수가 수렴하는 속도를 결정하는 방법에 대해 설명합니다. 그들은 X sub K + 1을 결정하는 공식을 단순화하는 것으로 시작하여 X sub K가 정확히 3이면 X sub K + 1도 3이 된다는 것을 보여줍니다. 그런 다음 오류가 얼마나 빨리 0에 접근하는지에 초점을 맞추고 둘에서 3을 뺍니다. 방정식을 단순화하면 단계 K + 1의 오류가 모든 단계에서 제곱된다는 것을 알 수 있으며, 이는 Newton의 방법이 충분히 가깝게 실행될 경우 환상적인 이유를 증명합니다.

  • 00:20:00 이 섹션에서 강사는 Newton의 최적화 방법을 사용하여 수천 또는 수십만 개의 변수가 있는 매우 복잡한 손실 함수에 적용하는 방법에 대해 설명합니다. 강의에서는 두 가지 방법(최속강하법 및 뉴턴법)을 다룹니다. 여기서 최속강하법은 F의 기울기 방향으로 이동하지만 단계 크기를 자유롭게 결정할 수 있습니다. 반면에 Newton의 방법은 F의 2차 도함수를 고려하여 더 빠른 수렴을 허용하지만 바람직하지 않은 솔루션으로 수렴하거나 특정 시작점에서 폭발할 수도 있습니다. 이것은 특정 시작점이 원하는 솔루션으로 이어지는 반면 다른 시작점은 바람직하지 않은 솔루션 또는 무한대로 이어지는 매력 영역의 개념으로 이어집니다.

  • 00:25:00 이 섹션에서 강사는 함수를 단계별로 최소화하는 두 가지 방법인 최속 하강법과 뉴턴 방법에 대해 설명합니다. 둘 다 n차원 공간에서 방향을 반복적으로 선택하고 해당 방향을 따라 특정 거리를 이동하는 것을 포함하지만 최속강하법은 함수의 기울기를 사용하여 방향을 선택하는 반면 뉴턴의 방법은 헤시안 또는 2차 도함수를 사용합니다. 강의는 또한 정확한 라인 검색의 개념과 이러한 방법에서 적절한 학습 속도를 선택하는 것의 중요성을 설명합니다.

  • 00:30:00 이 섹션에서 강사는 함수 및 수렴 속도를 최소화하는 데 사용되는 기본 알고리즘에 대해 설명합니다. 강사는 Newton의 방법이 2차 수렴률을 가지고 있어 충분히 가깝게 시작하면 매우 빠르다고 설명합니다. 반대로 최속강하 알고리즘은 선형 수렴률을 가지므로 효율성이 떨어집니다. 강사는 이러한 문제를 해결하기 위한 시작점은 함수가 하나의 최소값을 갖도록 보장하는 볼록성이어야 한다고 강조합니다. 강사는 볼록 집합과 함수를 정의하고 볼록 집합의 점에 대한 함수를 최소화하는 의미를 설명합니다. 강의는 완전히 2차가 아닌 뉴턴 방법의 저렴한 버전인 Levenberg Marquardt에 대한 논의로 마무리됩니다.

  • 00:35:00 비디오의 이 섹션에서는 화자가 기능을 최소화하는 방법에 대해 설명합니다. 함수에 대한 제약 조건은 볼록 집합에 의해 정의됩니다. 즉, 집합 내의 두 점 사이에 그려진 모든 선은 집합 내에 있어야 합니다. 화자는 결합될 때 볼록 집합을 형성하지 않는 두 개의 겹치는 삼각형의 예를 제공합니다.

  • 00:40:00 이 섹션에서는 볼록 집합과 볼록 함수의 개념을 소개합니다. 두 볼록 집합의 교집합은 항상 볼록하고 빈 집합은 볼록 집합으로 간주됩니다. 비디오의 노트는 함수를 최소화할 때 이러한 개념을 이해하는 것의 중요성을 강조합니다. 프로토타입 문제는 볼록한 그림으로 함수를 찾는 것과 관련되기 때문입니다. 이 비디오는 또한 볼록 함수의 정의를 볼록 집합의 정의에 연결하여 볼록 함수의 그래프가 그릇과 비슷하지만 해당 표면의 점은 볼록 집합이 아니라는 점에 주목합니다. 그러나 그래프의 점 집합은 볼록 집합입니다.

  • 00:45:00 강의의 이 섹션에서 연사는 볼록 함수 테스트에 대해 논의합니다. 그는 두 개의 볼록 함수를 사용하여 최소 및 최대 함수를 생성할 수 있으며 그 중 하나는 볼록하고 다른 하나는 그렇지 않다고 설명합니다. 최소 함수에는 꼬임이 있으므로 볼록하지 않고 최대 함수는 볼록합니다. 발표자는 또한 이 테스트를 최대 1500개의 함수로 확장할 수 있으며 1500개의 함수가 모두 볼록하면 해당 최대값도 볼록할 것이라고 언급합니다.

  • 00:50:00 이 섹션에서는 화자가 함수의 볼록성을 테스트하는 방법을 설명합니다. 미적분에서 변수가 하나뿐인 함수의 경우 2차 도함수가 양수인지 0인지 확인하여 볼록 함수를 증명할 수 있습니다. 변수가 여러 개인 벡터 함수를 처리할 때 대칭 행렬 F가 함수에 추가됩니다. 여기에서 볼록성에 대한 테스트는 Hessian에 대해 양의 준정부호가 될 것입니다. 2차 도함수가 행렬을 생성하기 때문입니다. 볼록 문제에는 안장점이나 로컬 최소값이 없고 전역 최소값만 있으므로 바람직합니다.
 

강의 22. 경사하강법: 최소로 내리막길



22. 경사하강법: 최소로 내리막길

"Gradient Descent: Downhill to a Minimum" 비디오에서 연사는 기능을 최소화하는 것이 목표인 최적화 및 딥 러닝에서 경사 하강법의 중요성에 대해 논의합니다. 화자는 그래디언트와 Hessian을 소개하고 2차 함수를 사용하여 최속강하법 단계를 설명합니다. 발표자는 볼록성 측정에서의 역할뿐만 아니라 그래디언트와 헤세 행렬을 해석하는 방법에 대해서도 설명합니다. 화자는 수렴 속도를 제어하는 데 있어서 조건수의 중요성을 강조하면서 적절한 학습 속도를 선택하는 데 심혈을 기울입니다. 이 비디오는 또한 무거운 공 방법을 포함하여 경사 하강법의 개념을 이해하는 데 도움이 되는 실용적인 예와 공식을 제공합니다.

  • 00:00:00 이 섹션에서 연사는 신경망, 심층 학습, 기계 학습 및 최적화 전반에서 중심 알고리즘인 경사 하강법에 대해 논의합니다. 목표는 함수를 최소화하는 것이며 2차 미분을 취하기에는 변수가 너무 많은 경우 초점은 함수의 1차 미분에 있습니다. 발표자는 2개의 미지수가 있는 순수한 2차 함수의 중요한 예를 다루기 전에 그래디언트 및 헤세 행렬의 개념과 볼록성의 역할을 소개합니다. 예를 통해 화자는 가장 가파른 내리막의 단계와 최소 지점인 답에 얼마나 빨리 수렴하는지 보여줍니다. 화자는 또한 수렴 속도에서 조건수의 중요성과 함수의 기울기를 해석하고 계산하는 방법을 설명합니다.

  • 00:05:00 이 섹션에서 화자는 표면의 기울기와 헤시안을 해석하는 방법을 설명합니다. 기울기가 일정하고 Hessian이 0의 2차 도함수만 포함하는 표면의 예를 사용하여 스피커는 표면을 시각화하고 가장 가파른 오르막 또는 내리막 및 레벨 세트 측면에서 기울기와 Hessian을 해석하는 방법을 설명합니다. 화자는 2차 미분의 헤시안 행렬이 표면의 모양과 다른 방향으로 얼마나 빨리 변하는지에 대해 알려준다고 강조합니다.

  • 00:10:00 이 섹션에서는 함수의 볼록성을 측정하기 위한 도구로 Hessian의 개념을 소개합니다. 함수의 Hessian은 표면이 볼록한지 여부를 알려주며 양의 준정부호 또는 양의 정부호 Hessian은 볼록성을 나타냅니다. 선형 함수는 볼록하지만 엄격하게 볼록하지 않은 반면, 엄격하게 볼록한 함수는 위쪽으로 구부러집니다. 엄격하게 볼록한 함수의 예는 기울기가 sx 제곱의 절반일 때 최소값을 갖는 1/2 x 전치 x로 제공됩니다.

  • 00:15:00 이 섹션에서 화자는 경사 하강법을 사용하여 이차 함수의 최소값을 찾는 개념에 대해 논의합니다. 기울기가 0인 지점에서 최소값에 도달하고 이 지점을 argh men이라고 합니다. 화자는 이것이 함수의 실제 최소값과 다르며 최소값 자체보다는 최소값에 도달하는 지점을 찾는 데 초점이 맞춰지는 경우가 많다고 강조합니다. 이 특정 예에서 최소값은 선형 항이 없기 때문에 0입니다.

  • 00:20:00 이 섹션에서 화자는 이차 함수의 최소값을 찾는 기본적인 최소화 질문에 대해 논의합니다. 함수는 0을 거쳐 특정 지점에서 바닥을 치고 그 지점을 연결하여 가장 낮은 수준을 결정할 수 있습니다. 화자는 놀라운 볼록함수를 언급하고 볼록함이 실제로 작동하게 만드는 것이라고 언급합니다. 이 함수는 행렬의 함수이며 N개의 제곱 변수를 포함합니다.

  • 00:25:00 이 섹션에서 화자는 행렬의 행렬식을 취한 다음 음수 부호로 로그를 취하여 얻은 볼록 함수에 대해 설명합니다. 결과 함수는 볼록하며, 주어진 행렬에 대해 편도함수 함수는 해당 행렬의 역행렬의 항목으로 작용합니다. 그런 다음 발표자는 항목과 관련하여 행렬 결정자의 도함수를 깊이 파고들며 경사 하강법 알고리즘에서 이러한 도함수를 계산하는 것의 중요성을 강조합니다.

  • 00:30:00 이 섹션에서 발표자는 행렬식과 행렬식이 1행에서 선형임을 나타내는 기본 속성을 설명합니다. 그는 또한 행렬식의 cofactor 확장에 대한 공식으로 들어가 기울기가 다음과 같은 사실에 연결합니다. X 반전의 항목. 그런 다음 화자는 기울기 하강법을 소개하고 단계 크기와 X에서 s의 기울기를 포함하는 공식을 제공합니다. 의사 결정을 위해 남은 유일한 입력은 단계 크기입니다.

  • 00:35:00 이 섹션에서 강사는 경사 하강법에서 적절한 학습 속도를 선택하는 것의 중요성에 대해 설명합니다. 학습률이 너무 크면 함수가 진동하고 최적화하기 어렵습니다. 반면 학습률이 너무 작으면 알고리즘이 수렴하는 데 너무 많은 시간이 걸립니다. 최적의 학습률을 선택하는 한 가지 방법은 정확한 라인 검색을 사용하는 것이지만 큰 문제의 경우 시간이 많이 걸릴 수 있습니다. 대신 사람들은 일반적으로 적절한 학습률을 추정하고 역추적 라인 검색을 통해 필요에 따라 조정합니다. 강사는 수렴 속도를 제어하는 조건 수의 중요성을 강조하고 정확한 직선 검색이 함수를 얼마나 줄일 수 있는지 질문합니다.

  • 00:40:00 이 섹션에서 화자는 경사 하강법을 더 잘 이해하기 위한 예를 논의합니다. 정확한 답을 알 수 있는 특정 기능이 도입되어 비교할 수 있습니다. 이 함수 표면의 한 지점에서 시작하여 화자는 경사 하강 공식을 적용하고 이 특정 함수에 대한 반복을 계산합니다. 그런 다음 화자는 경사 하강법을 이해하는 데 도움이 되는 가장 좋은 예가 될 아름다운 공식을 제시합니다.

  • 00:45:00 이 섹션에서 발표자는 (1-B)/(1+B) 비율이 경사 하강법 동안 수렴 속도를 결정하는 데 얼마나 중요한지 설명합니다. B가 0에 가까우면 비율이 1에 가까워 수렴이 느리고, B가 1에 가까우면 비율이 0에 가까워 빠르게 수렴된다. 발표자는 레벨 세트와 타원의 예를 사용하여 좁은 계곡이 최소값에 접근할 때 느린 수렴을 유발할 수 있는 방법을 설명합니다. 화자는 최적화를 위한 좋은 조건 번호의 중요성을 강조합니다.

  • 00:50:00 이 섹션에서 발표자는 경사 하강법이 결국 특정 지점에 도달하기 위해 지그재그 궤적을 가진 곡선에 접근하는 방법에 대해 설명합니다. 그는 승수 1 - B/(1 + B)가 중요한 역할을 하며 볼록 함수의 경우 이 양이 최속강하법의 수렴을 결정하는 데 중요하다고 강조합니다. 다음 강의에서는 모든 지점에서 가장 가파른 하강을 지시하는 대신 움직임을 가속화할 수 있는 추가 용어를 추가하는 모멘텀 또는 무거운 공에 대해 논의할 것입니다. 아이디어는 실제 생활에서와 유사하게 무거운 공의 추진력이 인계되어 굴러 떨어지도록 하는 것입니다.
 

강의 23. 가속 경사하강법(모멘텀 사용)



23. 가속 경사하강법(모멘텀 사용)

이 비디오는 가속 경사하강법의 모멘텀 개념에 대해 설명합니다. 발표자는 기본 경사 하강 공식을 설명하고 모멘텀을 추가하면 일반 방법보다 더 빠르게 하강하여 궁극적으로 상당한 개선을 가져올 수 있는 방법을 보여줍니다. 또한 최속 내리막의 연속 모델에 대해 논의하고 운동량 항이 있는 2차 미분 방정식으로 분석할 수 있는 방법을 설명합니다. 발표자는 행렬의 고유값을 최대한 작게 만들기 위해 s와 beta의 값을 선택하여 가장 큰 고유값을 최소화하기 위해 모멘텀을 사용할 때 두 고유값을 모두 최소화하는 것이 중요함을 강조합니다. 그들은 또한 Nesterov의 방법에 대해 논의하고 두세 단계 또는 그 이상 뒤로 돌아가서 추가 개선을 얻을 수 있다고 제안합니다.

  • 00:00:00 이 섹션에서 발표자는 기본 경사 하강법 공식에 대해 설명합니다. 여기서 새 점은 이전 점에서 단계 크기를 곱한 XK의 음의 기울기(하강 방향)입니다. 경사하강법에서 지그재그를 피하기 위해 운동량을 더하면 일반 방법보다 더 빠른 하강이 됩니다. 네스토로프라는 러시아 수학자에 의해 개발된 하강을 가속하는 모멘텀에 대한 대안도 있습니다. 수십만 개의 변수가 있는 기계 학습 문제의 경우 확률적 경사 하강법이 사용되며, 여기서 훈련 데이터의 미니 배치가 무작위로 또는 체계적으로 선택되어 각 단계에서 훈련 샘플 배치 하나를 수행합니다.

  • 00:05:00 이 섹션에서 연사는 가장 가파른 방향의 하강과 X 및 Y 제곱 함수가 상수와 같고 타원을 형성하는 모델 문제에 대한 레벨 세트에 대해 논의합니다. 그들은 최적의 정지 지점은 수평 설정 타원에서 가장 먼 타원에 접하고 다시 올라가기 시작하는 지점이라고 설명합니다. 화자는 최속하강 공식을 개선하기 위해 모멘텀 항을 도입하고 지그재그 패턴으로 하강을 추적하여 고유벡터 값의 개선을 보여줍니다. 화자는 모멘텀이 있는 표현이 기적이며 상당한 개선을 가져온다고 결론을 내립니다.

  • 00:10:00 비디오의 이 섹션에서 연사는 가속 경사 하강에서 모멘텀 사용에 대해 논의합니다. 모멘텀의 감쇠 항은 감쇠가 얼마나 빠른지 알려주며, 모멘텀과 함께 이 항 1 빼기 B 나누기 1 더하기 B는 1 빼기 B 나누기 제곱근 더하기 B의 제곱근으로 바뀝니다. 화자는 다음과 같은 예를 들었습니다. B는 1 나누기 100이고 새 X는 이전 X에서 약간의 메모리를 제공하는 추가 용어가 있는 기울기를 뺀 값입니다. 이 용어는 단계 크기가 있는 새로운 수량 Z를 취하는 것과 관련이 있으며, Z를 가장 가파른 하강인 기울기로 취하는 대신 화자는 검색 방향인 이전 Z의 다중 베타를 추가합니다.

  • 00:15:00 이 섹션에서 발표자는 경사 하강 가속의 모멘텀 개념에 대해 논의합니다. 화자는 함수를 나타내기 위해 점을 사용하는 대신 비용 함수의 계곡 아래로 더 빠르게 움직이는 무거운 공을 사용할 것을 제안합니다. 이는 계산에 이전 단계를 포함하여 2단계 방법 대신 3단계 방법을 생성함으로써 달성됩니다. 그런 다음 화자는 이것을 최속 하강의 연속 모델과 연관시키고 운동량 항이 있는 2차 미분 방정식으로 분석할 수 있는 방법을 설명합니다. 그런 다음 보다 효율적이고 빠른 경사 하강법 알고리즘을 만드는 데 사용할 수 있는 두 개의 1차 방정식 시스템으로 이것을 작성하는 방법을 보여줍니다.

  • 00:20:00 이 섹션에서 발표자는 가속 경사하강법 알고리즘에서 k가 앞으로 이동할 때 발생하는 일을 분석하는 방법에 대해 설명합니다. 그들은 모든 단계에서 XZ 변수에 행렬이 곱해지기 때문에 상수 계수 문제가 있다고 설명합니다. 화자는 또한 s의 각 고유 벡터를 추적하기 위해 벡터가 아닌 스칼라 측면에서 공식을 다시 작성할 수 있는 각 고유 값을 따릅니다.

  • 00:25:00 이 섹션에서 발표자는 하나의 고유 벡터를 추적하고 전체 문제를 스칼라로 만드는 데 사용하는 방법에 대해 설명합니다. 단계 크기와 운동량 계수를 선택하여 각 단계에서 고유 벡터의 계수를 곱하여 업데이트할 수 있는 행렬을 만들 수 있습니다. s와 beta를 가능한 한 작게 만듦으로써 알고리즘이 가능한 람다의 전체 범위에 걸쳐 손실 함수를 최소화하도록 보장할 수 있습니다. 목표는 이러한 값을 선택하여 프로세스를 최대한 효율적으로 만드는 것입니다.

  • 00:30:00 이 섹션에서는 화자가 양의 정부호 대칭 행렬의 가장 큰 고유값과 가장 작은 고유값의 비율인 조건수의 개념을 설명합니다. 조건수가 높을수록 어려운 문제이고, 낮을수록 쉬운 문제입니다. 발표자는 모멘텀을 사용하여 기울기 하강법을 가속화하고 행렬의 고유값을 가능한 한 작게 만들기 위해 s 및 베타 값을 선택하여 최대 고유값을 최소화하는 방법을 설명합니다. 화자는 하나의 작은 고유값을 갖는 것이 치명적일 수 있기 때문에 두 고유값을 모두 최소화하는 것이 필수적이라고 강조합니다.

  • 00:35:00 비디오의 이 섹션에서 발표자는 람다, m 및 capya에 의존하는 고유값을 기반으로 2x2 행렬에 대한 최적의 매개변수 s 및 베타를 찾는 문제에 대해 논의합니다. 목표는 더 빠른 수렴으로 이어질 더 큰 고유값을 가능하게 하는 가장 작은 매개변수를 선택하는 것입니다. 발표자는 작은 m과 큰 M 사이의 비율에 따라 달라지는 최적의 s와 베타에 대한 공식을 제시하고 이 공식을 기반으로 결과 최소 고유값을 계산하는 방법을 설명합니다. 궁극적으로 화자는 이러한 s와 베타의 최적 선택이 특정 수보다 작은 고유값을 생성하여 더 빠른 수렴으로 이어진다는 결론을 내립니다.

  • 00:40:00 이 섹션에서 발표자는 모멘텀을 사용하여 기계 학습의 수렴 속도를 개선하는 방법에 대해 이야기합니다. 그들은 이전 시간 값을 포함하고 다른 지점에서 기울기를 평가하는 약간 다른 아이디어를 사용하는 Nesterov의 방법을 언급합니다. 발표자는 ADA grad와 같은 이전 값을 추가하는 간단한 공식을 포함하는 기계 학습에 현재 매우 널리 사용되는 방법이 있다고 언급합니다. 그들은 또한 MATLAB 소프트웨어 및 행성계산에서 사용되는 역차분 공식에서 수행되는 것처럼 두세 단계 또는 그 이상 뒤로 이동하여 추가 개선을 얻을 수 있다고 제안합니다.

  • 00:45:00 이 섹션에서 발표자는 모멘텀 항과 XK와 XK - 1 사이의 지점에서 기울기를 평가하는 것과 관련된 Nesterov에 대해 이야기합니다. F의 기울기에 대한 평가 지점은 정수가 아닌 지점에 있습니다. 메쉬 포인트가 아니기 때문에 예상치 못한 이상한 일입니다. 여기에는 XK 더하기 1, XK 및 XK 빼기 1이 포함되므로 2차 방법입니다. 이를 분석하기 위해 Nesterov에서 계수를 최적화하기 위해 두 개의 1차 단계로 작성하는 프로세스를 따릅니다. 이 프로세스는 행렬을 갖는 한 단계의 결합된 시스템으로 작성하고, 행렬을 찾고, 행렬의 고유값을 찾고, 해당 고유값을 가능한 작게 만드는 것을 포함합니다.