머신 러닝 및 신경망 - 페이지 60

 

강의 15.6 — 사전 훈련을 위한 얕은 자동 인코더



강의 15.6 — 사전 훈련을 위한 얕은 자동 인코더 [기계 학습을 위한 신경망]

이 비디오에서 연사는 심층 신경망 학습을 위한 대안적인 사전 훈련 방법에 대해 설명합니다. 처음에 그들은 Contrastive Divergence로 훈련된 RBM(Restrictive Boltzmann Machines)을 사용하여 사전 훈련을 도입했습니다. 그러나 나중에 기능 레이어를 사전 훈련하는 다른 방법이 있음이 발견되었습니다. 가중치가 올바르게 초기화되면 레이블이 지정된 데이터가 충분하다면 사전 학습이 필요하지 않을 수 있습니다. 연사는 딥 오토인코더의 이점과 다양한 애플리케이션에 대한 코드를 언급합니다.

그런 다음 초점을 얕은 자동 인코더, 특히 최대 가능성으로 훈련된 RBM으로 이동합니다. 오토인코더로서의 RBM은 이진 히든 유닛으로 인해 강력한 정규화가 가능하여 용량이 제한됩니다. 그러나 RBM이 최대 가능성으로 훈련된 경우 잡음이 있는 픽셀을 무시하고 입력 편향을 사용하여 모델링합니다. 화자는 사전 훈련을 위해 RBM 대신 자동 인코더 스택을 사용할 것을 제안하지만 이 접근 방식은 특히 제곱 가중치에만 페널티를 주는 얕은 물 인코더의 경우 효과적이지 않습니다.

발표자는 몬트리올 그룹에서 광범위하게 연구한 노이즈 제거 자동 인코더를 소개합니다. 이러한 오토인코더는 입력 벡터에 노이즈를 추가하여 일부 구성 요소를 0으로 설정합니다(드롭아웃과 유사). 제로 아웃된 구성 요소로 입력을 재구성하여 단순히 입력을 복사하는 것을 방지해야 합니다. 얕은 물 인코더와 달리 노이즈 제거 자동 인코더는 입력 간의 상관 관계를 캡처하고 일부 입력 값을 활용하여 제로 아웃된 입력을 재구성하는 데 도움을 줍니다. 잡음 제거 자동 인코더를 쌓는 것은 대부분의 경우 RBM을 능가하는 사전 훈련에 매우 효과적일 수 있습니다.

연사는 목적 함수를 쉽게 계산할 수 있기 때문에 노이즈 제거 자동 인코더를 사용하여 사전 교육을 평가하는 것이 더 간단하다고 언급합니다. 대조적으로, 대조적 발산으로 RBM을 평가하면 실제 목적 함수가 생성되지 않습니다. 그러나 노이즈 제거 오토인코더는 RBM이 가지고 있는 변이 범위가 부족하지만, 이러한 이론적 관심은 최대 가능성으로 훈련된 RBM으로 제한됩니다.

논의된 또 다른 유형의 인코더는 역시 Montreal 그룹에서 개발한 계약형 자동 인코더입니다. 이러한 오토인코더는 각 입력에 대해 각 숨겨진 유닛의 기울기 제곱에 페널티를 주어 숨겨진 활동이 입력에 둔감하도록 만드는 것을 목표로 합니다. 수축형 자동 인코더는 사전 훈련에 잘 작동하며 입력 공간의 다른 부분에 민감한 숨겨진 단위의 작은 하위 집합만 있는 희소 코드를 갖는 경향이 있습니다.

발표자는 사전 교육에 대한 현재 관점을 요약하여 결론을 내립니다. 계층별 사전 훈련은 레이블에 의존하지 않고 좋은 기능을 발견하는 데 도움이 되므로 데이터 세트에 레이블이 지정된 데이터가 제한되어 있을 때 유용합니다. 그러나 큰 레이블이 지정된 데이터 세트의 경우 네트워크가 충분히 크면 감독되지 않은 사전 훈련이 필요하지 않습니다. 그럼에도 불구하고 더 큰 네트워크의 경우 과적합을 방지하기 위해 사전 훈련이 다시 중요해집니다. 화자는 특히 사용 가능한 데이터에 비해 큰 매개 변수 공간을 처리할 때 드롭아웃 및 사전 훈련과 같은 정규화 방법이 중요하다고 주장합니다.

 

강의 16.1 — 이미지와 캡션의 공동 모델 학습



강의 16.1 — 이미지와 캡션의 공동 모델 학습 [머신 러닝을 위한 신경망]

이미지 캡션과 특징 벡터의 공동 모델 학습에 대한 최근 작업에 대해 논의할 것입니다. 이전 강의에서는 캡션을 사용하지 않고 이미지에서 의미 있는 특징을 추출하는 방법을 살펴보았습니다. 그러나 캡션은 이미지에서 관련 의미론적 범주를 추출하는 데 유용한 정보를 제공할 수 있으며, 그 반대의 경우 이미지는 캡션에서 단어의 의미를 명확하게 하는 데 도움이 될 수 있습니다.

제안된 접근 방식에는 이미지에서 추출된 표준 컴퓨터 비전 기능 벡터와 캡션의 단어 모음 표현을 입력으로 사용하는 대규모 네트워크 교육이 포함됩니다. 네트워크는 두 입력 표현 간의 관계를 학습합니다. 단어를 사용하여 이미지에 대한 특징 벡터를 만들고 데이터베이스에서 가장 가까운 이미지를 찾는 방법과 이미지를 사용하여 단어 모음을 만드는 방법을 보여주는 최종 네트워크의 동영상이 표시됩니다.

Nitish Srivastava와 Ruslan Salakhutdinov는 캡션과 이미지의 공동 밀도 모델을 구축하기 위한 연구를 수행했습니다. 그러나 원시 픽셀을 사용하는 대신 표준 컴퓨터 비전 기능을 사용하여 이미지를 표현했습니다. 이를 위해서는 레이블과 숫자 이미지의 결합 밀도 모델을 구축하는 것과 비교하여 더 많은 계산이 필요했습니다. 그들은 캡션에서 이미지와 단어 수 벡터에 대해 별도의 다층 모델을 훈련했습니다. 이러한 개별 모델은 두 양식을 통합한 새로운 최상위 계층에 연결되었습니다. 각 양식이 다른 양식의 초기 계층을 개선할 수 있도록 전체 시스템의 공동 교육이 수행되었습니다.

딥 볼츠만 머신의 은닉층을 사전 훈련하기 위해 이전 과정에서 다룬 것과는 다른 접근 방식을 따랐습니다. 제한된 볼츠만 머신(RBM) 스택을 사용하여 깊은 신념망을 형성하는 대신 특정 방식으로 RBM 스택을 직접 사전 훈련했습니다. 스택의 상단 및 하단 RBM의 가중치는 상향식 가중치가 하향식 가중치의 두 배인 스케일 대칭 속성으로 훈련되었습니다. 중간 RBM은 대칭 가중치로 훈련되었습니다. 이 가중치 구성은 최종 Deep Boltzmann 기계에서 각 레이어의 두 가지 다른 모델의 기하학적 평균화를 허용했습니다.

이러한 가중치 구성의 정당성은 심층 볼츠만 머신에서 각 레이어의 단위 상태를 추론하는 두 가지 방법이 어떻게 결합되는지에 있습니다. 가중치는 계층의 상태를 추론할 때 증거가 이중으로 계산되지 않도록 합니다. 중간 계층은 상향식 및 하향식 모델에서 얻은 증거의 기하학적 평균화를 수행하여 증거의 중복을 방지합니다. 자세한 설명은 원문을 참고하세요.

비디오에 제시된 접근 방식은 이미지 캡션과 특징 벡터의 공동 모델을 학습하는 데 중점을 둡니다. 두 양식의 정보를 통합함으로써 이 모델은 이미지와 캡션에 대한 이해를 개선하고 보다 정확한 의미론적 표현을 가능하게 하는 것을 목표로 합니다.

공동 훈련을 위해 딥 빌리티 네트 대신 딥 볼츠만 머신을 사용하는 것이 장점이 있다는 점은 주목할 가치가 있습니다. Contrastive wake-sleep을 사용하여 생성적 미세 조정과 함께 deep faith net을 사용할 수 있었지만 deep Boltzmann 기계에 대한 미세 조정 알고리즘은 더 나은 결과를 얻을 것으로 예상됩니다. 따라서 Deep Boltzmann 기계를 사용하기로 결정하면 각 양식의 초기 계층에서 기능 감지기의 교육 및 개선이 향상됩니다.

비디오는 또한 Deep Boltzmann 머신에 대한 교육 과정을 간략하게 다룹니다. 스택에 있는 RBM의 가중치는 척도 대칭 방식으로 조정되어 중복 계산 없이 증거가 적절하게 결합되도록 합니다. 이 접근 방식을 사용하면 상향식 입력과 하향식 입력을 모두 고려하여 각 계층의 서로 다른 두 모델의 기하학적 평균을 구할 수 있습니다. 특정 가중치 구성은 계층 간의 종속성을 고려하여 증거가 중복되지 않도록 합니다.

비디오는 프로세스에 대한 높은 수준의 설명을 제공하지만 기본 수학 및 자세한 추론은 첨부 문서에서 찾을 수 있습니다. 비디오에 제시된 접근 방식과 Nitish Srivastava 및 Ruslan Salakhutdinov의 후속 연구는 캡션 및 기능 벡터의 공동 모델링을 발전시키는 데 기여하여 이미지 및 관련 캡션에 대한 이해와 표현을 촉진합니다.

결론적으로 비디오에서 논의된 작업은 이미지 캡션과 특징 벡터의 공동 모델을 학습하는 데 중점을 둡니다. 두 가지 양식에 존재하는 정보를 활용함으로써 제안된 접근 방식은 이미지에서 의미론적 범주 추출과 캡션의 단어 명확화를 향상시키는 것을 목표로 합니다. 딥 볼츠만 머신의 사용과 훈련 중 특정 웨이트 구성을 통해 두 양식 간의 효과적인 통합 및 학습이 가능합니다.

 

강의 16.2 — 계층적 좌표계



강의 16.2 — 계층적 좌표 프레임 [머신 러닝을 위한 신경망]

이 비디오에서 발표자는 컴퓨터 비전에서 객체 인식 접근 방식을 결합할 수 있는 가능성에 대해 논의합니다. 심층 합성곱 신경망(CNN), 부품 기반 접근 방식, 광범위한 수작업 엔지니어링이 포함된 수작업 기능의 세 가지 주요 접근 방식이 언급됩니다.

CNN이 물체 인식에 효과적인 것으로 입증되었지만 연사는 정확한 특징 감지기 위치 손실 및 새로운 관점과 척도로 추정하기 어려움과 같은 한계를 지적합니다. 이러한 문제를 해결하기 위해 연사는 좌표 프레임의 계층 구조를 사용하고 뉴런 그룹을 사용하여 망막에 상대적인 기능의 모양과 포즈의 결합을 나타낼 것을 제안합니다.

망막을 기준으로 물체 부분의 포즈를 표현함으로써 부분 포즈의 일관성을 활용하여 더 큰 물체를 더 쉽게 인식할 수 있습니다. 연사는 신경 활동을 사용하여 포즈 벡터를 나타내는 방법과 공간 관계를 선형 작업으로 모델링하는 방법을 설명합니다. 이를 통해 시각적 개체의 계층 구조를 학습하고 여러 관점에서 일반화할 수 있습니다.

발표자는 모양을 효과적으로 표현하기 위해 좌표계를 통합하는 것의 중요성을 강조합니다. 그들은 우리의 시각 시스템이 모양을 올바르게 인식하기 위해 좌표 프레임을 부과하는 방법을 보여주는 예를 제공합니다. 모양에 대한 인식은 부과된 좌표 프레임에 따라 변경될 수 있으며 모양 표현에서 좌표 프레임의 역할을 강조합니다.

이 비디오는 좌표 프레임과 계층적 표현을 활용하여 다양한 객체 인식 접근 방식을 결합하는 아이디어를 탐구합니다. 이 접근 방식은 CNN의 한계를 해결하고 공간 관계와 포즈 일관성을 통합하여 개체 인식을 향상시키는 것을 목표로 합니다. 형상 지각에서 좌표계의 중요성도 강조됩니다.

 

강의 16.3 — 하이퍼 매개변수의 베이지안 최적화



강의 16.3 — 하이퍼 매개변수의 베이지안 최적화 [머신 러닝을 위한 신경망]

이 비디오에서는 신경망에서 하이퍼파라미터를 결정하는 방법에 대한 질문을 다루는 최근 작업에 대해 설명합니다. 이 작업에서 제시된 접근 방식은 다른 유형의 머신 러닝을 활용하여 하이퍼파라미터에 대한 적절한 값을 선택하는 데 도움을 줍니다. 하이퍼파라미터 설정을 수동으로 조정하는 대신 이 방법은 기계 학습을 사용하여 프로세스를 자동화합니다. 이 기술은 매끄러운 함수를 모델링하는 데 효과적인 가우시안 프로세스에 의존합니다. 가우스 프로세스는 전통적으로 음성 및 시각과 같은 작업에 적합하지 않은 것으로 간주되었지만 유사한 입력이 유사한 출력을 생성하는 경향이 있는 제한된 사전 지식이 있는 영역에 적합합니다.

은닉 유닛 수, 레이어, 가중치 페널티, 드롭아웃 사용과 같은 하이퍼파라미터는 신경망 성능에서 중요한 역할을 합니다. 하이퍼파라미터의 올바른 조합을 찾는 것은 특히 공간을 수동으로 탐색할 때 어려울 수 있습니다. 가우시안 프로세스는 데이터의 추세를 식별하는 데 탁월하며 우수한 하이퍼파라미터 세트를 효과적으로 식별할 수 있습니다. 하이퍼파라미터에 대한 잘못된 값이 네트워크를 비효율적으로 만들 수 있기 때문에 많은 연구자들이 하이퍼파라미터를 올바르게 설정하기 어렵기 때문에 신경망 사용을 주저합니다. 일반적인 접근 방식인 그리드 검색은 가능한 모든 조합을 철저히 시도하는 것을 포함하며, 이는 수많은 하이퍼파라미터로 실행 불가능해집니다.

그러나 보다 효율적인 방법은 하이퍼파라미터 조합을 무작위로 샘플링하는 것입니다. 그렇게 함으로써 중복 실험을 피하고 중요한 영향을 미치는 하이퍼파라미터에 더 많은 주의를 기울입니다. 그럼에도 불구하고 무작위 조합에는 한계가 있으며 여기에서 기계 학습이 시작됩니다. 기계 학습을 활용하여 대학원생이 하이퍼파라미터 값을 선택하는 과정을 시뮬레이션할 수 있습니다. 임의의 조합에 의존하기보다 지금까지 얻은 결과를 검토하고 어떤 조합이 좋은 결과를 가져올지 예측합니다. 이 예측에는 유리한 결과를 제공할 것으로 예상되는 하이퍼 매개변수 공간의 영역을 결정해야 합니다.

예측 모델을 구축하기 위해 우리는 단일 하이퍼파라미터 설정을 평가하는 데 며칠이 걸릴 수 있는 대규모 데이터 세트에서 대규모 신경망을 교육하는 것과 같은 상당한 계산 리소스가 필요하다고 가정합니다. 반면에 이전 실험을 기반으로 하이퍼파라미터 설정의 성능을 예측하는 모델을 구성하는 것은 계산적으로 덜 집약적입니다. 유사한 입력이 유사한 출력으로 이어진다고 가정하는 가우시안 프로세스 모델이 이러한 예측에 적합합니다. 이러한 모델은 각 입력 차원의 유사성을 측정하기 위한 적절한 척도를 학습하여 유사하거나 유사하지 않은 하이퍼파라미터 값을 식별할 수 있습니다.

또한 가우시안 프로세스 모델은 실험의 예상 결과를 예측할 뿐만 아니라 분산을 포함한 예측 분포를 제공합니다. 이전 설정과 유사한 새로운 하이퍼파라미터 설정의 성능을 예측할 때 모델의 예측은 정확하고 분산이 적습니다. 반대로 이전 실험과 크게 다른 하이퍼파라미터 설정의 경우 예측의 분산이 큽니다.

가우시안 프로세스를 사용하여 다음 하이퍼파라미터 설정을 결정하는 전략에는 지금까지 관찰된 최상의 설정보다 상당한 개선이 예상되는 설정을 선택하는 것이 포함됩니다. 얻은 최상의 설정을 대체하지 않기 때문에 좋지 않은 결과가 발생할 위험은 허용됩니다. 이 전략은 헤지 펀드 매니저가 사용하는 접근 방식과 유사합니다. 헤지 펀드 매니저는 심각한 단점이 없기 때문에 위험을 감수할 상당한 인센티브가 있습니다. 이 전략을 따르면 다음에 살펴볼 하이퍼파라미터 설정에 대해 정보에 입각한 결정을 내릴 수 있습니다.

이 정책은 여러 실험을 병렬로 실행하도록 조정하여 프로세스를 보다 효율적으로 만들 수 있습니다. 인간으로서 수많은 실험의 결과를 추적하고 그 결과를 정확하게 예측하는 것은 어려운 일입니다. 그러나 가우시안 프로세스 모델은 데이터의 추세와 패턴을 감지할 수 있으므로 이 작업을 효과적으로 처리할 수 있습니다. 마지막으로, 가우시안 프로세스 모델은 인간에 비해 편향될 가능성이 적습니다. 연구를 수행할 때 연구자들은 종종 기존 방법보다 새로운 방법에 적합한 하이퍼 매개변수 설정을 찾는 데 더 많은 노력을 기울이는 경향이 있습니다. 가우시안 프로세스 모델을 사용하면 평가 중인 모든 모델에 대해 동일하게 우수한 하이퍼파라미터 세트를 검색하므로 이러한 편향이 제거됩니다. 결론적으로 가우스 프로세스 모델은 신경망에서 하이퍼파라미터를 결정하는 강력하고 효율적인 접근 방식을 제공합니다. 가우시안 프로세스의 예측 기능을 활용하여 하이퍼파라미터 값 선택 프로세스를 자동화하여 수동 탐색 및 추측의 필요성을 줄일 수 있습니다.

그리드 검색과 같은 기존 방법은 많은 수의 하이퍼파라미터를 처리할 때 비실용적일 수 있습니다. 하이퍼파라미터 조합을 임의로 샘플링하는 것이 더 효율적인 접근 방식이지만 여전히 한계가 있습니다. 기계 학습을 통합함으로써 우리는 인간 연구원의 의사 결정 프로세스를 시뮬레이션하고 어떤 하이퍼 매개변수 조합이 좋은 결과를 낼 수 있는지에 대해 더 많은 정보에 입각한 예측을 할 수 있습니다. 가우스 프로세스 모델은 이 작업에 특히 적합합니다. 그들은 데이터의 추세를 식별하는 데 탁월하며 하이퍼파라미터 설정과 성능 결과 간의 관계를 효과적으로 모델링할 수 있습니다. 이러한 모델은 새로운 하이퍼파라미터 설정의 예상 성능을 예측할 뿐만 아니라 불확실성 측정을 포함한 예측 분포도 제공합니다. 이를 통해 예측의 신뢰성을 평가하고 정보에 입각한 결정을 내릴 수 있습니다.

가우시안 프로세스를 사용하기 위한 전략에는 지금까지 관찰된 최상의 설정보다 상당한 개선을 가져올 것으로 예상되는 하이퍼파라미터 설정을 선택하는 것이 포함됩니다. 계산된 위험을 감수하고 이전 실험과 크게 다른 설정을 탐색함으로써 잠재적으로 더 나은 구성을 발견할 수 있습니다. 또한 가우스 프로세스 모델은 여러 실험을 병렬로 처리할 수 있어 프로세스를 보다 효율적으로 만듭니다. 데이터에서 추세와 패턴을 감지하여 다양한 하이퍼파라미터 설정을 동시에 탐색할 수 있습니다. 가우스 프로세스를 사용하는 또 다른 이점은 편향을 최소화하는 능력입니다. 연구자들은 종종 기존 방법에 비해 새로운 방법에 대한 좋은 하이퍼파라미터 설정을 찾는 데 더 많은 노력을 기울입니다. 가우시안 프로세스 모델은 평가 중인 모든 모델에서 최적의 하이퍼파라미터 세트를 동일하게 검색하여 이 편향을 제거합니다.

가우시안 프로세스 모델은 신경망에서 하이퍼파라미터를 결정하는 강력하고 효율적인 접근 방식을 제공합니다. 예측 기능을 활용하여 프로세스를 자동화하고 탐색할 하이퍼파라미터 설정에 대해 더 많은 정보에 입각한 결정을 내릴 수 있습니다. 이 접근 방식은 수동 탐색에 대한 의존도를 줄이고 신경망 연구에서 하이퍼파라미터 조정의 효율성과 효과를 향상시킵니다.

 

강의 16.4 — 진보의 안개



강의 16.4 — 진보의 안개 [머신 러닝을 위한 신경망]

이 마지막 비디오에서 저는 신경망 연구의 미래에 대해 예측하고 싶은 유혹을 느꼈습니다. 그러나 장기 예측을 시도하는 것이 매우 어리석은 이유를 설명하고 싶습니다. 이 점을 설명하기 위해 비유를 사용하겠습니다.

밤에 차를 운전하고 앞 차의 미등에 집중하고 있다고 상상해보십시오. 공기가 맑다고 가정할 때 후미등에서 받는 광자 수는 거리의 역제곱(1/d^2)으로 감소합니다. 그러나 안개가 있으면 동작이 변경됩니다. 짧은 거리에서는 안개가 해당 범위에서 많은 빛을 흡수하지 않기 때문에 광자 수는 여전히 1/d^2로 떨어집니다. 그러나 더 먼 거리에서는 안개가 기하급수적 효과를 갖기 때문에 감소는 지수 함수(e^(-d))를 따릅니다. 단위 거리당 광자의 일부를 흡수하여 거리가 증가할수록 더 불투명해집니다. 이것은 당신의 단거리 모델이 보일 것이라고 예측한 거리에서 당신 앞에 있는 차가 완전히 보이지 않을 수 있다는 것을 의미합니다. 이 현상은 안개 속에서 자동차 뒷자리로 운전하는 사람들로 인해 발생하는 사고의 원인이 됩니다.

마찬가지로 기계 학습 및 신경망을 포함한 기술의 발전은 일반적으로 기하급수적입니다. 단기적으로 진행 상황은 상대적으로 느리고 예측 가능해 보입니다. 우리는 차기 iPhone 모델의 기능과 같은 가까운 미래에 대해 합리적인 추측을 할 수 있습니다. 그러나 우리가 장기적인 미래를 더 깊이 들여다보면 안개와 마찬가지로 우리의 예측 능력은 벽에 부딪힙니다. 기하급수적인 발전이 예상치 못한 혁신적인 변화로 이어질 수 있기 때문에 30년 후에 무슨 일이 일어날지 알 수 없습니다.

따라서 기계 학습과 신경망의 장기적인 미래는 완전히 미스터리로 남아 있습니다. 현재 지식으로는 예측할 수 없습니다. 그러나 단기적으로는 3년에서 10년 사이에 꽤 정확한 예측을 할 수 있습니다. 향후 5년 정도에 걸쳐 대규모 심층 신경망이 계속해서 놀라운 성과를 거둘 것이라는 것이 분명해 보입니다.

이 기회를 빌어 코스를 끝까지 버티신 여러분 모두에게 축하의 말씀을 전하고 싶습니다. 즐거운 시간 되셨기를 바라며, 최종 시험에서 행운을 빕니다.

 

딥 러닝 및 신경망에 대한 친절한 소개



딥 러닝 및 신경망에 대한 친절한 소개

딥 러닝 소개에 오신 것을 환영합니다! 저는 Luis Serrano이고 Udacity에서 일하고 있습니다. 기계 학습이란 무엇입니까?라는 질문에 답하는 것으로 시작하겠습니다.

이를 설명하기 위해 간단한 예를 들어 보겠습니다. 인간과 케이크가 있고 우리의 목표가 인간에게 케이크를 가져오라고 말하는 것이라고 상상해 보십시오. 우리는 "가서 케이크 가져와"라는 한 가지 지시를 내리면 쉽게 이것을 할 수 있습니다. 인간은 이해하고 케이크를 얻습니다. 이제 로봇으로 같은 문제를 해결해 봅시다. 로봇에게 일련의 지침을 제공해야 하기 때문에 간단하지 않습니다. 예를 들어, "우회전, 열 걸음, 좌회전, 네 걸음, 그리고 케이크를 받으세요." 이 솔루션은 이 특정 시나리오에만 적용되며 일반화할 수 없습니다. 로봇이 다른 위치에 있으면 완전히 다른 지침이 필요합니다.

보다 일반적인 방법으로 이 문제를 해결하기 위해 기계 학습을 사용할 수 있습니다. 명시적인 지침을 제공하는 대신 컴퓨터가 케이크를 찾는 가장 좋은 방법을 찾도록 가르칠 수 있습니다. 컴퓨터에 케이크까지의 거리를 계산하도록 요청한 다음 거리를 최소화하는 방향으로 이동합니다. 컴퓨터는 케이크를 찾을 때까지 계속 반복합니다. 오류 또는 거리를 최소화하는 이 개념은 대부분의 기계 학습 문제의 핵심입니다. 케이크까지의 거리 또는 산의 높이와 같은 오류 메트릭을 정의한 다음 경사 하강법을 사용하여 해당 오류를 최소화합니다. 기울기를 반복적으로 계산하고 오류를 가장 많이 줄이는 방향으로 이동하면 다양한 문제에 대한 해결책을 찾을 수 있습니다.

기계 학습에는 Go 또는 Jeopardy와 같은 게임을 컴퓨터에 가르치고, 자율 주행 자동차를 활성화하고, 스팸 이메일을 감지하고, 얼굴을 인식하는 등 많은 응용 프로그램이 있습니다. 이러한 응용 프로그램의 중심에는 딥 러닝의 기반을 형성하는 신경망 개념이 있습니다. 신경망을 생각할 때 노드, 에지 및 레이어가 있는 복잡한 구조를 상상할 수 있습니다. 그러나 그것들에 대해 생각하는 더 간단한 방법은 데이터를 분할하는 도구로 생각하는 것입니다. 아이가 모래에서 놀고 선을 그려서 빨간색과 파란색 껍질을 구분하는 것처럼 신경망은 다양한 유형의 데이터 포인트를 구분하는 방법을 학습할 수 있습니다.

신경망을 훈련시키려면 연속적인 오류 함수가 필요합니다. 오류 수를 최소화하는 것은 이산 함수이기 때문에 적합하지 않습니다. 대신 잘못 분류된 포인트에 페널티를 할당하는 오류 함수를 사용합니다. 이 예에서 선의 위치와 같은 신경망의 매개변수를 조정하여 오류를 최소화하고 최상의 솔루션을 찾을 수 있습니다. 로지스틱 회귀로 알려진 이 접근 방식을 사용하면 서로 다른 데이터 포인트에 우도를 할당하는 확률 함수를 구축할 수 있습니다. 50/50 선에 가까운 점은 빨간색 또는 파란색으로 분류될 가능성이 더 높고 멀리 있는 점은 더 확실하게 분류됩니다.

기계 학습은 다양한 문제에 대한 최상의 솔루션을 찾기 위해 오류 또는 거리를 최소화하는 것입니다. 신경망은 데이터를 나누고 분류하는 방법을 제공합니다. 연속 오류 함수와 경사 하강법을 사용하여 신경망을 훈련하고 다양한 응용 프로그램에 적용할 수 있습니다.

 

순환 신경망에 대한 친근한 소개



순환 신경망에 대한 친근한 소개

순환 신경망에 대한 친근한 소개에 오신 것을 환영합니다! 저는 Udacity의 기계 학습 강사인 Luis Serrano입니다. 이전 동영상에 대한 모든 피드백에 감사드립니다. 많은 제안을 받았는데 그 중 하나가 순환 신경망에 관한 것이었기 때문에 이 영상을 제작하게 되었습니다.

간단한 예부터 시작하겠습니다. 애플 파이, 버거, 치킨의 세 가지 음식을 요리하는 완벽한 룸메이트가 있다고 상상해 보세요. 그의 요리 결정은 날씨에 근거합니다. 날씨가 좋으면 애플파이를 만들고, 비가 오면 햄버거를 만든다. 간단한 신경망을 사용하여 이 시나리오를 모델링할 수 있습니다. 여기서 입력은 날씨(맑음 또는 비)이고 출력은 해당 음식(애플 파이 또는 버거)입니다.

음식과 날씨를 표현하기 위해 벡터를 사용합니다. 식품 벡터는 애플 파이의 경우 [1 0 0], 버거의 경우 [0 1 0], 치킨의 경우 [0 0 1]입니다. 날씨 벡터는 맑은 경우 [1 0]이고 비가 오는 경우 [0 1]입니다. 출력 벡터를 얻기 위해 입력 벡터에 행렬을 곱하는 행렬 곱셈을 사용하여 이러한 벡터를 매핑할 수 있습니다.

이제 좀 더 복잡한 문제를 생각해 봅시다. 우리의 완벽한 룸메이트는 여전히 순서대로 요리하지만(애플 파이, 버거, 치킨) 이제 그의 결정은 그가 전날 요리한 것에 달려 있습니다. 이를 순환 신경망이라고 합니다. 매일의 출력은 다음 날의 입력이 됩니다. 행렬과 벡터 연산을 사용하여 이 네트워크를 나타낼 수 있습니다.

예를 들어, 전날의 음식이 애플파이이고 오늘의 날씨가 비가 오는 경우 음식 행렬과 날씨 행렬을 사용하여 출력을 계산합니다. 음식 행렬은 이전 음식 벡터를 가져와 연결된 현재 음식 벡터와 다음 음식 벡터를 반환합니다. 날씨 행렬은 날씨 벡터를 사용하여 현재 또는 다음 날 음식을 요리해야 하는지 여부를 나타냅니다. 이 두 행렬의 결과를 더하면 룸메이트가 다음 날 무엇을 요리할지 결정할 수 있습니다.

이 접근 방식은 룸메이트의 요리 결정이 날씨와 전날 음식을 모두 기반으로 하는 앞의 두 가지 예를 결합합니다. 행렬과 벡터 연산은 순환 신경망의 출력을 계산하는 데 도움이 됩니다.

순환 신경망은 이전 입력을 고려하여 순차적 데이터를 처리할 수 있는 강력한 모델입니다. 자연어 처리 및 시계열 분석과 같은 다양한 애플리케이션에 유용합니다. 이 소개가 순환 신경망을 잘 이해하는 데 도움이 되었기를 바랍니다.

 

Generative Adversarial Networks(GAN)에 대한 친숙한 소개



Generative Adversarial Networks(GAN)에 대한 친숙한 소개

안녕하세요, 저는 Luis Serrano입니다. 이 동영상은 GAN(Generative Adversarial Networks)에 관한 것입니다. Ian Goodfellow가 개발한 GAN은 수많은 응용 프로그램을 통해 기계 학습의 중요한 발전입니다. GAN의 가장 매력적인 응용 프로그램 중 하나는 얼굴 생성입니다. "thispersondoesnotexist.com" 웹사이트에서 이를 실제로 볼 수 있습니다. 여기에서 사람들의 모든 이미지는 신경망에 의해 생성됩니다.

이번 영상에서는 GAN을 이용하여 간단하게 얼굴을 생성하는 방법에 대해 알아보겠습니다. 코드 작성을 선호하지 않더라도 이 비디오는 직관과 방정식을 제공합니다. 간단한 이미지를 생성하는 한 쌍의 1계층 신경망을 코딩할 것이며 GitHub에서 코드를 찾을 수 있습니다.

GAN이 무엇인지 설명하겠습니다. GAN은 서로 경쟁하는 두 개의 신경망인 생성기와 판별기로 구성됩니다. Generator는 가짜 이미지를 생성하려고 시도하고 Discriminator는 실제 이미지와 가짜 이미지를 구별하려고 합니다. Discriminator가 Generator를 잡으면 Generator는 Discriminator를 속이는 완벽한 이미지를 생성할 수 있을 때까지 이미지를 개선합니다. GAN을 훈련시키기 위해 생성기에 의해 생성된 실제 이미지 세트와 가짜 이미지 세트를 사용합니다. discriminator는 가짜 이미지에서 실제 이미지를 식별하는 방법을 배우고 생성기는 discriminator를 속여 이미지를 실제 이미지로 분류하는 방법을 배웁니다.

이 비디오에서는 딥 러닝 패키지 없이 Python을 사용하여 간단한 GAN 쌍을 빌드합니다. 우리의 임무는 모든 사람이 길쭉하게 보이고 45도 각도로 걷는 "Slanted Land"라는 세계에서 얼굴을 생성하는 것입니다. Slanted Land의 세계는 흑백 이미지를 표시하는 2x2 픽셀 화면을 포함하여 제한된 기술을 가지고 있습니다. 우리는 Slanted Land에 있는 사람들의 얼굴을 생성하기 위해 하나의 레이어로 신경망을 만들 것입니다.

판별자 네트워크는 이미지의 픽셀 값을 분석하여 얼굴과 얼굴이 아닌 것을 구별합니다. 왼쪽 상단과 오른쪽 하단의 값을 다른 두 모서리와 비교하여 이미지가 얼굴인지 확인할 수 있습니다. 얼굴은 값 차이가 더 크고 얼굴이 아니거나 노이즈가 많은 이미지는 차이가 더 낮습니다. 임계값을 적용하여 이미지를 얼굴 또는 비얼굴로 분류할 수 있습니다. 생성기 네트워크는 왼쪽 상단과 오른쪽 하단 모서리에 더 높은 값을 할당하고 오른쪽 상단과 왼쪽 하단 모서리에 더 낮은 값을 할당하여 면을 생성합니다. 시그모이드 함수를 적용하여 확률을 구하고 이미지의 픽셀 값을 생성할 수 있습니다. 생성기 네트워크는 입력 값에 관계없이 항상 얼굴을 생성하도록 설계되었습니다. 신경망을 훈련시키려면 오류 함수를 정의해야 합니다. 예상 출력과 원하는 출력 사이의 오차를 측정하기 위해 음의 자연 로그인 로그 손실을 사용합니다. 오류 함수는 네트워크가 역전파라는 프로세스를 통해 가중치를 개선하고 오류를 줄이는 데 도움이 됩니다.

역전파는 가중치에 대한 오류의 도함수를 계산하고 그에 따라 가중치를 조정하여 오류를 최소화하는 것을 포함합니다. 이 프로세스는 반복적으로 반복되어 생성기 및 판별기 네트워크를 훈련시킵니다. 적절한 오류 함수와 역전파를 사용하여 생성기 및 판별기 네트워크를 훈련함으로써 Slanted Land에서 사실적인 얼굴을 생성할 수 있습니다. Generator는 얼굴과 유사한 이미지를 생성하는 방법을 학습하고 Discriminator는 실제 얼굴과 생성된 얼굴을 구별하는 방법을 학습합니다.

이 개요는 GAN에 대한 일반적인 개념과 얼굴을 생성하는 방법을 제공합니다. 비디오에서 우리는 개념을 더 깊이 탐구하고 코딩 프로세스를 단계별로 시연합니다. 코드를 작성하고 싶든 직관과 이해를 얻고 싶든 이 비디오는 당신에게 가치가 있을 것입니다. 따라서 이 경우 판별자에 대한 오류는 1에서 예측을 뺀 음의 로그가 됩니다. 우리는 backpropagation을 사용하여 discriminator의 가중치와 관련하여 이 오류의 기울기를 계산한 다음 이 오류를 최소화하기 위해 discriminator의 가중치를 업데이트합니다. 다음으로 생성기를 살펴보겠습니다. 생성기의 목표는 판별기가 실제 또는 얼굴로 분류하는 이미지를 생성하는 것입니다. 즉, 생성자는 생성된 이미지에 대해 높은 확률을 출력하도록 판별자를 속이려고 합니다. 따라서 생성기의 오류는 생성된 이미지에 대한 판별기 예측의 음의 로그입니다.

다시 역전파를 사용하여 생성기의 가중치에 대한 이 오류의 기울기를 계산하고 이 오류를 최소화하기 위해 생성기의 가중치를 업데이트합니다. 생성기는 실제 얼굴과 유사한 이미지를 생성하고 판별기에 의해 얼굴로 분류될 확률을 높이는 방식으로 가중치를 조정하는 방법을 학습합니다. 판별자와 생성자를 번갈아 가며 이 프로세스를 여러 번 반복합니다. 각 반복은 두 네트워크 모두 성능을 향상시키는 데 도움이 됩니다. discriminator는 실제 이미지와 가짜 이미지를 더 잘 구별하는 반면, generator는 discriminator를 속일 수 있는 사실적인 이미지를 생성하는 데 더 능숙해집니다.

생성자와 판별자를 훈련하는 이 반복적인 프로세스는 GAN을 강력하게 만드는 것입니다. 그들은 서로 경쟁하여 매우 현실적이고 일관된 샘플을 생성하는 방법을 배웁니다. 생성기는 보다 설득력 있는 이미지를 생성하는 방법을 배우는 반면, 판별기는 가짜 이미지를 감지하는 데 더 능숙해집니다. 충분한 훈련을 통해 GAN은 실제 데이터와 유사한 이미지, 텍스트, 음악 및 비디오까지 생성할 수 있습니다.

GAN은 게임과 같은 방식으로 서로 경쟁하는 생성기와 판별기로 구성됩니다. Generator는 가짜 샘플을 생성하고 Discriminator는 실제 샘플과 가짜 샘플을 구별하려고 합니다. 이 적대적인 프로세스와 적절한 오류 기능을 사용한 교육을 통해 GAN은 고품질의 현실적인 데이터를 생성하는 방법을 배웁니다.

 

Restricted Boltzmann Machines (RBM) - 친근한 소개



Restricted Boltzmann Machines (RBM) - 친근한 소개

안녕하세요, 저는 Luis Serrano입니다. 이 비디오는 Restricted Boltzmann Machines(RBMs)에 관한 것입니다. RBM은 지도 학습, 차원 축소 및 생성 기계 학습에 사용되는 강력한 알고리즘입니다.

수수께끼부터 시작합시다. 길 건너편에 사람들이 가끔 찾아오는 집이 있습니다. Ayesha, Beto 및 Cameron이라는 세 사람이 자주 오지만 항상 함께 오는 것은 아닙니다. 때때로 Ayesha만 나타나고, 다른 때는 Beto나 Cameron이고, 때로는 둘 이상이 오고, 아무도 나타나지 않는 날을 포함합니다. 우리는 이 패턴을 조사하고 그들이 서로를 모른다는 것을 알게 되므로 그들의 출현에 대한 또 다른 이유를 찾아야 합니다.

우리는 집에 Descartes라는 개와 Euler라는 고양이가 있는 애완동물이 있다는 것을 알게 됩니다. Ayesha와 Cameron은 개를 좋아해서 Descartes가 있을 때 나타납니다. 반면 베토는 개 알레르기가 있지만 고양이를 좋아해서 아이샤가 있을 때만 나타난다. 좋아함을 나타내는 양의 점수와 싫어하는 것을 나타내는 음의 점수로 선호도를 나타내는 점수를 할당합니다. 이제 우리는 다양한 시나리오가 발생할 가능성을 파악하려고 합니다. 각 시나리오에 점수를 할당하고 확률로 변환합니다. 한 가지 접근 방식은 softmax 함수를 사용하여 점수를 확률로 변환하여 점수가 높을수록 확률이 높아지도록 하는 것입니다.

보이는 레이어와 숨겨진 레이어가 있는 RBM(Restricted Boltzmann Machine)을 구성합니다. 보이는 레이어는 관찰된 데이터(사람)를 나타내고 숨겨진 레이어는 관찰되지 않은 데이터(애완동물)를 나타냅니다. RBM은 가중치로 연결된 노드로 구성되며 각 연결에 점수가 할당됩니다. RBM을 훈련하려면 데이터에서 얻은 확률과 일치하는 가중치를 찾아야 합니다. 우리는 RBM이 Ayesha와 Cameron 또는 Beto만 나타나는 시나리오에 높은 확률을 할당하고 다른 시나리오에는 낮은 확률을 할당하기를 원합니다. 가중치를 조정하여 RBM이 할당한 확률에 영향을 줄 수 있습니다. 목표는 RBM을 관찰된 데이터와 일치시키고 원하는 확률을 모방하는 것입니다.

원하는 확률을 달성하려면 RBM에서 가중치를 조정해야 합니다. 가중치는 보이는 레이어와 숨겨진 레이어 사이의 각 연결의 영향을 결정합니다. 가중치를 업데이트하여 특정 시나리오의 확률을 높이고 다른 시나리오의 확률을 낮출 수 있습니다. 가중치를 업데이트하기 위해 Contrastive Divergence라는 기술을 사용합니다. 여기에는 몇 번의 RBM 반복 전후에 보이는 레이어 상태의 확률을 비교하는 것이 포함됩니다. 가중치 업데이트는 이 두 확률 집합 간의 차이를 기반으로 합니다. 훈련하는 동안 훈련 데이터를 RBM에 반복적으로 제시하고 가중치를 조정하여 관찰된 데이터의 확률을 최대화합니다. 이 프로세스는 교육 데이터에 대한 명시적인 레이블이 없기 때문에 감독되지 않은 학습으로 알려져 있습니다.

학습 후 RBM은 학습된 확률 분포에서 샘플링하여 새로운 데이터를 생성하는 데 사용할 수 있습니다. 학습 데이터에서 관찰된 것과 유사한 시나리오를 생성할 수 있습니다. 모델을 훈련하기 위해 RBM(Restricted Boltzmann Machine)을 사용하고 확률을 늘리고 줄이는 프로세스를 따릅니다. 가능한 모든 시나리오를 고려하는 대신 무작위로 하나의 시나리오를 선택하여 확률을 높이고 무작위로 선택한 시나리오의 확률을 줄입니다. 이 프로세스를 여러 번 반복하면서 원하는 결과에 맞게 확률을 점차 조정합니다. 각 데이터 포인트에 대해 이를 확장하고 확률을 높이는 시나리오를 선택하고 다른 시나리오를 무작위로 선택하여 확률을 줄입니다. 전체 데이터 세트에 대해 이 프로세스를 계속하고 여러 번 반복합니다. 결과 확률은 데이터와 잘 일치하여 다양한 시나리오의 발생과 일치합니다.

확률을 수정하기 위해 RBM의 가중치를 조정합니다. 원하는 시나리오에 해당하는 특정 꼭지점과 가장자리에 중점을 둡니다. 가중치를 늘리거나 줄임으로써 이러한 시나리오의 확률에 영향을 미칩니다. 각각의 확률에 따라 시나리오를 선택하기를 원하기 때문에 샘플링은 어려운 일입니다. 원하는 시나리오에 연결된 관련 정점과 가장자리만 고려하는 독립적인 샘플링을 도입합니다. 시그모이드 함수를 사용하여 확률을 계산하면 가중치에 비례하는 확률을 가진 시나리오를 무작위로 선택할 수 있습니다. 주어진 데이터 포인트와 일치하는 시나리오를 선택하기 위해 우리는 관련 없는 참가자는 무시하고 관련 참가자와 그들의 연결에 초점을 맞춥니다. 가중치를 기반으로 확률을 계산하고 시그모이드 함수를 사용하여 확률로 변환합니다. 이를 통해 가중치를 반영하는 확률로 시나리오를 무작위로 선택할 수 있습니다.

완전히 임의적인 시나리오를 선택하기 위해 다양한 가능성을 탐색하는 것과 유사하게 분포에서 임의의 단계를 수행하여 근사화합니다. 완전히 임의적인 시나리오를 완벽하게 표현하지는 못하더라도 근사치에 가깝습니다. 이 프로세스를 통해 RBM을 훈련하고 원하는 결과와 일치하도록 확률을 조정하여 데이터를 효과적으로 모델링할 수 있습니다.

제한된 Boltzmann 기계는 협업 필터링, 차원 축소 및 기능 학습과 같은 다양한 작업에 성공적으로 적용되었습니다. 또한 심층 신념 네트워크와 같은 보다 복잡한 딥 러닝 모델의 빌딩 블록으로도 사용됩니다.

제한된 Boltzmann 기계는 기계 학습에 사용되는 강력한 알고리즘입니다. 그들은 보이는 레이어와 가중치로 연결된 숨겨진 레이어를 포함합니다. 훈련을 통해 가중치를 조정함으로써 RBM은 훈련 데이터의 확률 분포를 학습하고 새로운 데이터 샘플을 생성할 수 있습니다. RBM은 다양한 도메인에 적용되며 딥 러닝 모델의 중요한 구성 요소입니다.

 

심층 강화 학습, Q-네트워크 및 정책 기울기에 대한 친근한 소개



심층 강화 학습, Q-네트워크 및 정책 기울기에 대한 친근한 소개

안녕하세요, 저는 Luis Serrano입니다. 딥 강화 학습 및 정책 경사도에 대한 친근한 소개입니다. 강화 학습은 자율 주행 자동차, 로봇 공학, 바둑, 체스, 아타리 게임과 같은 복잡한 게임에 적용됩니다. 강화 학습과 예측 기계 학습의 주요 차이점은 강화 학습에서는 환경과 상호 작용하고 데이터를 생성하기 위해 보상과 처벌을 수집하는 에이전트가 있는 반면 예측 기계 학습은 모델을 훈련하기 위해 기존 데이터에 의존한다는 것입니다. 이 비디오에서는 MDP(Markov Decision Processes), Bellman 방정식, 신경망이 Q-네트워크 및 정책 기울기로 강화 학습을 지원하는 방법과 같은 중요한 개념을 다룹니다.

Grid World라는 MDP를 사용한 강화 학습의 예부터 시작하겠습니다. Grid World에는 우주를 나타내는 그리드와 원으로 표시된 에이전트가 있습니다. 그리드에는 돈이 있는 사각형과 게임이 종료되는 드래곤이 있는 사각형을 포함하여 특수 사각형이 있습니다. 에이전트의 목표는 그리드 주위를 이동하고 보상 또는 처벌을 수집하여 포인트를 최대화하는 것입니다. 인접한 상태의 최대 값을 기반으로 각 상태의 값을 계산하는 Bellman 방정식을 사용하여 에이전트에 대한 최상의 전략을 결정할 수 있습니다. 그런 다음 에이전트에게 포인트를 최대화하기 위해 취할 수 있는 최상의 경로에 대한 지침을 제공하는 정책을 도출할 수 있습니다.

정책의 효율성을 높이기 위해 보상과 할인 요소를 도입합니다. 보상은 걸음을 걸을 때 얻거나 잃는 포인트를 나타내며 할인 요소는 즉각적인 보상과 비교하여 미래 보상의 가치를 설명합니다. 보상과 할인 요소를 고려하여 상태 값을 조정하고 그에 따라 Bellman 방정식을 업데이트할 수 있습니다. 값을 반복하고 업데이트함으로써 각 상태에 대한 최적의 값에 수렴하고 에이전트를 가장 높은 지점으로 안내하는 정책을 결정할 수 있습니다.

Bellman 방정식을 이해하고 보상 및 할인 요소를 사용하여 MDP를 해결하고 강화 학습을 위한 최상의 정책을 찾을 수 있습니다. 왼쪽은 에이전트가 최상의 값을 찾기 위해 오른쪽으로 이동해야 함을 나타냅니다. 이 정책은 에이전트에게 확률 1로 오른쪽으로 이동하고 확률 0으로 다른 방향으로 이동하도록 지시합니다. 반대로 확률적 정책은 오른쪽으로 이동하는 것을 강력하게 선호하지만 얻은 보상에 따라 다른 방향으로 기회를 제공합니다. . 예를 들어 오른쪽의 확률적 정책은 가장 높은 값을 가지므로 오른쪽 상태에 우선순위를 부여하고 왼쪽 상태는 낮은 점수로 인해 가장 낮은 우선순위를 갖습니다. 그러나 확률은 여전히 0이 아니므로 에이전트가 항상 최상의 보상을 받지 못하는 경우에도 공간을 탐색할 수 있습니다.

이제 이 과정에서 신경망의 역할에 대해 논의해 봅시다. 비용이 많이 드는 에이전트가 모든 주를 반복적으로 방문하는 대신 신경망을 사용하여 몇 가지 주에서 정보를 수집할 수 있습니다. 신경망은 유사한 좌표를 가진 상태가 유사한 값을 가져야 함을 학습할 수 있습니다. 우리는 입력이 포인트의 좌표이고 출력이 해당 포인트의 점수인 가치 네트워크를 사용합니다. 마찬가지로 정책 네트워크를 사용하여 각 상태의 정책을 근사화할 수 있습니다. 정책 네트워크는 좌표를 입력으로 받아 위, 오른쪽, 아래, 왼쪽으로 이동할 확률을 나타내는 4개의 숫자를 출력합니다. 가치 네트워크를 훈련하기 위해 우리는 상태의 가치를 이웃 상태와 관련시키는 Bellman 방정식을 충족하도록 강제합니다. 우리는 이웃 상태에서 신경망의 값을 사용하고 방정식을 만족시키기 위해 중간 값을 조정합니다. Bellman 방정식을 기반으로 신경망을 반복적으로 업데이트하면 모든 상태의 값을 근사화할 수 있습니다.

정책 네트워크의 경우 현재 정책을 기반으로 경로를 선택하고 각 작업에 해당 이득을 표시하여 교육합니다. 게인, 좌표 및 작업으로 데이터 세트를 생성하고 이를 정책 네트워크에 공급합니다. 그런 다음 네트워크가 이득에 따라 특정 조치를 취하도록 권장하거나 권장하지 않습니다. 다른 경로로 이 프로세스를 반복함으로써 시간이 지남에 따라 정책 네트워크를 개선할 수 있습니다. 우리는 신경망을 사용하여 국가의 가치와 정책을 근사화합니다. 가치 네트워크는 각 상태의 가치를 추정하는 데 도움이 되는 반면 정책 네트워크는 에이전트의 행동을 안내합니다. 교육에는 Bellman 방정식 및 경로 기반 레이블 지정을 기반으로 네트워크를 반복적으로 업데이트하는 작업이 포함됩니다.

이제 각 상태 및 해당 정책에 대한 값이 있으므로 이를 사용하여 게임에서 결정을 내릴 수 있습니다. 정책은 우리가 계산한 값을 기반으로 각 주에서 취할 최선의 조치를 알려줍니다. 예를 들어 에이전트가 특정 상태에 있고 어떤 조치를 취해야 하는지 알고 싶다면 단순히 정책을 보고 값이 가장 높은 이웃 상태를 가리키는 화살표를 따라갑니다. 이렇게 하면 에이전트가 최적의 경로를 선택하여 보상을 극대화할 수 있습니다. 그리드 월드 게임의 경우 정책은 에이전트가 장애물을 피하고 가능한 한 빨리 가장 높은 보상을 가진 최종 상태에 도달하도록 안내할 수 있습니다. 정책을 따르면 에이전트는 그리드 세계를 탐색하고 부정적인 보상을 피하면서 포인트를 수집할 수 있습니다.

Q-러닝 또는 정책 기울기와 같은 강화 학습 알고리즘을 사용하여 보다 복잡한 환경에 대한 최적의 정책 및 값을 찾을 수 있습니다. 이러한 알고리즘은 Markov 결정 프로세스의 개념과 Bellman 방정식을 활용하여 시간이 지남에 따라 값을 반복적으로 업데이트하고 정책을 개선합니다. 크고 복잡한 상태 공간을 처리하기 위해 신경망을 사용할 수도 있습니다. Q-네트워크 및 정책 기울기 방법은 신경망을 활용하여 값 또는 정책 기능을 근사화하므로 강화 학습 작업에서 보다 효율적이고 효과적인 학습이 가능합니다.

강화 학습 알고리즘과 신경망을 결합하여 자율 주행 자동차, 로봇 공학 및 복잡한 게임 플레이와 같은 까다로운 문제를 해결할 수 있습니다. 이러한 기술은 광범위한 응용 분야를 가지고 있으며 인공 지능 분야를 계속 발전시키고 있습니다.

강화 학습은 환경과 상호 작용하고 보상을 수집하여 환경에서 의사 결정을 내리도록 에이전트를 교육하는 것입니다. 에이전트는 Bellman 방정식에서 얻은 값과 정책을 사용하여 환경을 탐색하고 보상을 극대화합니다. 강화 학습에서 보다 복잡한 문제를 처리하기 위해 신경망을 사용할 수 있습니다.