트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 932

 
도서관 :
블로그에 복사하면 다른 사람에게 유용할 수 있습니다. 여기에서 찾을 것이 없습니다.

블로그에도 이 코드가 있습니다. 그러나 이것은 "kfold를 만드는 방법"이라는 주제에 대한 매우 기본적인 것이므로 특정 작업을 위해 많은 것을 다시 해야 합니다. 또한 유전학에서 다중 스레딩을 활성화하면 elmnn은 설치된 rngg 시드를 무시하고 각 스레드는 서로 다르고 재생 불가능한 무언가를 얻습니다. 이러한 경우(유전학의 다중 스레딩)의 경우 Vladimir Perervenko의 기사와 제어 방법을 살펴봐야 합니다. rngc.

 
막심 드미트리예프스키 :

추가 차원이 여전히 남아 있고 이를 통해 어떻게든 곡선을 그릴 필요가 있습니다. 아마도 큰 오류가 있을 수 있습니다.

반대로 dropout은 오류를 증가시키지 않습니까?

Dropout은 뉴런을 끄는 것과 같습니다. 시끄럽다면 괜찮습니다.
그리고 왜 그들은 오류를 증가시키는 어떤 종류의 것을 생각해 냈습니까? 오류를 줄이는 데 도움이되는 경우에만 모든 것이 의미가 있습니다.
 
도서관 :
Dropout은 뉴런을 끄는 것과 같습니다. 시끄럽다면 괜찮습니다.
그리고 왜 그들은 오류를 증가시키는 어떤 종류의 것을 생각해 냈습니까? 오류를 줄이는 데 도움이되는 경우에만 모든 것이 의미가 있습니다.

khe-khe .. 오류의 증가를 통해 오버 트레이닝이 제거됩니다. 항상은 아니지만 그렇지 않으면

그것이 그들이 외환에서 0.5 시바 모델이 좋은 시바라는 사실에 대해 불고 있는 이유입니다. 0.3 0.4에서 그것은 나를 위해 다소 작동하기 시작합니다. 더 적으면 일반적으로 과적합됩니다.

글쎄요, 이해할 수 있는 농담이죠? 그들은 그들이 멋지다고 생각합니다. 사실, 그들은 모델을 제대로 훈련하지 않을 뿐이며, 모델에서 무언가를 소모하지 않습니다. 반 무작위로 거래

 
박사 상인 :

파이썬에도 있어야 합니다.

분명히, 파이썬은 저와 전혀 거리가 멀습니다... 정말 아무도 NS에서 작동하도록 GUI 래퍼를 만들지 않습니까?

박사 상인 :

오늘밤 알고리즘을 실행하고 내일 무슨 일이 일어났는지 보여주겠어

감사합니다. 유익한 정보가 될 것입니다.

박사 상인 :

100% 정확도를 달성하고 모델이 잘 작동하기를 바라는 것은 일반적으로 Forex에서 불가능합니다. 이를 위해서는 함께 잘 수렴되는 몇 달 동안의 예측 변수와 심지어 대상 예측 변수를 선택해야 합니다. 일반적으로 50% 이상의 정확도에 도달하면 모델은 훈련 예제를 암기하기 시작하고 그 안에서 논리적 패턴을 찾지 않습니다. 따라서 새로운 데이터에 대한 결과는 점점 더 나빠질 것입니다. 데이터의 경우 이 최적값은 약 60%로 나타났습니다. 훈련 데이터와 테스트 데이터의 결과가 거의 같을 때 트리를 더 자세히 분석하고 정확도를 높이면 포리스트는 새 데이터에서 점점 더 나쁜 결과를 보여줍니다. .

예, 헛되이 보내지 않으면 급한 곳에 시간이 있습니다.

그러나 나는 암기와 학습의 차이점을 잘 이해하지 못합니다. 저에게 이 모든 MO는 데이터 세트에서 기능을 찾고 예상 결과와 학습된 결과를 비교해야 하지만 데이터 변형을 고려하고 그에 따라 변형에 대한 예측을 제공하십시오. 이것은 내가 모든 것을 만지작 거리기 시작할 때까지 내 생각이었습니다.

트리가 서로 다른 예측 변수 집합으로 해결된다는 사실이 놀랍습니다. 즉, 트리가 구축될 때 데이터와 지식에 대한 전체 검토가 발생하지 않는다는 것을 의미합니다. 분기.

 
막심 드미트리예프스키 :

khe-khe .. 오류의 증가를 통해 오버 트레이닝이 제거됩니다. 항상은 아니지만 그렇지 않으면

너무입니다. 보다 정확하게는 이것이 주요 작업입니다. 뉴런 삭제와 입력 삭제의 연관성이 있습니다. 그녀는 충실하지 않을 수도 있습니다.

예, 오히려 첫 번째 레이어의 dropconnect 는 입력을 삭제하는 것과 같습니다.

 
도서관 :

너무입니다. 보다 정확하게는 이것이 주요 작업입니다. 뉴런 삭제와 입력 삭제의 연관성이 있습니다. 그녀는 충실하지 않을 수도 있습니다.

뉴런의 제거는 자유도의 제거 = 오류의 증가, 거칠기

회귀에서 여러 구성원이 제거되면 입력을 삭제하는 것과 동일하며 완전히 연결된 NN에서 왜

dropconnect, 이름에서 - 예, 다음과 같습니다.

 
막심 드미트리예프스키 :

뉴런의 제거는 자유도의 제거 = 오류의 증가, 거칠기

회귀에서 여러 구성원이 제거되면 입력을 삭제하는 것과 동일하며 완전히 연결된 NN에서 왜

dropconnect, 이름에서 - 예, 다음과 같습니다.

그러나 dropconnect를 사용하더라도 작업은 어렵습니다. 예를 들어 50개의 입력, 50개의 뉴런이 있습니다.
1개의 입력을 삭제하면 50개의 뉴런당 50개의 연결도 삭제됩니다.
그리고 1개의 입력을 제거하기 위해 50개의 연결을 모두 제거하려면 작업이 50배 더 어렵습니다. 따라서 모든 50개의 입력이 정렬됩니다. 총 50^50개의 변형이 있습니다. 분명히 - 희망이없는 경우. 입력을 처리하는 것이 더 쉽습니다 - 2 ^ 50)))).
 
도서관 :

질문은 당신뿐만 아니라 모든 사람을 위한 것입니다.

실제로 이것은 사실입니다. 노이즈 예측자가 있는 경우 NN은 50-55%에서 벗어날 수 없습니다. 뽑으면 70%를 줄 수 있다.

그런데 왜 그럴까요?
1) 결국, NN은 훈련 중에 노이즈 예측자에 대해 0에 가까운 가중치를 선택해야 합니다(선택 중 제외와 동일). 우리는 분기 시작 부분의 문제에서 이것을 보았습니다.
2) 가중치를 과소평가하는 훈련이 아닌 경우, 최소한 dropout은 가중치를 필터링해야 합니다...

여러 번 작성되었습니다. 노이즈 예측자는 모델에 훨씬 더 편리합니다. 노이즈에는 항상 학습 결과를 향상시키는 값이 있습니다. 따라서 프로세스는 반대입니다. 노이즈 예측기는 예상한 대로가 아니라 더 많은 가중치를 얻습니다. 이것은 1000개 미만의 관측값을 갖는 작은 표본에서 특히 두드러집니다. 5000개 이상의 관찰 샘플은 그렇게 영향을 받지 않지만 여전히 노이즈 예측 변수를 사전 선별해야 합니다.

 
도서관 :
그러나 dropconnect를 사용하더라도 작업은 어렵습니다. 예를 들어 50개의 입력, 50개의 뉴런이 있습니다.
1개의 입력을 삭제하면 50개의 뉴런당 50개의 연결도 삭제됩니다.
그리고 1개의 입력을 제거하기 위해 50개의 연결을 모두 제거하려면 작업이 50배 더 어렵습니다. 그래서 모든 50개의 입력을 분류합니다... 분명히 - 희망이 없는 경우입니다. 입구를 다루는 것이 더 쉽습니다.
Plyubak 입력이 더 중요하고 모델이 있는 게임은 이미 샤머니즘이며 이론상 일반적으로 크게 증가해서는 안 됩니다. 글쎄, 나는 발판의 앙상블을 만들었습니다. 개별 발판을 떨어 뜨린 후 실수로 0.05, 때로는 0.1까지 향상시킬 수 있습니다 (기차와 테스트의 차이). 주요 문제를 해결하지 못합니다. 멋진 신경망에서는 방법을 모르겠습니다.
 
산산이치 포멘코 :

여러 번 작성되었습니다. 노이즈 예측자는 모델에 훨씬 더 편리합니다. 노이즈에는 항상 학습 결과를 향상시키는 값이 있습니다. 따라서 프로세스는 반대입니다. 노이즈 예측기는 예상한 대로가 아니라 더 많은 가중치를 얻습니다. 이것은 1000개 미만의 관측값을 갖는 작은 표본에서 특히 두드러집니다. 5000개 이상의 관찰 샘플은 그렇게 영향을 받지 않지만 여전히 노이즈 예측 변수를 사전 선별해야 합니다.

분석가의 관점에서 중요도에 따라 NN/Tree/Forest에서 사용할 예측 변수의 우선 순위를 지정할 수 있는 기술이 있습니까?

사유: