트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 470

 
마이클 마르쿠카이테스 :

진정한 의미는 이것이다. 제어 영역에 잘못된 분할이 있는 경우 올바른지 아닌지는 중요하지 않으며 분리의 사실 자체가 약합니다. 그리고 모델이 훈련 간격의 50% 이하로 작동했다면 그러한 모델은 과잉 훈련된 것으로 간주됩니다.... IMHO

그건 그렇고, 당신이 제안한 시퀀스에 대한 기사에서 연속으로 여러 신호를 계산하고 거기에서 뒤집는 것을 기억합니까 .. 신호의 중첩

퍼지 로직을 통해 비슷한 것을 구현하고 학습 과정에 포함시키는 흥미로운 솔루션을 생각해 냈습니다. 나중에 뭔가를 버릴 것입니다. :)

 
막심 드미트리예프스키 :

가끔 뇌가 망가지기 시작하는데.. 외환 노이즈에 대해, 그것은 무선 신호가 아닙니다. 그렇죠? Forex에서 소음은 어디에서 옵니까?


Forex의 "노이즈" 개념은 이 스레드에서 제가 집중적으로 논의했습니다. 나는 그것을 스스로 생각해 냈거나 누군가에게서 양각으로 만들었습니다. 기억이 나지 않으며 중요하지 않습니다. 이 스레드의 누군가를 위해 비슷한 기사에 대한 링크를 게시했습니다.

내 생각에 "소음"은 일종의 커피 찌꺼기인 대상 변수와 관련이 없는 예측 변수의 전부 또는 일부입니다.


예를 들어 설명하겠습니다(이전에 썼던 것을 반복합니다).


우리는 남성과 여성의 두 가지 클래스로 구성된 목표를 취합니다.

우리는 예측 변수를 사용합니다. 옷.

예측 변수 값은 바지와 치마 두 개뿐입니다. 특정 국가에서는 이러한 예측 변수가 100% 예측력을 갖습니다. 치마는 여자를 예언하고 바지는 남자를 예언합니다. 이 예측기는 노이즈가 전혀 없습니다. 분류 오류 = 0. 과적합 없음.

이 예는 인위적이며 "옷" 예측자는 "남녀 공용"이라는 이름의 옷을 포함할 수 있습니다. 우리에게 이것은 남성과 여성 모두 그러한 옷을 입을 수 있음을 의미합니다. 목표 변수의 경우 남녀공용 의류에는 예측력이 전혀 없습니다. 제 이해로는 노이즈입니다.

"바지", "스커트" 및 "남녀 공용" 값이 있는 예측 변수를 사용하면 "남녀 공용"이 분류 오류의 원인이 됩니다. 남녀공용 의류의 비율이 30%라면 이론적으로 모델 훈련 오차 = 30%를 달성할 수 있지만 그러한 예측 변수에서 29%의 오차는 1%의 양으로 모델 과적합을 의미합니다!


실전에서 사용하고 있습니다. 덕분에 오차가 30% 미만인 랜덤 포레스트 에 대한 예측 변수를 선택할 수 있었습니다. 이것은 재학습된 모델이 아닙니다. 오류는 동일한 파일 내부의 테스트 샘플과 다른 외부 파일의 교육 중 거의 동일합니다.

내 예에서 오류를 줄이는 것은 무엇을 의미합니까? 이것은 노이즈 값이 동일한 30%보다 작은 값인 예측 변수를 찾는 것을 의미합니다. 나는 성공하지 못했다. 아마도 누군가는 성공할 것입니다.

그러나 이러한 분석이 없으면 MO 모델을 사용하는 것은 공허한 연습이며, 커피 찌꺼기에 대한 지적인 숫자 게임입니다.


추신.

지정된 오류는 일반적으로 모델 유형에 의존하지 않습니다. 나는 다른 숲을 시도했지만 ada 변종은 거의 같습니다. 그러나 nnet인 NS는 훨씬 더 나쁜 결과를 제공합니다.

 
산산이치 포멘코 :

Forex의 "노이즈" 개념은 이 스레드에서 제가 집중적으로 논의했습니다. 나는 그것을 스스로 생각해 냈거나 누군가에게서 양각으로 만들었습니다. 기억이 나지 않으며 중요하지 않습니다. 이 스레드의 누군가를 위해 비슷한 기사에 대한 링크를 게시했습니다.

내 생각에 "소음"은 일종의 커피 찌꺼기인 대상 변수와 관련이 없는 예측 변수의 전부 또는 일부입니다.


예를 들어 설명하겠습니다(이전에 쓴 내용을 반복합니다).


우리는 남성과 여성의 두 가지 클래스로 구성된 대상을 선택합니다.

우리는 예측 변수를 사용합니다. 옷.

예측 변수 값은 바지와 치마 두 개뿐입니다. 특정 국가에서는 이러한 예측 변수가 100% 예측력을 갖습니다. 치마는 여자를 예언하고 바지는 남자를 예언합니다. 이 예측기는 노이즈가 전혀 없습니다. 분류 오류 = 0. 과적합 없음.

이 예는 인위적이며 "옷" 예측자는 "남녀 공용"이라는 이름의 옷을 포함할 수 있습니다. 우리에게 이것은 남성과 여성 모두 그러한 옷을 입을 수 있음을 의미합니다. 목표 변수의 경우 남녀공용 의류에는 예측력이 전혀 없습니다. 제 이해로는 노이즈입니다.

"바지", "스커트" 및 "남녀 공용" 값이 있는 예측 변수를 사용하면 "남녀 공용"이 분류 오류의 원인이 됩니다. 남녀공용 의류의 비율이 30%라면 이론적으로 모델 훈련 오차 = 30%를 달성할 수 있지만 그러한 예측 변수에서 29%의 오차는 1%의 양으로 모델 과적합을 의미합니다!


예측 변수를 선택할 때 실제 조건에서 이 노이즈 예측 변수가 최소 오류를 얼마나 줄 수 있는지 미리 알 수 없습니다.

그러나 일반적으로 명확한 것 같습니다)

 
막심 드미트리예프스키 :

.. 정보가없는 것들은 단순히 거기에서 제거됩니다.


이것은 가장 깊은 망상입니다. 다양한 방식으로 이해할 수 있는 오류 최소화 알고리즘이 작동합니다. 가장 적합한 것은 NOT 노이즈보다 더 많은 다양성을 포함하는 노이즈입니다. 알고리즘은 커피 찌꺼기에서 거품을 선택합니다.

 
산산이치 포멘코 :

이것은 가장 깊은 망상입니다. 다양한 방식으로 이해할 수 있는 오류 최소화 알고리즘이 작동합니다. 가장 적합한 것은 NOT 노이즈보다 더 많은 다양성을 포함하는 노이즈입니다. 알고리즘은 커피 찌꺼기에서 거품을 선택합니다.

Jpredictor에 대해 이야기하고 있습니다. 모든 종류의 노이즈 기능을 필터링합니다.

일반적으로 이것은 그곳에서 일어나는 일을 실제로 이해하려는 것보다 실험을 위한 주제입니다)

이 h2O 플랫폼을 시도하고 싶습니다. 부스팅이있는 숲이 있습니다. 아마도 들었습니까? 사람들은 microsoft 및 xgbboost와 함께 평소처럼 말합니다.

https://www.h2o.ai/

 

안 보신 분들은 이 을 보시는 걸 추천합니다.

 
마법사_ :

Fa와 Mishan은 광부가 아닙니다)))
앵무새를 낚아채러 갈 것입니다. + LightGBM, + CatBoost.
나는 조금 더 나은 컷을 원합니다-파이썬과 모든 것을 GPU에 넣습니다 ...

많은 R 패키지가 GPU와 잘 작동합니다.

CatBoost를 시작하셨습니까? 그래서 관심이 있습니다.

행운을 빕니다

 
막심 드미트리예프스키 :
Jpredictor에 대해 이야기하고 있습니다. 모든 종류의 노이즈 기능을 필터링합니다.

일반적으로 이것은 그곳에서 일어나는 일을 실제로 이해하려는 것보다 실험을 위한 주제입니다)

이 h2O 플랫폼을 시도하고 싶습니다. 부스팅이있는 숲이 있습니다. 아마도 들었습니까? 사람들은 microsoft 및 xgbboost와 함께 평소처럼 말합니다.

https://www.h2o.ai/

Java로 작성되어 많은 메모리를 소비합니다. 유사한 R 패키지보다 더 좋지도 나쁘지도 않습니다.한 가지 단점이 있습니다.

실험할 수 있지만 작업하지 않는 것이 좋습니다(IMHO).

행운을 빕니다

 
산산이치 포멘코 :

이것은 가장 깊은 망상입니다. 다양한 방식으로 이해할 수 있는 오류 최소화 알고리즘이 작동합니다. 가장 적합한 것은 NOT 노이즈보다 더 많은 다양성을 포함하는 노이즈입니다. 알고리즘은 커피 찌꺼기에서 거품을 선택합니다.

"잡음"과 "과적합"은 모든 사람이 다르게 정의하는 전문 용어입니다. 직관적으로 우리는 "기억된"과 "배운"의 차이점을 이해합니다. 프로그램 언어로 번역하기는 어렵습니다. 나는 단순히 테스트 오류가 커지기 시작하고 "과잉 훈련"이 시작되는 순간을 정의합니다("과적합"과 동일하지 않음). 영어 네트에서 이 문제에 대한 흥미로운 토론에 대한 링크를 찾으면.

행운을 빕니다

 
산산이치 포멘코 :

Forex의 "노이즈" 개념은 이 스레드에서 제가 집중적으로 논의했습니다. 나는 그것을 스스로 생각해 냈거나 누군가에게서 양각으로 만들었습니다. 기억이 나지 않으며 중요하지 않습니다. 이 스레드의 누군가를 위해 비슷한 기사에 대한 링크를 게시했습니다.

내 생각에 "소음"은 일종의 커피 찌꺼기인 대상 변수와 관련이 없는 예측 변수의 전부 또는 일부입니다.


예를 들어 설명하겠습니다(이전에 썼던 것을 반복합니다).


우리는 남성과 여성의 두 가지 클래스로 구성된 목표를 취합니다.

우리는 예측 변수를 사용합니다. 옷.

예측 변수 값은 바지와 치마 두 개뿐입니다. 특정 국가에서는 이러한 예측 변수가 100% 예측력을 갖습니다. 치마는 여자를 예언하고 바지는 남자를 예언합니다. 이 예측기는 노이즈가 전혀 없습니다. 분류 오류 = 0. 과적합 없음.

이 예는 인위적이며 "옷" 예측자는 "남녀 공용"이라는 이름의 옷을 포함할 수 있습니다. 우리에게 이것은 남성과 여성 모두 그러한 옷을 입을 수 있음을 의미합니다. 목표 변수의 경우 남녀공용 의류에는 예측력이 전혀 없습니다. 제 이해로는 노이즈입니다.

"바지", "스커트" 및 "남녀 공용" 값이 있는 예측 변수를 사용하면 "남녀 공용"이 분류 오류의 원인이 됩니다. 남녀공용 의류의 비율이 30%라면 이론적으로 모델 훈련 오차 = 30%를 달성할 수 있지만 그러한 예측 변수에서 29%의 오차는 1%의 양으로 모델 과적합을 의미합니다!


실전에서 사용하고 있습니다. 덕분에 오차가 30% 미만인 랜덤 포레스트에 대한 예측 변수를 선택할 수 있었습니다. 이것은 재학습된 모델이 아닙니다. 오류는 동일한 파일 내부의 테스트 샘플과 다른 외부 파일의 교육 중 거의 동일합니다.

내 예에서 오류를 줄이는 것은 무엇을 의미합니까? 이것은 노이즈 값이 동일한 30%보다 작은 값인 예측 변수를 찾는 것을 의미합니다. 나는 성공하지 못했다. 아마도 누군가는 성공할 것입니다.

그러나 이러한 분석이 없으면 MO 모델을 사용하는 것은 공허한 연습이며, 커피 찌꺼기에 대한 지적인 숫자 게임입니다.


추신.

지정된 오류는 일반적으로 모델 유형에 의존하지 않습니다. 다른 숲을 시도했지만 ada 옵션은 거의 같습니다. 그러나 nnet인 NS는 훨씬 더 나쁜 결과를 제공합니다.

관련 없는 예를 제거하고 주요 또는 독립 구성 요소를 강조 표시한 다음 마지막으로 이산화할 수 있습니다. 예측자를 전처리 했습니까? 배출이 제거되었기를 바랍니다(삼림에는 중요하지 않음).

어쩐지 비관주의가 메시지에 스며든다..

내가 보기에는?

행운을 빕니다

사유: