트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 32

 
알렉세이 버나코프 :
유리, 고마워. 나는 생각할 것이다.

질문이 있습니다. 예측 변수를 어떻게 선택했습니까?

나는 그들을 선택하지 않습니다. 이것이 VMR이 하는 일입니다. 21세기가 시작된 지 벌써 16년이 넘었고, 모든 거친 일은 사람이 아닌 자동 시스템이 해야 합니다.

유리 레셰토프 :

... 보다 구체적으로 VMR은 일부 기능을 줄여 하이퍼스페이스를 줄입니다.

VMR이 예측 변수 중 하나를 자동으로 줄이는 구체적인 예도 있습니다. 파산 예측 참조

그리고 이 페이지에서 간단한 고전 적인 예를 사용하여 알고리즘이 어떻게 작동하는지 알아낼 수도 있습니다.

Прогнозируем банкротства - Векторная машина Решетова
  • sites.google.com
Авторы: Myoung-Jong Kim, Ingoo Han опубликовали статью под названием: «The discovery of experts decision rules from qualitative bankruptcy data using genetic algorithms». Судя по оригинальной авторской статье, выборка предназначалась для генетических алгоритмов, т. к. предполагалось, что для других алгоритмов она не по зубам. Однако, вынужден...
 
알고리즘을 실행해 봐야 합니다. 나는 그것이 왜 그렇게 훌륭하게 작동할 수 있는지 거의 모른다.
 
유리 레셰토프 :

나는 그들을 선택하지 않습니다. 이것이 VMR이 하는 일입니다. 21세기가 시작된 지 벌써 16년이 넘었고, 모든 거친 일은 사람이 아닌 자동 시스템이 해야 합니다.


내가 절대화하지 않는 내 경험에 따르면 모델에 내장 된 예측 변수 선택 알고리즘이 가장 비효율적입니다. 예측 변수를 선택하기 위한 수많은 개별 패키지 및 기능도 있습니다.

내가 왜 그렇게 말합니까?

저에게는 거래를 위한 간단하고 기본적인 테스트가 있습니다.

모델 학습. 훈련 샘플 외부에 있는 샘플에서 시간을 확인하고 오류를 비교합니다. 첫째, 오류는 약 50%가 될 수 없습니다. 이것은 일반적으로 훈련할 수 있는 모델이 아닙니다. 오류는 40% 미만으로 간주합니다. 이러한 오류가 훈련 및 검증 샘플에서 거의 같으면 모델이 과대적합되지 않은 것입니다. 이러한 오류가 크게 다르고 여러 번 발산할 수 있는 경우, 특히 교육 중 오류가 10% 미만인 경우 모델이 다시 교육됩니다. 과적합의 이유는 모델 훈련 알고리즘이 폐기하지 않는 잡음 예측자가 있기 때문입니다.

지금까지 노이즈가 없는 예측 변수 집합을 본 적이 없습니다. 그리고 예측 변수를 선택하기 위한 모든 알고리즘은 이 노이즈에 대처할 수 없었고, 모델의 조대화(정규화) 아이디어도 대처할 수 없었습니다!

따라서 귀하의 의견은 잘못된 것이며 과도하게 훈련된 모델을 받은 경우 항상 "샘플" 밖에 있는 실생활에서 위험합니다.

 
알렉세이 버나코프 :

1번 문제를 제안 합니다. 내 솔루션은 나중에 게시하겠습니다. SanSanych는 이미 그녀를 보았습니다. 대답하지 마십시오.

소개: 거래 알고리즘을 구축하려면 가격, 추세 또는 거래 개시 방향을 예측하기 위한 기초로 어떤 요소가 사용될 것인지 알아야 합니다. 그러한 요소를 선택하는 것은 쉬운 일이 아니며 무한히 복잡합니다.

내가 만든 인공 csv 데이터 세트가 있는 아카이브가 첨부되어 있습니다.

데이터에는 접두사 input_이 붙은 20개의 변수와 가장 오른쪽에 있는 하나의 변수 output이 포함됩니다.

출력 변수는 입력 변수의 일부 하위 집합 에 따라 다릅니다( 하위 하위 집합 에는 1~20개의 입력이 포함될 수 있음).

작업: 기존 데이터에서 출력 변수의 상태를 결정할 수 있는 입력 변수를 선택하기 위해 모든 방법(머신 러닝)을 사용합니다.

이진 분류에는 어떤 다른 작업이 있습니까? 그리고 나는 이미 결과와 샘플 생성 방법을 모두 게시했을 때 캡 분석에 왔습니다.

참여하고 동시에 이진 분류기의 새 버전을 테스트하고 싶습니다.

 
이반나스본 :
유리님, 비밀 댓글로 답변 부탁드립니다.

첨부된 스크립트.

데이터세트는 EURUSD H1에서 가져왔습니다.

파일:
 
유리 레셰토프 :

이진 분류에는 어떤 다른 작업이 있습니까? 그리고 나는 이미 결과와 샘플 생성 방법을 모두 게시했을 때 캡 분석에 왔습니다.

참여하고 동시에 이진 분류기의 새 버전을 테스트하고 싶습니다.

항상 도전이 있습니다 :)

아카이브에는 train.csv와 test.csv라는 두 개의 파일이 있습니다. 파일의 마지막 열은 이진 분류의 필수 결과입니다. train.csv 파일을 사용하여 모델을 훈련한 다음 모델을 test.csv에 적용해야 합니다. test.csv에 대해 이미 알려진 대상 결과는 미리 사용할 수 없으며 최종 확인에만 필요합니다. 데이터는 eurusd d1, 클래스 0 또는 1에서 가져옵니다 - 다음 막대의 가격 하락 또는 상승. 모델이 10개 중 6개 이상의 경우에 test.csv에 대한 결과를 올바르게 예측했다면 이미 Forex에서 거래를 시도할 수 있으며 원칙적으로 병합되지 않지만 큰 이익도 기대해서는 안됩니다. 10개 중 7개(및 그 이상)의 경우에 이미 올바르게 예측하는 경우 - 이것이 성배에 이르는 올바른 방법이며, 다른 연도 및 월에 모델을 훈련하고 테스트해야 하며, 모든 곳에서 동일하다면, 매우 우수합니다.

과거 오류를 고려하여 이제 파일이 원시 값이 아닌 막대의 델타를 기반으로 합니다. 그리고 모든 것은 열이 아닌 행에 있는 동일한 유형의 예측자를 고려하여 행으로 정규화됩니다.

나 자신은 예측 변수의 변이를 열거하기 위해 유전학을 사용하려고 합니다. 예측 변수 세트에서 두 개의 교차 검증으로 주성분 모델을 훈련하고 분류 오류를 유전학에 대한 적합성 값으로 반환합니다. 유전학이 한계에 도달하면 마지막 예측 변수 세트를 가져와 다시 두 번의 교차 검증으로 뉴런을 훈련시킵니다. 테스트 데이터의 최종 예측 오차는 약 40% 정도입니다. 여기서 나쁜 소식이 시작됩니다. 뉴런의 매개변수(내부 가중치 수, 교차 검증 간의 반복 수)에 따라 최종 오류가 달라지며 30% -50% 내에서 무작위로 이동합니다. 한때 30%밖에 안 돼서 기뻤는데 막상 해보니 통제가 안 되고 평균 40%밖에 안 됐어요.
논리적인 질문은 왜 중간에 주성분 모델이 필요한가 하는 것입니다. 훈련 매개변수, 제출된 데이터, 모델 수신, 테스트 데이터에 대한 교차 검증 오류 계산 등이 없습니다. 뉴런을 즉시 사용하여 유전학의 적합도 기능을 결정하면 훈련 시간이 매우 증가하고 신경망 자체에 어떤 훈련 매개변수를 사용할지 명확하지 않습니다.

또한 애플리케이션에서 유리의 VMR 모델을 R로 이식했습니다. 노이즈 예측기로 데이터를 가져 와서 훈련 데이터에서 30 %의 오류를 얻었고 테스트 데이터에서 60 %의 오류를 얻었습니다. 즉, 기적이 일어나지 않고 모델이 다시 훈련되었습니다. 코드를 이식할 때 문제가 있을 수 있지만 불일치를 보는 사람이 있으면 알려주세요. 모델을 훈련할 때 대형 핵 기계를 위한 메모리가 충분하지 않아 중간 크기( kernelTrickMode <- 2 매개변수)를 사용했습니다. 각 열에 대해 백만 번의 반복을 기다릴 수 없었고 10000(iterPerColumn <- 10000)을 사용했습니다.

파일:
 
트레이더 박사 :

항상 도전이 있습니다 :)

아카이브에는 train.csv와 test.csv라는 두 개의 파일이 있습니다.

불행히도 내 RAR 아카이브의 압축을 풀 수 없습니다. IMHO 모든 것을 ZIP으로 포장하는 것이 좋습니다. 왜냐하면 모든 플랫폼에 ZIP 형식용 언패커가 있습니다. 또한 많은 사용자가 RAR을 사용하지 않습니다.



트레이더 박사 :
또한 애플리케이션에서 유리의 VMR 모델을 R로 이식했습니다. 노이즈 예측기로 데이터를 가져 와서 훈련 데이터에서 30 %의 오류를 얻었고 테스트 데이터에서 60 %의 오류를 얻었습니다. 즉, 기적이 일어나지 않고 모델이 다시 훈련되었습니다. 코드를 포팅할 때 문제가 있을 수 있지만 불일치를 보는 사람이 있으면 알려주세요.

나는 확실히 볼 것이다. 비록 나는 R을 잘 모르지만.

포트가 수동으로 수행되었습니까? 아니면 어떤 종류의 기계를 통해 수행되었습니까?

 
아마도 다른 누군가가 노이즈 필터링을 위한 주성분 방법을 시도할 것입니다. 하지만 Dr.Trader가 아닌 수천 개의 관찰이 있는 예측변수를 사용하시겠습니까?
 
트레이더 박사 :


오후 참조.
 
산산이치 포멘코 :
아마도 다른 누군가가 노이즈 필터링을 위한 주성분 방법을 시도할 것입니다. 하지만 Dr.Trader가 아닌 수천 개의 관찰이 있는 예측변수를 사용하시겠습니까?

그냥 시도하지 않는 이유는 무엇입니까?

추신. 나는 오랫동안 시도했지만 흥미로운 것이 없었습니다.

연구 과정에서 겸손하지만 흥미로운 결과가 나타났습니다. 공유하고 싶지만 이 "훌륭한" 포럼에서 사진을 삽입하거나 파일을 첨부할 수 없습니다. 누군가 문제가 무엇인지 알고 있습니까?

사유: