트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 129

 
안드레이 딕 :

여기, 분명히 음절로, 나는 내가하고있는 것을 그렸습니다.

추가 세부 정보: 현재 막대에서 구매와 같은 구매 신호, 앞으로 가장 작은 막대 수를 계산하고 거래가 수익성 있는 것으로 판명되는지 확인하고, 수익성이 있으면 닫고, 그렇지 않으면 막대를 하나 더 계산합니다. 미리 확인하고 다시 확인하십시오. 그리고 최대 막대 수까지 계속해서 마지막으로 닫습니다. 그러한 학습 메커니즘.

여기서 명확하지 않은 것은 무엇입니까? ... 이것은 환상이 아닙니다. 이제 나는 단지 그것을하고 있습니다. 목적 함수는 최소한의 손실로 이익을 극대화하는 것입니다. 나는 내 유전자로 가르친다.

그리고 우리는 무엇을 가르칩니까? 이대로 해도 될 것 같죠?
 

산산이치 포멘코 :
1. 우리는 무엇을 가르칩니까?

2. 구현하는 것이 가능하고 그대로입니까?

1. 목적 기능 - 최소한의 손실로 이익 극대화. 나는 내 유전자로 가르친다.

2. 예, 매우 간단합니다.

 
R용 패키지가 어떤 언어로 작성되었는지 알아내는 방법을 아는 사람이 있습니까?
 
mytarmailS :
R용 패키지가 어떤 언어로 작성되었는지 알아내는 방법을 아는 사람이 있습니까?

선적 서류 비치. R의 도움말에서 열림:

  • R 확장 작성
  • R 내부

또한 CRR 작업에 대해 자세히 설명합니다.

 

여러분, 제 새로운 임무:

다음은 .R 형식의 데이터 세트입니다. https://drive.google.com/open?id=0B_Au3ANgcG7CcjZVRU9fbUZyUkE

이 세트에는 약 40,000개의 행과 101개의 열이 있습니다. 가장 오른쪽 열은 대상 변수입니다. 왼쪽 - 100개 입력.

처음 20,000개의 관측치에 대해 나머지 100개 열을 기반으로 101번째 열의 값을 예측하는 회귀 모델을 구축하는 것이 좋습니다.

나머지 20,000개 이상의 관찰에서 구성된 모델은 R^2가 0.5보다 나쁘지 않아야 합니다.

그런 다음 데이터 생성 방법을 공개하고 솔루션을 제공합니다.

힌트는 시계열 데이터입니다. 입력은 100개의 판독값이고 예측은 1보다 앞서 있습니다. 이는 가격이나 시세 또는 파생 상품이 아닙니다.

알렉세이

 
이 데이터를 csv로 배치할 수도 있습니다. 예측변수의 중요성에 대한 Coryphans의 의견을 듣는 것은 흥미로울 것입니다.

데이터는 순전히 합성이며 순전히 재미를 위한 것임을 반복합니다.
 

vtreat 패키지를 통해 예측자의 중요성을 찾으려고 했습니다. 그러나 패키지는 예측자 간의 관계를 찾는 방법을 알지 못하며 예측자와 대상 간의 직접적인 관계만 고려하므로 이러한 작업에는 적합하지 않습니다.

treatments <- designTreatmentsN(dat_ready[ 1 : 20000 ,], colnames(dat_ready)[ 1 : 100 ], tail(colnames(dat_ready), 1 ))
treatments$scoreFrame #важность предикторов определяется через колонку "sig"
treatments$scoreFrame[order(treatments$scoreFrame$sig),] #предикторы отсортированы по важности

vtreat의 중요성으로 판단하면 lag_diff_51 및 lag_diff_52가 가장 유용합니다. 받은 목록에 따라 다른 예측 변수를 조금씩 추가하고, 숲에 대한 훈련 데이터에서 R ^ 2의 성장을 살펴보았습니다. 결과적으로 51, 52, 53, 54, 55, 17, 68과 같은 예측 변수에 정착했으며 대부분 목표를 계산하는 데 사용됩니다. 훈련 데이터의 R^2 > 0.9이지만 테스트 및 검증에서는 모든 것이 나쁩니다. 이제 교차 검증에서 R ^ 2도 증가하도록 이러한 예측 변수를 사용하여 다른 수학 연산을 시도하고 공식을 선택해야 합니다. 더 이상 보지 않겠습니다 :)

나중에 추가됨:
나는 조금 더 실험을 했고, 다른 수학적 연산으로 기존 예측자들로부터 많은 새로운 예측자들을 만들었습니다. vtreat와 forest는 sum(51.52)과 average(51.52)라는 두 가지 조합을 매우 좋아합니다. 그러나 목표 값에 대한 공식을 얻을 수 없었습니다. 그리고 이러한 예측 변수에 대해 훈련된 모델은 어느 것도 적절하게 예측할 수 없습니다.

 

100개 항목? 강하게.

왜 천개 안되지?

여러분, 신경망이 무엇인지 절대 이해하지 못합니다.

 
Dr.Trader :

vtreat 패키지를 통해 예측자의 중요성을 찾으려고 했습니다. 그러나 패키지는 예측자 간의 관계를 찾는 방법을 알지 못하며 예측자와 대상 간의 직접적인 관계만 고려하므로 이러한 작업에는 적합하지 않습니다.

vtreat의 중요성으로 판단하면 lag_diff_51 및 lag_diff_52가 가장 유용합니다. 받은 목록에 따라 다른 예측 변수를 조금씩 추가하고, 숲에 대한 훈련 데이터에서 R ^ 2의 성장을 살펴보았습니다. 결과적으로 51, 52, 53, 54, 55, 17, 68과 같은 예측 변수에 정착했으며 대부분 목표를 계산하는 데 사용됩니다. 훈련 데이터의 R^2 > 0.9이지만 테스트 및 검증에서는 모든 것이 나쁩니다. 이제 교차 검증에서 R ^ 2도 증가하도록 이러한 예측 변수를 사용하여 다른 수학 연산을 시도하고 공식을 선택해야 합니다. 더 이상 보지 않겠습니다 :)

나중에 추가됨:
나는 조금 더 실험을 했고, 다른 수학적 연산으로 기존 예측자들로부터 많은 새로운 예측자들을 만들었습니다. vtreat와 forest는 sum(51.52)과 average(51.52)라는 두 가지 조합을 매우 좋아합니다. 그러나 목표 값에 대한 공식을 얻을 수 없었습니다. 그리고 이러한 예측 변수에 대해 훈련된 모델은 어느 것도 적절하게 예측할 수 없습니다.

가까이, 그러나 가까이. 모두 표시되어 있지 않습니다. 출력과 입력 사이에는 선형 상관 관계가 있습니다. 그러나 그들은 별로 도움이 되지 않을 것입니다.

당신의 숲이 다시 훈련되었습니다. 이력서를 보는 것이 좋습니다. 데이터의 비밀은 나중에 알려드리겠습니다. 기본적으로 간단합니다. 입력에 많은 중복이 있습니다.
 

그러나 0.9는 과적합입니다. 훈련 세트에서 0.6보다 큰 R^2는 현실적인 최대값입니다.

또한 상호 작용을 기억하십시오. 단일 연결은 잘못된 방향으로 이어질 수 있습니다.

나는 여기서 내 자신의 문제를 해결하려고 합니다. 단일 레이어 NS를 사용했습니다. R^2 테스트에서 0.148 이하입니다. 어울리지 않아...