트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1373

 
도서관 :
나는 R에서 Darch를 보았다. 의견에 설명된 몇 가지 버그를 찾았습니다. 몇 주간의 침묵 끝에 이 Darch는 CRANa 아카이브에 보관되었습니다.
나는 개발자에게 그것을 수정하고 무언가를 고칠 것을 요청했고 그는 그것을했습니다. 그런 다음 그는 일반적으로 초기 버전으로 롤백하여 모든 수정 사항을 삭제했습니다. 결과적으로 내가 사용한 모든 수정 사항을 사용할 수 없게 되었습니다.
결론 - 모든 것을 스스로 하거나 och와 함께 최고급 제품을 사용하십시오. 좋은 지원.

1. 모든 변경 사항을 포크하고 직접 수행해야 합니다. 수락되거나 수락되지 않을 수 있지만 GitHub에서 버전을 사용할 수 있습니다.

2. 물론 이것이 가장 안정적인 옵션입니다.

 
막심 드미트리예프스키 :

복잡한 것을 추구하지만 단순한 것이 얼마나 아름다운지 이해하지 못하는 사람들을 위해

그리고 영어. 물론 요청대로. 아니요, 번역하지 않겠습니다. 영상에는 기사를 번역할 수 있는 사이트 링크가 있습니다.


이 매우 흥미로운 보고서는 단순한 것과 복잡한 것에 관한 것이 아닙니다. 복잡한 전처리를 사용하면 문제의 솔루션을 간단한 모델로 줄일 수 있다는 사실을 강조합니다. 내 기사에서 반복하는 것이 지겹지 않다는 단순한 진실에 대한 확인입니다.

스피커가 재미있습니다.

행운을 빕니다

 
블라디미르 페레르벤코 :

이 매우 흥미로운 보고서는 단순한 것과 복잡한 것에 관한 것이 아닙니다. 복잡한 전처리를 사용하면 문제의 솔루션을 간단한 모델로 줄일 수 있다는 사실을 강조합니다. 내 기사에서 결코 반복하는 데 지치지 않는 단순한 진실에 대한 확인입니다.

스피커가 재미있습니다.

행운을 빕니다

XGBOOST 에는 행 가중치가 있는 입력 배열 가중치가 있습니다. 다른 패키지에도 이 기능이 있습니다.
나는 거기에서 1(신선한 경우)에서 오래된 줄의 경우 0.5까지 줄의 가중치를 기록할 수 있다고 생각했습니다. 이것은 새로운 데이터의 영향력을 증가시킬 것입니다.
나는 시도했다 - 나는 많은 개선을 느끼지 못했습니다.

다른 사람이 시도한 적이 있습니까? 개선 사항이 있습니까?

 
도서관 :
XGBOOST에는 행 가중치가 있는 입력 배열 가중치가 있습니다. 다른 패키지에도 이 기능이 있습니다.
나는 거기에서 1(신선한 경우)에서 오래된 줄의 경우 0.5까지 줄의 가중치를 기록할 수 있다고 생각했습니다. 이것은 새로운 데이터의 영향력을 증가시킬 것입니다.
나는 시도했다 - 나는 많은 개선을 느끼지 못했습니다.

다른 사람이 시도한 적이 있습니까? 개선 사항이 있습니까?

약간 잘못되었습니다. 예를 들어 train[2000, ] 및 test[500, ]가 있습니다. 초기 샘플 가중치 = 1.0으로 기차에서 훈련하고, test[]가 훈련된 모델을 예측하도록 합니다. 각 테스트 예제의 예측 변수의 품질에 따라 가중치를 설정합니다. 다음으로, 훈련과 테스트를 결합하고 새로운 훈련 세트를 형성하고, 모델을 훈련하고, 테스트하는 등의 작업을 수행합니다. 전체 학습 샘플이 이러한 방식으로 얻은 가중치를 가질 때까지. 오래된 막대에 감소 계수를 적용하는 것이 가능하지만 나는 이것을 테스트하지 않았습니다. 물론 이 모든 것은 분류를 위한 것입니다.

now_train <- rbind(train,test)%>% tail(dim(train)[ 1 ])

ELM으로 테스트한 결과 좋은 결과를 얻었습니다.

행운을 빕니다

 
블라디미르 페레르벤코 :

약간 잘못되었습니다. 예를 들어 train[2000, ] 및 test[500, ]가 있습니다. 초기 샘플 가중치 = 1.0으로 nrain에서 훈련하고, test[]가 훈련된 모델을 예측하도록 합니다. 각 테스트 예제의 예측 변수의 품질에 따라 가중치를 설정합니다. 다음으로, 훈련과 테스트를 결합하고 새로운 훈련 세트를 형성하고, 모델을 훈련하고, 테스트하는 등의 작업을 수행합니다. 전체 학습 샘플이 이러한 방식으로 얻은 가중치를 가질 때까지. 오래된 막대에 감소 계수를 적용하는 것이 가능하지만 나는 이것을 테스트하지 않았습니다. 물론 이 모든 것은 분류를 위한 것입니다.

ELM으로 테스트한 결과 좋은 결과를 얻었습니다.

행운을 빕니다

교차 검증과 같습니다. 데이터를 5-10개 부분으로 나누고 모든 항목이 내려질 때까지 각 주기의 일부 라인에 가중치를 두십시오. 균형을 잡기 위해서는 2-3개의 완전한 서클을 해야 한다고 생각합니다.

최고의 행 가중치를 설정하기 위해 독학으로 여러 번 반복했던 것이 생각납니다.
 
도서관 :
교차 검증과 같습니다. 데이터를 5-10개 부분으로 나누고 모든 항목이 내려질 때까지 각 주기의 일부 라인에 가중치를 두십시오. 균형을 잡기 위해서는 2-3개의 완전한 서클을 해야 한다고 생각합니다.

최고의 행 가중치를 설정하기 위해 독학으로 여러 번 반복했던 것이 생각납니다.

크로스 모드로 확인할 수 있습니다.

 
도서관 :
XGBOOST에는 행 가중치가 있는 입력 배열 가중치가 있습니다. 다른 패키지에도 이 기능이 있습니다.
나는 거기에서 1(신선한 경우)에서 오래된 줄의 경우 0.5까지 줄의 가중치를 기록할 수 있다고 생각했습니다. 이것은 새로운 데이터의 영향력을 증가시킬 것입니다.
나는 시도했다 - 나는 많은 개선을 느끼지 못했습니다.

다른 사람이 시도한 적이 있습니까? 개선 사항이 있습니까?

글쎄, 새로운 것들 아래에서만 배우십시오. 이 가중치는 데이터 세트에서 모델의 분산을 균등화하는 데 사용되며, 가변 분산이 있는 로짓 회귀에서도 사용됩니다(혼동하지 않는 경우)

데이터 세트에 맞추는 것을 제외하고는 개념적으로 유의미한 개선을 제공해서는 안 됩니다.

작은 부분 표본에 대한 모집단에 대한 유효한 일반화가 필요한 경우 다음이 베이지안 접근 방식입니다.
 
도서관 :
XGBOOST에는 행 가중치가 있는 입력 배열 가중치가 있습니다. 다른 패키지에도 이 기능이 있습니다.
나는 거기에서 1(신선한 경우)에서 오래된 줄의 경우 0.5까지 줄의 가중치를 기록할 수 있다고 생각했습니다. 이것은 새로운 데이터의 영향력을 증가시킬 것입니다.
나는 시도했다 - 나는 많은 개선을 느끼지 못했습니다.

다른 사람이 시도한 적이 있습니까? 개선 사항이 있습니까?

이론적으로 이러한 가중치는 첫 번째 트리의 구성에 영향을 미칩니다. 거의 동일한 종자와 자루에 담기, 다른 방법. 이론적으로 잘 구분된 예측 변수 가 올바른 분류를 제공하는 행의 배경으로 이동하면 결과가 크게 바뀔 수 있습니다.

그리고 X split부터만 예측자의 적용을 설정하는 방법은 없나요? 이것은 좋은 모델을 찾는 데 매우 유용한 일이라고 생각합니다.
 
막심 드미트리예프스키 :

글쎄, 새로운 것들 아래에서만 배우십시오. 이 가중치는 데이터 세트 에서 모델의 분산을 균등화하는 데 사용되며 , 가변 분산이 있는 로짓 회귀에서도 사용됩니다(혼동하지 않는 경우)

데이터 세트에 맞추는 것을 제외하고는 개념적으로 유의미한 개선을 제공해서는 안 됩니다.

작은 부분 표본에 대한 모집단에 대한 유효한 일반화가 필요한 경우 다음이 베이지안 접근 방식입니다.

저것들. 정렬은 Vladimir가 제안한 방법으로 선택됩니까?

 
알렉세이 비아즈미킨 :

이론적으로 이러한 가중치는 첫 번째 트리의 구성에 영향을 미칩니다. 거의 동일한 종자와 자루에 담기, 다른 방법. 이론적으로 잘 구분된 예측 변수가 올바른 분류를 제공하는 행의 배경으로 이동하면 결과가 크게 바뀔 수 있습니다.

그리고 X split부터만 예측자의 적용을 설정하는 방법은 없나요? 이것은 좋은 모델을 찾는 데 매우 유용한 일이라고 생각합니다.

이 가중치는 부스팅뿐만 아니라 경우에도 있습니다. 산림은 또한 국회에 공급될 수 있습니다. 분명히 이 기술은 모든 MO 시스템에 공통적입니다.
오래된 데이터의 영향을 줄이는 첫 번째 실험은 개선되지 않았습니다.

30,000개 라인에 대해 훈련할 때 테스트는 80,000개에 대해 훈련할 때보다 더 잘 보입니다. 80,000개에서 더 적은 트랜잭션이 있고 오류가 더 높습니다. 나는 비례적으로 무게를 줄이려고 시도했습니다(신선한 경우 1에서 오래된 경우 0.5로). 결과는 거의 변하지 않았습니다.


분명히 이것은 Vladimir가 설명한 방법으로 Maxim이 지적한 대로 분산을 균등화하는 것과 동일합니다.

사유: