트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2550

 
Alexey Nikolaev # :

일반적으로 훈련 후(기차에서) 하나의 모델이 아니라 메타 매개변수에 의해 결정된 모델 집합이 있습니다. 예를 들어, 보간 다항식의 다른 정도 또는 올가미 회귀에서 다른 정규화 계수 등이 있습니다. 그런 다음 메타 매개변수에 대한 최상의 값이 결정됩니다(최상의 모델은 테스트를 확인하여 집합에서 가져옴). 차례로, 테스트에서 메타-매개변수의 최적화는 또한 시험이 사용될 수 있는 최적화를 위해 일부 매개변수(메타-메타-매개변수)에 의해 결정될 수 있습니다. 예를 들어 초기 샘플을 학습과 테스트로 나누는 비율입니다.

그러나 아마도 나는 당신의 생각을 이해하지 못했을 것입니다)

가장 최적의 메타 매개변수는 하나의 테스트 섹션에 대해 선택되는 것이 아니라 교차 검증 또는 앞으로 걸어가면서 수집된 여러 개의 접착 섹션에 대해 선택됩니다. 최근에 논의됨 .
 
도서관 # :
가장 최적의 메타 매개변수는 하나의 테스트 섹션에 대해 선택되는 것이 아니라 교차 검증 또는 앞으로 걸어가면서 수집된 여러 개의 접착 섹션에 대해 선택됩니다. 최근에 논의됨 .

동의한다. 사실, 교차 검증도 어려운 방식으로 배열될 수 있고 다른 샘플에 최적화될 수도 있는 자체 매개변수(메타-메타-파라미터)에 의해 설정될 수 있다는 아이디어를 표현하고 싶었습니다. 천장에서).

 
Alexey Nikolaev # :

동의한다. 사실 저는 교차 검증이 어려운 방식으로 배열될 수 있고 자체 매개변수(메타-메타-매개변수)에 의해 설정될 수도 있다는 아이디어를 표현하고 싶었습니다. 천장에서 가져옴).

올바르게 이해됨 - 기차 샘플이 시험 샘플과 더 유사하도록 조치를 수행하는 것.

문제는 그럴 때 어떻게 하는 것이 가장 좋은가 하는 것입니다.

자주 사용되는 옵션 중 하나는 예측 변수를 열거하는 것입니다. 하지만 세트가 크면 예측 변수가 너무 많습니다. 예를 들어 두 샘플에서 대상 결과의 유사성과 안정성에 대해 문자열(예측자 집합)을 비교할 수 있습니까? 그런 다음 훈련 샘플에서 비정상적인(예: 시험 샘플에서 발견되지 않거나 희귀한) 라인을 제거할 수 있으며 이로 인해 이론상 훨씬 더 잘 학습합니다.

 
Aleksey Vyazmikin # :

올바르게 이해됨 - 기차 샘플이 시험 샘플과 더 유사하도록 조치를 수행하는 것.

문제는 그럴 때 어떻게 하는 것이 가장 좋은가 하는 것입니다.

자주 사용되는 옵션 중 하나는 예측 변수를 열거하는 것입니다. 하지만 세트가 크면 예측 변수가 너무 많습니다. 예를 들어 두 샘플에서 대상 결과의 유사성과 안정성에 대해 행(예측자 집합)을 비교할 수 있습니까? 그런 다음 훈련 샘플에서 비정상적인(예: 시험 샘플에서 발견되지 않거나 희귀한) 라인을 제거할 수 있으며 이로 인해 이론상 훨씬 더 잘 학습합니다.

Vladimir에 이에 대한 기사가 있었는데 그 패키지의 이름은 기억나지 않지만 그는 샘플에서 예측할 수 없는 줄을 던졌습니다.
 
mytarmailS # :
Vladimir에 이것에 대한 기사가 있었는데 그 패키지의 이름은 기억나지 않지만 그는 샘플에서 예측할 수 없는 줄을 던졌습니다.

흥미로운, 봐야 할 것입니다. 하지만 예측할 수 없는 것이 아니라 훈련 외부의 샘플에서 발견되지 않는 것을 버리고 싶습니다. 물론 어떻게든 표시를 하고 그냥 버리는 것이 아니라 식별하는 것도 흥미롭습니다.

 
Aleksey Vyazmikin # :

흥미로운, 봐야 할 것입니다. 하지만 예측할 수 없는 것이 아니라 훈련 외부의 샘플에서 발견되지 않는 것을 버리고 싶습니다. 물론 어떻게든 표시를 하고 그냥 버리는 것이 아니라 식별하는 것도 흥미롭습니다.

아마도 우리는 관찰에서 이상치를 제거하는 것에 대해 이야기하고 있습니다. 두 가지 유형이 될 수 있습니다. 반응의 크기와 예측 변수의 크기(둘 모두 하나의 관찰에서 결합될 수 있음). 실제로 배출량은 첫 번째라고 하고 두 번째는 일반적으로 어떻게든 다르게 부릅니다. 이 과학은 선형 회귀에 대해 잘 확립되어 있습니다. 아마도 테스트의 각 관찰이 테스트와 관련하여 어떤 의미에서 이상값인지 확인하는 것이 가능합니다.

 
Aleksey Vyazmikin # :

흥미로운, 봐야 할 것입니다. 하지만 예측할 수 없는 것이 아니라 훈련 외부의 샘플에서 발견되지 않는 것을 버리고 싶습니다. 물론 어떻게든 표시를 하고 그냥 버리는 것이 아니라 식별하는 것도 흥미롭습니다.

그것은 나무 모델을 통해 가능합니다 ..
모델을 규칙으로 확장하고 필요한 통계에 따라 규칙을 분석합니다(반복성은 다른 것입니다..). 규칙이 새 데이터에 나타나는지 확인하십시오.

"intrees"를 5줄의 코드로 패키징하고 이동
 
mytarmailS # :
Vladimir에 이것에 대한 기사가 있었는데 그 패키지의 이름은 기억나지 않지만 그는 샘플에서 예측할 수 없는 줄을 던졌습니다.

패키지   노이즈 필터R. 기사 를 확인하십시오.

 
도서관 # :
가장 최적의 메타 매개변수는 하나의 테스트 섹션이 아니라 교차 검증 또는 앞으로 진행하여 수집된 여러 접착 섹션에 대해 선택해야 합니다. 최근에 논의됨 .

그리고 CV의 결과를 가장 잘 활용하는 방법은 무엇입니까? 찾은 최상의 모델 매개변수를 가져온 다음 전체 데이터 세트에 대해 학습하거나 좋은 데이터 세트를 선택하는 데만 사용

예를 들어 출력은 다음과 같은 테이블입니다.

        iterations      test-Logloss-mean       test-Logloss-std        train-Logloss-mean      train-Logloss-std
0        0        0.689013          0.005904          0.681549          0.007307
1        1        0.685340          0.011887          0.660894          0.001061
2        2        0.685858          0.012818          0.641069          0.004738
3        3        0.685975          0.023640          0.629656          0.000656
4        4        0.686613          0.024923          0.612977          0.002072
...     ...     ...     ...     ...     ...
95        95        0.863043          0.402531          0.123702          0.028628
96        96        0.866321          0.406193          0.122224          0.028623
97        97        0.869681          0.409679          0.120777          0.028611
98        98        0.873030          0.413121          0.119361          0.028595
99        99        0.874569          0.419064          0.117974          0.028572
 
블라디미르 페레르벤코 # :

패키지   노이즈 필터R. 기사 를 확인하십시오.

소음 예측기로 모든 것이 다소 명확하다면 소음 예에서는 그다지 많지 않습니다. 나는 그것들을 정의하는 방법에 대해 더 알고 싶습니다(물론 R에는 항상 기사에 대한 링크가 있지만 이론상 사용된 패키지/함수의 이름이 아닙니다). 항상 시장에 진입하려는 욕구는 실수로 간주되기 때문에 분류할 때 "거래 금지" 등급이 있어야 한다는 것이 분명합니다. 그러나 이 클래스를 다소 형식적인 형태로 올바르게 설명하는 방법은 매우 명확하지 않습니다.

사유: