트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 1302

 
막심 드미트리예프스키 :

무엇보다도 많은 수의 "예측자"에 만족합니다. 따옴표는 어디에서 왔습니까? 90%는 쓰레기다.

누구나 자신의 환상을 다르게 설명하지만, 한 순간에 많은 돈을 가진 사람의 환상은 효과가 있습니다. 그러므로 참으로 많은 예측 변수가 있을 수 있으며 여기에는 모순이 보이지 않습니다. 마치 가지와 잎으로 구성된 관목과 비슷하지만, 누군가가 그것들을 서로 다른 복잡한 형상으로 자르고 명상하는 사람들 사이에서 다른 반응을 일으키는 경우가 발생합니다.

 
알렉세이 비아즈미킨 :

사람마다 자신의 환상을 다르게 설명하고, 어느 시점에 돈이 많은 사람의 환상이 작동합니다. 그러므로 참으로 많은 예측 변수가 있을 수 있으며 여기에는 모순이 보이지 않습니다. 마치 가지와 잎으로 구성된 관목과 비슷하지만, 누군가가 그것들을 서로 다른 복잡한 형상으로 자르고 명상하는 사람들 사이에서 다른 반응을 일으키는 경우가 발생합니다.

글쎄, 각자에게 그러한 세심함은 어쨌든 나를 치솟게합니다. 어쨌든 무엇에 맞게, 가장 중요한 것은 그것이 얼마 동안 작동 할 것이라는 것입니다.

최적의 입력/출력 조합을 찾으면 4개의 예측 변수로 충분합니다.

요컨대, 효율성과 시간 사이의 타협이 필요합니다

 
막심 드미트리예프스키 :

어느 방향으로 파지 않는지 - 도처에 일부 환상적 "패턴"이 있을 것이며, 모든 현상에서 찾을 수 있습니다.

무엇보다도 많은 수의 "예측자"에 만족합니다. 따옴표는 어디에서 왔습니까? 90%는 쓰레기다.

그렇구나, 쓰레기. 그리고 개별적으로 취한 각 표시기는 약 50/50을 제공하며 또한 판독 값이 실제로 의미가있는 매우 좁은 작동 범위를 갖습니다.

그러나 함께 종합하면 ... 그들은 이미 다른 지표의 적용 범위를 제한하고, 말하자면, 그들의 관절 표시가 이미 의미가있는 N 차원 공간의 영역을 정의합니다. 이게 유행어-시너지라고 하는 것 같습니다.))

내 생각에 따르면 작업에는 약 7-8 개의 예측 지표가 필요합니다. 유일한 문제는 동일한 것을 측정할 필요가 없다는 것입니다.)

 
막심 드미트리예프스키 :

글쎄, 각자에게 그러한 세심함은 어쨌든 나를 치솟게합니다. 어쨌든 무엇에 맞게, 가장 중요한 것은 그것이 얼마 동안 작동 할 것이라는 것입니다.

최적의 입력/출력 조합을 찾으면 4개의 예측 변수로 충분합니다.

요컨대, 효율성과 시간 사이의 타협이 필요합니다

그게 바로 요점입니다. 가장 중요한 것은 작동한다는 것입니다 ...

그러나 지금까지 다음과 같은 사실이 밝혀졌습니다.

1. 대형 모델은 메모리 효과로 인해 과적합됩니다.

2. 규칙(리프/바이너리 트리)이 히스토리에서 더 잘 작동할수록 프로덕션에서 더 적은 기회가 있습니다.

그렇지 않으면 역사에 대한 높은 정확도와 높은 수입으로 그러한 성배가 나옵니다.

그리고 해당 연도의 시험 샘플(차트에서 사용 가능)에서 이익은 총 1000이고(자금 인출은 거의 동일함) 정확도는 58%로 떨어집니다.

테스트는 "확률"이 0.6이고 확률이 0.5인 1/0 분할 활성화로 수행되었으며 비 훈련 기간에는 5000의 영역에서 이익이 있지만 테스트 기간에는 57의 영역과 차트는 더 많이 걷고 정확도는 더 낮습니다.

이것은 훈련 기간 동안 매우 좋은 판독 값이 재훈련을 보장한다는 것을 의미합니까?

 
알렉세이 비아즈미킨 :

그러나 약 57의 시험 기간에

이것은 훈련 기간 동안 매우 좋은 판독 값이 재훈련을 보장한다는 것을 의미합니까?

테스트의 정확도 57%는 너무 높아도 매우 좋지만 학습과 테스트에서 결과가 다를수록 과적합의 가능성이 높아집니다.

 
성배 :

테스트의 정확도 57%는 너무 높아도 매우 좋지만 학습과 테스트에서 결과가 다를수록 과적합의 가능성이 높아집니다.

그래서 나는 미래가 알려지지 않았다는 사실에서 출발하고 아무도 훈련 이외의 샘플에서 모든 것이 당신과 함께 잘 될 것이라고 말하지 않을 것입니다 ... 그것이 내가 어떤 종류의 연결을 찾고있는 이유입니다.

그리고 정확성(그리고 이것은 정확성이 아니라 누락된 항목이 고려되지 않았기 때문에 1이어야 했을 때 0으로 분류된 항목), 이익이 손실과 같지 않기 때문에 모든 것이 명확하지 않습니다. - 손실보다 이익이 더 클 수도 있고 그 반대일 수도 있습니다. 예, 모델이 작동하는 것처럼 보이지만 수입을 가져 오지 않는 것으로 나타났습니다.

 
알렉세이 비아즈미킨 :

그게 바로 요점입니다. 가장 중요한 것은 작동한다는 것입니다 ...

그러나 지금까지 다음과 같은 사실이 밝혀졌습니다.

1. 대형 모델은 메모리 효과로 인해 과적합됩니다.

2. 규칙(리프/바이너리 트리)이 히스토리에서 더 잘 작동할수록 프로덕션에서 더 적은 기회가 있습니다.

그렇지 않으면 역사에 대한 높은 정확도와 높은 수입으로 그러한 성배가 나옵니다.

그리고 해당 연도의 시험 샘플(차트에서 사용 가능)에서 이익은 총 1000이고(자금 인출은 거의 동일함) 정확도는 58%로 떨어집니다.

테스트는 "확률"이 0.6이고 확률이 0.5인 1/0 분할 활성화로 수행되었으며 비 훈련 기간에는 5000의 영역에서 이익이 있지만 테스트 기간에는 57의 영역과 차트는 더 많이 걷고 정확도는 더 낮습니다.

이것은 훈련 기간 동안 매우 좋은 판독 값이 재훈련을 보장한다는 것을 의미합니까?

일반적으로 예

더 많은 기능, 더 많은 재교육
 
성배 :

테스트의 정확도 57%는 너무 높아도 매우 좋지만 학습과 테스트에서 결과가 다를수록 과적합의 가능성이 높아집니다.

여기 누군가에게 무작위는 좋은데, 그들은 미쳐버렸습니다)) random + 7% non-random is bad, but little better than random

아니 나쁘지 않아.. 역겹다, 전혀 모델이 아니야.

모두들 머신러닝과 터버의 기초를 급히 배우기 위해

특히 성장 일정이 57%인 경우 선험적으로 재교육으로 즉시 볼 수 있으며 더 이상 분석하지 않아도 됩니다.
 
막심 드미트리예프스키 :

여기 누군가에게 무작위는 좋은 것, 그들은 미쳤습니다)) random + 7% non-random is bad, but little better than random

아니 나쁘지 않아.. 역겹다, 전혀 모델이 아니야.

모두들 머신러닝과 터버의 기초를 급히 배우기 위해

현재 훈련 이외의 모델은 얼마나 정확합니까? 그리고 어떤 기간에 이 지표가 어떻게 하락(변화)합니까?

10개월의 방과후 기간이 있습니다.

 
알렉세이 비아즈미킨 :

훈련 외 모델의 현재 정확도는 얼마입니까? 그리고 어떤 기간에 이 지표가 어떻게 하락(변화)합니까?

10개월의 방과후 기간이 있습니다.

테스트당 10% 오류 및 ~10,000개 예제에 대해 교육, 증가하면 원활하게 증가

이러한 오류와 함께 모델은 새 데이터 작업을 시작했습니다.

다양한 방법으로 유효성 검사를 수행할 때 옵션을 정렬해야 합니다.

더 이상 알고리즘 공개 안 하고 그냥 소통해요
사유: