6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.
다른 어떤 결론을 도출할 수 있나요?
스레드 진행 중에 정량화 방법을 놓쳤습니다. 죄송합니다. 다시 알려주세요.
시계열의 정량화는 매우 중요합니다. 예를 들어 렌코 방법으로 가격을 정량화하면 SB (적어도 통계적으로 관련이 있음)를 얻을 수 있으므로 "정량화하지 않으면 여전히 XXX를 얻을 수 있습니다"라는 표현은 적어도 정보를 파괴하는 정량화가 있다면 정보를 추출하는 정량화가있을 수 있기 때문에 최소한 과소 평가 된 것 같습니다. 물론 틱 스트림에 정보가 있다는 전제하에 말입니다(그렇지 않다면 MO의 적용은 무의미할 것이기 때문에 우리는 그것을 간절히 바라고 있습니다).
한 클래스에 속할 확률이 표본 평균에서 5% 이상 변화하는 것은 신호의 수와 표본에 대한 분포뿐만 아니라 중요한 정보로 간주됩니다.
맥심에서 최근 언급한 파이 해킹과 비슷해 보입니다. 할당 된 퀀타의 중요성을 결정하기 위해 일부 통계 테스트를 사용하지 않는 한 확실히 그 사람입니다.
SB에서 거래하기 가장 좋은 시간을 선택한 간단한 예를 든 적이 있습니다 (분명히 존재하지 않는 경우). 5 * 24 = 120 개의 변형 만 있었지만 그러한 시간이 항상 발견되는 것으로 충분했습니다 (시간 간격은 반년이라고 생각합니다). 거기에도 "샘플링 안정성"이 있습니다.
첫 번째 반복에서 가격이 무작위로 선택되면 테스트/시험 샘플에서 결과가 크게 변경되나요?
제가 직접 대답하겠습니다 - 네, 그렇습니다.
저는 신호(문자열)를 제외할 첫 번째 양자 세그먼트를 무작위로 1000번 선택했습니다.
다음은 다른 무작위 첫 번째 양자 반복 (나뭇잎 일 수 있음)으로 프로세스가 어떻게 진행되었는지 보여주는 몇 가지 예제 gif입니다.
그리고 다음은 중간 반복의 순간, 즉 다양한 선택 및 무작위화 단계의 정적인 그림입니다.
어떤 결론을 도출할 수 있을까요?
1. 운이 좋으면 무작위로 작업 패턴을 찾을 수 있습니다.)
2. 잘못된 패턴의 수를 줄이지 않고서는 탐욕의 원리만으로는 모델을 구축하기 어렵습니다.
3. 양자 세그먼트 또는 시트에서 관찰되는 규칙성을 추정하는 방법을 개발해야 합니다.
4. 무작위성이 머신러닝에서 성공적이라는 것을 증명하지는 않습니다.
5. 논리적으로 유효한 모델이 성공하려면 필요합니다.
6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.
다른 어떤 결론을 도출할 수 있나요?
...
어떤 결론을 내릴 수 있을까요?
1. 운이 좋으면 무작위로 작동하는 모델을 찾을 수 있습니다 :)
2. 잘못된 패턴의 수를 줄이지 않으면 탐욕의 원리만으로 모델을 구축하기 어렵습니다.
3. 양자 세그먼트 또는 시트에서 관찰되는 규칙성을 추정하는 방법을 개발해야 합니다.
4. 무작위성이 머신러닝에서 성공적이라는 것을 증명하지는 않습니다.
5. 성공하려면 논리적으로 유효한 모델이 필요합니다.
6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.
다른 어떤 결론을 도출할 수 있나요?
스레드 진행 중에 정량화 방법을 놓쳤습니다. 죄송합니다. 다시 알려주세요.
시계열의 정량화는 매우 중요합니다. 예를 들어 렌코 방법으로 가격을 정량화하면 SB (적어도 통계적으로 관련이 있음)를 얻을 수 있으므로 "정량화하지 않으면 여전히 XXX를 얻을 수 있습니다"라는 표현은 적어도 정보를 파괴하는 정량화가 있다면 정보를 추출하는 정량화가있을 수 있기 때문에 최소한 과소 평가 된 것 같습니다. 물론 틱 스트림에 정보가 있다는 전제하에 말입니다(그렇지 않다면 MO의 적용은 무의미할 것이기 때문에 우리는 그것을 간절히 바라고 있습니다).
Andrey Dik #:
렌코 방법을 사용하여 가격을 정량화하면 SB(적어도 통계적으로 관련성이 있는)를 얻습니다.
SB는 막대보다 더 이상 없다고 생각합니다.
더 이상 바만 있는 SB는 없다고 생각합니다.
바에 대한 통계는 SB 성능과 매우 다르기 때문에 훨씬 더 큰 SB가 필요하다고 생각합니다.
아직 MO로 티키를 사용해 본 사람은 없는 것 같아요.
적어도 시리즈를 정량화하지는 않았을 겁니다.
즉, 규칙성이 아니라 결코 달성 할 수없고 역사상 발생하지 않는 가격 (틱) 시리즈 ( "시계열"을 사용하고 싶지 않음)의 상태를 검색하는 것이 유망 해 보입니다.
이를 통해 트레이더에게 유리한 전략을 수립하기 위해 경계 조건을 사용할 수 있습니다.
스레드를 작성하는 과정에서 간과했습니다. 죄송합니다. 정량화 방법을 다시 알려주세요.
"정량화된 컷오프"의 개념은 간단한 개념으로, 샘플의 각 라인에 숫자 값이 있는 예측자의 범위입니다. 범위 내에 있는 모든 것이 하나의 단위가 됩니다.
범위로 분할하는 방법은 여러 가지가 있을 수 있으며, 저는 CatBoost에 내장된 변형(부스팅에서는 필요한 RAM을 줄이고 차원을 줄이기 위해 자주 사용됨)과 저만의 변형(예: 다른 숫자 시퀀스)을 모두 사용합니다.
예측자가 얻은 그리드를 사용하여 어떤 식 으로든 범위로 나눈 후 각 세그먼트를 차례로 가져와 그 안에있는 정보 값을 평가합니다.
샘플의 평균값에서 5% 이상 클래스에 속할 확률의 변화는 가치 있는 정보로 간주되며, 샘플의 신호 수와 분포도 고려됩니다.
샘플에 이진 목표가 있는 경우, 0 또는 1을 맞힐 확률이 그에 따라 이동하는 두 개의 양자 세그먼트 그룹을 얻습니다.
각 양자 세그먼트에 고유한 열이 있는 새 샘플을 생성하고, 해당 범위에 신호가 있으면 "1"을, 없으면 "0"을 입력합니다.
이에 대한 답은 '그렇다'입니다.
신호(문자열)를 제외할 첫 번째 양자 세그먼트를 무작위로 1000번 선택했습니다.
다음은 서로 다른 임의의 첫 번째 양자 세그먼트(나뭇잎일 수 있음)를 사용하여 프로세스가 어떻게 진행되었는지 보여주는 몇 가지 예시입니다.
그리고 다음은 중간 반복의 순간, 즉 다양한 선택 및 무작위화 단계의 정적인 사진입니다.
어떤 결론을 도출할 수 있을까요?
1. 운이 좋으면 무작위로 작동하는 모델을 찾을 수 있습니다.)
2. 잘못된 패턴의 수를 줄이지 않으면 탐욕의 원리만으로 모델을 구축하기 어렵습니다.
3. 양자 세그먼트 또는 시트에서 관찰되는 규칙성을 추정하는 방법을 개발해야 합니다.
4. 무작위성이 머신러닝에서 성공적이라는 것을 증명하지는 않습니다.
5. 성공하려면 논리적으로 유효한 모델이 필요합니다.
6. 테스트 샘플에서의 성공이 항상 시험 샘플에서의 성공을 의미하는 것은 아니며, 그 반대의 경우도 마찬가지입니다.
어떤 다른 결론을 도출할 수 있나요?
한 클래스에 속할 확률이 표본 평균에서 5% 이상 변화하는 것은 신호의 수와 표본에 대한 분포뿐만 아니라 중요한 정보로 간주됩니다.
맥심에서 최근 언급한 파이 해킹과 비슷해 보입니다. 할당 된 퀀타의 중요성을 결정하기 위해 일부 통계 테스트를 사용하지 않는 한 확실히 그 사람입니다.
SB에서 거래하기 가장 좋은 시간을 선택한 간단한 예를 든 적이 있습니다 (분명히 존재하지 않는 경우). 5 * 24 = 120 개의 변형 만 있었지만 그러한 시간이 항상 발견되는 것으로 충분했습니다 (시간 간격은 반년이라고 생각합니다). 거기에도 "샘플링 안정성"이 있습니다.
즉, 규칙성이 아니라 결코 달성 할 수없고 역사상 발생하지 않는 가격 (틱) 시리즈 ( "시계열"을 사용하고 싶지 않음)의 상태를 검색하는 것이 "반대 방법"으로 행동하는 것이 유망 해 보입니다.
이를 통해 트레이더에게 유리한 전략을 수립하기 위한 경계 조건을 사용할 수 있습니다.