트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2730

 
Aleksey Nikolayev #:

여기서 분명히 다변량 샘플 (각 요소는 테이블의 행, 벡터)에 대해 이야기하고 있지만 세 링크의 동질성 기준은 숫자 샘플에 관한 것입니다. matstat의 다변량 동질성 기준은 별도의 노래이며 저에게는 명확하지 않습니다.

각 예측 변수는 개별적으로 숫자 샘플이므로 개별적으로 평가하고 결과를 평균화하지 않는 이유는 무엇입니까? 대부분의 예측 변수에서 악화의 역학 관계가있는 경우 샘플이 중복됩니다.

알렉세이 니콜라이예프 #:

많은 변경 지점 탐지를 검색하는 작업처럼 보입니다. 다시 말하지만, 다변량(벡터) 케이스로 작업해야 하므로 상황이 매우 복잡해집니다.

그리고 일반적으로 저는 연구를 위해 어떤 속성을 선택하는지에 대한 의존성이 마음에 들지 않습니다. 다른 세트를 사용하면 결과가 달라질 수 있습니다.

특정 그룹에 대한 세그먼트의 소속을 식별하고 그룹화된 모집단에 대한 훈련의 효율성 측면에서 최상의 결과를 얻을 수 있는 변형을 찾아야 할 것입니다.

 
Aleksey Vyazmikin #:

샘플 내에서만 혼합할 수 있으며, 두 개의 샘플을 혼합하면 시장이 변화하고 있다는 것을 부정하는 것입니다.

논리가 다시 이해가 안 되시나요?
시장이 변화하고 있기 때문에 트레이닝 샘플의 최적 길이를 결정하기 위해 시리즈를 비교하는 것은 무의미합니다.

언제든 섞어도 아무 것도 바뀌지 않습니다.
 
Maxim Dmitrievsky #:
논리가 다시 보이지 않나요?
시장이 변화하고 있기 때문에 훈련 샘플의 최적 길이를 결정하기 위해 시리즈를 비교하는 것은 무의미합니다.

언제든지 혼합할 수 있으며, 아무것도 변경되지 않습니다.

시장이 변화하고 있다는 것을 어떻게 증명할 수 있나요? 이 과정은 얼마나 걸리나요? 아니면 끊임없이 변화하고 있나요?

 
Aleksey Vyazmikin #:

시장의 변동성을 어떻게 증명할 수 있나요? 이 과정은 얼마나 걸리나요? 아니면 끊임없이 변화할까요?

이제 유쾌한 논쟁이 시작되었습니다.
최소한 비고정성은 없습니다. 끊임없이 변화하고 때로는 잠시 멈춰서 휴식을 취하기도 합니다.
 
Maxim Dmitrievsky #:
이제 유쾌한 논쟁이 시작되었습니다.
적어도 불안정합니다. 끊임없이 변화하고 때로는 담배를 피우기 위해 멈추기도 합니다.

그렇다면 고정성/비고정성을 결정하기 위해 어떤 샘플 크기를 가져야 할까요?

패턴은 샘플 변화의 수명보다 오래 지속되지 않는다고 하셨는데, 만약 샘플에 8년 동안 반복되는 패턴이 있다면 어떻게 해야 할까요? 이상 현상인가요, 아니면 패턴이 모두 변하지 않거나 작은 영역에서 확인된 패턴이 다른 요인으로 인해 잘못된 것일까요?

 
Aleksey Vyazmikin #:

각 예측 변수는 개별적으로 숫자 샘플이므로 개별적으로 추정하고 그 결과를 평균하는 것은 어떨까요?

이것은 독립적 인 기능의 경우에만 작동하며 동일한 가격으로 계산되므로 불가능합니다. 의존성의 경우 모든 것이 훨씬 더 복잡해집니다. 단변량 분포는 항상 동일하지만 이변량 분포는 매우 다를 수 있는 코퓰라를 예로 들 수 있습니다.

알렉세이 뱌즈미킨 #:

특정 그룹에 대한 세그먼트의 소속을 식별하고 그룹화된 모집단에 대한 훈련의 효율성 측면에서 가장 좋은 결과를 제공하는 변형을 찾아야 할 것입니다.

무거운 열거형 계산에 대한 욕구가 있습니다.) 이미 상당한 양의 열거형에 기능 유형별 및 아마도 기능 매개 변수별 열거형을 추가해야 할 것입니다.

그럼에도 불구하고 귀하의 접근 방식에는 합리적인 곡물이있는 것 같으며 고려해야 할 사항이 있습니다.

 
Aleksey Vyazmikin #:

샘플(훈련과 적용)을 비교하는 것이 아이디어이고, 이론이 맞다면 샘플이 증가함에 따라 더 이상 유사하지 않을 것이며, 이를 이해하기 위해서는 유사성을 평가하는 방법에서 파생된 변화를 평가하는 기준이 필요하다고 쓰지 않았나요?

어쩌면 표본 동질성에 대한 통계적 기준 대신 모델의 특징 중요도 변화를 동적으로(슬라이딩 창에서) 관찰해야 할지도 모릅니다.

현재 상태와 이전 상태 사이에 큰 불일치가 있다면 이미 다른 샘플에 있다는 뜻입니다.....

장점
1. 통계를 프로그래밍할 필요가 없습니다. 테스트, 모든 것이 즉시 준비되어 있습니다.
2. 샘플의 시간 변화뿐만 아니라 대상 샘플의 변화도 고려하는데, 이는 그다지 중요하지 않다고 생각합니다.

 
Aleksey Vyazmikin #:

그리고 고정성/비고정성을 결정하기 위해 어떤 샘플 크기를 사용해야 하나요?

패턴은 샘플 변화의 수명보다 오래 지속되지 않는다고 했는데, 샘플에 8년 동안 반복되는 패턴이 있다면 어떻게 해야 하나요? 이상 현상인가요, 아니면 패턴이 모두 변하지 않거나 작은 영역에서 확인된 패턴이 다른 요인으로 인해 잘못된 것일까요?

저는 임의의 시간 척도에서 특정 추세의 수명을 말하는 것 이상은 아니라고 말하고 싶습니다.
그러나 그것은 느슨한 설명입니다.

한 지점에서 분기점까지.
 

모델은 다르지만 비슷하거나 다르거나 비슷하지 않은 모델은 어떻게 다를까요? 분기점이 반드시 모델의 변경으로 이어지는 것은 아니며 동일한 영역을 시각적으로 수동으로 표시 할 수 있지만 마지막에는 예측 부분이 없으며 목표는 모델의 상태 또는 준수 여부를 확인하는 샘플의 최소 길이를 찾는 것입니다.

모델의 복잡성, 물론 여기에도 모순이 있으며 간단한 모델은 충분히 필요한 긴 섹션을 설명하지 않지만 반복 될 것이며 복잡한 모델은 충분히 필요한 섹션을 길이로 설명 할 수 있지만 고유 할 수 있습니다. 항상 그렇듯이 중간에 무언가가 필요합니다))))))

 
Valeriy Yastremskiy 최소 샘플 길이를 찾는 것입니다.

모델의 복잡성, 물론 여기에는 모순도 있습니다. 간단한 모델은 충분히 필요한 긴 섹션을 설명하지 않지만 반복 될 것이며 복잡한 모델은 충분히 필요한 섹션을 길이로 설명 할 수 있지만 고유 할 수 있습니다. 항상 중간에 무언가가 필요합니다))))))

일반적으로 모델마다 무작위성 구현이 다르며 ) 같은 이유로 유사합니다.

특히 수십, 수백 개의 기능이 사용되는 경우 더욱 그렇습니다. 그들 중 일부는 앞으로 작동하고 일부는 그렇지 않습니다. 하지만 이를 선택할 수 있는 방법은 없습니다.

위에서 제안한 것처럼 좋은 달빛 식물의 도움으로 만.