트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2792

 
Maxim Dmitrievsky #:
1년 이상 전에 클러스터링으로 동일한 작업을 수행한 다음 그림과 같이 평균 수준을 결정하고 주문을 배치했습니다. 위, 아래, 평균 회귀의 3 개의 클러스터로 나뉩니다. 그것은 훈련에 잘 작동합니다.
재미있는 점은 어떤 특별한 수단을 사용하더라도 무작위에서 좋은 것을 얻을 수 없다는 것입니다.

네. 가격에서 아무것도 얻을 수 없는 것 같네요. 다른 건 없어요. 증권 거래소에도 거래량이 있습니다.
분명히 FA는 무언가를 줄 수있는 유일한 것입니다. 그리고 수동으로하는 것이 더 나을 것입니다. 그러나 거기에서도 착각 할 수 있으며 가짜 뉴스가 활발히 작동하고 있습니다.

 
Maxim Dmitrievsky #:

속성을 거꾸로 이동하여 속성의 정보성을 확인했습니다. 즉, 속성 기록의 마지막 값이 아니라 과거로 들여쓰기를 한 값을 가져옵니다. 들여쓰기를 50번 했습니다. (0에서 -50바까지)

막대의 오른쪽 열 들여쓰기, 왼쪽 열의 상호 정보에서. 들여쓰기는 칩과 레이블 간의 상호 정보의 오름차순으로 이루어집니다.

마지막 가격이 항상 이전 가격보다 나은 것은 아니며 제로 막대와 관련하여 -11 막대에서 약간의 상승이 있습니다:

표시

"상호 정보"란 무엇을 의미합니까? 소설이 마크에 미치는 영향이 흥미롭습니까? 상호 영향력이 흥미롭나요? "상호 정보"는 어떻게 계산되나요?

 
СанСаныч Фоменко #:

"상호 정보"란 무엇을 의미하나요? 태그에 대한 피쉬의 효과가 흥미롭나요? 상호 영향력이 흥미롭나요? "상호 정보"는 어떻게 계산되나요?

질문으로 저를 당황하게 하고 있습니다.

 
Maxim Dmitrievsky #:

속성을 거꾸로 이동하여 속성의 정보성을 확인했습니다. 즉, 속성 기록의 마지막 값이 아니라 과거로 들여쓰기를 한 값을 가져옵니다. 들여쓰기를 50번 했습니다. (0에서 -50바까지)

막대의 오른쪽 열 들여쓰기, 왼쪽 열의 상호 정보에서. 들여쓰기는 칩과 레이블 간의 상호 정보의 오름차순으로 이루어집니다.

마지막 가격이 항상 이전 가격보다 나은 것은 아니며 제로 막대와 관련하여 -11 막대에서 약간의 상승이 있습니다:

표시

H1 수정?

0   0.001554  23
1   0.001612  22
2   0.001708  15
3   0.001783  24
하루 주기로 보입니다. 22-24시간이 가장 유익합니다. 따라서 오늘은 어제와 동일합니다.
 
Maxim Dmitrievsky #:

질문으로 저를 당황하게 만드세요

왜 난감할까요?

저에게 있어 특징, 칩, 레이블이 있는 예측자의 영향력, 연결성, 예측력은 다음 예로 설명할 수 있습니다.

남성과 여성이라는 두 가지 값을 갖는 "사람"이라는 레이블이 있다고 가정해 보겠습니다.

바지와 치마라는 두 가지 값을 갖는 '의류' 태그가 있고, 바지와 치마가 다른 값의 수가 수백 또는 수천 개라고 가정해 보겠습니다.

남성은 바지만 입고 여성은 치마만 입는다고 가정해 보겠습니다. 그러면 이러한 피케는 오류 없이 라벨을 결정합니다(즉, 예측 오차 = 0%). 우리는 피시가 영향을 미치고, 바인딩되고, 레이블을 100% 예측한다고 생각할 수 있습니다. 이러한 조건이 향후에도 유지되면 오류는 변경되지 않고 =- 0%가 됩니다.

현대 사회에서는 그렇지 않으며 예측 오류가 있으며 그 크기는 알 수 없으며 피쉬의 채우기에 따라 달라질 수 있습니다.

소프트웨어 패키지의 형태로 구현 된 많은 접근 방식이 있으며, 예를 들어 여성의 일부 부분을 바지에 대한 사랑에 대한 우리의 예를 들어 남성은 마크와 칩의 100 % 연결과 약간의 차이를 보여줍니다.


그래프가 이를 잘 보여줍니다.

쓸모없는 기능의 예입니다:


상당히 유망한 피시의 예입니다. 교차점은 예측 오류입니다. 이전 그래프에서 한 칩이 다른 칩과 완전히 겹쳤습니다. 예측 오차는 50%입니다.


이것은 첫 번째 그래프에서 칩의 차이를 측정한 것입니까, 아니면 두 번째 그래프에서 칩의 차이를 측정한 것입니까? 추정치의 차이는 2.5배입니다. 하지만 이 수치는 상대적인 것입니다. 모든 기능이 쓰레기인가요, 일부 또는 전부가 훌륭한가요?

 
구글에서 찾아보세요. 위키백과를 인용하고 싶지 않으니까요. 연결의 척도는 상관 관계의 경우처럼 기하학적 일 수 있고 Mi의 경우 정보 일 수 있습니다.

나는 왜 내가 다른 사람의 게으름과 싸워야하는지 이해하지 못합니다 (당신 자신이 이전에 인정한 바 있습니다).

하나의 좋은 접근 방식을 제공하면 많은 수의 패킷이 필요하지 않습니다. 이름이면 충분합니다.
 
Maxim Dmitrievsky 기하학적일 수도 있고, Mi의 경우처럼 정보적일 수도 있습니다.

왜 내가 다른 사람의 게으름과 싸워야하는지 모르겠습니다. 나 자신에게 인정하곤했던 )

네, 알았어요. 그렇게하자

 
СанСаныч Фоменко #:

네, 알겠습니다. 그러세요

결과를 제시하지 않고 많은 좋은 패키지를 언급할 뿐만 아니라 정확히 무엇을 의미하는지 추측하게 만듭니다. 구체적인 내용을 논의하는 경우에는 구체적인 결과와 함께 구체적으로 작성하세요.

확장 배포에 대한 진부한 예시인데, 효율적으로 배포하는 방법을 보여주세요.
정보 관계는 귀하가 명명했습니다. 그것은 엔트로피와 그 기초에 대한 상호 정보입니다. 500번이나 써야 하나요? 엔트로피는 한 계열에 대해, 상호 정보는 2에 대해 정의됩니다.
 

모델과 관련이없는 일부 방법 및 패키지가 아닌 모델 자체로 기능을 평가하는 것이 좋습니다.
2 년 전에 https://www.mql5.com/ru/blogs/post/737458의 중요성을 평가하는 방법을 비교했습니다.

모델 자체를 샘플로 사용했습니다. 그 중 하나를 제거하여 (기능 수에 따라) N 번 훈련했습니다.
피처를 제거한 후 결과가 더 나빠질수록 그 피처가 더 중요하다고 판단했습니다. 또한 제거하면 결과가 개선되는 칩, 즉 노이즈가 분명한 칩도 있었습니다.

기능의 중요성을 결정하는 변형 중 어느 것도 예시적인 중요도와 유사하지 않았습니다. 상호 정보와 다른 패키지도 일관성이 없을 수 있습니다.

Сравнение разных методов оценки важности предикторов.
Сравнение разных методов оценки важности предикторов.
  • www.mql5.com
Провел сравнение разных методов оценки важности предикторов. Тесты проводил на данных титаника (36 фичей и 891 строки) при помощи случайного леса из 100 деревьев. Распечатка с результатами ниже. За
 
elibrarius #:

모델과 관련이없는 일부 방법 및 패키지가 아닌 모델 자체로 기능을 평가하는 것이 좋습니다.
2 년 전 중요도 평가 방법을 비교했습니다 https://www.mql5.com/ru/blogs/post/737458

모델 자체를 샘플로 사용했습니다. 기능 중 하나를 제거하여 (기능 수에 따라) N 번 훈련했습니다.
피처를 제거한 후 결과가 더 나빠질수록 그 피처가 더 중요하다는 것을 알 수 있었습니다. 또한 제거하면 결과가 개선되는 칩, 즉 노이즈가 분명한 칩도 있었습니다.

기능의 중요도를 결정하는 방식 중 어느 것도 예시적인 중요도와 유사하지 않았습니다. 상호 정보와 다른 패키지도 일관성이 없을 수 있습니다.

첫 번째 근사치로는 확실히 맞습니다. 성능 측정값으로 모델을 평가한다는 의미라면 최종 점수가 있어야 합니다.

하지만 모든 것보다 더 중요한 뉘앙스가 있습니다.

성능을 통해 모델을 평가하는 것은 과거 데이터에 대한 평가입니다. 하지만 모델이 앞으로 어떻게 작동할까요?

기능 자체를 평가하는 경우, 창을 실행하여 각 기능의 점수 값 변화에 대한 통계를 개별적으로 얻을 수 있습니다. 그리고 제 생각에는 중요도 점수의 변동이 적은, 가급적이면 10% 미만인 기능을 사용하는 것이 바람직합니다. 제 소설 세트는 500바(메모리에서)에서 SD 변동이 10%에서 120%까지 있습니다. 이는 점수가 10% 채널 내에서 변동한다는 것을 의미합니다. 즉, 우리가 보는 수치가 바로 그것입니다. 그러나 120%의 경우 우리가 보는 중요도 점수의 값은 fic입니다.

사유: