트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2412

 
mytarmailS :

Alexei, 당신은 파이썬이나 r-ku를 가르치고 거기에서 코딩을 시도할 것입니다 ... 저를 믿으십시오. 수천 개의 질문이 사라질 것입니다 ...

얼마나 좋은 소원입니까, 그리고 다른 사람에게 의존하지 않도록 외국어 두어 개를 배우고 다른 모든 능력을 습득하는 것도 유용 할 것입니다. 하지만 모든 일에 재능이 있는 것은 아니며, 코딩에서 높은 성과를 거두지 못하고 너무 많은 노력을 들이게 될 것임을 깨닫고 있습니다.

mytarmailS :

기능 선택 방법이 이미 테스트되고 작동하는 경우 효과를 테스트하는 요점은 무엇입니까? 그렇지 않으면 그들은 존재하지 않을 것입니다

여기서는 방법 적용의 효율성에 관한 것입니다. 예측 변수를 제외하지 않고 샘플을 제출하는 것과 비교하여 궁극적으로 결과를 얼마나 향상시킬 수 있는지에 따라 다릅니다. 저것들. 실제 실험.


mytarmailS :

문제는 기호를 거부하는 것이 아니라 기호 자체에서 10개의 표시기를 입력한 다음 파란색이 될 때까지 선택하면 모든 선택 알고리즘에서 동일한 결과를 얻을 수 있습니다.

이제 약 5,000개의 예측 변수가 있으므로 이 접근 방식이 흥미로운 이유입니다.

mytarmailS :

영상에서 들으셨나요? 그들은 수만 개의 표지판 중에서 선택하고 거기에 MGUA도 언급합니다. 일반적으로 우리는 수십억 개의 표지판을 만들고 열거하는 것에 대해 이야기하고 있습니다.

수백만 개의 아이디어를 생성하고 자동으로 확인하는 시스템에 대해 이야기해야 하는 것입니다. 이것이 핵심입니다. 이것은 개별 결정이며 기능 선택은 이 프로세스의 작은 마지막 부분이며 흥미로운 것은 없습니다. 알고리즘을 선택하고 가십시오. 할 이야기가 없습니다. 단지 흥미롭지 않을 뿐입니다.

저는 많은 기능을 가지고 작업하고 템플릿에서 기능을 생성하는 방법을 개발 중입니다. 새로운 예측자 내에서 다양한 지표의 보존과 함께 기능 이진화 프로세스는 5000개 중 50,000개의 기능을 만들며, 모델이 이미 구축될 새롭고 풍부한 기능을 생성하기 위해 상호 관계를 조사해야 합니다. .

일반적으로 내 활동에 대한 그러한 원시적인 아이디어가 왜 ...

 
알렉세이 비야즘

일반적으로 내 활동에 대한 그러한 원시적인 아이디어가 왜 ...

Alexey, 모든 5k 바이너리 기능이 2-3개의 주요 구성 요소로 대체될 수 있다는 것을 어떻게 이해하지 못합니까, 즉 2-3개의 기능이고 그게 전부입니다)) 그러나 이것은 알아야 합니다 ...

또한, 5k 특성을 가진 멋진 모델은 모두 상위 모델에 대한 수백 가지 다른 특성 중 하나일 수 있으며 더 높은 순위 모델의 특성이 될 수 있다는 것을 이해하지 못합니다...

지금 생각하고 있는 카테고리입니다.


같은 Ivakhnenko MGUA를 읽으십시오. 얼마나 잘 개발되고 깊은 개념인지, 읽을 때 나는 모스크바 지역의 1 학년처럼 느낍니다 ...

 
mytarmailS :
Alexey, 모든 5k 바이너리 기능이 2-3개의 주요 구성 요소로 대체될 수 있다는 것을 어떻게 이해하지 못합니까, 즉 2-3개의 기능이고 그게 전부입니다)) 그러나 이것은 알아야 합니다 ...

내 이해에 대한 그러한 결론은 어디에서 왔습니까? 실제 적용 경험이 없기 때문에 MGUA의 주제는 저에게 영향을 받지 않습니다. 내 표지판을 2-3으로 압축할 준비가 되셨습니까? 내 접근 방식과 비교하고 살펴보는 것이 흥미로울 것입니다. 이것을 위해 이미 모든 것을 날카롭게 했으므로 어렵지 않을 것이라고 생각합니까?

mytarmailS :
또한, 5k 특성을 가진 멋진 모델은 모두 상위 모델에 대한 수백 가지 다른 특성 중 하나일 수 있으며 더 높은 순위 모델의 특성이 될 수 있다는 것을 이해하지 못합니다...

지금 생각하고 있는 카테고리입니다.

나는 오랫동안 이것을 실행해 왔으며 모델에서 잎사귀를 뽑았습니다. 그러면 더 많은 글로벌 모델을 위한 풍부한 구성 요소가 됩니다.

내가 생각해낸 것 중 많은 부분이 다른 이름을 가지고 있고 일반적인 용도로 구현되어 있지만 처음부터 모든 것을 수행할 때 이론만이 아니라 작동 방식과 이유에 대한 깊은 이해가 있습니다.

 
mytarmailS :
같은 Ivakhnenko MGUA를 읽으십시오. 얼마나 잘 개발되고 깊은 개념인지, 읽을 때 나는 모스크바 지역의 1 학년처럼 느낍니다 ...

할 일을 해야 합니다. 확인해야 할 생각이 이미 충분하므로 코딩하고 확인해야 합니다.

 
mytarmailS :

또한, 5k 특성을 가진 멋진 모델은 모두 상위 모델에 대한 수백 가지 다른 특성 중 하나일 수 있으며 더 높은 순위 모델의 특성이 될 수 있다는 것을 이해하지 못합니다...

영화 매트릭스의 팬?

 

그런 다음 결과 모델의 분석을 통해 예측 변수/특징/특징을 선택하는 방법을 개선하는 방법에 대해 생각했습니다.

나는 알고리즘 구현에 대한 아이디어를 제 자신에게 주었지만 존경받는 커뮤니티와 공유하기로 결정했습니다. 아마도 이 알고리즘 구현 작업을 시작하기 전에 건설적인 비판이나 알고리즘의 추가/정련이 있을 것입니다. 정당화로 작동하는 것이 없다는 아이디어는 흥미 롭습니다.


CatBoost 모델 생성 시 사용 빈도(기능 중요도)에 따른 예측 변수 선택

아이디어는 각 알고리즘이 트리를 구축하는 고유한 특성을 가지고 있으며 특정 알고리즘의 알고리즘(이 경우 CatBoost)에서 더 자주 사용되는 예측 변수를 선택한다는 것입니다.

그러나 시간 규모에 대한 균일성을 평가하기 위해 여러 샘플을 사용하고 해당 데이터를 단일 테이블에 요약합니다. 이 접근 방식을 사용하면 모델 중 하나 에서 예측 변수의 선택에 큰 영향을 미친 무작위 이벤트를 제거할 수 있습니다. 모델이 구축되는 패턴은 전체 샘플에서 발생해야 하며, 이는 새 데이터에 대한 올바른 분류에 기여할 수 있습니다. 이 기능은 시장에서 얻은 데이터에 적용됩니다. 숨겨진 순환성을 포함하여 완전하지 않은 데이터, 즉 일시적인 것이 아니라 다사다난합니다. 동시에 섹션 중 하나에서 상위 30% -50%에 포함되지 않은 예측 변수에 페널티를 부여하는 것이 바람직합니다. 이렇게 하면 다른 시간 간격으로 모델을 생성할 때 가장 자주 수요가 있는 예측 변수를 선택할 수 있습니다.

또한 임의성 요인을 줄이려면 Seed 값이 다른 모델을 사용해야 하므로 이러한 모델이 25~100개 있어야 한다고 생각합니다. 결과 모델의 품질에 따라 계수를 추가할 가치가 있는지 아니면 모든 평균을 예측 변수에 대한 결과 - 아직 잘 모르겠지만 간단하게 시작해야 한다고 생각합니다. 그냥 평균.

중요한 문제는 양자화 테이블의 사용이며 원칙 선택에 결정적인 역할을 할 수 있습니다. 테이블이 고정되어 있지 않으면 각 모델은 하위 샘플에 대해 자체 테이블을 생성하므로 얻은 결과를 비교할 수 없으므로 테이블은 모든 샘플에 대해 공통적이어야 합니다.

양자화 테이블을 얻을 수 있습니다.

  1. 전체 훈련 샘플의 양자화 유형 및 수에 따라 CatBoost에 대한 하이퍼파라미터를 설정하고 결과를 csv에 저장합니다.
  2. CatBoost의 하이퍼파라미터를 파티션의 유형과 수에 따라 quant로 설정하고 샘플링 사이트 중 하나를 선택하여 가장 좋은 사이트를 선택하고 결과를 csv에 저장합니다.
  3. 다양한 테이블에서 최상의 옵션을 선택하는 별도의 스크립트를 사용하여 테이블을 가져옵니다.
훈련 중 테이블을 강제로 로딩하여 이전에 얻은 테이블을 각 샘플에 사용합니다.
 
shap 값을 부팅에 연결하고 모든 데이터의 출력에서 기능의 상호 작용을 볼 수 있습니다. 이것은 Alexei와 같이 속옷을 탐구하는 것을 좋아하는 사람들을 위한 것입니다. Lime과 같은 유사한 라이브러리도 있으며 의존하지 않습니다. 특정 모델. 물론 수백 개의 무의미한 징후를 분석하면 그러한 작업은 실패합니다. 이것은 단순한 일상적인 작업이며 알려진 결과를 가진 놀라운 시간 킬러이기 때문에 누군가가 무료로 이 작업을 수행할 가능성은 거의 없습니다.
 
막심 드미트리예프스키 :
shap 값을 부츠에 연결하고 모든 데이터의 출력에서 기능의 상호 작용을 볼 수 있습니다. 이것은 Alexey와 같이 속옷을 탐구하는 것을 좋아하는 사람들을 위한 것입니다. :)

메트릭에 대한 질문이 열려 있습니다. 다양한 옵션이 있습니다. 어떤 지표가 더 나은지 시도해야 합니다. 모델에 대한 영향, 분할 수, 분할 후 올바른 예 수 등 메트릭이 다릅니다. 문제는 작업에 대한 사용의 정확성입니다. 그건 그렇고, 내가 기억하는 한 shap 값은 명령줄에 대한 초기 빌드에서 사용할 수 없지만 시각화를 위한 스크립트를 만들 수 있습니다.

 
막심 드미트리예프스키 :
물론 수백 개의 무의미한 징후를 분석하면 그러한 작업은 실패합니다. 이것은 단순한 일상적인 작업이며 알려진 결과를 가진 놀라운 시간 킬러이기 때문에 누군가가 무료로 이 작업을 수행할 가능성은 거의 없습니다.

왜 비관론인가 - 본질은 이론적으로 모든 목표/기본 전략에 적합한 일련의 기능을 생성하고 특정 목표에 가장 적합한 것을 선택하는 데 있습니다.

조작 후 분류 품질의 향상이 의심 스럽습니까?
 
알렉세이 비아즈미킨 :

왜 비관론인가 - 본질은 이론적으로 모든 목표/기본 전략에 적합한 일련의 기능을 생성하고 특정 목표에 가장 적합한 것을 선택하는 데 있습니다.

조작 후 분류 품질의 향상이 의심 스럽습니까?
이것이 작동하는 이유에 대한 전체 그림을 볼 수 없습니다.
사유: