트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2254

 
막심 드미트리예프스키 :

별로 생각 안하고 골라서 추측만 했습니다

흠 개가 전에 보지 못한 기능을 제공합니다. 하지만 내가 본 것과 비슷합니다. 역 변환을 사용하면 아마도 영향을 미칠 수 있습니다. 노이즈를 추가합니다.

이것은 가정입니다.

여기서 헷갈렸는데...

어쨌든 PCA는 선형이고 아무 것도 왜곡하지 않습니다. 모든 구성 요소가 있으면 손실 없이 분해한 것을 되돌릴 수 있습니다.

 
mytarmailS :

여기서 헷갈렸는데...

어쨌든 PCA는 선형이고 아무 것도 왜곡하지 않습니다. 모든 구성 요소가 있으면 손실 없이 분해한 것을 되돌릴 수 있습니다.

다른 곳에 함정이 있다는 뜻이다. PCA가 있는 그림에서는 잘 작동하고 따옴표가 있으면 더 빠르지만 더 빠릅니다.

글쎄요.. 숫자가 있는 그림은 쉽게 예측할 수 있고 시장은 고정적이지 않습니다. 그것에 대해 PCA는 결정하지 않고 변동성이 변경되거나 다른 것이 발생하면 구성 요소가 관련성을 중단합니다.

디지털 필터 처럼

 
막심 드미트리예프스키 :

그것에 대해 PCA는 결정하지 않고 변동성이 변할 때 구성 요소의 관련성이 중단됩니다.

무슨말인지 이해가 안되지만..

새 데이터 에 RSA의 모든 구성 요소를 추가하면 틱에 대해 동일한 가격 틱을 얻습니다. 따라서... 관련성 i xs는 무엇을 의미합니까?

 
mytarmailS :

무슨말인지 이해가 안되지만..

새 데이터 에 RSA의 모든 구성 요소를 추가하면 틱에 대해 동일한 가격 틱을 얻습니다. 따라서... 관련성 i xs는 무엇을 의미합니까?

요컨대 개 얘기는 나중에 하자, 자고 싶다)

인코더는 경험적으로 롤링되지 않습니다.

 
막심 드미트리예프스키 :

요컨대 개 얘기는 나중에 하자, 자고 싶다)

인코더는 경험적으로 롤링되지 않습니다.

좋아요

 
mytarmailS :

첫 번째가 되다

2019년에 베이지안 방법에 대한 한 강좌 를 보고 있는데 거기에 흥미로운 아이디어가 있지만 공식이 이해를 방해합니다. 누군가 베이지안 논리로 현대적인 접근을 시도했다고 생각했습니다. 강사는 일반적으로 ML에서 확률을 추정하는 베이지안 방법이 없는 모든 ML이 적합하다고 주장합니다.


피팅에 대해 말하자면, 저는 CatBoost 모델이 샘플의 비대표성과 모델 구축 방식으로 인해 훈련 외 샘플에서 결과를 악화시킨다는 결론을 내리는 경향이 있습니다. 사실은 고전 모델에서 나무가 대칭이고 가지치기가 없기 때문에 한 시트에 들어가는 데이터가 거의 없지만 동시에 시트에 많은 가중치가 부여되는 상황이 발생할 수 있습니다. 잘못된 나눗셈, 훈련 외 샘플에서 잘못된 시트에 많은 예가 있으면 결과가 크게 왜곡됩니다. 그리고 그러한 잎사귀는 천 개가 될 수 있습니다. 표본이 대표성이 있는 경우 시트의 무게가 적절하고 데이터 분포(엔트로피)의 특성에 해당하므로 문제가 없을 것입니다. 가중치를 0으로 하여 적은 수의 예제가 있는 잎을 션트하도록 시도해야 합니다.

아이디어는 모델이 아이디어가 있는 데이터에만 반응할 것이며 현재 일어나고 있는 "이것이 맞다면 틀렸다"와 같은 판단이 아니라는 것입니다.
 
알렉세이 비아즈미킨 :

2019년에 베이지안 방법에 대한 한 강좌 를 보고 있는데 거기에 흥미로운 아이디어가 있지만 공식이 이해를 방해합니다. 누군가 베이지안 논리로 현대적인 접근을 시도했다고 생각했습니다. 강사는 일반적으로 ML에서 확률을 추정하는 베이지안 방법이 없는 모든 ML이 적합하다고 주장합니다.


피팅에 대해 말하자면, 저는 CatBoost 모델이 샘플의 비대표성과 모델 구축 방식으로 인해 훈련 외 샘플에서 결과를 악화시킨다는 결론을 내리는 경향이 있습니다. 사실은 고전 모델에서 나무가 대칭이고 가지치기가 없기 때문에 한 시트에 들어가는 데이터가 거의 없지만 동시에 시트에 많은 가중치가 부여되는 상황이 발생할 수 있습니다. 잘못된 나눗셈, 훈련 외 샘플에서 잘못된 시트에 많은 예가 있으면 결과가 크게 왜곡됩니다. 그리고 그러한 잎사귀는 천 개가 될 수 있습니다. 표본이 대표성이 있는 경우 시트의 무게가 적절하고 데이터 분포(엔트로피)의 특성에 해당하므로 문제가 없을 것입니다. 가중치를 0으로 하여 적은 수의 예제가 있는 잎을 션트하도록 시도해야 합니다.

아이디어는 모델이 아이디어가 있는 데이터에만 반응할 것이며 현재 일어나고 있는 "이것이 맞다면 틀렸다"와 같은 판단이 아니라는 것입니다.

반응성은 중요한 조건입니다.

컷버스트는 분할될 때 잎에 적은 수의 예가 있는 잎을 생성합니까? 권장 깊이는 6이며 2^6=64입니다. 평균적으로 전체 샘플의 행 중 1/64가 시트에 들어갑니다. 최소 10,000개의 학습 라인이 있는 경우 시트당 평균 약 156개의 예제가 있습니다. 제 생각에는 이것이 아주 대표적인 것 같아요.

나무를 대칭으로 만들더라도 약간의 왜곡이 있을 수 있습니다. 학습을 위해 제출된 잎의 크기와 행 수는 얼마나 됩니까?

 
도서관 :

반응성은 중요한 조건입니다.

컷버스트는 분할될 때 잎에 적은 수의 예가 있는 잎을 생성합니까? 권장 깊이는 6이며 2^6=64입니다. 평균적으로 전체 샘플의 행 중 1/64가 시트에 들어갑니다. 최소 10,000개의 학습 라인이 있는 경우 시트당 평균 약 156개의 예제가 있습니다. 제 생각에는 이것이 아주 대표적인 것 같아요.

나무를 대칭으로 만들더라도 약간의 왜곡이 있을 수 있습니다. 나뭇잎이 얼마나 작게 보였으며 교육을 위해 제출된 라인은 몇 개입니까?

지금은 정확한 숫자가 없습니다. 이것은 단지 추측일 뿐입니다. 이전 코드로 돌아가야합니다. 그런 통계를 얻을 기회가 있었던 것 같습니다. 잊어 버렸습니다. 평균이 위협적으로 보이지 않는다는 말씀은 옳았지만, 그렇다고 해서 한 장에 예가 많지 않을 것이라는 의미는 아닙니다.

우리는 훈련 샘플과 테스트 샘플에서 극한 확률의 마진이 일반적으로 크게 다르다는 것을 알 수 있습니다. 나는 그 이유가 적은 수의 예제가 있는 잎에 있다고 가정합니다. 그러한 잎은 단순히 테스트 샘플에서 거의 발견되지 않습니다.

 

오래된 모델 중 하나 인 나무 잎의 활성화에 대한 통계 평가의 시각화가 있습니다.

y - 시트 번호, x - 선택 라인. 색상은 모듈로 시트 중량 비율을 나타냅니다.

여기에서도 드문 리프 활성화가 있음을 알 수 있습니다. 이는 가정이 정당화됨을 의미합니다. 이것은 시험 샘플입니다.


 
알렉세이 비아즈미킨 :

오래된 모델 중 하나 인 나무 잎의 활성화에 대한 통계 평가의 시각화가 있습니다.

y - 시트 번호, x - 선택 문자열. 색상은 모듈로 시트 중량 비율을 나타냅니다.

여기에서도 드문 리프 활성화가 있음을 알 수 있습니다. 이는 가정이 정당화됨을 의미합니다. 이것은 시험 샘플입니다.


시험에서 드물게 활성화된다는 것은 시장이 바뀌었고 기차에서 자주 발생했던 일이 더 이상 일어나지 않는다는 것을 의미합니다. 그리고 기차에서 리프 활성화가 거의 없을 필요는 없습니다.
사유: