트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 881

 
알렉세이 비아즈미킨 :

대상 변수에 대해 질문이 있습니다.

목표 변수가 있는 경우 - 이것은 거래의 재정적 결과이므로 내가 생각한 대로 이 결과를 정규화하는 것이 합리적입니다. 그러나 여기 사이트에서 정보를 찾고 있으며 모든 곳에서 대상 변수에는 구매 또는 판매의 두 가지 값이 있어야한다고합니다. 그리고 어떤 경우에도 손실이 발생하면 - 구매하거나 판매합니다(그런 일이 발생하는 것으로 나타났습니다!). 그렇다면 왜 부정적인 옵션을 잘라야 합니까? 그리고 통계에 영향을 미치는 부정적인 옵션이 있다면?

일반적으로 어떤 네트워크가 작동하는지(그리고 어디서 얻을 수 있나요?) 트리거가 있는 최후의 수단으로 - 구매/판매/아무것도 하지 않지만 기껏해야 기능으로 작동하는지 알고 싶습니다. 은(는) 이론적 솔루션을 찾고 있었고 이제 순위를 지정하는 예측 변수를 결합하는 스크립트를 만들었습니다.

> 목표 변수가 있는 경우 - 이것은 거래의 재정적 결과이므로 이 결과를 정규화하는 것이 합리적입니다.

대상을 정규화하지 않고 그대로 사용합니다(가격 인상). 뉴런을 사용하는 경우 예측 변수를 정규화하는 것이 좋습니다(다른 이름은 입력, 기능). 숲의 경우 어떻게 든 정규화에 신경 쓸 필요가 없으며 어떤 경우에도 잘 작동합니다.

뉴런의 출력은 매우 자주 활성화 함수를 통과하며 시그모이드의 경우에만 (0;1) 내에 있을 수 있다는 점을 고려해야 합니다. 그런 다음 이 간격에 속하지 않는 경우 대상도 정규화해야 합니다. 또는 종료에 대한 활성화를 제거하여 모든 값을 사용할 수 있습니다.


> 하지만 여기 사이트에서 정보를 찾고 있는데 여기저기서 대상 변수에는 매수 또는 매도의 두 가지 값이 있어야 한다고 합니다.

이것을 분류라고 합니다. 가격 대신 - 특정 세트(0과 1, -1과 1, "매수"와 "매도")일 때
가격 자체 또는 그 성장을 예측하면 분류가 아니라 회귀라고 합니다.


> 그리고 어떤 경우에도 손실이 발생하면 - 매수 또는 매도(그리고 결과는 발생했습니다!), 그렇다면 왜 마이너스 옵션을 잘라야 합니까? 그리고 통계에 영향을 미치는 부정적인 옵션이 있다면?

이 모든 것은 예측 변수에 따라 크게 달라지므로 두 옵션을 모두 시도해야만 답을 실험적으로 찾을 수 있습니다. 예를 들어, 나는 숲에 대한 나만의 피트니스 함수를 만들려고했습니다 - 나는 숲 예측에 따라 거래 차트 (스프레드 고려)를 작성하고 차트에서 샤프 비율을 결정했는데 이것이 결국 내가 시도한 값이었습니다. 증가하다.


> 일반적으로 어떤 네트워크가 작동하는지 알고 싶습니다.

이제 나는 공개 가격을 취하고 지표 (자체 제작)의 도움으로 새로운 기능을 만듭니다. 기능에 대해 막대당 가격 상승을 예측하는 뉴런을 훈련시킵니다. 새로운 지표를 만드는 데 많은 시간이 걸립니다. 그렇지 않으면 모델이 스프레드를 이길 수 없습니다.

귀하의 파일을 살펴보니 이미 많은 예측 변수가 있는 것으로 나타났습니다. 목표가 -1,0,1의 집합이면 포리스트를 사용하십시오. 가격을 예측하면 뉴런이 더 좋습니다.

 
막심 드미트리예프스키 :

제가 잘못 이해했습니다.. 네, 최대 수익이 가능한 지점은 당연히

분류 목적을 위해 softmax 출력 레이어가 있는 다층 퍼셉트론(클래스 멤버십 확률 생성)

이거 읽어봤어? 첫 번째 뉴런의 예를 사용하여 https://www.mql5.com/ru/articles/497. 그리고 그것들이 많다고 상상해보세요. 그것이 전체 신경망입니다.

거기에는 귀하가 질문한 임계값 기능만 설명되어 있습니다.

글쎄, 좋은 결과처럼 보인다, 네

이 기사를 놓쳤습니다. 코를 킁킁거려서 감사합니다. 그러나 한 번에 모두가 아닙니다. 그런 것을 몇 번 읽어야합니다 ... 계수를 퍼뜨리고 함수로 합계를 듣는 것이 분명해졌습니다.


도서관 :

첫 번째 파일을 시도하고 세 부분으로 나눕니다.


교육적인
예측
실제 0 1
0 28107 1244
1 3045 4119

테스트 1

예측
실제 0 1
0 5950 356
1 742 776

텍스트바야 2

예측
실제 0 1
0 5945 333
1 779 769

은닉층에 10개의 뉴런이 있는 nnet에서 계산됨(R의 NS 패키지 Rattle)

당신의 숲보다 나쁘지만 나쁘지도 않습니다. 두 번째 파일은 결과에 따라 동일할 것입니다.

고맙습니다! 이 결과를 필터로 사용할 수 있다고 생각합니다. 거래 작업 금지 - 0을 추측하는 것이 더 안정적이기 때문입니다.

 
알렉세이 비아즈미킨 :

이 기사를 놓쳤습니다. 코를 찔러 주셔서 감사합니다. 뭔가가 정리되었습니다! 그러나 한 번에 모두가 아닙니다. 그런 것을 몇 번 읽어야합니다 ... 계수를 퍼뜨리고 함수로 합계를 듣는 것이 분명해졌습니다.


고맙습니다! 이 결과를 필터로 사용할 수 있다고 생각합니다. 거래 작업 금지 - 0을 추측하는 것이 더 안정적이기 때문입니다.

글쎄, 실제로는 더 많은 것이 있습니다. 그래서 추측하기 쉽습니다)

 
박사 상인 :

> 목표 변수가 있는 경우 - 이것은 거래의 재정적 결과이므로 이 결과를 정규화하는 것이 합리적입니다.

대상을 정규화하지 않고 그대로 사용합니다(가격 인상). 뉴런을 사용하는 경우 예측 변수를 정규화하는 것이 좋습니다(다른 이름은 입력, 기능). 숲의 경우 어떻게 든 정규화에 신경 쓸 필요가 없으며 어떤 경우에도 잘 작동합니다.

흠, 오히려 숲이 논리적인 예측변수를 예/아니오로 만드는 게 더 중요하다고 생각했는데, 저는 그랬고 그래서 그런 것들이 많이 있고 그렇지 않으면 훨씬 적습니다. 나는 다르게 해보겠다 - 하나의 예측변수에 8개의 값을 주고 결과가 변하는지 평가할 것이다.

박사 상인 :

뉴런의 출력은 매우 자주 활성화 함수를 통과하며 시그모이드의 경우에만 (0;1) 내에 있을 수 있다는 점을 고려해야 합니다. 그런 다음 대상도 이 간격에 속하지 않는 경우 정규화해야 합니다. 또는 종료에 대한 활성화를 제거하여 모든 값을 사용할 수 있습니다.

로그인 활성화를 제거하려면 어떻게 해야 합니까? 나는 그것이 무엇인지조차 모릅니다 - 활성화 ...

박사 상인 :

> 하지만 여기 사이트에서 정보를 찾고 있는데 여기저기서 대상 변수에는 매수 또는 매도의 두 가지 값이 있어야 한다고 합니다.

이것을 분류라고 합니다. 가격 대신 - 특정 세트(0과 1, -1과 1, "매수"와 "매도")일 때
가격 자체 또는 그 성장을 예측하면 분류가 아니라 회귀라고 합니다.

예, 하지만 매수 또는 매도할 필요가 없고 신호만 전달하면 어떻게 해야 합니까? 그래서 나는 무역이 아닌 그 순간을 고려하기 위해 두 개의 별도 국회를 만들기로 결정했습니다.

박사 상인 :

> 그리고 어떤 경우에도 손실이 발생하면 - 매수 또는 매도(그리고 결과는 발생했습니다!), 그렇다면 왜 마이너스 옵션을 잘라야 합니까? 그리고 통계에 영향을 미치는 부정적인 옵션이 있다면?

이 모든 것은 예측 변수에 따라 크게 달라지므로 두 옵션을 모두 시도해야만 답을 실험적으로 찾을 수 있습니다. 예를 들어, 나는 숲에 대한 나만의 피트니스 함수를 만들려고했습니다 - 나는 숲 예측에 따라 거래 차트 (스프레드 고려)를 작성하고 차트에서 샤프 비율을 결정했는데 이것이 결국 내가 시도한 값이었습니다. 증가하다.

저것들. 일부 예측 변수의 경우 기록이별로 중요하지 않지만 다른 예측 변수에는 중요하며 둘 다있을 수 있으므로 잘라내는 것이 바람직하지 않은 것으로 판명되었습니다 ...

박사 상인 :


이제 나는 공개 가격을 취하고 지표 (자체 제작)의 도움으로 새로운 기능을 만듭니다. 기능에 대해 막대당 가격의 증가를 예측하는 뉴런을 훈련합니다. 새로운 지표를 만드는 데 많은 시간이 걸립니다. 그렇지 않으면 모델이 스프레드를 이길 수 없습니다.

부분적으로 대부분의 기능은 예측과 함께 작동하지만 특정 가격은 아니지만 해당 수준 - 저는 ATR을 사용하지만 표준 ATR은 거의 동일하게 작동해야 합니다.

 
도서관 :

글쎄, 실제로는 더 많은 것이 있습니다. 그래서 추측하기 쉽습니다)

따라서 중요하지 않습니다. 가장 중요한 것은 거래에 대한 위험이 증가한 영역을 아는 것입니다.

또 다른 점은 모든 것을 동일한 지표로 바꾸는 방법을 모른다는 것입니다. 숲에 대해 형성된 모든 규칙을 다시 작성해야 합니까, 아니면 어떻게 해야 합니까?

 
알렉세이 비아즈미킨 :

흠, 오히려 숲이 논리적인 예측변수를 예/아니오로 만드는 게 더 중요하다고 생각했는데, 저는 그랬고 그래서 그런 것들이 많이 있고 그렇지 않으면 훨씬 적습니다. 나는 다르게 해보겠다 - 하나의 예측변수에 8개의 값을 주고 결과가 변하는지 평가할 것이다.

포레스트는 희소한 피처를 사용하면 더 나빠지며 분할이 거의 없습니다.

많은 희소 특징이 있고 그 중 하나가 희소하지 않은 경우 숲이 과적합 되어 가장 큰 수입을 가져오고 나머지는 결과에 매우 약한 영향을 미칩니다.

 
막심 드미트리예프스키 :

포레스트는 희소한 피처를 사용하면 더 나빠지며 분할이 거의 없습니다.

많은 희소 특징이 있고 그 중 하나가 희소하지 않은 경우 숲이 과적합되어 가장 큰 수입을 가져오고 나머지는 결과에 매우 약한 영향을 미칩니다.

일반 포리스트 또는 임의 포리스트 또는 둘 다?

Rattle과 R을 설치했는데(음, 모든 것이 버그입니다...) 이제 아래 스크린샷과 같이 비슷한 설정을 만드는 방법을 알 수 없습니까? 그리고 나서 표준 Rattle 설정은 이전에 사용한 프로그램보다 더 나쁜 결과를 제공했습니다.


 
막심 드미트리예프스키 :

포레스트는 희소한 피처를 사용하면 더 나빠지며 분할이 거의 없습니다.

많은 희소 특징이 있고 그 중 하나가 희소하지 않은 경우 포리스트는 과적합되고 수입은 가장 크고 나머지는 결과에 매우 약한 영향을 미칩니다.

동일한 기능, 동일한 설정이지만 이전과 같이 기능이 확장되는 대신 축소됩니다.

구 버전

새로운 옵션

나는 0을 조금 더 찾았지만 훨씬 적은 0을 찾았습니다. 거의 2배 적습니다! 그래서 접힌 변수와 확장 변수가 이런 식으로 영향을 줄 수 있다고 생각하지 않았습니다 ...

 
알렉세이 비아즈미킨 :

일반 포리스트 또는 임의 포리스트 또는 둘 다?

Rattle과 R을 설치했는데(음, 모든 것이 버그입니다...) 이제 아래 스크린샷과 같이 비슷한 설정을 만드는 방법을 알 수 없습니까? 그리고 나서 표준 Rattle 설정은 이전에 사용한 프로그램보다 더 나쁜 결과를 제공했습니다.


일반 숲과 랜덤 숲 과 나무의 숲은 같은 것입니다 :) Forest는 Trees의 앙상블입니다.

그들이 작아졌다는 의미에서 표시가 축소되거나 무엇입니까? 희소 기호는 거의 변경되지 않거나 1과 0의 범주형 유형으로 이해됩니다(음, 이것은 이미 높은 수준의 이해입니다)

R 사용하지 않습니다. 나는 그들의 도금한 안경의 지역 전문가들에게 역겨움을 느꼈습니다.

요컨대, 당신은 너무 오랫동안 엉망이 될 것입니다. 나무가 무엇이며 나무 숲이 무엇인지에 대한 이론을 공부하십시오.

https://habr.com/post/171759/

https://habr.com/post/116385/

Rattle 설정에 따르면 이것은 Sanych를 위한 것이지만 mt5 및 R에 대한 고문의 통합으로 내가 왜 그것을 필요로 합니까?

https://www.mql5.com/ru/articles/1165

Энтропия и деревья принятия решений
Энтропия и деревья принятия решений
  • 2011.03.13
  • habr.com
Деревья принятия решений являются удобным инструментом в тех случаях, когда требуется не просто классифицировать данные, но ещё и объяснить почему тот или иной объект отнесён к какому-либо классу. Давайте сначала, для полноты картины, рассмотрим природу энтропии и некоторые её свойства. Затем, на простом примере, увидим каким образом...
 
마법사_ :

데이터에서 Pred_004_Buy 파일을 반으로 나누면 이마에 0.85를 얻을 수 있습니다.
데이터는 쓰레기이고 버리는 것이 좋습니다. 나머지는 우리가 스스로 따라잡습니다. 조용히...

데이터가 왜 쓰레기야? 정말 좋은 결과입니다.