트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 2015

 
막심 드미트리예프스키 :

모든 기능은 입력 및 출력이며 은닉층에는 더 적은 수의 뉴런이 있습니다. 단순히 출력 오류를 최소화하여 정보를 압축합니다. 입력은 출력과 같아야 합니다(이상적으로는). 그런 다음 신경망의 두 번째 부분은 훈련 후에 버려지고 출력에서 은닉층의 뉴런 수와 동일한 압축된 기능을 얻습니다.

반복 레이어 등을 추가할 수 있습니다.

구글 오토인코더. 그리고 그들의 품종.

예, 이 모든 것을 이해했습니다. 감사합니다. 하나의 샘플 라인에 한 번에 여러 답변을 제공하도록 네트워크를 훈련시키는 방법을 이해하지 못합니다. 측정항목이 무엇인가요? 나무로 어떻게 할 수 있는지 명확하지 않습니다 ...

 
알렉세이 비아즈미킨 :

예, 이 모든 것을 이해했습니다. 감사합니다. 하나의 샘플 라인에 한 번에 여러 답변을 제공하도록 네트워크를 훈련시키는 방법을 이해하지 못합니다. 측정항목이 무엇인가요? 나무로 어떻게 할 수 있는지 명확하지 않습니다 ...

나는 전문가가 아니지만 첫 번째 - 분해 , 하나의 이벤트가 많은 가능한 원인을 일으킬 때. 사후 - 재구성, 이러한 모든 가능한 원인이 이러한 원인에 영향을 미치는 가능한 결과에 대해 분석될 때. 결과는 이벤트를 제어할 수 있는 영향을 주는 소수의 매개변수입니다.

 
알렉세이 비아즈미킨 :

예, 이 모든 것을 이해했습니다. 감사합니다. 하나의 샘플 라인에 한 번에 여러 답변을 제공하도록 네트워크를 훈련시키는 방법을 이해하지 못합니다. 측정항목이 무엇인가요? 나무로 어떻게 할 수 있는지 명확하지 않습니다 ...

그것은 전혀 의미가 없습니다. 먼저 autoencoder를 사용하거나 deep NN을 사용하십시오. 같은 유형의 작업이 많을 때 필요합니다. 예를 들어, 이미지 등을 압축합니다. 그런 다음 다른 ns에서 사용

 
알렉세이 타라바노프 :

나는 전문가가 아니지만 첫 번째 - 분해 , 하나의 이벤트가 많은 가능한 원인을 일으킬 때. 사후 - 재구성, 이러한 모든 가능한 원인이 이러한 원인에 영향을 미치는 가능한 결과에 대해 분석될 때. 결과는 이벤트를 제어할 수 있는 영향을 주는 소수의 매개변수입니다.

그렇지 않습니다. 함수의 가중치를 통한 뉴런의 데이터 굴절로 인해 값이 하나의 함수로 축소됩니다(이미지에 초점을 맞추는 것처럼). 그리고 나서, 이 가중치를 알고, 다시 구성요소로 분해됩니다. 프리즘이 무지개를 대략 분해하는 것처럼. 나는 그 과정을 이해하지만 나무를 통해 그것을 하는 방법을 이해하지 못합니다.

 
막심 드미트리예프스키 :

그것은 전혀 의미가 없습니다. 먼저 autoencoder를 사용하거나 deep NN을 사용하십시오. 같은 유형의 작업이 많을 때 필요합니다. 예를 들어, 이미지 등을 압축합니다. 그런 다음 다른 ns의 임베딩으로 사용하십시오.

나무에서 이러한 "병목" 뉴런을 정확하게 훈련시키는 것이 합리적일 수 있습니다. 저것들. 예측 변수의 감소.

 
알렉세이 비아즈미킨 :

그렇지 않습니다. 함수의 가중치를 통한 뉴런의 데이터 굴절로 인해 값이 하나의 함수로 축소됩니다. 그리고 나서, 이 가중치를 알고, 다시 구성요소로 분해됩니다. 프리즘이 무지개를 대략적으로 분해하는 것처럼. 나는 그 과정을 이해하지만 나무를 통해 그것을 하는 방법을 이해하지 못합니다.

아니요. 먼저 분해 를 시도하면 괜찮을 것입니다.

간단히 말해서, 분할은 한 원칙에 따라 진행되고 연결은 다른 원칙에 따라 진행됩니다. 분석 및 합성. 뉴런 - 여기저기서 모두 같은 방식으로 작동하지만 첫 번째 경우에는 이벤트가 선반으로 분류되고 두 번째 경우에는 이벤트에 영향을 미치는 요소를 중심으로 구성됩니다.

 
알렉세이 비아즈미킨 :

나무에서 이러한 "병목" 뉴런을 정확하게 훈련시키는 것이 합리적일 수 있습니다. 저것들. 예측 변수의 감소.

그것은 말도 안돼

압축은 압축입니다. 모델이 이미 너무 나쁘면 아무 것도 얻을 수 없습니다. 정규화는 거의 동일한 기능을 수행합니다.

 
입력 데이터를 압축할 때 손실이 있습니다. 압축이 동일한 입력 데이터를 얻을 수 있는 능력에 대해 평가되면 대상을 잘 예측할 수 있는 정보를 포함하여 정보가 균일하게 손실됩니다.
목적 함수를 얻기 위해서만 압축한다면 이것이 최선의 선택입니다.
제 생각에는 이것이 정규 훈련이 하는 일입니다.
입력에 대해서만 추정한 압축은 압축된 데이터에 대한 대상의 후속 훈련 품질을 저하시킬 것이라고 결론지었습니다.
그러나 이론에 따라 결론을 내리지 않고 실험을 수행하는 것이 좋습니다.

Alexey는 차원을 줄이는 방법을 찾는 이유를 이해할 수 있지만 스캐폴딩과 부스팅을 사용합니다. 한 트리에서 3000개 항목의 대부분은 전혀 사용되지 않을 수 있습니다. 숲속과 부스팅에서는 이것으로 더 좋은데 소용이 없을 것 같아요.
 
막심 드미트리예프스키 :

그것은 말도 안돼

압축은 압축입니다. 모델이 이미 너무 나쁘면 아무 것도 얻을 수 없습니다. 정규화는 거의 동일한 기능을 수행합니다.

도서관 :
입력 데이터를 압축할 때 손실이 있습니다. 압축이 동일한 입력 데이터를 얻을 수 있는 능력에 대해 평가되면 대상을 잘 예측할 수 있는 정보를 포함하여 정보가 균일하게 손실됩니다.
목적 함수를 얻기 위해서만 압축한다면 이것이 최선의 선택입니다.
제 생각에는 이것이 정규 훈련이 하는 일입니다.
입력에 대해서만 추정한 압축은 압축된 데이터에 대한 대상의 후속 훈련 품질을 저하시킬 것이라고 결론지었습니다.
그러나 이론에 따라 결론을 내리지 않고 실험을 수행하는 것이 좋습니다.

Alexey는 차원을 줄이는 방법을 찾는 이유를 이해할 수 있지만 스캐폴딩과 부스팅을 사용합니다. 한 트리에서 3000개 항목의 대부분은 전혀 사용되지 않을 수 있습니다. 숲속과 부스팅에서는 이것으로 더 좋은데 소용이 없을 것 같아요.

이것이 유용한 이유는 여러 가지가 있습니다.

1. 상호 의존적 예측 변수를 식별할 수 있습니다.

1.1. 그들의 도움으로 별도의 모델을 구축하고 예측 능력을 평가하십시오.

1.2. 표본에서 제외하고 결과에 미치는 영향을 평가하고 결과를 개선하면 유사한 예측 변수 생성에 대해 생각합니다.

2. 예측 변수 그룹 대신 하나의 예측 변수를 사용합니다.

1. 이것은 모델을 만들 때 실수로 가져갈 확률을 균등하게 합니다.

2. 차원을 줄여 학습 시간 단축

예, 확인하고 싶지만 상자에서 이러한 모델을 만들 수 있는 도구를 모르겠습니다.


그런데 여기서 왜 훈련 중에 깨진 함수를 사용하지 않는지(양자화를 사용하는 것처럼 - 스텝 라인 대신) 생각이 떠올랐습니다. 이렇게 하면 데이터 정확도에 백래시가 생기고 재훈련을 줄일 수 있습니다.

 
알렉세이 비아즈미킨 :

그런데 여기서 왜 훈련 중에 깨진 함수를 사용하지 않는지(양자화를 사용하는 것처럼 - 스텝 라인 대신) 생각이 떠올랐습니다. 이렇게 하면 데이터 정확도에 백래시가 생기고 재훈련을 줄일 수 있습니다.

훈련할 수 없기 때문에 솔버는 극소값에 고정됩니다. 아이디어에 관해서는 - 블랙 박스이기 때문에 거기에서 아무 것도 꺼낼 수 없습니다.