트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3

 

동일한 입력을 버리는 방법을 사용할 수 있습니다. 각 열에 대해 서로의 평균 편차를 계산합니다. 따라서 가장 유사한 두 개의 열을 찾아 그 중 하나를 버릴 수 있습니다. 모든 열에 대한 평균 편차 등으로부터 둘 중 어느 것을 계산할 수 있습니까?

 
트레이더 박사 :

시각적으로 모든 가중치는 두 그룹으로 나뉩니다. 중요/중요의 원칙에 따라 구분해야 한다면 5,11,7,1,3,9가 명확하게 구분되는데 이 세트로 충분하다고 생각합니다.

이것은 올바른 결정입니다!

NS가 그렇게 할 줄은 몰랐습니다. 저에게 이것은 발견입니다.

신경망이 상호 작용을 모델링할 수 있다는 것이 밝혀졌습니다.

당신을 위한 상이 있습니다. 고맙습니다!

 

사실, NN은 규칙성 유형에 대한 아이디어를 제공하지 않습니다. 즉, 모형의 해석이 의심스럽다.

나중에 데이터 세트를 생성하기 위한 논리를 배치하고 종속성 유형에 대해 이야기하겠습니다.

 
트레이더 박사 :

시각적으로 모든 가중치는 두 그룹으로 나뉩니다. 중요/중요의 원칙에 따라 구분해야 한다면 5,11,7,1,3,9가 명확하게 구분되는데 이 세트로 충분하다고 생각합니다.

관심이 있다면 데이터 세트에서 중요한 예측 변수 하나를 제거하고 NN을 다시 훈련하고 가중치가 있는 그림을 표시해 보십시오. 서프라이즈가 있을 것 같아요.

지금은 고장났습니다. 화제의 성장을 위해.

 
알렉세이 버나코프 :

관심이 있다면 데이터 세트에서 중요한 예측 변수 하나를 제거하고 NN을 다시 훈련하고 가중치가 있는 그림을 표시해 보십시오. 서프라이즈가 있을 것 같아요.

지금은 고장났습니다. 화제의 성장을 위해.

스토브는 항상 그것에서 춤을 추어야한다는 점에서 매우 중요한 인테리어 세부 사항입니다.

닥터 트레이더

NN에 대한 귀하의 예는 NN이 귀하가 표시한 예측 변수를 더 좋아하고 다른 예측 변수는 좋아하지 않는다고 말합니다. 그러한 일을 하는 알고리즘은 십일조입니다.

관련성이 있고 예측력, 목표 변수에 대한 예측력이 있는 예측자 중에서 그러한 선택이 이루어진다면 이 모든 것이 좋을 것입니다.

내 연습에 따르면, 임의의 예측 변수 집합에는 항상 대상 변수와 관련이 없는(또는 매우 약한) 예측 변수가 있습니다. 따라서 이러한 잡음 예측자의 특정 수 또는 값의 무작위 선택이 있는 경우 NN을 포함한 대부분의 알고리즘이 정보 예측자와 잡음 예측자를 구별하지 못한다는 사실에 의미가 있습니다.

따라서 "스토브"는 희망이없고 시끄러운 예측자에서 초기 예측자 세트를 미리 지우고 그 다음에야 ...

추신.

나는 NN으로 작업하지 않았지만 특정 수의 노이즈 예측자를 가진 랜덤 포레스트 는 내장 알고리즘에 따라 정보 예측자를 버리려고 노력합니다. 결과적으로 노이즈는 5% 미만의 오류로 놀라운 성능을 제공합니다!

PSPS

반드시 노이즈 예측자가 있으면 실제 생활에 대한 모든 결과와 함께 모델을 다시 학습해야 합니다.

 
산산이치 포멘코 :

스토브는 항상 그것에서 춤을 추어야한다는 점에서 매우 중요한 인테리어 세부 사항입니다.

닥터 트레이더

NN에 대한 귀하의 예는 NN이 귀하가 표시한 예측 변수를 더 좋아하고 다른 예측 변수는 좋아하지 않는다고 말합니다. 그러한 일을 하는 알고리즘은 십일조입니다.

관련성이 있고 예측력, 목표 변수에 대한 예측력이 있는 예측자 중에서 그러한 선택이 이루어진다면 이 모든 것이 좋을 것입니다.

내 연습에 따르면, 임의의 예측 변수 집합에는 항상 대상 변수와 관련이 없는(또는 매우 약한) 예측 변수가 있습니다. 따라서 이러한 잡음 예측자의 특정 수 또는 값의 무작위 선택이 있는 경우 NN을 포함한 대부분의 알고리즘이 정보 예측자와 잡음 예측자를 구별하지 못한다는 사실에 의미가 있습니다.

따라서 "스토브"는 희망이없고 시끄러운 예측자에서 초기 예측자 세트를 미리 지우고 그 다음에야 ...

추신.

나는 NN으로 작업하지 않았지만 특정 수의 노이즈 예측자를 가진 랜덤 포레스트는 내장 알고리즘에 따라 정보 예측자를 버리려고 노력합니다. 결과적으로 노이즈는 5% 미만의 오류로 놀라운 성능을 제공합니다!

PSPS

반드시 노이즈 예측자가 있으면 실제 생활에 대한 모든 결과와 함께 모델을 다시 학습해야 합니다.

NS는 아주 좋은 일을 했습니다.

랜덤 포레스트는 변수 집합의 상호 작용이 있는 이러한 작업을 마스터할 수 없습니다. 그리고 각 예측변수의 개별 유의성은 의도적으로 0이었습니다.

 

효과가 있어서 다행입니다 :), 상품 감사합니다.

하나의 입력을 제거하려고 했습니다(4개의 경우) - input_5 또는 input_9를 제거하면 다른 것은 작동하지 않습니다. 동일한 구성의 뉴런은 오류가 50% 미만일 때까지 훈련조차 하지 않으며, 0 또는 1 더 큰 경우.

input_20을 제거하면 모든 것이 정상이고 결과가 정확합니다. 그러나 input_15를 제거하면 뉴런이 실제로 학습하지도 않고 input_5 또는 input_9를 제거하는 것과 동일한 문제가 발생합니다. 나는 더 이상 확인하지 않았다.

관심이 있으시면 뉴런 훈련을 위해 R 코드가 포함된 파일을 첨부했습니다. 사실 Rattle 로그에서 약간 수정된 코드가 있습니다.

파일:
r_nnet.zip  3 kb
 
트레이더 박사 :

효과가 있어서 다행입니다 :), 상품 감사합니다.

하나의 입력을 제거하려고 했습니다(4개의 경우) - input_5 또는 input_9를 제거하면 다른 것은 작동하지 않습니다. 동일한 구성의 뉴런은 오류가 50% 미만일 때까지 훈련조차 하지 않으며, 0 또는 1 더 큰 경우.

input_20을 제거하면 모든 것이 정상이고 결과가 정확합니다. 그러나 input_15를 제거하면 뉴런이 실제로 학습하지도 않고 input_5 또는 input_9를 제거하는 것과 동일한 문제가 발생합니다. 더 확인하지 않았습니다.

관심이 있으시면 뉴런 훈련을 위해 R 코드가 포함된 파일을 첨부했습니다. 사실 Rattle 로그에서 약간 수정된 코드가 있습니다.

카드번호나 전자지갑 번호를 메시지로 보내주세요
 

글쎄, 일반적으로 프로세스는 이해할 수 있습니다. 뉴런은 사용 가능한 데이터를 일종의 논리에 맞추려고 시도하고 일부 입력이 새로운 정보를 전달하지 않으면 해를 끼치 지 않도록 영향을 최소화합니다. 그녀는 입력의 복잡한 상호 연결을 찾을 것 같지 않습니다. 동의합니다.

또한 R의 nnet 패키지는 일반적인 뉴런이 아닙니다. 설명에서 2차 학습을 사용해야 합니다. 일반적으로 뉴런에서 가중치는 도함수에 따라 변경되지만 여기서는 도함수의 도함수에 따라 변경됩니다. 그리고 훈련하는 동안 모든 훈련 예제의 모든 가중치에 대한 중요한 데이터를 한 번에 저장하는 특정 "헤시안" 행렬이 구축됩니다. 그들은 그것이 매우 시원하다고 말합니다.이 패키지는 강력해야합니다. https://ru.wikipedia.org/wiki/Broyden's_Algorithm_—_Fletcher_—_Goldfarb_—_Shanno - 나는 이것을 이해하지 못했지만 누군가가 수학자라면 알아낼 것입니다.

Алгоритм Бройдена — Флетчера — Гольдфарба — Шанно — Википедия
  • ru.wikipedia.org
Алгоритм Бройдена — Флетчера — Гольдфарба — Шанно (BFGS) (англ. Broyden — Fletcher — Goldfarb — Shanno algorithm) — итерационный метод численной оптимизации, предназначенный для нахождения локального максимума/минимума нелинейного функционала без ограничений. BFGS — один из наиболее широко применяемых квазиньютоновских методов. В...
 
이상한 결과에 대해:
중요한 예측 변수를 제거하면 아무 것도 작동하지 않습니다. 이것은 상호 작용입니다.

각 예측자는 출력 상태에 대해 아무 말도 하지 않습니다. 따라서 개별 유의성을 고려한 알고리즘은 작동하지 않습니다. 또한 결정 트리와 랜덤 포레스트는 예측 변수도 별도로 고려하기 때문에 거의 확실히 작동하지 않습니다. 그러나 수만 그루의 나무로 이루어진 거대한 숲은 실수로 중요한 예측 변수를 하나의 가지에 연결할 수 있습니다. 그러면 모든 것이 해결될 것입니다. 하지만 거의.

왜요?

상호 작용은 함께 결합된 예측 변수 집합에서 출력으로 흐르는 정보입니다. 종속성 알고리즘은 중요한 예측 변수의 합이 50/50이 짝수 또는 홀수일 수 있도록 합니다. 짝수이면 출력은 1이고 그렇지 않으면 0입니다. 그렇기 때문에 중요한 예측 변수 중 하나 이상을 제거하면 종속성이 끊어집니다. 그리고 추가 예측 변수를 추가하면 노이즈가 발생하여 stat.test가 의미를 표시하지 않을 수 있습니다.

일반 NN이 그런 연결을 만들 수 있다는 사실에 정말 놀랐습니다. 이제 나는 의미 있는 항목을 식별하는 MLP의 능력을 믿기 시작했습니다. 만세.

결국, 당신은 머리에 못을 박았습니다. 랜덤 포레스트를 훈련시키려고 하면 거의 확실히 실패할 것입니다.

또한 로지스틱 회귀가 트릭을 수행하지 않을 것이라고 확신합니다.

간단히 말해서, 이 작업은 적절하게 선택된 적합성 함수를 사용하여 예측 변수의 다양한 하위 집합을 확률론적으로 열거해야 합니다. 글쎄, 또는 NS)))

제 방법은 나중에 포스팅하겠습니다.

다른 사람이 다른 방식으로 예측 변수를 선택하려고 시도하면 결과를 비교할 수 있습니다.

사유: