트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 29

 
Dr.Trader :

R^2의 그래프와 사용된 부품 수에 대한 승률을 그렸습니다. 전면 테스트에서 가장 좋은 결과는 41개의 구성 요소에서였습니다(약 70%의 이득, 매우 좋음). 그러나 백테스트 차트에서는 알 수 없으며 항상 증가할 뿐입니다. 부품의 중요성에 의존한다면 73을 취해야 할 것입니다. 이는 전면 테스트에서 최상의 결과가 아닙니다.

전면 테스트의 R^2는 시간의 >50%에서 이기는 경우에도 음수일 수 있습니다. 불균형한 요구 결과로 인해 클래스 "0"이 "1"과 다르므로 평균이 0.5가 아닙니다. R^2는 이것보다 약간 더 나쁩니다.

교차 검증을 사용하여 구성 요소 수를 선택합니다. 그런 다음 가장 좋은 교차 검증 값이 검증 세트에 대해 테스트됩니다.
 

그런 술이 없어졌으므로 내 데이터 세트(이진 분류)를 첨부합니다.

9개의 입력 매개변수(시작 부분)가 있습니다. 모두 정보 제공 매개변수이고 하나의 출력 매개변수(가장 오른쪽 열에 있음)입니다.

출력이 1이면 막대 의 시가 사이의 다음 차이는 양수이고 0이면 음수입니다.

문제는 누가 내 알고리즘보다 더 나은 일반화 능력을 가질 것인가입니다.

파일:
datasets.zip  21 kb
 
유리 레셰토프 :

그런 술이 없어졌으므로 내 데이터 세트를 첨부합니다.

9개의 입력 매개변수(시작 부분)가 있습니다. 모두 정보 제공 매개변수이고 하나의 출력 매개변수(가장 오른쪽 열에 있음)입니다.

출력이 1이면 막대 의 시가 사이의 다음 차이는 양수이고 0이면 음수입니다.

문제는 누가 내 알고리즘보다 더 나은 일반화 능력을 가질 것인가입니다.

1. "예측변수의 정보성"은 어떻게 증명됩니까?

2. "능력 일반화"란 무엇입니까?

 
산산이치 포멘코 :

1. "예측변수의 정보성"은 어떻게 증명됩니까?

2. "능력 일반화"란 무엇입니까?

1. 표본에서 하나 이상의 정보 예측 변수가 제거된 경우 일반화 능력의 현저한 저하

2. 비디오 참조:


 
유리 레셰토프 :

1. 표본에서 하나 이상의 정보 예측 변수가 제거된 경우 일반화 능력의 현저한 저하

2. 비디오 참조:


유리야, 안녕. 나는 당신의 데이터를 보려고 노력할 것입니다.
 
알렉세이 버나코프 :
유리야, 안녕. 나는 당신의 데이터를 보려고 노력할 것입니다.

인사말!

데이터가 관심이 있는 경우 차트에서 정보를 수집 하여 에 쓰는 스크립트를 게시할 수 있습니다.

 
유리 레셰토프 :

1. 표본에서 하나 이상의 정보 예측 변수가 제거된 경우 일반화 능력의 현저한 저하

2. 비디오 참조:


2. 비디오 참조:

미안하지만, 사랑하는 사람 외에 이 모든 것을 알고 훨씬 더 발전했을 뿐만 아니라 그것을 구현한 사람이 많다는 것은 아직 설명을 듣지 못한 저학력 대학원생의 흔한 횡설수설이다. 수백만 명의 사람들이 사용하는 알고리즘(여기에 학생을 포함하는 경우)

1. 표본에서 하나 이상의 정보 예측 변수가 제거된 경우 일반화 능력의 현저한 저하

저를 믿으세요. 불행히도 이것은 아무것도 증명하지 못합니다. 또한 예측 변수 집합이 불량한 경우(잡음이 많음) 이 효과는 더 강할수록 더 많은 잡음이 발생합니다. 이것은 매우 간단하게 설명됩니다. 노이즈가 많을수록 알고리즘이 "편리한" 값을 선택하기가 더 쉽습니다.

일반적인 문제에 대해.

주어진 목표 변수에 대한 예측 변수의 중요성을 결정하는 알고리즘은 상당히 많습니다. 이러한 알고리즘은 모델 구축 알고리즘 내부에 내장된 알고리즘과 자율적으로 존재하는 두 그룹으로 나눌 수 있습니다. 내 의견과 지점에 있는 사람들의 의견과 내가 여기에 준 링크에서 이러한 모든 알고리즘은 한 가지 공통된 단점이 있습니다. 예측자 사이에 특정 임계 수의 노이즈 예측자가 있으면 알고리즘이 작동을 멈춥니다. , 대상 변수가 있는 예측 변수를 버리기 시작합니다.

이것이 바로 여기 분기에 있는 우리가 초기 예측자 세트를 사전에 대략적으로 정리한 다음 표준 방법을 사용하여 나머지 예측자와 함께 작업하려는 이유입니다.

당신의 파일에 대해.

1. 데이터에 6개의 분류 모델을 구축할 수 없었습니다. 오류가 50% 이상입니다. 원하는 경우 결과를 여기에 게시할 수 있습니다.

2. 이 결과의 이유는 예측 변수 집합이 매우 좋지 않기 때문입니다. 대상 변수와 관련이 없는 예측 변수. 예측 변수 6, 7, 8은 어느 정도 예측력이 있지만 매우 적습니다. 나는 그러한 예측자와 함께 일하지 않습니다. 나머지는 그냥 소음입니다.

추신.

주제에 정말로 관심이 있다면 캐럿하십시오. 당신은 마스터하고 비디오에서이 똑똑한 사람을 가르 칠 것입니다. Caret에는 거의 200개에 달하는 모델 + 매우 유용한 사전 훈련 기능 + 2개의 고품질 예측 변수 선택 알고리즘이 있습니다.

PSPS.

어떻게 든 포럼에서 "예측자가 대상 변수와 관련됨"이 의미하는 바에 대한 비전을 게시했습니다.

그래서.

우리는 목표 변수를 취합니다: 남자 / 여자.

예측자: 의류.

예측 변수(의류)에 치마와 바지만 포함된 경우 여러 국가의 인구에 대해 이 예측 변수는 대상 변수(일대일)와 100% 관련됩니다. 그러나 옷은 더 다양하고 다양합니다. 따라서 100%가 아니라 적습니다. 저것들. 어떤 옷 세트는 대상 변수와 관련이 있을 수 있지만 다른 옷 세트는 원칙적으로 전혀 관련이 없을 수 있습니다. 저것들. 소음. 따라서 작업은 모든 것 외에도 한 창에서는 노이즈가 되고 다른 창에서는 노이즈가 아닌 NON-NOISE 예측자를 찾는 방법입니다. 그리고 이 "소음"의 척도는 무엇입니까?

 
유리 레셰토프 :

인사말!

데이터가 관심이 있는 경우 차트에서 정보를 수집 하여 에 쓰는 스크립트를 게시할 수 있습니다.

질문이 있습니다. 기차에서 예측기를 구축하고 테스트에서 오류를 측정해야 합니까? 그리고 결과와 비교가 가능하겠죠?
 
알렉세이 버나코프 :
질문이 있습니다. 기차에서 예측기를 구축하고 테스트에서 오류를 측정해야 합니까? 그리고 결과와 비교가 가능하겠죠?
네.
 

동료 여러분, 시간이 되시면 기사 아래에 질문을 해도 될까요? https://habrahabr.ru/company/aligntechnology/blog/303750/

그리고 Habr은 전혀 침묵합니다!

Методические заметки об отборе информативных признаков (feature selection)
Методические заметки об отборе информативных признаков (feature selection)
  • habrahabr.ru
Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...