트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3312

 
Ivan Butko #:

무엇이 쓰레기가 아닌지 알려주실 수 있나요? 깨끗한 입력 데이터에 대해 이야기하는 사람을 본 적이 없습니다. 하지만 포럼에서 쓰레기에 대한 이야기는 항상 듣습니다.

그게 뭔가요? 쓰레기에 대해 이야기하고 있다면 쓰레기가 없는 것이고, 그렇지 않다면 비교할 것이 없습니다.

그것은 방향성 움직임, 벡터입니다.

하지만 쓰레기에서 그것을 꺼내는 것은 어려운 일입니다.

예를 들어, 저는 지표를 뉴로닉스에 예측자로 로드하고 쓰레기와 쓰레기 수집기의 징후를 식별하려고 시도합니다.

 
СанСаныч Фоменко #:

제 요점을 명확히 말씀드리겠습니다.

모든 MO 알고리즘은 오류를 줄이려고 노력합니다. 오류 감소를 위한 "편리한" 값이 쓰레기에서 훨씬 더 일반적이기 때문에 오류 감소는 쓰레기에서 더 효과적입니다. 결과적으로 쓰레기가 아닌 경우보다 쓰레기에 대한 예측자의 '중요도'가 더 높을 것이 확실합니다. 그렇기 때문에 실제 모델 피팅보다 훨씬 더 노동 집약적인 전처리가 필요합니다.

우리가 고려하고 있는 이 인공적인 예(시장 데이터가 아님)에서
U축 전표는 쓰레기가 아니며 클래스를 정의하는 데 매우 능숙합니다. X축 피시는 두 클래스가 거의 균등하게 혼합되어 있기 때문에 쓰레기입니다.

트리는 그림의 예제 1과 2의 데이터를 클래스 순도, 즉 클래스 확률 = 100%로 Y=0.5를 통해 단 한 번만 분할하면 쉽게 분할할 수 있습니다. X축에서 분할을 테스트할 때 순도는 약 50%가 되며, 알고리즘은 Y보다 더 깨끗한 분할을 선택합니다. 즉, 이 예제에서는 X보다 쓰레기 분할이 선택될 것이라는 설명은 틀린 것입니다.

세 번째 예는 더 복잡합니다. 클래스의 순도가 100%이므로 U<0.2인 리프가 알고리즘에 의해 선택되고, U>0.8인 리프도 선택됩니다.
0.2에서 0.8 사이의 리프는 순도가 약 50%로, 즉 모든 X축 분할과 마찬가지로 쓰레기에 해당합니다.
50%의 클래스 확률을 가진 잎을 사용하지 않으므로 더 이상 분할하는 것은 의미가 없습니다.
멍청한 짓을 해서 이 쓰레기 부분을 하나의 잎에서 예제 1개까지 나누면 Y와 X 모두에서 분할이 사용됩니다. 잎에 예제가 1개 있다면 당연히 순도는 100%가 됩니다. 그러나 이것은 대표적인 시트가 아닙니다. 초보자만 그렇게 할 수 있습니다.

첫 번째 시트 3장으로 충분하거나 시트의 총 예제 수의 1-5-10% 이상 잎사귀 나누기를 중단할 수 있습니다. 이 예에서는 순도가 90% 이상인 잎을 사용하며, 처음 2개의 잎은 U<0.2 및 U>0.8이 됩니다. 나머지 잎은 고르지 않은 혼합으로 인해 50% + 10%가 됩니다.


 
Renat Akhtyamov #:

... 나는 지표를 예측 자로 뉴로 닉스에 충전하고 쓰레기와 청소부의 징후를 식별하려고 노력할 것입니다.

그리고 무엇이 시도를 막고 있나요?

 
Andrey Dik #:

무엇이 쓰레기이고 무엇이 쓰레기가 아닌지는 아무도 모릅니다.

무엇이 무엇인지 정확히 안다면 3,000페이지에 달하는 스레드는 존재하지 않을 것입니다.)

단순히 이런저런 한계를 넘어서는 것이 "쓰레기"라고 가정하면, 이 한계 역시 가설적인 것입니다. 그렇기 때문에 "쓰레기 인 - 쓰레기 아웃"이라는 표현은 아름다운 문구에 지나지 않으며, 한 연구자에게는 쓰레기가 다른 연구자에게는 쓰레기가 아닌 것입니다. 마치 엘리엇의 파도와 같습니다.

모든 사람을 위해 서명할 필요는 없습니다.

어떤 예가 "쓰레기"이고 어떤 예가 그렇지 않은지 모를 가능성이 높습니다. 여러분에게는 가상의 개념입니다. 무엇이 무엇인지 안다면 이 스레드에 앉아 모든 사람을 위해 깊은 생각의 일반화를 작성하지 않을 것입니다.

국방부의 기본은 언제쯤 배울 수 있을까요? 수사학적인 질문입니다.

 
Vladimir Perervenko #:

모든 사람을 위해 서명할 필요는 없습니다.

어떤 예가 "쓰레기"이고 어떤 예가 그렇지 않은지 모를 가능성이 높습니다. 여러분에게는 가상의 개념일 뿐입니다. 무엇이 무엇인지 안다면 이 스레드에 앉아 모든 사람을 위한 심오한 일반화를 작성하지 않았을 것입니다.

국방부의 기본은 언제쯤 배울 수 있을까요? 수사학적인 질문입니다.


귀하의 게시물은 무엇이 쓰레기이고 무엇이 쓰레기가 아닌지 알고 있다는 것을 보여주지 않습니다.
게다가 뭐가 쓰레기가 아닌지 안다면 MO가 필요 없다는 것도 웃긴 일입니다.

파리와 커틀릿을 분리하는 것이 IO의 목적이자 목표입니다.

알면 여기서 뭐하는 거죠?

 

물리학에서 우리가 필요로 하는 신호에 영향을 미치는 신호는 일반적으로 쓰레기로 간주됩니다. 모든 신호, 모든 행동은 무언가에 의해 발생하며 필요하지 않고 연구자가 필요로하는 신호에 대한 정확한 평가를 제공하지 않기 때문에 쓰레기라고합니다. 그래서, 음, 자연에는 쓰레기가 없습니다))))))))))

여기서 가격, 비효율성 또는 다른 것의 패턴을 찾을 때 평가 신호는 일부 실제 이벤트 또는 그 전체가 가격에 미치는 영향입니다. 다른 모든 영향은 쓰레기가 될 것입니다.

물론 판단의 진실을 주장하는 것은 아닙니다))))

 
Valeriy Yastremskiy #:

물리학에서 우리가 필요로 하는 신호에 영향을 미치는 신호는 일반적으로 쓰레기로 간주됩니다. 모든 신호, 모든 행동은 무언가에 의해 발생하며 필요하지 않고 연구자가 필요로하는 신호에 대한 정확한 평가를 제공하지 않기 때문에 쓰레기라고합니다. 그래서 자연에는 쓰레기가 없습니다))))))

여기서 가격, 비효율성 또는 다른 것의 패턴을 찾을 때 평가 신호는 일부 실제 이벤트 또는 그 전체가 가격에 미치는 영향입니다. 그러나 다른 모든 영향은 쓰레기가 될 것입니다.

물론 판단의 진실을 주장하는 것은 아닙니다))))

DSP 이론을 자세히 살펴보면 다음과 같습니다:

처음에는 쓰레기가 없는 유용한 신호(예: 추세선 또는 일부 곡선)가 알려져 있습니다.

그런 다음 다음 틱에서 전체 신호 질량에서 유용한 신호를 빼고 필요하지 않은 신호, 즉 쓰레기를 식별합니다.

 
피처 리터링은 특정 대상 피처와 관련하여 평가되며, 그 반대의 경우도 마찬가지입니다. 인과 관계가 없는 경우 데이터 세트 전체 또는 구성 요소 중 하나가 쓰레기입니다. 그리고 종종 그것은 기능이 아니라 잘못된 마크업입니다.

쓰레기라도 유용한 방식으로 분할할 수 있기 때문입니다. 예를 들어 유형이나 크기별로 정렬할 수 있습니다.
 
Ivan Butko #:

무엇이 쓰레기가 아닌지 알려주실 수 있나요? 깨끗한 입력 데이터에 대해 이야기하는 사람을 본 적이 없습니다. 하지만 포럼에서 쓰레기에 대한 이야기는 항상 듣습니다.

그게 뭔가요? 쓰레기에 대해 이야기하고 있다면 쓰레기가 없는 것이고, 그렇지 않다면 비교할 것이 없습니다.

쓰레기가 아닌 것은 교사와 관련이 있거나 영향을 받는 예측 변수입니다. 다음은 쓰레기와 쓰레기가 아닌 것을 구분하는 알고리즘으로 가득 찬 프록시 패키지입니다. 그건 그렇고, R에서 유일한 것은 아닙니다.

예를 들어, 교사 가격 증분에 대한 mashka는 모든 평활화 알고리즘과 마찬가지로 쓰레기입니다.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
전처리는 쓰레기가 아닌 정규화에 관한 것입니다.
쓰레기는 피처 선택이며 부분적으로는 피처 엔지니어링입니다.

산치, 미성숙한 사람들에게 쓰레기를 먹이지 마세요.

모델의 일부로서 기능 선택을 의미한다면, 모델의 일부로서 기능 선택은 쓰레기에 불과하기 때문에 전적으로 동의하지 않습니다.

사유: