트레이딩의 머신러닝: 이론, 모델, 실전 및 알고리즘 트레이딩 - 페이지 3339

 
СанСаныч Фоменко #:

헤드라인만 읽는 습관을 버리세요: 책은 트위터 게시물이 아닙니다.

책의 절반 이상을 읽었기 때문에 내용을 스스로 판단할 수 있고, 80%가 코드인 부분도 있습니다.

다음은 책에서 코드를 작성할 때 사용한 패키지 목록입니다.

내용면에서 이 책은 "머신 러닝"이라는 것에 대한 문제와 해결책을 체계적으로 제시하고 있는데, 이 사이트에서는 "머신 러닝"을 일반적으로 모델로만 이해하므로 매우 유용합니다.

네, 좋은 책입니다.

절반은 읽으셨으니까요.

아마 코드 한 줄 정도는 작성할 수 있을 겁니다.

가장 기억에 남는 부분은 무엇인가요?

P.Z.

모든 사람에게 이 책을 읽어보라고 권하고 싶어요.

 
Maxim Dmitrievsky #:
통계 학습

코줄은 낡은 바지에 새 스티커를 붙이는 자기 홍보입니다.

막심 드미트리예프스키 #:
리샘플링 및 CV 후 통계적 출력은 어디에 있나요? 그리고 최종 분류기의 구성. 이 주제를 가져 와서 개발하십시오. 이것이 코줄의 기초입니다.

여러 모델을 리샘플링과 비교하여 효율적인 모델을 만들기 위한 툴입니다. 다음은 통계적 추론과 편향되지 않은 모델 구축과 같은 것이어야 합니다.

통계적 추론이 필요합니다. 동일한 RL 및 다른 방법과 비교하여 몇 가지 결과를 제공합니다.

R에서 검색: 통계적 학습, 약한 지도 학습, 기능적 증강 학습.

코줄은 불공정 광고, 낡은 바지에 새 스티커를 붙이는 것입니다.

리샘플링을 통해 여러 모델을 비교하여 효과적인 모델을 만들기 위한 툴입니다. 다음은 통계 추론과 편향되지 않은 모델 구축과 같은 것이어야 합니다.

이것은 머신 러닝의 표준이며, 이 책의 대부분은 오래 전부터 많은 도구가 발명된 바로 이러한 문제를 다룹니다. 이 책의 3부는 효과적인 모델을 만들기 위한 도구라는 제목으로 다음과 같은 내용을 담고 있습니다:

- 10 성능 평가를 위한 리샘플링

- 11 리샘플링을 사용한 모델 비교

- 12 모델 튜닝과 과적합의 위험성

- 13 그리드 검색

- 14 반복 검색

- 15 여러 모델 보기

또한 20장'모델 앙상블'에서는 최종 모델을 구축하는 방법을 설명합니다.

통계적 학습이 필요합니다.

필요하신가요? CRAN 작업 보기: 머신 러닝 및 통계 학습

10 Resampling for Evaluating Performance | Tidy Modeling with R
10 Resampling for Evaluating Performance | Tidy Modeling with R
  • Max Kuhn and Julia Silge
  • www.tmwr.org
The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases of the modeling process.
 
앙상블은 이미 코줄에 가까워졌으며, 적어도 편차가 증가하면서 편향성을 균등화할 수 있습니다.

그러나 여전히 예측에 많은 노이즈가있을 것입니다 (분산이 더 크기 때문에), 당신은 그것을 어떻게 할 것입니까? 즉, 훈련에서도 TS는 수익성있는 거래의 60 % 만 가질 것입니다. 그리고 테스트에서는 동일하거나 그 이하입니다.

예,이 소음을 수정하기 위해 스테이 킹을 시작할 것입니다... 음, 시도해보십시오.
 
Maxim Dmitrievsky #:
이것은 초보자를 위한 팁이며, 코줄과 사고력이 필요합니다

여기, 통계청으로 가서 프런트 데스크에 붐비지 마십시오.

이 책에 따라 최종 모델을 구축하는 방법에 대한 논문을 얻을 수 있습니까? 지금 휴대폰을 보고 있어서 지금 볼 수 없습니다.

여러 단일 학습자의 예측을 종합하여 하나의 예측을 만드는 모델 앙상블은 고성능의 최종 모델을 생성할 수 있습니다. 앙상블 모델을 만드는 데 가장 많이 사용되는 방법은 배깅(Breiman 1996a), 랜덤 포레스트(Ho 1995,Breiman 2001a), 부스팅(Freund and Schapire 1997)입니다. 이러한 각 방법은 동일한 유형의 모델(예: 분류 트리)의 여러 버전에서 예측을 결합합니다. 그러나 앙상블을 생성하는 가장 초기의 방법 중 하나는모델 스태킹입니다(Wolpert 1992;Breiman 1996b).

모델 스태킹은 모든 유형의 여러 모델에 대한 예측을 결합합니다. 예를 들어 로지스틱 회귀, 분류 트리, 서포트 벡터 머신을 스태킹 앙상블에 포함할 수 있습니다.

이 장에서는스택 패키지를 사용하여 예측 모델을 스택하는 방법을 보여줍니다. 콘크리트 혼합물의 압축 강도를 예측하기 위해 여러 모델을 평가했던 15장의 결과를 다시 사용하겠습니다.

스택 앙상블을 구축하는 과정은 다음과 같습니다:

  1. 홀드아웃 예측의 훈련 집합을 조립합니다(리샘플링을 통해 생성).
  2. 이러한 예측을 혼합할 모델을 생성합니다.
  3. 앙상블의 각 구성원에 대해 원래 훈련 세트에 모델을 맞춥니다.


20.5 요약

이 장에서는 더 나은 예측 성능을 위해 서로 다른 모델을 앙상블로 결합하는 방법을 설명했습니다. 앙상블을 만드는 과정에서 후보 모델을 자동으로 제거하여 성능을 향상시키는 작은 하위 집합을 찾을 수 있습니다.스택 패키지에는 리샘플링과 튜닝 결과를 메타 모델로 결합하기 위한 유창한 인터페이스가 있습니다.



이것이 저자의 견해이지만 여러 모델을 결합하는 유일한 방법은 아닙니다. R에는 모델 결합을 위한 스택 패키지가 있습니다. 예를 들어, caretEnsemble: 캐럿 모델 앙상블

20 Ensembles of Models | Tidy Modeling with R
20 Ensembles of Models | Tidy Modeling with R
  • Max Kuhn and Julia Silge
  • www.tmwr.org
The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases of the modeling process.
 
우리는 앙상블과 스태킹, 즉 분류기에 대한 부스팅이 필요합니다. 앙상블은 편향을 제거하고 스태킹은 편차를 제거합니다. 이론적으로는 작동할 수 있지만 실제로는 해보지 못했습니다. 그리고 그것은 많은 모델이 될 것이며, 이는 프로덕션에서 불쾌합니다.

프로덕션에 들어가면 많은 모델에 갇히게 될 것이기 때문입니다. 그리고 한두 개를 원하겠죠.

게다가 항상 시장에 출시할 필요가 없다는 문제도 해결되지 않습니다. 모델은 항상 망치질을 할 것입니다. 이러한 뉘앙스 때문에 개발에서 구현에 이르는 전체 주기가 무너집니다.
테스터는 테스트가 느려지고 모든 것이 느리고 면직물이 될 것입니다.
 
책에서는 앙상블과 스태킹을 혼동하는 것 같기도 합니다. 요컨대, 일반적인 접근 방식이지만 프로덕션에서는 엉뚱할 수 있습니다. 그리고 많은 패키지가 필요하지 않습니다.

또한 가장 중요한 마크업 문제도 해결하지 못합니다.
 
최근 블라디미르의 글에 대한 링크처럼요. 가장 엉뚱한 TC 생성의 예시입니다. 많은 작업과 변환을 수행한 후 아무것도 하지 않고 무작위 무차별 대입으로 얻을 수 있는 모델을 만든 경우입니다. 흥미롭기는 하지만 비생산적입니다.
 
Maxim Dmitrievsky #:
모든 것이 느릴 것입니다, 면화.
막심 드미트리예프스키 #:
이 책은 또한 앙상블과 스태킹을 혼동하는 것 같습니다. 요컨대, 이것은 정상적인 접근 방식이지만 생산시 면화가 될 수 있습니다.
막심 드미트리에프스키 #:
최근에 블라디미르의 기사에 대한 링크를 주셨듯이요. 가장 엉뚱한 TC 제작의 예입니다.

어떤 종류의 솜털인가요?

 
Forester #:

왜 이렇게 푹신한가요?

느림의 대명사
 

저는 통계적 학습과 신뢰할 수 있는 AI인 코줄로 돌아가자고 제안합니다.

P.Z.

더 자세한 내용을 알아보세요.

사유: