Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3338

 
А где там стат. вывод после ресемплинга и cv? И построение финального классификатора. Эту тему берите и развивайте. Это основа козула.

Тулз фор креатинг эфектив моделз, компаринг мультипл моделз виз ресамплинг. Дальше должно быть что-то вроде стат. вывода и построения несмещенной модели.

Статистикал лернинг нам нужен. Это дает какие-то результаты, в сравнении с тем же РЛ и прочими метОдами.

Найдите в R: statistical learning, weak supervised learning, functional augmentation learning.
 
В питоне есть либа snorkel. У них на сайте где-то приводились сравнения обучения с учителем vs обучение со слабым контролем. Что второе аутперформит первое. Это тоже полезно знать.

 
СанСаныч Фоменко #:

Откажитесь от привычки читать только заголовки:  книга - это не пост в твиттере.

Более половины книги я прочитал, поэтому сам могу судить о содержании, есть разделы, которые на 80% состоят из кода.

Вот перечень пакетов, которые использовались при написании кода в книге. 

По своему содержанию книга представляет собой систематическое изложение проблем и их решений того, что называется "машинное обучение", на данном сайте весьма полезна, так как под "машинным обучением" обычно понимают только модель.

Да. Хороша книга.

Поскольку Вы прочли половину.

Могли бы наверное написать одну строчку кода.

Наиболее запомнившуюся Вам?

P.Z.

Советую всем изучить книгу.

 
Maxim Dmitrievsky #:
statistical learning

козул - это самореклама, новая наклейка на старые штаны.

Maxim Dmitrievsky #:
А где там стат. вывод после ресемплинга и cv? И построение финального классификатора. Эту тему берите и развивайте. Это основа козула.

Тулз фор креатинг эфектив моделз, компаринг мультипл моделз виз ресамплинг. Дальше должно быть что-то вроде стат. вывода и построения несмещенной модели.

Статистикал лернинг нам нужен. Это дает какие-то результаты, в сравнении с тем же РЛ и прочими метОдами.

Найдите в R: statistical learning, weak supervised learning, functional augmentation learning.

Козул - это недобросовестная реклама, новая наклейка на старые штаны. 

Тулз фор креатинг эфектив моделз, компаринг мультипл моделз виз ресамплинг. Дальше должно быть что-то вроде стат. вывода и построения несмещенной модели.

Это стандарт машинного обучения и значительная часть книги рассматривает именно эти вопросы, которым много лет и для решения которых придумано множество инструментов. Часть 3 книги так и называется: Tools for Creating Effective Models со следующим содержанием:

·         10 Повторная выборка для оценки производительности

·         11 Сравнение моделей с повторной выборкой

·         12 Настройка модели и опасность переобучения

·         13 Поиск по сетке

·         14 Итеративный поиск

·         15 Просмотр множества моделей

Кроме этого имеется глава 20 "Ensembles of Models", которая рассказывает как построить финальную модель.

Статистикал лернинг нам нужен.

Нужен? пожалуйста: CRAN Task View: Machine Learning & Statistical Learning

10 Resampling for Evaluating Performance | Tidy Modeling with R
10 Resampling for Evaluating Performance | Tidy Modeling with R
  • Max Kuhn and Julia Silge
  • www.tmwr.org
The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases of the modeling process.
 
Ансамбли уже ближе к козулу, по крайней мере можно выровнять смещение, при возросшей дисперсии.

Но у вас останется куча шума в предсказаниях (потому что дисперсия больше), что будете с ним делать? То есть у ТС даже на трейне будет, скажем, всего 60% прибыльных сделок. И на тесте столько же или меньше.

Ага, вы начнете делать стакинг, чтобы скорректировать этот шум.. ну попробуйте.
 
Maxim Dmitrievsky #:
Это для новичков подсказки, нужен козул и умение думать

Вот, идите в статистикал лернинг, не толпитесь на проходной

Можно тезисно про то, как построить финальную модель, по версии этой книги? Я с телефона, не могу сейчас посмотреть.

A model ensemble, where the predictions of multiple single learners are aggregated to make one prediction, can produce a high-performance final model. The most popular methods for creating ensemble models are bagging (Breiman 1996a), random forest (Ho 1995; Breiman 2001a), and boosting (Freund and Schapire 1997). Each of these methods combines the predictions from multiple versions of the same type of model (e.g., classifications trees). However, one of the earliest methods for creating ensembles is model stacking (Wolpert 1992; Breiman 1996b).

Model stacking combines the predictions for multiple models of any type. For example, a logistic regression, classification tree, and support vector machine can be included in a stacking ensemble.

This chapter shows how to stack predictive models using the stacks package. We’ll re-use the results from Chapter 15 where multiple models were evaluated to predict the compressive strength of concrete mixtures.

The process of building a stacked ensemble is:

  1. Assemble the training set of hold-out predictions (produced via resampling).
  2. Create a model to blend these predictions.
  3. For each member of the ensemble, fit the model on the original training set.


20.5 CHAPTER SUMMARY

This chapter demonstrated how to combine different models into an ensemble for better predictive performance. The process of creating the ensemble can automatically eliminate candidate models to find a small subset that improves performance. The stacks package has a fluent interface for combining resampling and tuning results into a meta-model.



Это взгляд на проблему автора книги, но это не единственный способ объединение несколько моделей - в R существуют пакеты для объединения моделей.  Например, caretEnsemble: Ensembles of Caret Models

20 Ensembles of Models | Tidy Modeling with R
20 Ensembles of Models | Tidy Modeling with R
  • Max Kuhn and Julia Silge
  • www.tmwr.org
The tidymodels framework is a collection of R packages for modeling and machine learning using tidyverse principles. This book provides a thorough introduction to how to use tidymodels, and an outline of good methodology and statistical practice for phases of the modeling process.
 
Нужен ансамбль и стакинг, то есть бустинг над классификаторами. Ансамбль убирает смещение, а стакинг дисперсию. В теории это может работать, на практике не делал. И это будет много моделей, что неприятно в продакшне.

Потому что когда дойдете до продакшна, запаритесь с кучей моделей. А хочется одну-две.

Плюс никак не решается вопрос, что не всегда нужно быть в рынке. Модель будет молотить постоянно. Вот из-за этих, скажем так нюансов, ломается полный цикл от разработки до внедрения.
 Тестер будет медленно тестить, все будет медленно, ватно.
 
Там еще, похоже, в книге путают ансамбль и стакинг. Короче это нормальный подход, но он может быть ватным в продакшне. И для этого не нужна пакетов гора. 

А, еще не решается наиболее важная проблема разметки.
 
Как вот недавно давали ссылку на статью Владимира. Пример наиболее ватного создания ТС. Когда ты сделал кучу работы, трансформаций, а на выходе получил какую-то модель, которую можно получить случайным перебором, ничего не делая. Это интересно, но непродуктивно.
 
Maxim Dmitrievsky #:
 все будет медленно, ватно.
Maxim Dmitrievsky #:
Там еще, похоже, в книге путают ансамбль и стакинг. Короче это нормальный подход, но он может быть ватным в продакшне.
Maxim Dmitrievsky #:
Как вот недавно давали ссылку на статью Владимира. Пример наиболее ватного создания ТС.

Что за ватность?

Причина обращения: