Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3312

 
Ivan Butko #:

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу. 

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

НЕ мусор - это предиктор, который связан/имеет влияние с учителем. Вот пакет proxy, в котором полно алгоритмов, позволяющий отделить мусор от НЕ мусора. Кстати, далеко не единственный в  R.

Например, машка для учителя приращение цены является мусором, как и любые алгоритмы сглаживания.

proxy: Distance and Similarity Measures
proxy: Distance and Similarity Measures
  • cran.r-project.org
Provides an extensible framework for the efficient calculation of auto- and cross-proximities, along with implementations of the most popular ones.
 
mytarmailS #:
Препроцессинг это про нормализацию а не про мусор. 
Про мусор это feature selection и от части  feature engineering

Саныч харош мусор на вход подавать людям неокрепшым 

Если Вы про  feature selection в в составе моделей, то совершенно не согласен, так как   feature selection  в составе моделей  как раз любой мусор ранжирует.    

 
Саныч, когда запомним, что Учитель - это признаки + целевая?)

Вот такие детские ляпы, вроде как от серьезных людей, познавших великий R, портят всю атмосферу. Причем люди, получается, необучаемые, сколько их не поправляй.

Как с вами разговаривать, если вы в основах путаетесь до сих пор?)

Не в обиду, но вы же даже не понимаете друг друга, о чем каждый пишет :)))
 
СанСаныч Фоменко #:

Если Вы про  feature selection в в составе моделей, то совершенно не согласен, так как   feature selection  в составе моделей  как раз любой мусор ранжирует.    

Я говорю про  feature selection

а то что вы называете  "feature selection в в составе моделей" это -  variance importance. Не путайте себя и другихм могзи не пудрите.

А то что вы делаете с пакетом proxy это и есть кустарный, неправильный, примитивный  feature selection, вернее его часть


И действительно, ознакомтесь с понятиями и не вводите свои поверх существующих

А то меня каждый раз передергивает когда вы переобучение называете "сверх подгонкой" и таких ляп вагон

 
Maxim Dmitrievsky #:
Саныч, когда запомним, что Учитель - это признаки + целевая?)

Вот такие детские ляпы, вроде как от серьезных людей, познавших великий R, портят всю атмосферу. Причем люди, получается, необучаемые, сколько их не поправляй.

Как с вами разговаривать, если вы в основах путаетесь до сих пор?)

Не в обиду, но вы же даже не понимаете друг друга, о чем каждый пишет :)))

О, наймудрейший!

О, наисведомленнейший!

"Учитель" (синоним целевая переменная) в методе обучения "с учителем" представляет собой ОТДЕЛЬНУЮ ПЕРЕМЕННУЮ в формуле всех известных мне моделей машинного обучения например,:

 

randomForest(as.factor(target ) ~ .,
                                     data   = Train [, - ncol(Train )],
                                     ntree  = ntree,
                                     mtry   = mtry)

где target представляет собой отдельный столбец матрицы. По смыслу, например, приращения цены. Это как функция и ее аргументы. 

Остальные столбцы матрицы надо подобрать. Проблема том, что не всякий УЧИТЕЛЬ подойдет для признаков(предикторов) и наоборот, не всякие признаки подойдут для конкретного учителя 

 
mytarmailS #:

Я говорю про  feature selection

а то что вы называете  "feature selection в в составе моделей" это -  variance importance. Не путайте себя и другихм могзи не пудрите.

А то что вы делаете с пакетом proxy это и есть кустарный, неправильный, примитивный  feature selection, вернее его часть


И действительно, ознакомтесь с понятиями и не вводите свои поверх существующих

А то меня каждый раз передергивает когда вы переобучение называете "сверх подгонкой" и таких ляп вагон

Спасибо за уточнение!

Но абсолютная точность возможна только с указанием конкретной модели машинного обучение, так как существуют модели, в которых предоставляются сведения о  variance importance, а существуют модели, в которые  feature selection встроен.

Если общая классификация  понятий в проблеме отбора фич, то можно пользоваться этим


Просто к слову: какой перевод overfitting? Переобучение? А может сверх подгонка?

 
СанСаныч Фоменко #:

Спасибо за уточнение!

Просто к слову: какой перевод overfitting? Переобучение? А может сверх подгонка?

переела - overate

переговорил - talked over

Суть даже не в этом, а в том что вы единственный кто употребляет это слово на фоне сотен других и в этом нету неичего хорошего, это только путает.


==================================================================


Помню вы говорили что считаюся вашы функции долго , есть такая крутая вещь как мемоизация кода , очень сильно ускоряет код  в некоторых случаях, нужно всего лишь завернуть медленную f1() функцию в  f2() и сделать мемоизируемую функцию

f2 <- memoise::memoise(f1)

прирост отличный

microbenchmark::microbenchmark(f1(),f2())
Unit: microseconds
 expr        min         lq       mean     median         uq      max neval
 f1() 145281.202 154547.404 163587.417 160677.641 167757.222 204640.4   100
 f2()    234.342    270.263   1989.096    402.544    413.092 164095.8   100
 
СанСаныч Фоменко #:

О, наймудрейший!

О, наисведомленнейший!

"Учитель" 

Саныч, где там написано, что Учитель синоним целевой? )

 
mytarmailS #:
memoise

любопытно

 
Maxim Dmitrievsky #:

Саныч, где там написано, что Учитель синоним целевой? )

Не надо тупить!

Обуче́ние с учи́телем (англ. Supervised learning) — один из способов машинного обучения, в ходе которого испытуемая система принудительно обучается с помощью примеров «стимул-реакция». С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Между входами и эталонными выходами (стимул-реакция) может существовать некоторая зависимость, но она неизвестна.


А главное не надо никого учить! Занимайтесь собой!

Причина обращения: