Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3325

 
Aleksey Vyazmikin #:

Я не уловил тут связи. Из каких слов это следует?

Из прочтения текста по вашей ссылке, там даже теорема была вроде об их связи. Не ленитесь читать хотя бы свои ссылки.
 
Forester #:
Я тоже не по формулам, а по идеям.
А если разобрать идею, то она так себе для рыночных данных.

Там предлагается удалять пары примеров разных классов, которые очень близко друг к другу расположены. Если посмотреть 3-й пример, то в идеале будут удалены все примеры от 0,2 до 0,8 и останутся только участки ниже 0,2 и выше 0,8 с абсолютной чистотой классов. Любая модель дальше легко их классифицирует.
Ранее я уже показал, что такой простой пример и дерево легко разделит, если в работу использовать листья с высокой чистотой классов (и не делить листья до 1 примера в листе).
Но это искусственный пример.

На рыночных данных таких чистых блоков с преобладанием одного класса не будет. Т.е. вычистить придется почти все. Например было 1000 точек, 900 вычистили, остальные как то достигли чистоты листьев например 70% - вроде неплохо, и можно заработать. Но когда вы начнете реально торговать, то туда же будут попадать примеры, от которых мы избавились при чистке (9 мусорных на 1 оставшийся) и показатели с 70% упадут например до 53% и вы проиграете по спреду, проскальзываниям и т.п.

Препочитаю дерево и лист с честными 53% чистоты одного из классов. И не буду его использовать.

На данный момент наши мысли сходятся, относительно результата. Да, я ожидаю, что будет сильно прореженная выборка, но как я понял процесс итеративный, а значит можно знать меру и остановится гораздо раньше и уже по тем данным строить те же деревянные модели, которые будут иметь меньше сплитов и более достоверные показатели в листьях.

Я правильно понимаю, что изначальные центры находятся рандомно?

 
Aleksey Nikolayev #:
Из прочтения текста по вашей ссылке, там даже теорема была вроде об их связи. Не ленитесь читать хотя бы свои ссылки.

Поэтому и просил процитировать...

 
Andrey Dik #:

Причина простая, как и задумывалось - сигналы пропадают, потому что на новых данных сигналы выходят за узкий допустимый диапазон.

Ну, это можно сравнить с классификацией, есть понятные известные паттерны и есть непонятные неизвестные. Со временем неизвестных всё больше и больше и в классе "известные" не остаётся ничего.

Спасибо за разъяснения.

 
Aleksey Vyazmikin #:

Поэтому и просил процитировать...

Троллите что ли? Там всего одна теорема в тексте и она о вычислении CCV через профиль.
 
Aleksey Vyazmikin #:

На данный момент наши мысли сходятся, относительно результата. Да, я ожидаю, что будет сильно прореженная выборка, но как я понял процесс итеративный, а значит можно знать меру и остановится гораздо раньше и уже по тем данным строить те же деревянные модели, которые будут иметь меньше сплитов и более достоверные показатели в листьях.

Я правильно понимаю, что изначальные центры находятся рандомно?

#32100

#32098

#11831

Посмотрел также на профиль компактности. Может быть так, что это будет еще дороже, чем корреляционная матрица. Не только по памяти, но и по времени вычислений.

Если по Саберовскому методу, то memory-efficient.

У меня подобная задача решается очень быстро, как - не скажу, потому что опять начнутся беспочвенные обзывалки колхозников.

Ну еще вы на Форексе столкнетесь с тем, что ваши датасеты часто будут вырождаться в ноль.
 
Aleksey Nikolayev #:
Троллите что ли? Там всего одна теорема в тексте и она о вычислении CCV через профиль.

Я не тролю. Даже не помню, что бы были такие случаи тут с моей стороны. Просто не понял.

Вы правы, действительно там идет речь о теоретическом доказывании схожести вычисления профиля со средней (по всем разбиениям) ошибкой на контроле "complete cross-validation ".

Раньше я не слышал этот термин, сейчас понял, что это по сути все возможные комбинации выборки.

Хорошо, но как пакеты для разбиения выборки тут могут помочь - эту идею я не могу пока понять.

 
Maxim Dmitrievsky #:

#32100

#32098

#11831

Не понял, к чему относятся эти ссылки...

Но, хорошо, в планах поставил себе потестировать рандомное разбиение выборки, как пообвыкнуть с питоном. К тому же, оказалось, что в CB реализована уже схожая идея, которую я хотел пилить...

Maxim Dmitrievsky #:

Посмотрел также на профиль компактности. Может быть так, что это будет еще дороже, чем корреляционная матрица. Не только по памяти, но и по времени вычислений.

Если по Саберовскому методу, то memory-efficient.

У меня подобная задача решается очень быстро, как - не скажу, потому что опять начнутся беспочвенные обзывалки колхозников.

Ну еще вы на Форексе столкнетесь с тем, что ваши датасеты часто будут вырождаться в ноль.

Я не тороплюсь, ресурсы вычислительные вроде есть - пусть и уже старенькие, но 128 гигов оперативки есть. Хочется попробовать разные методы, в том числе для сравнения собственного подхода.

Нехватка данных - проблема для меня постоянная, и да, при исключении примеров она усугубляется.

 
Aleksey Vyazmikin #:

Не понял, к чему относятся эти ссылки...

Но, хорошо, в планах поставил себе потестировать рандомное разбиение выборки, как пообвыкнуть с питоном. К тому же, оказалось, что в CB реализована уже схожая идея, которую я хотел пилить...

Я не тороплюсь, ресурсы вычислительные вроде есть - пусть и уже старенькие, но 128 гигов оперативки есть. Хочется попробовать разные методы, в том числе для сравнения собственного подхода.

Нехватка данных - проблема для меня постоянная, и да, при исключении примеров она усугубляется.

ссылки к тому, что периодически вбрасываю темы, потом люди через отрицание или бессознанку начинают к этому и приходить через время

каждый испытывает специфические какие-нибудь страдания при этом

 
Maxim Dmitrievsky #:

ссылки к тому, что периодически вбрасываю темы, потом люди через отрицание или бессознанку начинают к этому и приходить через время

каждый испытывает специфические какие-нибудь страдания при этом

Ну это нормально в целом. Так же можно сказать и про Вас ;)

Я уже, вроде, два года назад делал большой эксперимент по обучению на разных участках и отбору предикторов по результатам обучения, та ж кросс валидация по сути, но без нарушений последовательности событий. Слышал, что есть такой пакет, который позволят сохранять последовательности так, что бы на валидации не попадали данные до трейна и трейна. Не знаете как называется?

Причина обращения: