Спасибо за разъяснения. Используйте пакеты для разбиения выборки, который позволит сохранять последовательности так, чтобы на валидации не попадали - Общее обсуждение

Aleksey Nikolayev 2023.10.26 20:31 #33241

Aleksey Vyazmikin #:

Я не уловил тут связи. Из каких слов это следует?

Из прочтения текста по вашей ссылке, там даже теорема была вроде об их связи. Не ленитесь читать хотя бы свои ссылки.

Aleksey Vyazmikin 2023.10.26 20:32 #33242

Forester #:
Я тоже не по формулам, а по идеям.
А если разобрать идею, то она так себе для рыночных данных.

Там предлагается удалять пары примеров разных классов, которые очень близко друг к другу расположены. Если посмотреть 3-й пример, то в идеале будут удалены все примеры от 0,2 до 0,8 и останутся только участки ниже 0,2 и выше 0,8 с абсолютной чистотой классов. Любая модель дальше легко их классифицирует.
Ранее я уже показал, что такой простой пример и дерево легко разделит, если в работу использовать листья с высокой чистотой классов (и не делить листья до 1 примера в листе).
Но это искусственный пример.

На рыночных данных таких чистых блоков с преобладанием одного класса не будет. Т.е. вычистить придется почти все. Например было 1000 точек, 900 вычистили, остальные как то достигли чистоты листьев например 70% - вроде неплохо, и можно заработать. Но когда вы начнете реально торговать, то туда же будут попадать примеры, от которых мы избавились при чистке (9 мусорных на 1 оставшийся) и показатели с 70% упадут например до 53% и вы проиграете по спреду, проскальзываниям и т.п.

Препочитаю дерево и лист с честными 53% чистоты одного из классов. И не буду его использовать.

На данный момент наши мысли сходятся, относительно результата. Да, я ожидаю, что будет сильно прореженная выборка, но как я понял процесс итеративный, а значит можно знать меру и остановится гораздо раньше и уже по тем данным строить те же деревянные модели, которые будут иметь меньше сплитов и более достоверные показатели в листьях.

Я правильно понимаю, что изначальные центры находятся рандомно?

Есть ли закономерность в торговая стратегия на базе Мт4 Конец поддержке.

Aleksey Vyazmikin 2023.10.26 20:33 #33243

Aleksey Nikolayev #:
Из прочтения текста по вашей ссылке, там даже теорема была вроде об их связи. Не ленитесь читать хотя бы свои ссылки.

Поэтому и просил процитировать...

Aleksey Vyazmikin 2023.10.26 20:35 #33244

Andrey Dik #:

Причина простая, как и задумывалось - сигналы пропадают, потому что на новых данных сигналы выходят за узкий допустимый диапазон.

Ну, это можно сравнить с классификацией, есть понятные известные паттерны и есть непонятные неизвестные. Со временем неизвестных всё больше и больше и в классе "известные" не остаётся ничего.

Спасибо за разъяснения.

Aleksey Nikolayev 2023.10.26 20:37 #33245

Aleksey Vyazmikin #:

Поэтому и просил процитировать...

Троллите что ли? Там всего одна теорема в тексте и она о вычислении CCV через профиль.

Maxim Dmitrievsky 2023.10.26 20:53 #33246

Aleksey Vyazmikin #:

На данный момент наши мысли сходятся, относительно результата. Да, я ожидаю, что будет сильно прореженная выборка, но как я понял процесс итеративный, а значит можно знать меру и остановится гораздо раньше и уже по тем данным строить те же деревянные модели, которые будут иметь меньше сплитов и более достоверные показатели в листьях.

Я правильно понимаю, что изначальные центры находятся рандомно?

#32100

#32098

#11831

Посмотрел также на профиль компактности. Может быть так, что это будет еще дороже, чем корреляционная матрица. Не только по памяти, но и по времени вычислений.

Если по Саберовскому методу, то memory-efficient.

У меня подобная задача решается очень быстро, как - не скажу, потому что опять начнутся беспочвенные обзывалки колхозников.

Ну еще вы на Форексе столкнетесь с тем, что ваши датасеты часто будут вырождаться в ноль.

Вопросы от "чайника" Советники: Трал, который умеет Здравствуйте. Хотел бы написать

Aleksey Vyazmikin 2023.10.26 21:48 #33247

Aleksey Nikolayev #:
Троллите что ли? Там всего одна теорема в тексте и она о вычислении CCV через профиль.

Я не тролю. Даже не помню, что бы были такие случаи тут с моей стороны. Просто не понял.

Вы правы, действительно там идет речь о теоретическом доказывании схожести вычисления профиля со средней (по всем разбиениям) ошибкой на контроле "complete cross-validation ".

Раньше я не слышал этот термин, сейчас понял, что это по сути все возможные комбинации выборки.

Хорошо, но как пакеты для разбиения выборки тут могут помочь - эту идею я не могу пока понять.

Группа пользователей MetaTrader 5 Маркетмейкер, Акулы и биржевой История сделок в торговом

Aleksey Vyazmikin 2023.10.26 22:06 #33248

Maxim Dmitrievsky #:

#32100

#32098

#11831

Не понял, к чему относятся эти ссылки...

Но, хорошо, в планах поставил себе потестировать рандомное разбиение выборки, как пообвыкнуть с питоном. К тому же, оказалось, что в CB реализована уже схожая идея, которую я хотел пилить...

Maxim Dmitrievsky #:

Посмотрел также на профиль компактности. Может быть так, что это будет еще дороже, чем корреляционная матрица. Не только по памяти, но и по времени вычислений.

Если по Саберовскому методу, то memory-efficient.

У меня подобная задача решается очень быстро, как - не скажу, потому что опять начнутся беспочвенные обзывалки колхозников.

Ну еще вы на Форексе столкнетесь с тем, что ваши датасеты часто будут вырождаться в ноль.

Я не тороплюсь, ресурсы вычислительные вроде есть - пусть и уже старенькие, но 128 гигов оперативки есть. Хочется попробовать разные методы, в том числе для сравнения собственного подхода.

Нехватка данных - проблема для меня постоянная, и да, при исключении примеров она усугубляется.

Интерполяция, аппроксимация и иже ООП для школьников. Любой вопрос новичка, чтоб

Maxim Dmitrievsky 2023.10.26 22:10 #33249

Aleksey Vyazmikin #:

Не понял, к чему относятся эти ссылки...

Но, хорошо, в планах поставил себе потестировать рандомное разбиение выборки, как пообвыкнуть с питоном. К тому же, оказалось, что в CB реализована уже схожая идея, которую я хотел пилить...

Я не тороплюсь, ресурсы вычислительные вроде есть - пусть и уже старенькие, но 128 гигов оперативки есть. Хочется попробовать разные методы, в том числе для сравнения собственного подхода.

Нехватка данных - проблема для меня постоянная, и да, при исключении примеров она усугубляется.

ссылки к тому, что периодически вбрасываю темы, потом люди через отрицание или бессознанку начинают к этому и приходить через время

каждый испытывает специфические какие-нибудь страдания при этом

Aleksey Vyazmikin 2023.10.26 22:19 #33250

Maxim Dmitrievsky #:

ссылки к тому, что периодически вбрасываю темы, потом люди через отрицание или бессознанку начинают к этому и приходить через время

каждый испытывает специфические какие-нибудь страдания при этом

Ну это нормально в целом. Так же можно сказать и про Вас ;)

Я уже, вроде, два года назад делал большой эксперимент по обучению на разных участках и отбору предикторов по результатам обучения, та ж кросс валидация по сути, но без нарушений последовательности событий. Слышал, что есть такой пакет, который позволят сохранять последовательности так, что бы на валидации не попадали данные до трейна и трейна. Не знаете как называется?

Есть ли закономерность в Для поклонников мартингейла Как повысить надёжность сигнала

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3325