Для деревьев и лесов выравнивать кол-во примеров разных классов - Общее обсуждение

Forester 2018.12.26 07:37 #12351

Дмитрий:

Нет

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015

там есть несколько страниц посвященных этой теме. Вот итоговая:

Отмеченный пункт 1 говорит, что балансировка полезна.

Но имеется и пункт 2. Из которого можно сделать вывод, что при большой выборке, когда примеров малого класса будет достаточно много, то выборка по нему станет репрезентативной. И тогда балансировка не нужна.
Сколько примеров можно считать репрезентативными для ВР?

И еще есть п. 3. Но сложно узнать есть ли такая поправка в конкретной реализации дерева в выбранной для использования программе.

Волновой анализ Что подать на вход Время написания советника

Дмитрий 2018.12.26 07:47 #12352

elibrarius:

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015

там есть несколько страниц посвященных этой теме. Вот итоговая:

Отмеченный пункт 1 говорит, что балансировка полезна.

Но имеется и пункт 2. Из которого можно сделать вывод, что при большой выборке, когда примеров малого класса будет достаточно много, то выборка по нему станет репрезентативной. И тогда балансировка не нужна.

И еще есть п. 3. Но сложно узнать есть ли такая поправка в конкретной реализации дерева в выбранной для использования программе.

На мой взгляд, аффтар излагает закон больших чисел для МО.

Понятно, что если у вас 10 наблюдений к первому классу и 6 ко второму, то добавление 4-х ко второму изменит модель (не факт, что улучшит), но она все равно будет не репрезентативной.

Любые вопросы новичков по [Архив!] Чистая математика, физика, очки == пипсы?

Forester 2018.12.26 07:52 #12353

Дмитрий:

На мой взгляд, аффтар излагает закон больших чисел для МО.

Понятно, что если у вас 10 наблюдений к первому классу и 6 ко второму, то добавление 4-х ко второму изменит модель (не факт, что улучшит), но она все равно будет не репрезентативной.

Нет не больших, он на малых числах объяснял по 10: 8:2 против 6:4. Но у нас то данных очень много.

Сколько примеров можно считать репрезентативными для ВР? Я обычно меньше 10000 не использую, малого класса в ней хотя бы 1000 должна иметься

Генератор случайных чисел в [Архив!] Чистая математика, физика, Любые вопросы новичков по

Дмитрий 2018.12.26 07:56 #12354

elibrarius:
Да он как раз примеры по 10 рассматривал 8:2 против 6:4. Но у нас то данных очень много.

Сколько примеров можно считать репрезентативными для ВР?

ХЗ. Я брал по максимуму, но я то работал на дневных данных по деревьям и лесам - минимум 2 года.

У А_К спроси - он определял оптимум через неравенство Чебышева (если я правильно помню), но это только для непрерывных переменных.

Попробуй отталкиваться от количества переменных - не менее 100 на каждую.

Вообще если ты пытаешься найти "вечную" закономерность, то чем больше, тем лучше. Если "закономерность" плавает - надо искать оптимальное окно.

Биткоин и все с Помогите найти баг, пожалуйста Вы написали советник, работающий

Forester 2018.12.26 08:00 #12355

elibrarius:
Нет не больших, он на малых числах объяснял по 10: 8:2 против 6:4. Но у нас то данных очень много.

Сколько примеров можно считать репрезентативными для ВР? Я обычно меньше 10000 не использую, малого класса в ней хотя бы 1000 должна иметься

Хотя мы и добавки будем вносить тысячами, и тогда модель тоже может измениться.

А может оно и правильно. Рынок как говорят - меняется, пусть и модель меняется.

Дмитрий 2018.12.26 08:02 #12356

elibrarius:
Хотя мы и добавки будем вносить тысячами, и тогда модель тоже может измениться.

А для его ты используешь дерево?

Forester 2018.12.26 08:04 #12357

Дмитрий:

А для его ты используешь дерево?

Для анализа ВР, с целью заработать денег.
Пока не использую, но готовлюсь заняться этим вплотную. Пока теорию читаю, чтобы понимать его плюсы и минусы. НС результатами не порадовали, вот решил лесом заняться. Мне кажется что для ВР он лучше подходит.

FOREX - Тенденции, прогнозы Торговля по энергетическим уровням Мт4 Конец поддержке.

Дмитрий 2018.12.26 08:07 #12358

elibrarius:
Для анализа ВР, с целью заработать денег.
Пока не использую, но готовлюсь заняться этим вплотную. Пока теорию читаю, чтобы понимать его плюсы и минусы. НС результатами не порадовали, вот решил лесом заняться. Мне кажется что для ВР он лучше подходит.

Два года назад я написал тут Максимке, что НС - игрушка типа ядерной бомбы. Что если ЛЮБАЯ другая модель дает хотя бы удовлетворительные результаты, то НС использовать не рекомендуется - они находят то, чего нет и в помине и сделать с этим ничего нельзя.

По деревья - хорошая вещь, но лучше использовать леса.

Мультитаймфреймовые индикаторы Индикаторы: Точки значений свечи Использование искусственного интеллекта в

Forester 2018.12.26 08:12 #12359

Дмитрий:

Два года назад я написал тут Максимке, что НС - игрушка типа ядерной бомбы. Что если ЛЮБАЯ другая модель дает хотя бы удовлетворительные результаты, то НС использовать не рекомендуется - они находят то, чего нет и в помине и сделать с этим ничего нельзя.

По деревья - хорошая вещь, но лучше использовать леса.

Планирую с xgboost поэксперементировать через R, вроде все что мне нужно там есть. Да и вроде она очень быстрая и память оптимально использует.
100,000 примеров с например 100 предикторами переварит?

Дмитрий 2018.12.26 08:15 #12360

elibrarius:
Планирую с xgboost поэксперементировать через R, вроде все что мне нужно там есть. Да и вроде она очень быстрая и память оптимально использует.
100,000 примеров с например 100 предикторами переварит?

) не знаю - это уже к Фа, наверно.

Я юзал простые модели - игрался с бинарниками.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1236