Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1236

 
Дмитрий:

Нет

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015

там есть несколько страниц посвященных этой теме. Вот итоговая:

Отмеченный пункт 1 говорит, что балансировка полезна.

Но имеется и пункт 2. Из которого можно сделать вывод, что при большой выборке, когда примеров малого класса будет достаточно много, то выборка по нему станет репрезентативной. И тогда балансировка не нужна.
Сколько примеров можно считать репрезентативными для ВР?

И еще есть п. 3.  Но сложно узнать есть ли такая поправка в конкретной реализации дерева в выбранной для использования программе.

 
elibrarius:

Я тут читаю: Флах П. - Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - 2015

там есть несколько страниц посвященных этой теме. Вот итоговая:

Отмеченный пункт 1 говорит, что балансировка полезна.

Но имеется и пункт 2. Из которого можно сделать вывод, что при большой выборке, когда примеров малого класса будет достаточно много, то выборка по нему станет репрезентативной. И тогда балансировка не нужна.

И еще есть п. 3.  Но сложно узнать есть ли такая поправка в конкретной реализации дерева в выбранной для использования программе.

На мой взгляд, аффтар излагает закон больших чисел для МО. 

Понятно, что если у вас 10 наблюдений к первому классу и 6 ко второму, то добавление 4-х ко второму изменит модель (не факт, что улучшит), но она все равно будет не репрезентативной.

 
Дмитрий:

На мой взгляд, аффтар излагает закон больших чисел для МО. 

Понятно, что если у вас 10 наблюдений к первому классу и 6 ко второму, то добавление 4-х ко второму изменит модель (не факт, что улучшит), но она все равно будет не репрезентативной.

Нет не больших, он  на малых числах объяснял по 10: 8:2 против 6:4. Но у нас то данных очень много.


Сколько примеров можно считать репрезентативными для ВР? Я обычно меньше 10000 не использую, малого класса в ней хотя бы 1000 должна иметься

 
elibrarius:
Да он как раз примеры по 10 рассматривал 8:2 против 6:4. Но у нас то данных очень много.


Сколько примеров можно считать репрезентативными для ВР?

ХЗ. Я брал по максимуму, но я то работал на дневных данных по деревьям и лесам - минимум 2 года.

У А_К спроси - он определял оптимум через неравенство Чебышева (если я правильно помню), но это только для непрерывных переменных.

Попробуй отталкиваться от количества переменных - не менее 100 на каждую.

Вообще если ты пытаешься найти "вечную" закономерность, то чем больше, тем лучше. Если "закономерность" плавает - надо искать оптимальное окно.

 
elibrarius:
Нет не больших, он  на малых числах объяснял по 10: 8:2 против 6:4. Но у нас то данных очень много.


Сколько примеров можно считать репрезентативными для ВР? Я обычно меньше 10000 не использую, малого класса в ней хотя бы 1000 должна иметься

Хотя мы и добавки будем вносить тысячами, и тогда модель тоже может измениться.

А может оно и правильно. Рынок как говорят  - меняется, пусть и модель меняется.

 
elibrarius:
Хотя мы и добавки будем вносить тысячами, и тогда модель тоже может измениться.

А для его ты используешь дерево?

 
Дмитрий:

А для его ты используешь дерево?

Для анализа ВР, с целью заработать денег.
Пока не использую, но готовлюсь заняться этим вплотную. Пока теорию читаю, чтобы понимать его плюсы и минусы. НС результатами не порадовали, вот решил лесом заняться. Мне кажется что для ВР он лучше подходит.
 
elibrarius:
Для анализа ВР, с целью заработать денег.
Пока не использую, но готовлюсь заняться этим вплотную. Пока теорию читаю, чтобы понимать его плюсы и минусы. НС результатами не порадовали, вот решил лесом заняться. Мне кажется что для ВР он лучше подходит.

Два года назад я написал тут Максимке, что НС - игрушка типа ядерной бомбы. Что если ЛЮБАЯ другая модель дает хотя бы удовлетворительные результаты, то НС использовать не рекомендуется - они находят то, чего нет и в помине и сделать с этим ничего нельзя. 

По деревья - хорошая вещь, но лучше использовать леса.

 
Дмитрий:

Два года назад я написал тут Максимке, что НС - игрушка типа ядерной бомбы. Что если ЛЮБАЯ другая модель дает хотя бы удовлетворительные результаты, то НС использовать не рекомендуется - они находят то, чего нет и в помине и сделать с этим ничего нельзя. 

По деревья - хорошая вещь, но лучше использовать леса.

Планирую с xgboost  поэксперементировать через R, вроде все что мне нужно там есть. Да и вроде она очень быстрая и память оптимально использует.
100,000 примеров с например 100 предикторами переварит?
 
elibrarius:
Планирую с xgboost  поэксперементировать через R, вроде все что мне нужно там есть. Да и вроде она очень быстрая и память оптимально использует.
100,000 примеров с например 100 предикторами переварит?

) не знаю - это уже к Фа, наверно.

Я юзал простые модели - игрался с бинарниками.

Причина обращения: