Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3310

 
Maxim Dmitrievsky #:
2saber: если маркапы околулевые, могу скинуть грааль на тесты. Можно на вашей истории обучить, 5-минутки. С исходниками модель дам, можете сами подстроить что надо, Науки ради. Обращение к сигналам модели простое, логику приказов можете свою.
Потом можно будет организовать хедж фонд с отрицательным балансом. 
Котировки через стандартный экспорт терминала можете дать.

Далеко не все понял. Давайте не на форуме.

 

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

 
Aleksey Vyazmikin #:

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

По вашей же ссылке говорится о связи "профиля" с кросс-валидацией, для которой, возможно, будет проще найти пакеты.
 
Aleksey Vyazmikin #:

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

Работа экспериментальная. Вот цитата из http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Работа выполнена в рамках проектов РФФИ 05-01-00877, 05-07-90410 и программы ОМН РАН

Вряд ли каждому эксперименту создавали пакет.

Да и эксперимент искусственный. В четко разделенный по классам набор данных добавили шум. Причем четкое разделение всего по 1 фиче - по оси У. Если убрать шум (все данные от 0,2 до 0,8), то получится, что оставляем примеры только с расстоянием до другого класса не менее 0,6. Я про самый сложный 3-й вариант на картинке:


Переходим к реальной жизни и добавляем ваши 5000 предикторов, которые будут шумом к этой единственной рабочей фиче. В кластеризации вычисляется общее расстояние между точками в этом 5001 мерном пространстве.  Работающие 0,6 никогда не будут найдены в этом хаосе.

Думаю любые классификаторы это сделают лучше, то же дерево найдет эту единственную фичу и поделит именно по ней, сначала через 0,5 и потом дойдет и до сплитов по 0,2 и 0,8 за которыми будут листья с 100%ной чистотой.

 
Aleksey Vyazmikin #:

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

В одной из статей Владимира Перервенко был описан такой метод, ну и пример с кодом был естественно 
 
Forester #:

Работа экспериментальная. Вот цитата из http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Вряд ли каждому эксперименту создавали пакет.

Да и эксперимент искусственный. В четко разделенный по классам набор данных добавили шум. Причем четкое разделение всего по 1 фиче - по оси У. Если убрать шум (все данные от 0,2 до 0,8), то получится, что оставляем примеры только с расстоянием до другого класса не менее 0,6. Я про самый сложный 3-й вариант на картинке:


Переходим к реальной жизни и добавляем ваши 5000 предикторов, которые будут шумом к этой единственной рабочей фиче. В кластеризации вычисляется общее расстояние между точками в этом 5001 мерном пространстве.  Работающие 0,6 никогда не будут найдены в этом хаосе.

Думаю любые классификаторы это сделают лучше, то же дерево найдет эту единственную фичу и поделит именно по ней, сначала через 0,5 и потом дойдет и до сплитов по 0,2 и 0,8 за которыми будут листья с 100%ной чистотой.

Никогда не найдет. Любая МО не найдет.  От мусора надо избавляться ДО обучения модели.  "Мусор на входе - мусор на выходе" - это закон статистики.

 
СанСаныч Фоменко #:

Никогда не найдет. Любая МО не найдет.  От мусора надо избавляться ДО обучения модели.  "Мусор на входе - мусор на выходе" - это закон статистики.

Я про конкретный искусственный пример, на котором проводились эксперименты. Там не мусор на входе и выходе. То что зарандомлено в этом примере - легко отсечь.

 
Это как раз то, чего не могут понять оптимизаторщики. Что через упрощение можно повысить устойчивость, а не через поиск глобального максимума.
Простейший пример - SVM, с задаваемым расстоянием между опорными векторами. Через кросс вал еще гибче. А там глядишь, уже и в матстат на полшишечки.
Если в козул с разбегу не можете, то можно на таком уровне думать для начала. 

Оффтоп: в starfield поиграли? Бесезда умеет делать атмосферненько. Прямо погружает.
 
Forester #:

Я про конкретный искусственный пример, на котором проводились эксперименты. Там не мусор на входе и выходе. То что зарандомлено в этом примере - легко отсечь.

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

 
СанСаныч Фоменко #:

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу. 

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

Причина обращения: