Попробуйте использовать метод обучения типа К ближайших соседей - Общее обсуждение

fxsaber 2023.10.20 20:08 #33091

Maxim Dmitrievsky #:
2saber: если маркапы околулевые, могу скинуть грааль на тесты. Можно на вашей истории обучить, 5-минутки. С исходниками модель дам, можете сами подстроить что надо, Науки ради. Обращение к сигналам модели простое, логику приказов можете свою.

Потом можно будет организовать хедж фонд с отрицательным балансом.

Котировки через стандартный экспорт терминала можете дать.

Далеко не все понял. Давайте не на форуме.

Aleksey Vyazmikin 2023.10.22 22:36 #33092

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

Обучение нейросети Библиотеки: CatBoost bin continuous Краевой эффект на пути

Aleksey Nikolayev 2023.10.23 06:59 #33093

Aleksey Vyazmikin #:

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

По вашей же ссылке говорится о связи "профиля" с кросс-валидацией, для которой, возможно, будет проще найти пакеты.

Forester 2023.10.23 07:41 #33094

Aleksey Vyazmikin #:

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

Работа экспериментальная. Вот цитата из http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Работа выполнена в рамках проектов РФФИ 05-01-00877, 05-07-90410 и программы ОМН РАН

Вряд ли каждому эксперименту создавали пакет.

Да и эксперимент искусственный. В четко разделенный по классам набор данных добавили шум. Причем четкое разделение всего по 1 фиче - по оси У. Если убрать шум (все данные от 0,2 до 0,8), то получится, что оставляем примеры только с расстоянием до другого класса не менее 0,6. Я про самый сложный 3-й вариант на картинке:

Переходим к реальной жизни и добавляем ваши 5000 предикторов, которые будут шумом к этой единственной рабочей фиче. В кластеризации вычисляется общее расстояние между точками в этом 5001 мерном пространстве. Работающие 0,6 никогда не будут найдены в этом хаосе.

Думаю любые классификаторы это сделают лучше, то же дерево найдет эту единственную фичу и поделит именно по ней, сначала через 0,5 и потом дойдет и до сплитов по 0,2 и 0,8 за которыми будут листья с 100%ной чистотой.

Есть ли закономерность в Можно ли торговать на Советник для откр./закр. сделок

mytarmailS 2023.10.23 08:06 #33095

Aleksey Vyazmikin #:

Кто пробовал использовать метод "Профиль компактности"?

Цель метода - исключение противоречивых примеров из выборки, что должно улучшать обучение и снижать размер модели, если используются методы обучения типа К ближайших соседей.

На питоне не смог найти реализации...

В одной из статей Владимира Перервенко был описан такой метод, ну и пример с кодом был естественно

СанСаныч Фоменко 2023.10.23 09:37 #33096

Forester #:

Работа экспериментальная. Вот цитата из http://www.ccas.ru/frc/papers/students/VoronKoloskov05mmro.pdf

Вряд ли каждому эксперименту создавали пакет.

Да и эксперимент искусственный. В четко разделенный по классам набор данных добавили шум. Причем четкое разделение всего по 1 фиче - по оси У. Если убрать шум (все данные от 0,2 до 0,8), то получится, что оставляем примеры только с расстоянием до другого класса не менее 0,6. Я про самый сложный 3-й вариант на картинке:

Переходим к реальной жизни и добавляем ваши 5000 предикторов, которые будут шумом к этой единственной рабочей фиче. В кластеризации вычисляется общее расстояние между точками в этом 5001 мерном пространстве. Работающие 0,6 никогда не будут найдены в этом хаосе.

Думаю любые классификаторы это сделают лучше, то же дерево найдет эту единственную фичу и поделит именно по ней, сначала через 0,5 и потом дойдет и до сплитов по 0,2 и 0,8 за которыми будут листья с 100%ной чистотой.

Никогда не найдет. Любая МО не найдет. От мусора надо избавляться ДО обучения модели. "Мусор на входе - мусор на выходе" - это закон статистики.

Forester 2023.10.23 09:43 #33097

СанСаныч Фоменко #:

Никогда не найдет. Любая МО не найдет. От мусора надо избавляться ДО обучения модели. "Мусор на входе - мусор на выходе" - это закон статистики.

Я про конкретный искусственный пример, на котором проводились эксперименты. Там не мусор на входе и выходе. То что зарандомлено в этом примере - легко отсечь.

Maxim Dmitrievsky 2023.10.24 12:20 #33098

Это как раз то, чего не могут понять оптимизаторщики. Что через упрощение можно повысить устойчивость, а не через поиск глобального максимума.

Простейший пример - SVM, с задаваемым расстоянием между опорными векторами. Через кросс вал еще гибче. А там глядишь, уже и в матстат на полшишечки.

Если в козул с разбегу не можете, то можно на таком уровне думать для начала.

Оффтоп: в starfield поиграли? Бесезда умеет делать атмосферненько. Прямо погружает.

Вопросы от "чайника" [ВНИМАНИЕ, ТЕМА ЗАКРЫТА!] Любой Необходимо вмешательство специалиста

СанСаныч Фоменко 2023.10.25 07:27 #33099

Forester #:

Я про конкретный искусственный пример, на котором проводились эксперименты. Там не мусор на входе и выходе. То что зарандомлено в этом примере - легко отсечь.

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

Свои символы и свои Отличный советник в бэктесте! Библиотеки: BestInterval

Ivan Butko 2023.10.25 07:36 #33100

СанСаныч Фоменко #:

Уточню свою мысль.

Любой алгоритм МО пытается уменьшить ошибку. Более эффективно уменьшение ошибки получается на мусоре, так как в нем гораздо чаще встречаются "удобные" значения для уменьшения ошибки. В результате наверняка "важность" предикторов для мусора будет выше, чем для НЕ мусора. Именно поэтому существует препроцессинг, который гораздо более трудоемкий, че собственно подгонка модели.

Скажите, пожалуйста, а что не является мусором? Я ни разу не встречал, чтобы кто-то говорил о чистых входных данных. А вот про мусор на форуме постоянно слышу.

Что они из себя представляют? Если вы говорите про мусор, значит имели не с немусором, иначе не с чем сравнивать

Прибыльный робот без: индикаторов, Ошибки, баги, вопросы Вопрос разработчикам - Комментарий

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3310