Вы упускаете торговые возможности:
- Бесплатные приложения для трейдинга
- 8 000+ сигналов для копирования
- Экономические новости для анализа финансовых рынков
Регистрация
Вход
Вы принимаете политику сайта и условия использования
Если у вас нет учетной записи, зарегистрируйтесь
вроде был вопрос о сохранении соотношения в будущем - т.е. предполагается, что новых данных пока нет.
А, это тогда к пифиям дельфийского оракула. Математика здесь бессильна.
А, это тогда к пифиям дельфийского оракула. Математика здесь бессильна.
Да, поэтому и предполагается использовать машинное обучение - вдруг выявится закономерность, которая человеку ещё не ведана.
Поэтому я и хочу собрать много разных метрик, описывающих выборку.
Да, поэтому и предполагается использовать машинное обучение - вдруг выявится закономерность, которая человеку ещё не ведана.
Поэтому я и хочу собрать много разных метрик, описывающих выборку.
Ну, если речь о прогнозе наступления событий, то есть два типа моделей, отличающихся по тому, как устроено время. Если время дискретно - точно известен набор моментов времени, в которые события либо произойдут либо нет, то используется обычный подход классификации для разделения моментов времени на классы.
Если время непрерывно, то используется пуассоновская регрессия, где строится прогноз для интенсивности событий в единицу времени. Обычно эту регрессию излагают как линейную, но это не обязательно, вполне можно прикрутить бустинг или что другое.
Ну, если речь о прогнозе наступления событий, то есть два типа моделей, отличающихся по тому, как устроено время. Если время дискретно - точно известен набор моментов времени, в которые события либо произойдут либо нет, то используется обычный подход классификации для разделения моментов времени на классы.
Если время непрерывно, то используется пуассоновская регрессия, где строится прогноз для интенсивности событий в единицу времени. Обычно эту регрессию излагают как линейную, но это не обязательно, вполне можно прикрутить бустинг или что другое.
Да тут и с этим сложно. С одной стороны, у нас есть временной диапазон (на самом деле можно и только события взять, но думаю это не корректно) и есть события, которые происходят в разное время этого временного диапазона. События не могут происходить чаще чем в минуту, но при этом они могут вообще не происходить, т.е. если дискретная шкала, то получается три состояния - нет события, есть событие А или есть событие Б. Если брать больший диапазон и переходить на процент событий А или Б в единицу времени, то становится два показателя - нет события и процент событий А или Б. А или Б - зависит от того, что ищем - сохранение положительной (относительно условной константы) пропорции нулей или единиц - по сути разные категории. С другой стороны, можно говорить измерять только наличие или отсутствие события - появление нуля или единицы - в зависимости от категории искомого, тогда некая пуассоновская регрессия кажется разумной. Однако, никогда не работал с такой моделью.
Возможно, нужно использовать в начале регрессию, а потом классификацию.
Вчера пробовал классифицировать с помощью CatBoost выборку - на базе функции из первого поста - брал весь временной ряд, потом ещё по две половинки и считал метрики, так вот результат очень слабый - точность выявления нестабильных примеров колеблется в районе 52%. Нужны явно дополнительные метрики.
Завтра на свежую голову прочитаю всю эту ветку и поделюсь своими наблюдениями - я думаю что у меня есть хороший способ определять так называемые "выбросы"
* и да - описательная статистика это вроде из регрессионного анализа?
Я сейчас размышляю над одной задачей - и мне кажется что она схожа с вашей
Завтра на свежую голову прочитаю всю эту ветку и поделюсь своими наблюдениями - я думаю что у меня есть хороший способ определять так называемые "выбросы"
Конечно пишите! Любые идеи интересны, особенно если понятно, как их реализовать! :)
* и да - описательная статистика это вроде из регрессионного анализа?
Скорей наоборот - это один из методов.
Я как раз сегодня думал, взять разные подходы построения формул, описывающих выборку (массив с числами), и записать коэффициенты в выборку (для обучения) - та же регрессия, полином и что там ещё бывает. Другое дело, что нужно автоматизировать их получение. Вроде как есть подобный функционал в AlgLib, но нужно с ней разбираться.
Сразу не написал в задаче, но надо найти отрицательную величину изменения, что это - есть эталон и мы определяем дельту, так вот эта дельта не должна стать отрицательной на новых данных. К примеру единиц 36% в выборке, а эталон 30%, значит положительное значение дельты 6%, если значение дельты будет ниже нуля, то это негативная ситуация, которую надо идентифицировать
Почему именно отрицательная? - она же может быть и положительной, в чём суть или для чего?
Поэтому я и хочу собрать много разных метрик, описывающих выборку
Ну в этом я думаю мало кто может помочь - я сам в подавляющем большинстве случаем ищу в гугле, изредка что-то сам пытаюсь придумать ;)
Почему именно отрицательная? - она же может быть и положительной, в чём суть или для чего?
Ищется целевая "1", но логика заложена в эту целевую - все отрицательные разницы. Так мне надо :) По сути отрицательное значение означает, что явлений A стало слишком мало происходить относительно всех явлений.
Ну в этом я думаю мало кто может помочь - я сам в подавляющем большинстве случаем ищу в гугле, изредка что-то сам пытаюсь придумать ;)
Ну тут такое дело - есть тут знающие люди, просто хотят они помочь или нет...
Информации конечно много в других источниках - для меня там проблема в понимании хитро-мудрых формул - не все ясно, в том числе откуда взялись уже разные переменные в них. Я осознаю, что не обладаю достаточным объемом знаний, что бы легко воспринять всю информацию, поэтому и прошу помощи у сообщества.
Ексель файл не могу прикрепить - пишет что некорректный формат файла, если хотите могу отправить в телеграмм