Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3407

 

Выходные решил посвятить изучению нумераи, а то все никак руки не доходили.

После регистрации там предлагают туториалы как и что делать

цель - залететь в топ управляющих, еще интересно как они там данные готовят. Но второе маловероятно, потому что вся дата обфусцирована :)

Видос от них:


 
Nardus Van Staden #:

Прежде чем применять алгоритмы машинного обучения, необходимо провести тщательный исследовательский анализ данных. Он включает в себя изучение распределения переменных, выявление корреляций, обнаружение выбросов и понимание структуры данных. На этом этапе неоценимую помощь могут оказать такие методы визуализации, как гистограммы, диаграммы рассеяния и корреляционные матрицы.

Такие приемы, как масштабирование признаков, нормализация, кодирование категориальных переменных и создание новых признаков с помощью математических преобразований или знаний о предметной области, могут улучшить способность модели улавливать основные закономерности в данных. Итак... Выбор правильного алгоритма машинного обучения для решения поставленной задачи также очень важен. Учитывая, что мы имеем дело с проблемой предсказания, подходящими кандидатами могут быть такие алгоритмы регрессии, как линейная регрессия, деревья решений, случайные леса, машины опорных векторов (SVM) и нейронные сети. Рекомендуется поэкспериментировать с несколькими алгоритмами и оценить их производительность с помощью соответствующих метрик, таких как средняя квадратичная ошибка (MSE), средняя квадратичная ошибка (RMSE) или точность, в зависимости от характера проблемы.

Чтобы оценить эффективность обобщения наших моделей и предотвратить перебор, важно использовать методы кросс-валидации, такие как k-fold cross-validation или leave-one-out cross-validation. Это подразумевает разбиение набора данных на несколько подмножеств, обучение модели на части данных и оценку ее эффективности на оставшихся без внимания данных. Перекрестная проверка также помогает убедиться в надежности и достоверности оценок эффективности нашей модели.

Многие алгоритмы машинного обучения имеют гиперпараметры, которые управляют их поведением и производительностью. Настройка гиперпараметров включает в себя поиск оптимальной комбинации гиперпараметров для достижения максимальной производительности модели. Для точной настройки модели и повышения точности прогнозирования можно использовать такие методы, как поиск по сетке, случайный поиск или байесовская оптимизация.

Общая справка, в стиле ChatGPT. Лучший способ блеснуть энциклопедическими знаниями.
 
Forester #:
Общая справка, в стиле ChatGPT. Лучший способ блеснуть энциклопедическими знаниями.
Ага, еще обращаться к посту Алексея  2016-го года в 2024-ом это тоже нечто, такое только Саныч мог делать))
Я вообще сначала был уверен что это бот, но посмотрел профиль, вроде чел.  Хотя может быть все что угодно
 
Maxim Dmitrievsky #:

Выходные решил посвятить изучению нумераи, а то все никак руки не доходили.

И как
 
mytarmailS #:
И как
Пока только загрузил 1-ю модель из туториала, мне начислили 0.1 местной валюты. Второй урок не успел :)

Там датасеты по 4 гига, 2000 признаков 

Так понял, там стейкаешь модели, чем больше застейкал тем больше тебе будут начислять, после проверки на новых данных. Все модели от управляющих они стекают в одну большую и она типа торгует где-то на бирже. По своим формулам оценивают вклад каждой модели в общий результат.
 
Aleksey Vyazmikin #:

Ну, лучше слов тут говорят графики - если кратко - то особого эффекта улучшения нет (относительно оригинала), но в то же время  "отсев линейных признаков" показал себя лучше, если измерять средним значением баланса  моделей на независимой выборке. В то же время балансировка и отсев abess смогли выделить значимые предикторы, на которых можно уже строить модель - можно считать, что костяк. Возможно, стоит в цикле сделать десяток балансировок, и вытащить все получившиеся предикторы.

Очевидно одно, методы эти хоть и быстры, но далеки от оптимума.

Выше в видосе нумераи говорят, что нет идеальных методов.

Они называют свой подход feature neutralization, смотрят корреляцию между признаками и метками и std. Короче по методу Саныча

https://colab.research.google.com/github/numerai/example-scripts/blob/master/feature_neutralization.ipynb#scrollTo=meowEBs-PwtB

Вот займитесь, заодно питон можно подтянуть :) и у вас датасеты примерно такие же огромные, как у них
 

Наверное, годный материал. От практиков, а не академиков типа Прадо.

Хотя, про метод Эмбарго у них тоже проскальзывало в предыдущем туториале :)

 
Maxim Dmitrievsky #:

Результаты их фонда не попадались?

Они деньги за что то берут? Может оказаться, что основной заработок совсем не с рынка.

 
Rorschach #:

Результаты их фонда не попадались?

Они деньги за что то берут? Может оказаться, что основной заработок совсем не с рынка.

Сам еще не понял до конца. На сайте должна быть инфа
 
Rorschach #:

Результаты их фонда не попадались?

Они деньги за что то берут? Может оказаться, что основной заработок совсем не с рынка.

https://numerai.fund/

шатко-валко что-то там торгуется.. но больше интересует что можно заработать на моделях

Ага, берут "To stake NMR on your model you must first deposit NMR into your Numerai wallet at your account's unique deposit address." То есть ты делаешь ставку на свою же модель их криптой, и по результатам они либо дают тебе бабки, либо отбирают твои :)
Numerai Hedge Fund
  • numerai.fund
Numerai is a quant hedge fund built on thousands of crowdsourced machine learning models.
Причина обращения: