Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2756

 
СанСаныч Фоменко #:

Этот пост я понимаю, что теперь вроде бы всегда компилируются пакеты, что кстати видно при обновлении пакетов , строка byte-compile and prepare package for lazy loading .

Но считаю, что пользовательский код НЕ компилируется. Загружаем функции по source и в описании source не видел, что загружаемая функция компилируется

хмм попробую

 
mytarmailS #:

есть вопрос:  как сделать так чтобы входные переменные pat dat могли принимать как числовые вектора (как сейчас) так и строковые (string vector) ?

Первая идея сделать перегрузку - написать ещё одну функцию с тем же именем, но с другими аргументами. Никогда такого не делал в Rcpp, поэтому не знаю получится ли. Ещё, наверное, придётся делать си-код в отдельном файле и использовать sourceCpp() вместо cppFunction().

 
Aleksey Nikolayev #:

Первая идея сделать перегрузку - написать ещё одну функцию с тем же именем, но с другими аргументами. Никогда такого не делал в Rcpp, поэтому не знаю получится ли. Ещё, наверное, придётся делать си-код в отдельном файле и использовать sourceCpp() вместо cppFunction().

Угу спасибо

 
Maxim Dmitrievsky #:
Верно. За отсутствием априорных предположений, используется второй тип.
Aleksey Nikolayev #:

В моём представлении существует два типа связи.

Первый - причинно-следственная, которая определяется по априорной информации об объекте исследования из знаний в данной предметной области, а не по каким-то вычислениям.

Второй тип - вероятностная зависимость, которая может быть вычислена апостериорно по каким-то данным полученным при наблюдении за поведением объекта. Во второй тип входит и корреляция, и детерминированная зависимость (как крайний случай) и тд и тп, включая описываемую копулами и прочими методами. Основа для изучения этого типа - предположение о существовании совместного распределения для предикторов и целевой.

за отсутствием экспериментов используется 2й тип (e.g. US Food & Drugs Association - не оттестит нормальную репрезентативную выборку для своих выводов, вот и полагается на байесовские подходы)... а без априорной инфо, вообще моделировать нечего

 
JeeyCi #:

за отсутствием экспериментов используется 2й тип (e.g. US Food & Drugs Association - не оттестит нормальную репрезентативную выборку для своих выводов, вот и полагается на байесовские подходы)... а без априорной инфо, вообще моделировать нечего

А саму либу не смотрели? Есть там че погонять-посмотреть? Разгребусь с делами - гляну 

Таких либ много, значит пользуются спросом 
 

Кто-нибудь участвовал в соревновании Numerai? Что там надо делать, чтобы заработать?

Свои деньги нужно инвестировать? Что-то не понял какова их модель выплат.

 
Evgeni Gavrilovi #:

Кто-нибудь участвовал в соревновании Numerai? Что там надо делать, чтобы заработать?

Свои деньги нужно инвестировать? Что-то не понял какова их модель выплат.

Может это поможет
 

библиотеку не смотрела, статья отвратительная - противоречит здравому смыслу стат. ...

  в норм. англ. яз. источниках - смысл анализа временных рядов сводится к смене политики в момент treatment/intervention и анализу смены slope'а совокупной тенденции (что, полагаю, и можно трактовать, как actor'a -- испытывающего влияние политики и модифицирующего свой decision-making-process в момент treatment'a -- на что и нацелены ислледования маркетологов, когда они оценивают эффект от скидок, распродаж и др акций, чтобы разобраться то ли цена не устраивает клиентов, то ли товар в принципе, то ли дислокация торгового центра и т.д.)...

  но та же проблема, что и всегда в моделировании, - для оценки post-treatment'a, конечно же, нужна выборка(!) для аппроксимации выводов "помогло-непомогло-безразлично" (в части intervention)...

  и в части counterfactual - важна правильная постановка вопроса для оценки динамики изменений, вызванных сменой политики (или к-л intervention) - для выбора метрики, таргета и параметров (для тюнинга) -- т.к. разная постановка вопроса может дать разные результаты (и разную смену slope) - значит и разные выводы

  меня в ML реал. данных в принципе смущает проблема imbalance (которая смещает оценки) - неужели кто-то здесь решает её с пом. oversampling/undersampling?? -- так искажать реал.данные вообще не вижу смысла...

  но получить репрезентативную выборку на pre-treatment этапе (априорное распределение вероятностей) надо, апостериорное распределение получаем в post-treatment (например, смены политики)... вот тут и важно определиться со своим Stopping Rule - т.е. наращивать ли выборку для уточнения результатов или обойтись выбранным лимитом образцов для заключения вывода, который, возможно, будет менее стат-ки значим, чем если бы мы увеличили выборку... но не факт, что увеличение выборки увеличит стат-значимость средней или дисперсии

  = это проблема size'a ... обычно если эффект от влияния intervention большой, то и на малой выборке видно...

  проблема факторов (FS) тоже остаётся - увеличивая количество рассматриваемых факторов, уменьшаем смещённость оценок, но увеличиваем дисперсию... задача: найти значимые факторы (как обычно в Explorative Data Analysis - поэтому это и называется Data_Science, а не тупо программерская аппроксимация рандома) для получения несмещённых оценок и с малой дисперсией (баланс этих 2х целей – на усмотрение разработчика)

про проблему выбора факторов Владимир много уже излагал - если мы моделируем вероятности для выбора высоко-вероятностного трейда

  P.S.

в анализе timeseries всегда важна скорость и ускорение (если имеется), их сравение на pre-treatment и post-treatment периоде и дают выводы (о смене направления в том числе)...

дивергенция/конвергенция и экстремумы правильно выбранных таргетов тоже остаётся в силе... всё как обычно - дело в Дизайне/Архитектуре нейросети... и предсказываются лишь тенденции и вероятности их развития - не более того... а в рынке для дейтрейдеров всё меняется как-то быстрее, чем в долгосрочной тенденции (если анализ по D1) - поэтому фактор времени тоже надо как-то вкладывать в модельку для дейтрейдинга роботом... в общем формализовывать свой стиль торговли, чтобы не сидеть постоянно перед монитором И, если нравится, искать стат. основания для входов и выходов или нахождения вне рынка (даже по причине risk-management'a -- когда рынок непонятен)

p.p.s

тему можно развивать бесконечно в части изучения Structural Causal Models (что от чего зависит, как отмечала ранее) - включая рассмотрение экзогенных (влияние из-вне) и эндогенных  (например, сырьевая или финансовая валюта, и даже смена правящей партии, наверно) факторов... в общем, как обычно, исследовать данные можно на любую выдвигаемую гипотезу и смотреть на принятие или отвержение нулевой гипотезу под конкретный интересующий уровень значимости (увеличивая size выборки для его [уровня значимости] возможного улучшения)

p.p.p.s

хоть некоторые и не любят слово probabilistic distribution - но суть его от этого не меняется - распределения всё равно остаются probabilistic, даже если они условные (условие и даёт повод для классификации) ... а Before_treatment и After-treatment (in A/B test) как раз и можно рассматривать, как смену условий (политики), но уже оценивать регрессию или сравнивать дисперсию (изменилась ли), даже если slope тот же

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности
  • www.mql5.com
Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.
 
Складывается впечатление, что все это очень далеко от трейдинга
 
вот поэтому и говорю, что сначала с алгоритмом надо определяться (включая imbalance'ы - не знаю, что вы там с ними хотели сделать ?? - когда ранее советовали oversampling)... а потом искать либу, которая даёт возможности подрядить в код нужные сущности/классы... или кодить свою библиотеку со своими нужными вам классами
Причина обращения: