Что-то не понял про проблему выбора факторов? - Общее обсуждение

mytarmailS 2022.09.23 15:33 #27551

СанСаныч Фоменко #:

Этот пост я понимаю, что теперь вроде бы всегда компилируются пакеты, что кстати видно при обновлении пакетов , строка byte-compile and prepare package for lazy loading .

Но считаю, что пользовательский код НЕ компилируется. Загружаем функции по source и в описании source не видел, что загружаемая функция компилируется

хмм попробую

Aleksey Nikolayev 2022.09.23 16:07 #27552

mytarmailS #:

есть вопрос: как сделать так чтобы входные переменные pat dat могли принимать как числовые вектора (как сейчас) так и строковые (string vector) ?

Первая идея сделать перегрузку - написать ещё одну функцию с тем же именем, но с другими аргументами. Никогда такого не делал в Rcpp, поэтому не знаю получится ли. Ещё, наверное, придётся делать си-код в отдельном файле и использовать sourceCpp() вместо cppFunction().

Можно ли определить тип Любой вопрос новичка, чтоб Загрузка с++ обертки для

mytarmailS 2022.09.23 17:38 #27553

Aleksey Nikolayev #:

Первая идея сделать перегрузку - написать ещё одну функцию с тем же именем, но с другими аргументами. Никогда такого не делал в Rcpp, поэтому не знаю получится ли. Ещё, наверное, придётся делать си-код в отдельном файле и использовать sourceCpp() вместо cppFunction().

Угу спасибо

JeeyCi 2022.09.25 06:41 #27554

Maxim Dmitrievsky #:
Верно. За отсутствием априорных предположений, используется второй тип.

Aleksey Nikolayev #:

В моём представлении существует два типа связи.

Первый - причинно-следственная, которая определяется по априорной информации об объекте исследования из знаний в данной предметной области, а не по каким-то вычислениям.

Второй тип - вероятностная зависимость, которая может быть вычислена апостериорно по каким-то данным полученным при наблюдении за поведением объекта. Во второй тип входит и корреляция, и детерминированная зависимость (как крайний случай) и тд и тп, включая описываемую копулами и прочими методами. Основа для изучения этого типа - предположение о существовании совместного распределения для предикторов и целевой.

за отсутствием экспериментов используется 2й тип (e.g. US Food & Drugs Association - не оттестит нормальную репрезентативную выборку для своих выводов, вот и полагается на байесовские подходы)... а без априорной инфо, вообще моделировать нечего

MetaTrader 4 Client Terminal Собираю команду для развития Рынок -- управляемая динамическая

Maxim Dmitrievsky 2022.09.25 11:09 #27555

JeeyCi #:

за отсутствием экспериментов используется 2й тип (e.g. US Food & Drugs Association - не оттестит нормальную репрезентативную выборку для своих выводов, вот и полагается на байесовские подходы)... а без априорной инфо, вообще моделировать нечего

А саму либу не смотрели? Есть там че погонять-посмотреть? Разгребусь с делами - гляну

Таких либ много, значит пользуются спросом

Evgeni Gavrilovi 2022.09.25 16:33 #27556

Кто-нибудь участвовал в соревновании Numerai? Что там надо делать, чтобы заработать?

Свои деньги нужно инвестировать? Что-то не понял какова их модель выплат.

mytarmailS 2022.09.25 18:46 #27557

Evgeni Gavrilovi #:

Кто-нибудь участвовал в соревновании Numerai? Что там надо делать, чтобы заработать?

Свои деньги нужно инвестировать? Что-то не понял какова их модель выплат.

Может это поможет

https://www.quora.com/How-does-the-hedge-fund-Numerai-work

JeeyCi 2022.09.26 08:59 #27558

библиотеку не смотрела, статья отвратительная - противоречит здравому смыслу стат. ...

в норм. англ. яз. источниках - смысл анализа временных рядов сводится к смене политики в момент treatment/intervention и анализу смены slope'а совокупной тенденции (что, полагаю, и можно трактовать, как actor'a -- испытывающего влияние политики и модифицирующего свой decision-making-process в момент treatment'a -- на что и нацелены ислледования маркетологов, когда они оценивают эффект от скидок, распродаж и др акций, чтобы разобраться то ли цена не устраивает клиентов, то ли товар в принципе, то ли дислокация торгового центра и т.д.)...

но та же проблема, что и всегда в моделировании, - для оценки post-treatment'a, конечно же, нужна выборка(!) для аппроксимации выводов "помогло-непомогло-безразлично" (в части intervention)...

и в части counterfactual - важна правильная постановка вопроса для оценки динамики изменений, вызванных сменой политики (или к-л intervention) - для выбора метрики, таргета и параметров (для тюнинга) -- т.к. разная постановка вопроса может дать разные результаты (и разную смену slope) - значит и разные выводы

меня в ML реал. данных в принципе смущает проблема imbalance (которая смещает оценки) - неужели кто-то здесь решает её с пом. oversampling/undersampling?? -- так искажать реал.данные вообще не вижу смысла...

но получить репрезентативную выборку на pre-treatment этапе (априорное распределение вероятностей) надо, апостериорное распределение получаем в post-treatment (например, смены политики)... вот тут и важно определиться со своим Stopping Rule - т.е. наращивать ли выборку для уточнения результатов или обойтись выбранным лимитом образцов для заключения вывода, который, возможно, будет менее стат-ки значим, чем если бы мы увеличили выборку... но не факт, что увеличение выборки увеличит стат-значимость средней или дисперсии

= это проблема size'a ... обычно если эффект от влияния intervention большой, то и на малой выборке видно...

проблема факторов (FS) тоже остаётся - увеличивая количество рассматриваемых факторов, уменьшаем смещённость оценок, но увеличиваем дисперсию... задача: найти значимые факторы (как обычно в Explorative Data Analysis - поэтому это и называется Data_Science, а не тупо программерская аппроксимация рандома) для получения несмещённых оценок и с малой дисперсией (баланс этих 2х целей – на усмотрение разработчика)

про проблему выбора факторов Владимир много уже излагал - если мы моделируем вероятности для выбора высоко-вероятностного трейда

P.S.

в анализе timeseries всегда важна скорость и ускорение (если имеется), их сравение на pre-treatment и post-treatment периоде и дают выводы (о смене направления в том числе)...

дивергенция/конвергенция и экстремумы правильно выбранных таргетов тоже остаётся в силе... всё как обычно - дело в Дизайне/Архитектуре нейросети... и предсказываются лишь тенденции и вероятности их развития - не более того... а в рынке для дейтрейдеров всё меняется как-то быстрее, чем в долгосрочной тенденции (если анализ по D1) - поэтому фактор времени тоже надо как-то вкладывать в модельку для дейтрейдинга роботом... в общем формализовывать свой стиль торговли, чтобы не сидеть постоянно перед монитором И, если нравится, искать стат. основания для входов и выходов или нахождения вне рынка (даже по причине risk-management'a -- когда рынок непонятен)

p.p.s

тему можно развивать бесконечно в части изучения Structural Causal Models (что от чего зависит, как отмечала ранее) - включая рассмотрение экзогенных (влияние из-вне) и эндогенных (например, сырьевая или финансовая валюта, и даже смена правящей партии, наверно) факторов... в общем, как обычно, исследовать данные можно на любую выдвигаемую гипотезу и смотреть на принятие или отвержение нулевой гипотезу под конкретный интересующий уровень значимости (увеличивая size выборки для его [уровня значимости] возможного улучшения)

p.p.p.s

хоть некоторые и не любят слово probabilistic distribution - но суть его от этого не меняется - распределения всё равно остаются probabilistic, даже если они условные (условие и даёт повод для классификации) ... а Before_treatment и After-treatment (in A/B test) как раз и можно рассматривать, как смену условий (политики), но уже оценивать регрессию или сравнивать дисперсию (изменилась ли), даже если slope тот же

Глубокие нейросети (Часть III). Выбор примеров и уменьшение размерности

www.mql5.com

Эта статья продолжает серию публикаций о глубоких нейросетях. Рассматривается выбор примеров (удаление шумовых), уменьшение размерности входных данных и разделение набора на train/val/test в процессе подготовки данных для обучения.

Quantitative trading Статистика антисетевой системы _Описание рынка

Maxim Dmitrievsky 2022.09.26 11:23 #27559

Складывается впечатление, что все это очень далеко от трейдинга

JeeyCi 2022.09.27 07:52 #27560

вот поэтому и говорю, что сначала с алгоритмом надо определяться (включая imbalance'ы - не знаю, что вы там с ними хотели сделать ?? - когда ранее советовали oversampling)... а потом искать либу, которая даёт возможности подрядить в код нужные сущности/классы... или кодить свою библиотеку со своими нужными вам классами

Индикаторный вопрос Нкжна помощь в завершении Мт4 Конец поддержке.

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2756