Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3074

 
СанСаныч Фоменко #:

Замечательная статья!

Как понял приложения, результат классификации зависит не только от качества исходных данных, но и от того как формируем набор обучения и оценки. И еще от чего-то, чего пока не понял.

Хе-хе. Посмотрите еще видосы до этого, может прояснит картину. Смысл в том, чтобы найти такие семплы в данных, допустим X c вектором значений фичей W, которые максимально хорошо реагируют на тритмент (обучение модели в нашем случае) и выделить их в класс "торговать", когда остальных лучше не трогать, "не торговать", поскольку они плохо реагируют на обучение (на новых данных модель ошибается при включении их в тритмент группу). В маркетинге это примеры с пользователями. Когда на одну выборку пользователей рекламная кампания будет воздействовать, а на других бюджет рекламной кампании использовать нецелесообразно.

Я понимаю это таким образом в контексте ТС.

 
Maxim Dmitrievsky #:

Хе-хе. Посмотрите еще видосы до этого, может прояснит картину. Смысл в том, чтобы найти такие семплы в данных, допустим X c вектором значений фичей W, которые максимально хорошо реагируют на тритмент (обучение модели в нашем случае) и выделить их в класс "торговать", когда остальных лучше не трогать, "не торговать", поскольку они плохо реагируют на обучение (на новых данных модель ошибается при включении их в тритмент группу). В маркетинге это примеры с пользователями. Когда на одну выборку пользователей рекламная кампания будет воздействовать, а на других бюджет рекламной кампании использовать нецелесообразно.

Я понимаю это таким образом в контексте ТС.

В Вашем понимании стойкий запах детерминированности, а в статье - это апофеоз случайности да еще на несбалансированных данных. Никакого отбора сэмплов, все наоборот. Рекомендуется  X-learner который 

first estimates the two response functions µ(x, 1) and µ(x, 0). It then uses these estimates to impute the unobserved individual treatment effects for the treated, ˜ξ 1 i , and the control, ˜ξ 0 i . The imputed effects are in turn used as pseudo-outcomes to estimate the treatment effects in the treated sample, τ (x, 1), and the control sample, τ (x, 0), respectively. The final CATE estimate τ (x) is then a weighted average of these treatment effect estimates weighted by the propensity score, e(x). Thus the X-learner additionally uses the information from the treated to learn about the controls and vice-versa in a Cross regression style, hence the X term in its naming label.

Ничего похожего на отбор "хорошего".

 
Propensity score оценивается для каждого условного объекта, из оценок которых формируется общая оценка cate.
 
mytarmailS #:
Если например есть торговая система работающая на истории.. 
Какие стрес-тесты для неё можно придумать чтобы увеличить вероятность того что она будет работать на новых данных

А если на этот вопрос попытаться ответить в терминах статьи, которую дал максим? 

https://arxiv.org/pdf/2201.12692.pdf
 
СанСаныч Фоменко #:

А если на этот вопрос попытаться ответить в терминах статьи, которую дал максим? 

https://arxiv.org/pdf/2201.12692.pdf

Гордыня не позволит. Он же все это уже давно сделал за 15 минут 🗿

 
Maxim Dmitrievsky #:

Гордыня не позволит. Он же все это уже давно сделал за 15 минут 🗿

Чем то переводили эту статью? Пробовал через яндекс - он загнулся.

 
Aleksey Vyazmikin #:

Чем то переводили эту статью? Пробовал через яндекс - он загнулся.

головой. GPT попросите, он иногда лучше подстраивается под контекст

 
Maxim Dmitrievsky #:

головой. GPT попросите, он иногда лучше подстраивается под контекст

Ох отстал я - GPT то у меня нет :(((

 
Aleksey Vyazmikin #:

Чем то переводили эту статью? Пробовал через яндекс - он загнулся.

https://www.chatpdf.com/

и потом перевод

    Добро пожаловать в этот информативный PDF-файл на тему «Мета-обучение для оценки причинно-следственных связей»! В этой статье Габриэль Окаса исследует результаты конечной выборки мета-обучающихся для оценки гетерогенных эффектов лечения. Читайте дальше, чтобы узнать о преимуществах разделения выборки и перекрестной подгонки для уменьшения систематической ошибки и повышения эффективности мета-обучающихся.

    Примеры вопросов:
    Что такое мета-обучения и как они помогают оценить причинно-следственные связи?

    Как разделение выборки и перекрестная подгонка уменьшают систематическую ошибку переобучения в оценке мета-учащегося?

    Каковы практические рекомендации по использованию мета-обучения в малых и больших размерах выборки?

    Что такое мета-обучения и как они помогают оценить причинно-следственные связи?

    Мета-обучения — это алгоритмы машинного обучения, предназначенные для оценки причинно-следственных связей. Они работают, обучаясь у набора базовых учеников, которые сами по себе являются алгоритмами машинного обучения, которые предсказывают эффекты лечения. Затем мета-обучающиеся объединяют прогнозы этих базовых обучающихся, чтобы получить общую оценку причинного эффекта. Этот подход может помочь уменьшить систематическую ошибку и повысить точность оценок причинно-следственных связей. Дополнительную информацию о мета-обучениях см. в Разделе 3.2 на странице 4.

    Как разделение выборки и перекрестная подгонка уменьшают систематическую ошибку переобучения в оценке мета-учащегося?

    Разделение выборки и перекрестная подгонка - это два метода, используемые для уменьшения систематической ошибки переобучения при оценке мета-учащегося. Разделение выборки включает в себя разделение данных на два или более подмножества, используя одно подмножество для обучения базовых учащихся, а другое подмножество для оценки причинно-следственного эффекта. Перекрестная подгонка включает в себя обучение каждого базового ученика на другом подмножестве данных, а затем использование каждого ученика для прогнозирования эффектов лечения на другом подмножестве данных. Оба метода помогают уменьшить погрешность переобучения, не позволяя базовым учащимся запоминать шум в данных. Дополнительную информацию о разделении выборки и перекрестной подгонке см. в Разделе 2.2 на стр. 3.

    Каковы практические рекомендации по использованию мета-обучения в малых и больших размерах выборки?
    В статье представлены практические рекомендации по использованию мета-обучающихся в эмпирических исследованиях в зависимости от конкретных характеристик данных, таких как доля лечения и размер выборки. В небольших выборках предпочтительнее оценка полной выборки, в то время как в больших выборках разделение выборки и перекрестная подгонка полезны для уменьшения систематической ошибки и эффективности мета-обучающихся соответственно. Дополнительные сведения об этих рекомендациях см. в Разделе 4 на стр. 5.
 
Aleksey Vyazmikin #:

Ох отстал я - GPT то у меня нет :(((

Зря, просили бы его код себе писать, а не нас ) даже лучше студента, не надо колбасой кормить