Используйте X-learner, чтобы найти семплы в данных - Общее обсуждение

Maxim Dmitrievsky 2023.05.14 15:19 #30731

СанСаныч Фоменко #:

Замечательная статья!

Как понял приложения, результат классификации зависит не только от качества исходных данных, но и от того как формируем набор обучения и оценки. И еще от чего-то, чего пока не понял.

Хе-хе. Посмотрите еще видосы до этого, может прояснит картину. Смысл в том, чтобы найти такие семплы в данных, допустим X c вектором значений фичей W, которые максимально хорошо реагируют на тритмент (обучение модели в нашем случае) и выделить их в класс "торговать", когда остальных лучше не трогать, "не торговать", поскольку они плохо реагируют на обучение (на новых данных модель ошибается при включении их в тритмент группу). В маркетинге это примеры с пользователями. Когда на одну выборку пользователей рекламная кампания будет воздействовать, а на других бюджет рекламной кампании использовать нецелесообразно.

Я понимаю это таким образом в контексте ТС.

Кто, что скажет? ваше Сеть, состоящую из одного Обсуждение статьи "Применение метода

СанСаныч Фоменко 2023.05.14 17:44 #30732

Maxim Dmitrievsky #:

Хе-хе. Посмотрите еще видосы до этого, может прояснит картину. Смысл в том, чтобы найти такие семплы в данных, допустим X c вектором значений фичей W, которые максимально хорошо реагируют на тритмент (обучение модели в нашем случае) и выделить их в класс "торговать", когда остальных лучше не трогать, "не торговать", поскольку они плохо реагируют на обучение (на новых данных модель ошибается при включении их в тритмент группу). В маркетинге это примеры с пользователями. Когда на одну выборку пользователей рекламная кампания будет воздействовать, а на других бюджет рекламной кампании использовать нецелесообразно.

Я понимаю это таким образом в контексте ТС.

В Вашем понимании стойкий запах детерминированности, а в статье - это апофеоз случайности да еще на несбалансированных данных. Никакого отбора сэмплов, все наоборот. Рекомендуется X-learner который

first estimates the two response functions µ(x, 1) and µ(x, 0). It then uses these estimates to impute the unobserved individual treatment effects for the treated, ˜ξ 1 i , and the control, ˜ξ 0 i . The imputed effects are in turn used as pseudo-outcomes to estimate the treatment effects in the treated sample, τ (x, 1), and the control sample, τ (x, 0), respectively. The final CATE estimate τ (x) is then a weighted average of these treatment effect estimates weighted by the propensity score, e(x). Thus the X-learner additionally uses the information from the treated to learn about the controls and vice-versa in a Cross regression style, hence the X term in its naming label.

Ничего похожего на отбор "хорошего".

Как отличить график FOREX Вероятностная нейронная сеть Что читать, смотреть и

Maxim Dmitrievsky 2023.05.14 23:23 #30733

Propensity score оценивается для каждого условного объекта, из оценок которых формируется общая оценка cate.

СанСаныч Фоменко 2023.05.16 14:07 #30734

mytarmailS #:
Если например есть торговая система работающая на истории..

Какие стрес-тесты для неё можно придумать чтобы увеличить вероятность того что она будет работать на новых данных

А если на этот вопрос попытаться ответить в терминах статьи, которую дал максим?

https://arxiv.org/pdf/2201.12692.pdf

Maxim Dmitrievsky 2023.05.16 21:18 #30735

СанСаныч Фоменко #:

А если на этот вопрос попытаться ответить в терминах статьи, которую дал максим?

https://arxiv.org/pdf/2201.12692.pdf

Гордыня не позволит. Он же все это уже давно сделал за 15 минут 🗿

Aleksey Vyazmikin 2023.05.17 14:01 #30736

Maxim Dmitrievsky #:

Гордыня не позволит. Он же все это уже давно сделал за 15 минут 🗿

Чем то переводили эту статью? Пробовал через яндекс - он загнулся.

Maxim Dmitrievsky 2023.05.17 14:11 #30737

Aleksey Vyazmikin #:

Чем то переводили эту статью? Пробовал через яндекс - он загнулся.

головой. GPT попросите, он иногда лучше подстраивается под контекст

Aleksey Vyazmikin 2023.05.17 14:17 #30738

Maxim Dmitrievsky #:

головой. GPT попросите, он иногда лучше подстраивается под контекст

Ох отстал я - GPT то у меня нет :(((

Valeriy Yastremskiy 2023.05.17 14:18 #30739

Aleksey Vyazmikin #:

Чем то переводили эту статью? Пробовал через яндекс - он загнулся.

https://www.chatpdf.com/

и потом перевод

Добро пожаловать в этот информативный PDF-файл на тему «Мета-обучение для оценки причинно-следственных связей»! В этой статье Габриэль Окаса исследует результаты конечной выборки мета-обучающихся для оценки гетерогенных эффектов лечения. Читайте дальше, чтобы узнать о преимуществах разделения выборки и перекрестной подгонки для уменьшения систематической ошибки и повышения эффективности мета-обучающихся.

Примеры вопросов:
Что такое мета-обучения и как они помогают оценить причинно-следственные связи?
Как разделение выборки и перекрестная подгонка уменьшают систематическую ошибку переобучения в оценке мета-учащегося?
Каковы практические рекомендации по использованию мета-обучения в малых и больших размерах выборки?

Что такое мета-обучения и как они помогают оценить причинно-следственные связи?

Мета-обучения — это алгоритмы машинного обучения, предназначенные для оценки причинно-следственных связей. Они работают, обучаясь у набора базовых учеников, которые сами по себе являются алгоритмами машинного обучения, которые предсказывают эффекты лечения. Затем мета-обучающиеся объединяют прогнозы этих базовых обучающихся, чтобы получить общую оценку причинного эффекта. Этот подход может помочь уменьшить систематическую ошибку и повысить точность оценок причинно-следственных связей. Дополнительную информацию о мета-обучениях см. в Разделе 3.2 на странице 4.

Как разделение выборки и перекрестная подгонка уменьшают систематическую ошибку переобучения в оценке мета-учащегося?

Разделение выборки и перекрестная подгонка - это два метода, используемые для уменьшения систематической ошибки переобучения при оценке мета-учащегося. Разделение выборки включает в себя разделение данных на два или более подмножества, используя одно подмножество для обучения базовых учащихся, а другое подмножество для оценки причинно-следственного эффекта. Перекрестная подгонка включает в себя обучение каждого базового ученика на другом подмножестве данных, а затем использование каждого ученика для прогнозирования эффектов лечения на другом подмножестве данных. Оба метода помогают уменьшить погрешность переобучения, не позволяя базовым учащимся запоминать шум в данных. Дополнительную информацию о разделении выборки и перекрестной подгонке см. в Разделе 2.2 на стр. 3.

Каковы практические рекомендации по использованию мета-обучения в малых и больших размерах выборки?

В статье представлены практические рекомендации по использованию мета-обучающихся в эмпирических исследованиях в зависимости от конкретных характеристик данных, таких как доля лечения и размер выборки. В небольших выборках предпочтительнее оценка полной выборки, в то время как в больших выборках разделение выборки и перекрестная подгонка полезны для уменьшения систематической ошибки и эффективности мета-обучающихся соответственно. Дополнительные сведения об этих рекомендациях см. в Разделе 4 на стр. 5.

Машинное обучение и нейронные Python для алготрейдинга Разговор с искусственным интеллектом

Maxim Dmitrievsky 2023.05.17 15:08 #30740

Aleksey Vyazmikin #:

Ох отстал я - GPT то у меня нет :(((

Зря, просили бы его код себе писать, а не нас ) даже лучше студента, не надо колбасой кормить

Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3074