Обсуждение статьи "Кластеризация временных рядов в причинно-следственном выводе"

 

Опубликована статья Кластеризация временных рядов в причинно-следственном выводе:

Алгоритмы кластеризации в машинном обучении — это важные алгоритмы обучения без учителя, которые позволяют разделять исходные данные на группы с похожими наблюдениями. Используя эти группы, можно проводить анализ рынка для конкретного кластера, искать наиболее устойчивые кластеры на новых данных, а также делать причинно-следственный вывод. В статье предложен авторский метод кластеризации временных рядов на языке Python.

Кластеризация — это метод машинного обучения, который используется для разделения набора данных на группы объектов (кластеры) таким образом, чтобы объекты внутри одного кластера были похожи друг на друга, а объекты из разных кластеров были различны. Кластеризация позволяет выявить структуру данных, выделить скрытые закономерности и группировать объекты на основе их сходства.

Кластеризация может быть использована в причинно-следственном выводе. Одним из способов применения кластеризации в этом контексте является выявление групп схожих объектов или событий, которые могут быть связаны с определенной причиной. После кластеризации данных можно анализировать связи между кластерами и причинами, чтобы выявить потенциальные причинно-следственные связи.

Кроме того, кластеризация может помочь в выделении групп объектов, которые могут быть подвержены одному и тому же воздействию или иметь общие причины, что также может быть полезно при анализе причинно-следственных связей.

Автор: Maxim Dmitrievsky

 

Прочёл до " Матчинг сделок при помощи кластеризации " и после - а в чём разница - не понял описано то ж самое, но чуть-чуть другими словами.

Из статьи не ясно, есть ли какой эффект от кластеризации, так как слишком много рандома, что делает невозможным сопоставлять результаты. Почему нельзя зафиксировать seed, или сохранить выборку перед кластеризацией, а уже потом провести процедуру создания с фиксированным seed для выборки с предварительной кластеризацией и без таковой?

Код не смотрел - в ONNX все типы кластеризации можно сохранить и в MQL5 будет без проблем относится к кластерам генерируемый вектор с признаками?

 
Aleksey Vyazmikin #:

Прочёл до " Матчинг сделок при помощи кластеризации " и после - а в чём разница - не понял описано то ж самое, но чуть-чуть другими словами.

Из статьи не ясно, есть ли какой эффект от кластеризации, так как слишком много рандома, что делает невозможным сопоставлять результаты. Почему нельзя зафиксировать seed, или сохранить выборку перед кластеризацией, а уже потом провести процедуру создания с фиксированным seed для выборки с предварительной кластеризацией и без таковой?

Код не смотрел - в ONNX все типы кластеризации можно сохранить и в MQL5 будет без проблем относится к кластерам генерируемый вектор с признаками?

В первом случае кластеризация режимов и бот торгует на выбранном кластере. Во втором случае бот торгует на всех кластерах, но сделкам из каждого кластера приедается определенные вес.   

От кластеризации есть эффект, потому что на разных кластерах обучение лучше/хуже.

Не знаю про экспорт кластеризатора в onnx, надо будет почитать.                   

 
Maxim Dmitrievsky #:
В первом случае кластеризация режимов и бот торгует на выбранном кластере. Во втором случае бот торгует на всех кластерах, но сделкам из каждого кластера приедается определенные вес.   

Я почему то решил, что в первом случае создается отдельная модель под каждый кластер. А как выбирается тогда кластер?

По второму случаю понятно - прошлые статьи не читал - если вкратце - как делается взвешивание?

Maxim Dmitrievsky #:
От кластеризации есть эффект, потому что на разных кластерах обучение лучше/хуже.

Ну так там разные же выборки получались по сути...

 
Aleksey Vyazmikin #:

Я почему то решил, что в первом случае создается отдельная модель под каждый кластер. А как выбирается тогда кластер?

По второму случаю понятно - прошлые статьи не читал - если вкратце - как делается взвешивание?

Ну так там разные же выборки получались по сути...

В первом случае обучается модель под каждый кластер, да. Кластер выбирается по результатам торговли на тесте.

Во втором случае кластеры используются для фильтрации плохих сделок. Сначала выборка группируется на n кластеров, затем для каждого кластера считаются неправильно предсказанные примеры и помечаются как плохие. Из-за того, что используется среднее значение плохих примеров по нескольким фолдам перекрестного обучения, то средние для каждого кластера отличаются. Поэтому есть разница между фильтровкой на всем датасете (как в предыдущих статьях) и фильтровкой по каждому кластеру, разница в средних!

 
Aleksey Vyazmikin #:

Ну так там разные же выборки получались по сути...

Разные выборки = разные режимы рынка по волатильности. На каком-то модель работает более устойчиво, чем на каком-то другом. Это для первого случая.

Во втором случае избавление от плохих сделок и торговля на всех режимах.

Поскольку процесс обучения автоматизирован и рандомизирован, меня не интересует номер кластера и его какие-то особенности. Меня интересует готовая ТС на выходе, которую можно выбрать из пучка разных ТС.
 
Maxim Dmitrievsky #:
Из-за того, что используется среднее значение плохих примеров по нескольким фолдам перекрестного обучения, то средние для каждого кластера отличаются.

Отличается от того, что чем меньше выборка, тем вероятней попадание примера повторно в подвыборку?

Maxim Dmitrievsky #:
Разные выборки = разные режимы рынка по волатильности. На каком-то модель работает более устойчиво, чем на каком-то другом. Это для первого случая.

С первым случаем вроде как понятно - на чём обучились хорошо то и оставили.

Maxim Dmitrievsky #:
Поскольку процесс обучения автоматизирован и рандомизирован, меня не интересует номер кластера и его какие-то особенности. Меня интересует готовая ТС на выходе, которую можно выбрать из пучка разных ТС.

Выбор - всегда хорошо, но есть ли закономерность, критерии, позволяющие обнаружить связь между отобранным результатом и реальными показателями вне выборок обучения? 

 
Aleksey Vyazmikin #:

Отличается от того, что чем меньше выборка, тем вероятней попадание примера повторно в подвыборку?

С первым случаем вроде как понятно - на чём обучились хорошо то и оставили.

Выбор - всегда хорошо, но есть ли закономерность, критерии, позволяющие обнаружить связь между отобранным результатом и реальными показателями вне выборок обучения? 

Критерий истины - практика )

Есть еще один интересный полученный эффект. Обе модели в первом случае обучаются с accuracy 0.99. Это открывает путь к калибровке моделей и выводу "истинных вероятностей". Что я хотел рассмотреть в другой статье может быть.
 
Maxim Dmitrievsky #:

Критерий истины - практика )

Есть еще один интересный полученный эффект. Обе модели в первом случае обучаются с accuracy 0.99. Это открывает путь к калибровке моделей и выводу "истинных вероятностей". Что я хотел рассмотреть в другой статье может быть.

Пишите конечно, но лучше поразвернетей, а то без пояснений сложно понять было.

Причина обращения: