Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 3528

 
Maxim Kuznetsov #:

из неочевидных : можно попросить ChatGPT (или прочие большие сети) рисовать график на завтра :-) тут правда надо ещё научиться с ним общаться, как-то объяснить что брать за эталоны и что это продолжение текущего и взаимосвязано с другими, и к тому придётся обходить запреты (применение ИИ в явном прогнозировании запрещено во избежании неприятностей, он должен уклоняться от ответов).

про корреляцию, кто вам сказал что пирсон не оконная функция ? передайте ему "фи...". Средняя есть, у ней окно, в то окно дует

на уровне мозгового штурма, мысленно-визуальный эксперимент:

- представляем график, по X - EURUSD, по Y GBPUSD.

- точка на графике однозначно определяет обе котировки и их кросс на момент времени

- добавляем время (анимируем) - точка делает вид что броновский движ, но внутри странной фигуры... есть явные логические запреты: не может двигаться исключительно горизонтально/вертикально/радиально. В квант времени меняется EURUSD, GBPUSD и EURGBP; все трое

- например цветом, как heatmap, добавляем и суммируем объёмы OrderBook - от EURUSD вертикальные полосы, от GBPUSD горизонтальное, а от EURGBP - радиальные.

- по их сумме выделяем изолинии: изолинии heatmap уже не будут идеальным эллипсом/окружностью а будут несколько "яйцеобразной фигурой" (EURGBP радиальный и он даст утолщение)

- из-за прочих факторов (от проекций других валют и что EUR:GBP не 1:1 и есть логические запреты) - из яйцеобразной фигуры должна получается "беременная фасолька" :-) фигура не обладающая симметрией по осям и диагоналям

- и это ещё без учёта сезонной волатильности, которая добавит своих эффектов. лёгкие изгибы у круглых уровней в частности. 

получится потенциальное поле, и вечная игра в арканоид - котировка бьётся в одну стенку, сносит кирпичик и отлетает в другую. 

в реальности этого не нарисовать - просто данных нет. Стаканы на 10-20 пунктов это ни о чём :-)

на крипте можно, но крипта не фиат и не связана с экономикой

Вроде бы все разумные люди уже избавились от странных иллюзий по по поводу любой LLM.

Если бы у меня речь шла об оконном индикаторе, то и результат бы выглядел как индикатор. Но у меня не индикатор, а график зависимости корреляции от времени суток, наподобие графика зависимости волатильности от времени суток.

Что-нибудь нарисовать - это не ко мне, а к Николаю Семко, никто с ним не сравнится в этом

 
Aleksey Vyazmikin #:

Да, новое всегда сложно для восприятия - видимо нужны иллюстрации.

Это не новое, это какая-то несуразица. Даже статьи на англ. по МО воспринимаются проще. А там уровень совсем другой.
Без желания задеть, просто так воспринимаю.
 
Maxim Dmitrievsky #:
Это не новое, это какая-то несуразица. Даже статьи на англ. по МО воспринимаются проще. А там уровень совсем другой.
Без желания задеть, просто так воспринимаю.

Перечитал я ещё раз - для меня всё чётко и понятно. Я же не буду менять свою терминологию в желании Вам разъяснить, а свою могу - если будут вопросы.

 
Aleksey Nikolayev #:

Вроде бы все разумные люди уже избавились от странных иллюзий по по поводу любой LLM.

Если бы у меня речь шла об оконном индикаторе, то и результат бы выглядел как индикатор. Но у меня не индикатор, а график зависимости корреляции от времени суток, наподобие графика зависимости волатильности от времени суток.

Что-нибудь нарисовать - это не ко мне, а к Николаю Семко, никто с ним не сравнится в этом

всё новое это хорошо забытое старое :-)

про АКФ (у вас же АКФ получается, не корреляция двух величин) мне кажется говорили уже лет 5-10 назад. :-) на котировках и их производных, в лоб по учебникам посчитанная AKФ хаотична. Дальше 6-ти отсчётов будет полная ерунда. И всё равно каких отсчётов, минуты ли, бары ли, ретурнсы. Она просто ничего не показывает.  Потому что волатильность, потому-что большая разница в окне, потому что sqrt(T) (это видимо от него 5-6 отсчётов и мнение что у рынка память на 5 ходов). 

 
Maxim Kuznetsov #:
у вас же АКФ получается
нет
 
Aleksey Nikolayev #:

Причём здесь это? Корреляция считалась, по сути, также как волатильность. Например, для Х=1 бралась выборка из всех приращений за 1-ю минуту и смотрелась её корреляция с выборкой из всех последующих приращений за 2-ю минуту. И так далее для всех Х<=1440. Оконная функция устроена по другому.

Код на R

А что такон nb в коде?
Не могли бы вы предоставить более воспроизводимый код
 
Aleksey Vyazmikin #:

Перечитал я ещё раз - для меня всё чётко и понятно. Я же не буду менять свою терминологию в желании Вам разъяснить, а свою могу - если будут вопросы.

Я допускаю, что в ваших исследованиях есть рациональное зерно, но очень сложно воспринимать. Возможно, нужен какой-то тезаурус. Например, что такое повреждение вероятностной структуры :)

 
Maxim Dmitrievsky #:

Я допускаю, что в ваших исследованиях есть рациональное зерно, но очень сложно воспринимать. Возможно, нужен какой-то тезаурус. Например, что такое повреждение вероятностной структуры :)

Лично я сдался и просто листаю
 
mytarmailS #:
Лично я сдался и просто листаю
😀
 
Maxim Dmitrievsky #:

Я допускаю, что в ваших исследованиях есть рациональное зерно, но очень сложно воспринимать. Возможно, нужен какой-то тезаурус. Например, что такое повреждение вероятностной структуры :)

Вот смотрите, ниже на рисунке я на скорую руку изобразил процесс явления о котором говорю.


У нас имеется три предиктора P0, P1, P2, мы оценили их квантовые отрезки на предмет смещения вероятности к одному из двух классов по отношению к подвыборке, сильные смещения к единице обозначены зеленым цветом, а к нулю - синим, красные же - это те, что не преодолели оценочный порог - пока не известно на текущей итерации к какому классу их следует отнести.

После оценки нам нужно выбрать какой квантовый отрезок исключить (сделать сплит) - я рассматриваю в примере два условных варианта - V1 и V2.

Квантовый отрезок, по которому делали сплит становится серым на рисунке. Тот квантовый отрезок, который содержит те же отклики (индексы строк), что и серый - перечеркивается серой чертой. Утрата примеров в неопределенной области (красной) не отражается на рисунке.

Если выбираем вариант V1, то видим, что у нас два квантовых отрезка, которые утратят часть примеров и будут при их оценки иметь незначительное смещение вероятности по отношению к подвыборки - эта утрата названа повреждением (Damage). После повреждения эти квантовые отрезки попадут в зону неопределенности и станут красного цвета.

Если выбрать вариант V2, то видим, что поврежден только один квантовый отрезок на предикторе P1, в то время, как на предикторе P2 появился новый квантовый отрезок синего цвета, который взял часть примеров от зеленого квантового отрезка и красной области неопределенности. Вот такое постепенное раскрытие диапазона я и назвал структурой, которая изначально скрыта, но постепенно открывается, а выбор просто сплита по лучшей метрики может привести к её повреждению, и она не сможет раскрыться. По сути это ветвление дерева внутри предиктора на новых итерациях. Ранее я показывал, как такие квантовые отрезки исчезают с каждой итерацией, теперь я смог понять причину и пытаюсь контролировать этот процесс.

И, хотя на рисунке показан процесс для квантовых отрезков, как единого целого (сразу два сплита, ограничивающих диапазон предиктора), но схожий процесс происходит и при любом построении дерева, только там выбирается на один квантовый отрезок, а сразу группа - от и до. И, выбор сплита только исходя из лучших показателей таких метрик как Джини, энтропия или логлосс может существенно ухудшить выбор из числа полученных результатов оценки сплита на последующих итерациях построения древовидной модели.