Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 2623

 
Maxim Dmitrievsky #:
Вот как раз улучшение конфузион матрикс заявлено при использовании второй модели, если почитать Прадо, например. Но там ещё используется оверсемплинг примеров для первой модели для увеличения кол-ва то ли тру позитивс, то ли еще чего. Забыл уже, к сожалению.
Используя одну модель, можно улучшить одно за счёт ухудшения другого, а с 2-мя моделями можно улучшать все, якобы. Поищите конфьюжн матрикс Прадо или Мета Лейбелинг Прадо. Я с телефона.
           

up-sampling & down-sampling - это для Imbalanced datasets и small training sets - если речь об этом, - т.е. придание бОльших весов для мЕньших классов и наоборот... да, наверно, для их (тру позитивс) увеличения...

***

а насчёт 2х моделей - ну можно, наверно, 2 раза отфильтровать - сначала сигналы для настройки весов, потом сделки по ним согласно этим весам (запущенным input'ом во 2ое взвешивание)... хоть и смахивает на возможность обучаться на сделках с контекстом - и чтобы градиент не исчезал для более ранних time-series - хорошая задумка... НО реализация при работе с контекстом всё равно немного другая обычно - задача использовать кодирование "сделки и её контекста" и 2я RNN берёт в обработку результат 1й для декодирования в output -- но это мало связано с работой 2х сетей над 2мя разными задачами (например, контекст и сделки), т.к. по сути обрабатывается-пропускается через 2 сети "сделка и контекст" (как пара!!)... - это лишь вопрос скорости решает, но не (или в меньшей степени) валидности выхода... имхо...

но если вы совсем уж хотите разделить обработку контекста и сделки (контекст отдельно, сделки отдельно) -- то мне пока такая конструкция напоминает бутерброд (или масло-масляное, смазывающее взаимосвязи и зависимости явлений друг от друга - в 2 слоя)... не претендую на трактовку вашего ТехЗадания, но высказала свои опасения и предположение о том, чтО всё-таки, наверно, стоит сохранять в процессе моделирования - именно Взаимосвязи!.. Желаю вам красивой (отражающей реальность! а не масло масляное) Архитектуры сети!

p.s. ) как извечная проблема "контекстной рекламы" - "главное, не отрываться от реальности" (только настройка весов у них иногда кривовата - не буду показывать пальцами у кого, - или с малыми выборками заработались не в ту сторону)

 
JeeyCi #:

up-sampling & down-sampling - это для Imbalanced datasets и small training sets - если речь об этом, - т.е. придание бОльших весов для мЕньших классов... да, наверно, для их (тру позитивс) увеличения...

***

а насчёт 2х моделей - ну можно, наверно, 2 раза отфильтровать - сначала сигналы для настройки весов, потом сделки по ним согласно этим весам (запущенным input'ом во 2ое взвешивание)... хоть и смахивает на возможность обучаться на сделках с контекстом - и чтобы градиент не исчезал для более ранних time-series - хорошая задумка... НО реализация при работе с контекстом всё равно немного другая обычно - задача использовать кодирование "сделки и её контекста" и 2я RNN берёт в обработку результат 1й для декодирования в output -- но это мало связано с работой 2х сетей над 2мя разными задачами (например, контекст и сделки), т.к. по сути обрабатывается-пропускается через 2 сети "сделка и контекст" (как пара!!)... - это лишь вопрос скорости решает, но не (или в меньшей степени) валидности выхода... имхо...

но если вы совсем уж хотите разделить обработку контекста и сделки (контекст отдельно, сделки отдельно) -- то мне пока такая конструкция напоминает бутерброд (или масло-масляное, смазывающее взаимосвязи и зависимости явлений друг от друга - в 2 слоя)... не претендую на трактовку вашего ТехЗадания, но высказала свои опасения и предположение о том, чтО всё-таки, наверно, стоит сохранять в процессе моделирования - именно Взаимосвязи!.. Желаю вам красивой (отражающей реальность! а не масло масляное) Архитектуры сети!

p.s. ) как извечная проблема "контекстной рекламы" - "главное, не отрываться от реальности" (только настройка весов у них иногда кривовата - не буду показывать пальцами у кого, - или с малыми выборками заработались не в ту сторону)

Понятие контекста, возможно, не очень употребимо в случае временных рядов. Там нет чёткого разделения, обе модели учавствуют в предсказании. Одна направление, другая тайминг. Я бы сказал, что они равноценные. Вопрос как можно оптимизировать поиск лучших ситуаций для торговли, основываясь на анализе ошибок моделей, и можно ли. Переобучая то одну то другую последовательно. После каждой пары переобучения результат должен улучшаться на новых данных. Т.е. оно должно уметь выцеплять закономерность из тренировочной выборки и постепенно улучшаться на новых данных, которые не видела. Нетривиальная задачка. 

Я сделал выбрасывание примеров, которые плохо предсказываются первой моделью в класс «не торговать» второй модели. Выбросил из обручающей выборки для первой модели. У первой ошибка упала до нуля почти, соответственно. У второй тоже небольшая. Но это же не значит, что на новых данных будет хорошо.

Это какая-то комбинаторная задача: найти правильные бай и селл в правильное время

Может здесь невозможно найти решение 
 
Maxim Dmitrievsky #:
 
 Понятие закономерность предполагает повторяемость, это важно!

Вот если один кластер может что то прогнозировать с вероятностью 90% и повторяеться ну хотя-бы 200 раз то можно предположить что это закономерность
Или не кластер а лог. правило.. 

Кодга ты имеешь дело с сложной моделью (сложный от слова сложыть)  ты утрачиваешь возможность фиксировать повторяемость внутренних паттренов,  говоря другими словами ты утрачиваешь возможность различать закономерность от подгонки... 

Понимая это можно сразу понять что нейросети идут на мусорку, а вот деревянные модели можно декомпозировать на правила,  а в правилах уже можно считать статистику
 
mytarmailS #:
 Понятие закономерность предполагает повторяемость, это важно!

Вот если один кластер может что то прогнозировать с вероятностью 90% и повторяеться ну хотя-бы 200 раз то можно предположить что это закономерность
Или не кластер а лог. правило.. 

Кодга ты имеешь дело с сложной моделью (сложный от слова сложыть)  ты утрачиваешь возможность фиксировать повторяемость внутренних паттренов,  говоря другими словами ты утрачиваешь возможность различать закономерность от подгонки... 

Понимая это можно сразу понять что нейросети идут на мусорку, а вот деревянные модели можно декомпозировать на правила,  а в правилах уже можно считать статистику
Но в нс можно много признаков запихать, если простых зависимостей нет, хоть и без возможности анализа. Иначе мы выбросим все машинное обучение и вернёмся к простым способам написания ТС :) Тогда можно просто писать простые алгоритмы, смотреть в тестере как они (не) работают, корректировать, смотреть опять и т.д.
 

статистика линейна, как ни крути... нейросети - это тупое (или умное - зависит от разработчика) взвешивание... при использовании для взвешивания 2х и более слоёв Dense нс дают Нелинейные зависимости (условно говоря, потому что зависимость это ИЛИ тупая корреляция - это ещё вопрос очень большой)... но пока даже тупая корреляция работает - на ней можно попробовать заработать... - просто момент, когда она перестаёт работать надо распознать вовремя (типа какую-никакую аномалию заметить - случайную или системообразующую - это уже др вопрос - и дальше, как обычно, решить свой вопрос принятия риска/профитности)

удобство нс в её гибкости - можно на выход получить/подавать совсем др. "номенклатуру", чем запускаем на вход -- т.е. в самой сети произвести нужные нам преобразования... и сделать это в многопоточном режиме (зависит от библиотеки)... не только статистику... 

а нужна статистика или нет для поиска входа (set-up'a) - это уже др вопрос...

знания и опыт чаще помогают, чем стат.обработка, - т.к. первое ориентируется на конкретику, 2-е на сведение к общему знаменателю...

всему своё место - статистике в том числе...

***

дело в том, что Для робота - по-другому не объяснить (и он вам по-другому не объяснит), кроме как через вероятности, полученные из цифр...  - ТАК ИСПОКОН ВЕКОВ РАБОТАЛИ ЭВМ - цифрами 0 и 1... поэтому и приходится цифроризовывать входы для получения вероятностей на выходе и задавать условия доверительных интервалов (которым мы доверяем, не обязательно статистика)... а мы можем доверять чему угодно (это субъективно) - или бинарной логике, или ещё и взвешенным результатом этой бинарной логики (ака %вероятности от целого по всему range потенциально возможных решений)... -- это просто дело вкуса и привычек, а не предмет для спора о поиске Грааля...

(а уже вход в лес или вход в нейросеть - это уже детали)

совместное использование деревьев/лесов и нейросетей тоже никто не запрещал в рамках выполнения одного проекта... - вопрос Где Что применять и Когда (важно, скорость и память), а не что лучше... - лучше не терять время - эквивалентно "тайминг в отрыве от сделки - потерянное время, как и сделка в отрыве от тайминга - неизвестная сделка"

 
Такая длинная тирада и такой слабый вывод :) Даже если абстрагироваться от времени, одну модель (регуляризованую, не подогнанную) нельзя обучить хорошему соотношению кол-ва прибыльных и убыточных сделок, исключению убыточных. Нельзя избавиться от ошибки классификации, которая воспринимается как искусственное ухудшение торговых показателей ТС даже на трейн выборке.
 

никакой моделью не получить больше, чем просто вероятности (- это преимущество и ущербность любой цифроризации), даже если эти вероятности не взвешивать... я бутербродами сама не травлюсь и никому не советую - Байеса никто не отменял (даже если вы его не вложите в код, и особенно - если вы его вложите в код)...

p.s. а вы, наверно, поклонник McDonalds'а... - гипотеза, проверять не буду...

алгоритмика дороже ваших выводов

 
JeeyCi #:

никакой моделью не получить больше, чем просто вероятности (- это преимущество и ущербность любой цифроризации), даже если эти вероятности не взвешивать... я бутербродами сама не травлюсь и никому не советую - Байеса никто не отменял (даже если вы его не вложите в код, и особенно - если вы его вложите в код)...

p.s. а вы, наверно, поклонник McDonalds'а... - гипотеза, проверять не буду...

алгоритмика дороже ваших выводов

Бутерброды широко применяются, любая глубокая сеть. Для разных задач свои ухищрения. Но если мыслить узко, то любой копир это ксерокс, а любой бургер Макдональдс 
Так можно стать заложником своих же стереотипов, так ничего и не попробовав. А стереотипы отнюдь не от многослойности 😀
В своём ответе, имплицитно, я задействовал вторую уточняющую модель, которая выделила из обобщённых знаний конкретные, больше подходящие под ситуацию
 
Maxim Dmitrievsky # :
 не от многослойности 😀    

profound speech - от слова профан?..

так вы из той же стаи того же стада... - "из фирмы поржать и посрать" ... в такой, действительно, учатся и работают лишь с малой вероятностью, думая, что Байес всё сделает за них...

ну, коль стая решила делать революцию в статистике и мо - мешать не буду... не забывайте сами пробовать своё всё!

 
JeeyCi #:

profound speech - от слова профан?..

так вы из той же стаи... - "из фирмы поржать и посрать" ... в такой, действительно, учатся и работают лишь с малой вероятностью, думая, что Байес всё сделает за них...

ну, коль стая решила делать революцию в статистике и мо - мешать не буду... не забывайте сами пробовать своё всё!

Даже не отрицаю
А вот недавно узнав про контекст и форгет гейт, обучая МАшку с умным видом, давать советы не пристало, не по Сеньке шапка
Причина обращения: