Машинное обучение в трейдинге: теория, модели, практика и алготорговля - страница 1272

 
Maxim Dmitrievsky:

последний раз пишу, больше не буду.

РЛ агенту все равно против чего он играет - рынка или другого оппонента в СК, он этого не понимает потому что это программа. Остальное это исключительно ваши "ноу хау"

не важно статический соперник или динамический, в любом случае агент будет изучать оптимальную политику

соберетесь с мыслями и все поймете. Когда-нибудь.

Название метода обучения вторичено. Я давно пытаюсь с Вами говорить о предикторах.

И, как Вы не понимаете, что НС может научится влиять на ситуацию, и в зависимости от эффективности влияния влиять на вероятность исхода события. И это как раз дает преимущество такой сети - возможность влиять на ситуацию. На каждом фрейме принимается решение о том, что делать для улучшения показателей цлевой (того самого графика), процесс деятельности многоэтапный, итоговая вероятность победы или поражения определяется не в момент начала игры, а постоянно меняется, в том числе из-за действий игроков, и тут как раз самое большое отличие от трейдинга.

Я не говорил, что нельзя придумать метод РЛ для обучения трейдингу, я говорил об эффективности сети, которая для достижения целевой влияет на ситуацию, а не просто пассивно гадает, что будет делать оппонент (куда пойдет цена).

 
Maxim Dmitrievsky:

Зачем демонстрировать эмоции, лучше напишите аргументированное возражение моим доводам.

 
Aleksey Vyazmikin:

это называется ОПТИМАЛЬНАЯ ПОЛИТИКА или СТРАТЕГИЯ, которая учитывает все возможные варианты поведения противника

читайте книжки, не позорьтесь. Я Вам 100 раз уже написал, то что вы пытаетесь выразить помещается в ПАРЕ СЛОВ

нафиг так издеваться то А

 
Maxim Dmitrievsky:

это называется ОПТИМАЛЬНАЯ ПОЛИТИКА или СТРАТЕГИЯ, которая учитывает все возможные варианты поведения противника

читайте книжки, не позорьтесь. Я Вам 100 раз уже написал, то что вы пытаетесь выразить помещается в ПАРЕ СЛОВ

нафиг так издеваться то А

Я не знаком с данным термином, интернет так же не охотно что-то рассказывает - дайте ссылку, посмотрю, может действительно это так называется.

И если, моё описание подходит под определенный термин, то мне не понятны Ваши возражения по существу. Речь же не о терминах, а влиянии на ситуацию для достижения долгосрочной цели - победы в игре, посредством цепочки действий, которая может меняться в зависимости от действий противника.

Речь о разной среде, в которой происходит принятие решение - в одной можно взаимодействовать со средой, а в другой нет - только наблюдать через стекло.
 
 

А то Вы не знаете, что я инородное чтиво не читаю... полистал, да, там более продвинутые вещи, чем в русскоязычном интернете.

 
Maxim Dmitrievsky:

если больше половины лишних слов выкинуть, а оставить цепочку действий (марковские цепи) с вероятностными переходами, то уже лучше

весь остальной бред можно не писать

разделение на агент\среда есть всегда, нет никаких наблюдений через стекло. Опять же, абстрактный уровень который не всем доступен. И здесь вы опять упретесь лбом в стену, потому что выдумываете вместо того что бы изучать.

Последний раз пишу и прекращаю эту вакханалию: нет никакого влияния, есть вероятности переходов и аппроксимации политик.

Я не знаю, как Вы мыслите, но термины лишь искажают суть мысли, если речь идет не об аксиомах, давно устоявшихся и не подлежащих проверке.

Аналогия привести не смоли, ссылаетесь на терминологию - непродуктивно.

 
Aleksey Vyazmikin:

А то Вы не знаете, что я инородное чтиво не читаю... полистал, да, там более продвинутые вещи, чем в русскоязычном интернете.

ну так а негде читать больше. Саттон, Барто "обучение с подкреплением" в интернете есть перевод, старой книги только, но тоже полезно


 
Aleksey Vyazmikin:

Я не знаю, как Вы мыслите, но термины лишь искажают суть мысли, если речь идет не об аксиомах, давно устоявшихся и не подлежащих проверке.

Аналогия привести не смоли, ссылаетесь на терминологию - непродуктивно.

все аналогии разобьются о стену ваших фантазий. За вчера привел их массу, но вы ни одну не поняли

Штирлиц продолжал стоять на своем, это была любимая пытка Мюллера.

если приятно думать о том, что агент влияет на соперника спецом, что это какая-то отдельная особая стратегия, то думайте

а он просто перебирает варианты, играя с соперниками много раз, и для каждого случая выделяет оптимальные стратегии (если выигрывает получает вознаграждения), если проигрывает то штрафуется. В итоге у него есть опыт в виде натрененой НС, которая учла кучу разных игровых комбинаций, и может спрогнозировать исход каждой, поэтому действует в соответствии с лучшим прогнозом. Если противник меняет страту, то НС это все видит и реагирует другой стратой, активацией других нейронов. Точно так же когда рынок меняется НС выдает другие прогнозы.

 
Aleksey Vyazmikin:

Я не знаю, как Вы мыслите, но термины лишь искажают суть мысли, если речь идет не об аксиомах, давно устоявшихся и не подлежащих проверке.

Аналогия привести не смоли, ссылаетесь на терминологию - непродуктивно.

Алексей, вы если честно только спамите и понятно ради чего, за все время что вы тут написали много много букв, написали ли вы хоть одну строчку кода, что могло бы подкрепить ваши слова и догадки?

Больше чем уверен, нет.

Печально, что когда вы просите дать вам материл для повышения осведомленности по текущему вопросу, вы с легкостью его отвергаете, так как она языке который вам не знаком, неужели сложно пользоваться переводчиками?

По поводу вероятностей, как раз нейросеть обучается по историческим сценариям с 100% известным исходом и уже после при применении обученной сети, вы получить ответ по ситуации не 100%, а вероятностный,  далее исходя из логики что будет вами заложена, вы(другая сеть) будите принимать решение что делать, этим самым в итоге вы получите живую сеть, решения и исходы которых будут не возможно предугадать.