交易中的机器学习:理论、模型、实践和算法交易 - 页 1272

 
马克西姆-德米特里耶夫斯基

我已经厌倦了为明显的事情争论,他们都写在文章里了。让每个人想怎么理解就怎么理解。

如果再抽象一点,就会明白为什么与市场对弈是一样的。

而且我建议至少用他们自己使用的术语来讨论,而不是用巧妙地发明的术语。否则,这个论点就什么都不是。

在这里试图找到交易和博彩的类比,甚至考虑到他们的概率平衡的相同动态,这是受双方的影响的过程。让我们详细研究一下这个问题,而不是使用术语。

 
阿列克谢-维亚兹米 金。

试着为交易和赌博找到类比,即使它们的概率平衡的动态是一样的,都是受过程中双方的影响。让我们客观地看待这个问题,而不是躲在术语的后面。

这是最后一次,我不会再写了。

RL代理人并不关心他的对手是什么--市场或SC中的另一个对手,他不了解,因为这是一个程序。剩下的就纯粹是你的 "诀窍 "了

不管对手是静态的还是动态的,不管是哪种方式,代理人都会学到最佳政策

你会得到你的行为,你会想出办法的。有一天。

 
马克西姆-德米特里耶夫斯基

最后一次,我不再多说了。

RL代理人并不关心他的对手是什么--市场或SC中的另一个对手,他不了解,因为这是一个程序。剩下的就纯粹是你的 "诀窍 "了

不管对手是静态的还是动态的,不管是哪种方式,代理人都会学到最佳政策

你会得到你的行为,你会想出办法的。有朝一日。

训练方法的名称是次要的。我一直想和你谈谈预测器的问题,已经有很长一段时间了。

而你怎么会不明白,NS可以学习影响局势,并根据影响的有效性,影响事件结果的概率。而这恰恰是这种网络的优势--影响局势的能力。在每一帧都要决定做什么来提高目标绩效(就是那张图),活动的过程是多步骤的,最终的胜利或失败的概率不是在游戏开始时确定的,而是不断变化的,包括由于玩家的行动,这里是与交易最大的区别。

我不是说你不能用PL方法来教交易,我说的是影响形势达到目标的网络的有效性,而不仅仅是被动地猜测对手会做什么(价格会去哪里)。

 
马克西姆-德米特里耶夫斯基

为什么要表现出情绪,你最好对我的论点写出合理的反驳。

 
阿列克谢-维亚兹米 金。

这就是所谓的最优政策或战略,它考虑到了所有可能的敌人行为。

读一本书,不要让自己感到羞愧。我已经给你写了100次了,你想表达的东西适合用几个字来表达。

不要开这样的玩笑。

 
马克西姆-德米特里耶夫斯基

这被称为最优政策或战略,它考虑到了所有可能的敌人行为。

读书吧,别让自己难堪。我已经给你写了100次了,你想表达的东西适合用几个字来表达。

不要这样取笑我。

我不熟悉这个词,互联网也一样不愿意说什么--给我一个链接,让我看看是不是真的叫这个名字。

而如果我的描述符合某个术语,我不明白你的实质性反对意见。这不是条款的问题,而是对局势的影响,以实现长期目标--通过一连串的行动赢得游戏,这可能取决于敌人的行动。

这是关于决策发生的不同环境--在一个环境中你可以与环境互动,在另一个环境中你不能--只是透过玻璃观察。
 
阿列克谢-维亚兹米 金。

http://incompleteideas.net/book/bookdraft2018jan1.pdf

好运

 
马克西姆-德米特里耶夫斯基

http://incompleteideas.net/book/bookdraft2018jan1.pdf

好运

你不知道我不看外国书......我翻过了,是的,它们比俄语互联网上的书更先进。

 
马克西姆-德米特里耶夫斯基

如果去掉一半以上的多余话语,剩下的是具有概率转换的行动链(马尔科夫链),那么最好是

其他的废话就不说了

代理人/环境的分裂始终存在,没有透过玻璃的观察。同样,这也是一个抽象的层面,并不是每个人都能得到的。在这里,你又一次把你的额头贴在墙上,因为你在编造而不是研究它。

我最后一次写道,并停止这场狂欢:没有影响,有的是过渡的概率和政策的近似值。

我不知道你是怎么想的,但术语只会歪曲思想的本质,如果它不是一个早已确立的、无法验证的公理。

你不能提供一个类比,提及术语是没有结果的。

 
Aleksey Vyazmikin:

因为你不知道我不看外国书......我翻了翻,是的,那里的东西比俄语互联网上的更高级。

嗯,没有地方可以读了。萨顿,巴尔托《强化训练》在网上有翻译,只是一本旧书,但也很有用。