交易中的机器学习：理论、模型、实践和算法交易

toxic 2017.03.30 08:11 #3021

尤里-阿索连科。
这当然是真的。但高的进入门槛增加了各种风险。不一定是财务问题。

诚然，上面所说的也可以用一种平庸的形式来表达："利润是合理风险的单调函数"，这不仅适用于贸易，而且适用于所有人类活动，此外，众所周知，那些认为自己根本没有风险的人，例如，选择一个没有竞争力的职业，依靠国家养老金，是极端的人）））。

那么什么是 "没有 "风险的生活呢？这一点也不有趣，因为它的结局对每个人都是一样的。

Mihail Marchukajtes 2017.03.30 08:20 #3022

嗯，我的文章确实涵盖了置信区间等等。我强烈建议你仔细阅读，你可以从中获得很多东西。

СанСаныч Фоменко 2017.03.30 08:53 #3023

尤里-阿索连科。

我所说的系统性方法确实是指了解你在做什么，因此能够计划和预测你的行动结果。

谢谢你的文章。由于我不熟悉任何特定的软件，它非常适合初学者--简单而清晰。我唯一不明白的是使用哪种方法，回归还是分类？
自然，我立即开始在自己的系统上尝试。如果任何问题是麻烦的，可能会随着游戏的进行而被发现。

1.我不使用蜡烛图进场和出场--只使用报价流，而蜡烛图只在前一个蜡烛图的历史上出现。虽然我可以让它按烛台学习，但如何让Rattle吞下当前烛台内的烛台报价流，仍然是个谜。应该以某种方式分析烛台的流动。

2.如何处理可重建的预测器？例如，用回归线和sigmas。你甚至不能把它们粘贴到历史中去（用于学习），我们需要的是能即时计算它们并从历史中删除其痕迹的函数。

同样，还有一些闪闪发光的预测者，它们并不总是存在，是由系列的某些点建立起来的，总的来说也可以在剧中重建。

4 第2项和第3项的预测因子的正常化问题--从根本上说是不可能的。

而且在训练和工作过程中都应该计算关于预测因素的历史。

到目前为止，我们只有混乱的局面。

异响在两种情况下是好的。

当我们第一次相识的时候。
尝试......当你知道问题所在时......。

1.回归或分类。这决定了目标变量的类型。一个实数就是回归。名义（因素）--分类。

2.从目标变量开始。虽然看起来很简单，但这是一个复杂的问题。你要预测什么？方向？幅度，过度，水平......

3.预测因素。你必须证明它们与目标变量 "相关"。这是最难的部分。我在这个问题上花了高达70%的时间。我在这个主题中写了很多关于它的内容。

4.对统计资料不满意。这就是离开到R的原因。rattle让你更容易去做R，因为它记录了你在R上的所有操作，这些完成的代码可以用来修改。一般来说，下一步是关心。

Yuriy Asaulenko 2017.03.30 10:47 #3024

桑桑尼茨-弗门科。

2.你必须从目标变量开始。尽管它表面上很简单，但这是一个相当复杂的问题。你要预测什么？方向？幅度，过度，水平......

看起来一切都需要预测）。现在有大约30个 "指标"（更正确地称为预测器）在模型中（不是MO）+它们的相互处理和逻辑。本来应该是+10的。

人工处理这样的数量，并理解每个预测器对整体的贡献，已经不现实了。因此，顺便说一下，使用MO的想法。一切仍然处于非常早期的阶段。

桑桑尼茨-弗门科。

3.预测因素。你必须证明它们与目标变量 "相关"。这是最难的。我在这个问题上花了高达70%的时间。我已经在主题中写了很多关于它的内容。

是的，我得改编一下。看起来你不能只是把它插进去）。

桑桑尼茨-弗门科。

4.对静止的情况不满意。这就是离开到R的原因。rattle简化了这种离开到R的过程，因为它记录了你在R上的所有操作，而且这些准备好的代码可以用来修改。实际上，下一步是caret。

明白了。

СанСаныч Фоменко 2017.03.31 11:31 #3025

有趣的表格，最常使用的MO包

类	名称	包装	下载
遗留的.coxph	考克斯比例危险模型	生存	153681
分类.naiveBayes	奈何贝叶斯	e1071	102249
classif.svm	支持向量机（libsvm）	e1071	102249
classif.lda	线性判别分析	硕士	55852
classif.qda	二次方判别分析	硕士	55852
classif.randomForest	随机森林	随机森林	52094
classif.gausspr	高斯过程	实验中心	44812
classif.ksvm	支持向量机	实验中心	44812
classif.lssvm	最小二乘法支持向量机	实验中心	44812
cluster.kkmeans	内核 K-Means	实验中心	44812
ǞǞǞǞ	相关性向量机	实验中心	44812
classif.cvglmnet	带有Lasso或Elasticnet正则化的GLM（交叉验证的Lambda）。	糯米网	41179
classif.glmnet	带有Lasso或Elasticnet正则化的GLM	糯米网	41179
surv.cvglmnet	带有规范化的GLM（交叉验证的Lambda）。	糯米网	41179
surv.glmnet	有规则化的GLM	糯米网	41179
分类法.cforest	基于条件推理树的随机森林	党	36492
分类的ctree	条件推理树	党	36492
共和国	基于条件推理树的随机森林	党	36492
淘宝网	基于模型的递归划分，产生一个与每个终端节点相关的拟合模型的树。	党，模型工具	36492
surv.cforest	基于条件推理树的随机森林	派对,生存	36492

Machine learning in trading:

Mihail Marchukajtes 2017.03.31 12:29 #3026

桑桑尼茨-弗门科。

有趣的表格，最常使用的MO包

类	名称	包装	下载
遗留.coxph	考克斯比例危险模型	生存	153681
分类.naiveBayes	奈何贝叶斯	e1071	102249
classif.svm	支持向量机（libsvm）	e1071	102249
classif.lda	线性判别分析	硕士	55852
classif.qda	二次方判别分析	硕士	55852
classif.randomForest	随机森林	随机森林	52094
classif.gausspr	高斯过程	实验中心	44812
classif.ksvm	支持向量机	实验中心	44812
classif.lssvm	最小二乘法支持向量机	实验中心	44812
cluster.kkmeans	内核 K-Means	实验中心	44812
ǞǞǞǞ	相关性向量机	实验中心	44812
classif.cvglmnet	带有Lasso或Elasticnet正则化的GLM（交叉验证的Lambda）。	糯米网	41179
classif.glmnet	带有Lasso或Elasticnet正则化的GLM	糯米网	41179
surv.cvglmnet	带有规范化的GLM（交叉验证的Lambda）。	糯米网	41179
surv.glmnet	有规则化的GLM	糯米网	41179
分类法.cforest	基于条件推理树的随机森林	党	36492
分类法.ctree	条件推理树	党	36492
共和国	基于条件推理树的随机森林	党	36492
淘宝网	基于模型的递归划分，产生一个与每个终端节点相关的拟合模型的树。	党，模型工具	36492
surv.cforest	基于条件推理树的随机森林	派对,生存	36492

忘了在名单中加入另一个人。啊，是的，我有一个独特的软件，可以说是罕见的：-)

Mihail Marchukajtes 2017.03.31 14:03 #3027

尤里-阿索连科。

看起来一切都需要预测）。现在有大约30个 "指标"（更正确地称为预测器）在模型中（不是MO）+它们的相互处理和逻辑。本来应该是+10的。

人工处理这样的数量，并且仍然了解每个预测器对整体的贡献，已经不再现实。因此，顺便说一下，使用MO的想法。一切仍然处于非常早期的阶段。

桑桑尼茨-弗门科。

3.预测因素。你必须证明它们与目标变量 "相关"。这是最难的。我在这个问题上花了高达70%的时间。我已经在主题中写了很多关于它的内容。

是的，我得改编一下。看起来你不能只是把它插进去）。

桑桑尼茨-弗门科。

4.对静止的情况不满意。这就是离开到R的原因。rattle简化了这种离开到R的过程，因为它记录了你在R上的所有操作，而且这些准备好的代码可以用来修改。实际上，下一步是caret。

明白了。

我将加入我的5戈比。事实上，你需要提供这样的输入，这将导致不是输出变量，而是价格！这就是所谓的 "价格"。那么任何TS都会被训练得很好。目标函数的例子。

最明显的SIGNAL BETTER， 那么会不会有回调到某一水平，今天会达到哪个水平，等等。阅读我的文章不要偷懒，我提到了。因此，对于所有这些目标函数，我给出了相同的输入，所有模型的运行都相当令人满意。而且你可以看到同样的投入是如何看待市场的。这里是利润，这里是回撤，这里是水平。他们工作得很好，因为条目是价格的原因。

稍微解释一下，原因是当入口的变化导致价格的变化，而不是反过来。这可能非常令人困惑，因为TS的统计数据本身就非常糟糕。因为Zscore所取的值正是价格所告诉它的，而不是反过来。例如，delta是价格变化的原因。:-)

Yuriy Asaulenko 2017.03.31 15:10 #3028

Mihail Marchukajtes:

我给你我的五分钱。你真正需要做的是提供输入，这不是输出变量的原因，而是PRICE的原因!那么任何TS都会训练得很好。目标函数的例子。

最明显的SIGNAL BETTER， 那么会不会有回调到某一水平，会达到今天的哪个水平，等等。阅读我的文章不要偷懒，我提到了。因此，对于所有这些目标函数，我给出了相同的输入，所有模型的运行都相当令人满意。而且你可以看到同样的投入是如何看待市场的。这里是利润，这里是回撤，这里是水平。他们工作得很好，因为条目是价格的原因。

稍微解释一下，原因是当入口的变化导致价格的变化，而不是反过来。这可能非常令人困惑，因为TS的统计数据本身就非常糟糕。因为Zscore完全是按照价格告诉它的价值，而不是反过来。例如，delta是价格变化的原因。:-)

我已经读了你的文章，如果你指的是上一页的链接。也许我错过了什么。我将重读它。

当然，预测器的存在是为了预测价格走势。但他们的叠加+价格给出了入市的信号，即他们预测了初始（训练）黑盒的反应。这个问题类似于先有鸡还是先有蛋？也许这种分歧纯粹是一个术语的问题。

从意识形态的角度来看，至少在具有刚性逻辑的系统中，预测价格是比较正确的，而输出变量已经是处理的结果。

Mihail Marchukajtes 2017.03.31 15:20 #3029

尤里-阿索连科。

你的文章，如果你指的是上一页的链接，已经被阅读了。我可能错过了什么。我将重读它。

是的，当然，预测器的存在是为了预测价格的变化。但他们的叠加+价格给出了一个进场的信号，即他们预测了初始（训练）黑箱的反应。这个问题类似于先有鸡还是先有蛋？也许这种分歧纯粹是一个术语的问题。

从意识形态的角度来看，至少在具有刚性逻辑的系统中，预测价格更正确，而输出变量是处理的结果。

一切都是对的，但你应该用它变化的数据来预测价格。有一个非常有趣的观察。如果输入是价格的原因，那么在样本外工作的结果将比训练时略差，即NS在训练中工作，在 "样本外 "仍然工作，但更差，当明显时，当不明显时。这完全取决于模型。而当你给出的输入数据不取决于价格时，对 "样本外 "部门的操作变成了CoinFlip，硬币翻转。你永远不知道NS何时会犯错。像这样....

Yuriy Asaulenko 2017.03.31 17:58 #3030

Mihail Marchukajtes:

好吧，但你应该借助它变化的数据来预测价格。有一个非常有趣的观察。如果输入是价格的原因，那么样本外工作的结果将比训练时略差，即NS在训练中工作，在 "样本外 "仍然工作，只是更差，当明显，当不明显。这完全取决于模型。而当你输入取决于价格的数据时，在 "样本外 "部门的操作就变成了CoinFlip，硬币翻转。你永远不知道NS何时会犯错。像这样....

实际上，我们没有价格及其变化所依赖的数据。而且不可能有，除非我们是内部人士。一般来说，我们要在价格行为本身中寻找关于未来的间接（二级）数据。也就是说，我们的数据恰恰取决于价格和它在过去和现在的行为。

而这种说法：我们应该用数据来预测价格，从它的变化来看。 你不能同意它。但是，输入数据的质量越高，结果就越好，这是显而易见的。

------------------------------

我已经开始为迁移到MoD准备预测器。想用R来做这一切。事实证明，R的所有功能，根本不适合建模和信号处理。不幸的是。一切都非常不方便。

我将不得不把所有的准备工作转移到科学实验室，那里的一切都更容易和更方便。SciLab是一个界面和意识形态与R非常接近的环境，它是为数据处理和数学建模而设计的。它拥有从无线电工程到空气动力学的所有内容，还有很多数学知识，而这些在R中是完全没有的。不过，特异性。统计方法和数据挖掘在SciLab中得到了相当好的体现，但在这个意义上，SciLab在这类方法的选择上明显逊于R。你不能用SanSanych做SciLab的脚手架）。虽然，那里有很多已安装的软件包，但似乎没有什么是接近的。

一般来说，我必须结合不同的IDE来解决不同的任务，并在环境之间传输数据。遗憾的是。我想用最好的方式（用R）做一切，但结果还是和以前一样。

交易中的机器学习：理论、模型、实践和算法交易 - 页 303