交易中的机器学习：理论、模型、实践和算法交易

Alexey Burnakov 2016.07.31 20:36 #781

Dr.Trader:

我在trainControl中使用了 "recommoncv "方法，并使用了默认的分割。最近我自己写了交叉验证的代码，我试着用随机抽取的条形图和连续抽取的没有空隙的块状图进行交叉验证。在前面的测试中没有看到任何区别，两种情况下的结果差不多。我把训练/交叉验证的数据分为50%/50%，也许在这个比例上已经不重要了。
我将实验一下这个问题，以照顾...

我记得在你不久前发布的那篇文章中，领先的比较是用普拉特的方法提升树木（类似这样）。我在谷歌上找到的关于这个方法的所有信息是，你必须把模型的输出传给sigmoid，然后取其结果。gbm或xgboost能做到吗？这种方法似乎比排在第二位的森林、神经元和一些 "袋装树 "更好。

Gbm和xgboost 是升压树。为了更好地收敛grpdient，每棵新树都是根据学习前一棵树的结果加权观察而建立的。线性和非线性模型都可以被提升...

排在第二位的是随机森林。按照我的理解，这就是装袋。建立在不同数据上的几个模型的平均结果。

阅读关于梯度提升。很难找到一个更好的分类。例如，我在回归预测器结果的基础上进行分类。

Alexey Burnakov 2016.07.31 20:38 #782

关于简历。默认情况下，会进行随机分区...对于时间序列来说，时间的可分离性是很重要的...在caret中可以做到这一点。Caret CV时间序列自定义折页...查一查吧。在我之前发布的代码中。它是在那里的traincontrol中实现的。

Mihail Marchukajtes 2016.08.01 06:49 #783

Alexey Burnakov:
关于简历。默认是随机分区...对于时间序列来说，时间的可分离性是很重要的...你可以在Caret中进行。Caret CV时间序列自定义折页...查一查吧。在我之前发布的代码中。它是在traincontrol中实现的。

我看着你，感到很惊讶......你想从一无所有中获得一些东西。也就是说，你想从零开始得到0.0000000000000000000000000000000000的结果。我不能再看了，所以我来帮你一把。实际上，网络的拓扑结构是次要的。在机器学习中，在外汇和其他方面，数据是第一位的。也就是说，在设计神经网络时，最重要的不是网络拓扑结构或训练方法。它是输入数据和输出数据。如果数据与市场相关--任何哪怕是一个小的perseptron都会解决你的分类问题，并且在未来也能正常工作，原因很简单，因为输入数据与市场相关，这个数据能够预测市场。而你所要做的是在不相关的信息中抓取表面。对不起，但结果也将是不相关的....。至于市场，在外汇领域，主要是成交量，然后是市场对它的反应。而不是MT（tick）中的成交量，而是期货的实际成交量，同样是欧元。使用集群的delta来帮助你。有很多有用的信息。因此，利用交易量，将大大增加任何网络的性能，即使是最简单的perseptron。它还有一个delta，这也是非常有用的。但你正试图在次要的指标基础上建立一个模型，我可以说是在价格之后的第三位，你期望从中获得奇迹。不会有什么奇迹，我向你保证.....

P.S.，想想你想和谁竞争......拥有最酷的程序员团队的公司，其处理能力比你的四核还强。随着投资于开发新方法的资金，等等。而在这里，来自淳朴的俄罗斯农村的阿列克谢决定在5年内黑掉市场，获得圣杯。从天而降，摘下玫瑰色的眼镜........

Dr. Trader 2016.08.01 07:57 #784

Mihail Marchukajtes:

在机器学习中，在外汇和其他方面，数据是第一位的。也就是说，在设计神经网络时，最重要的不是网络拓扑结构或训练方法。它是输入数据和输出数据。如果数据与市场相关，任何哪怕是一个小的perseptron都会解决你的分类问题，并且在未来也能正常工作，原因很简单，因为输入数据与市场相关，这个数据能够预测市场。

我甚至没有什么可争论的，这很正确。我们也知道，我们讨论的不仅是分类模型，还有选择预测器（输入数据）的方法，先看这个主题。

我假设你希望手动选择一打投入，建立一个模型，交易一个星期，开始亏损，再开始挑选投入。我也做过，有时我有一些有趣的策略，比如 "采取一定的颗粒来初始化神经元，精确地训练它7777次迭代，一切都会好起来，但每隔一个周二你就必须针对它的信号进行交易。每隔一天对新的数据进行网络优化"。这样的策略是真实的，但要挑选这样的东西需要很长的时间，而且只能在几个星期内获利。都是因为这样的策略是基于一些短期模式。

相反，我选择一种算法来自动选择条目。简单地说，我在每个条形图上都有大约100个条目，并且有一种算法可以选择这样的条目组合，使它们在整个一年中都能持续发出有效的买入/卖出信号。它不像mt5中的专家顾问优化，一个EA可以取得很好的结果，但在前面的测试中却失败了，但它更复杂，有交叉验证和估计结果的不同标准。我曾经选择了大约一百个条目，现在更小了，只有几十个。我在fronttest上得到60%-70%的准确率，但它仍然不稳定，我需要在选择和训练的整个过程中摆脱自由度，以获得大致相同的结果，甚至每次都从零开始。

Mihail Marchukajtes:

P.S., 想想你要对付的是谁......拥有最酷的程序员团队的公司，其处理能力比你的四核还强。随着投资于开发新方法的资金，等等。而在这里，来自淳朴的俄罗斯农村的阿列克谢决定在5年内黑掉市场，获得圣杯。从天而降，摘下玫瑰色的眼镜........

拥有自己的设施和程序员的公司使用我们可以使用的同样的数据分析和建模软件。比方说，他们训练出完美的模型，每月获得100%的利润。我的权力较小，用同样的数据，我将能够建立一个较弱的模型，例如，只有50%的利润。这对我来说已经足够了。

Alexey Burnakov 2016.08.01 09:34 #785

Mihail Marchukajtes:

我看着你，它是惊人的...你想从一无所有中获得一些东西。也就是说，从零开始，你想得到0.0000000000000000000000000000000000000000000000000000000000000000000000的结果。我不能再看了，所以我来帮你一把。实际上，网络的拓扑结构是次要的。在机器学习中，在外汇和其他方面，数据是第一位的。也就是说，在设计神经网络时，最重要的不是网络拓扑结构或训练方法。它是输入数据和输出数据。如果数据与市场相关--任何哪怕是一个小的perseptron都会解决你的分类问题，并且在未来也能正常工作，原因很简单，因为输入数据与市场相关，这个数据能够预测市场。而你所要做的是在不相关的信息中抓取表面。对不起，但结果也将是不相关的....。至于市场，在外汇领域，主要是成交量，然后是市场对它的反应。而不是MT（tick）中的成交量，而是期货的实际成交量，同样是欧元。使用集群的delta来帮助你。有很多有用的信息。因此，利用交易量，将大大增加任何网络的性能，即使是最简单的perseptron。它还有一个delta，这也是非常有用的。但你正试图在次要的指标基础上建立一个模型，我可以说是在价格之后的第三位，你期望从中获得奇迹。不会有什么奇迹，我向你保证.....

P.S.，想想你想和谁竞争......拥有最酷的程序员团队的公司，其处理能力比你的四核还强。随着投资于开发新方法的资金，等等。而在这里，来自淳朴的俄罗斯农村的阿列克谢决定在5年内黑掉市场，获得圣杯。从天而降，摘下玫瑰色的眼镜........

蛊惑人心的人，哎哟。是时候让你离开这里了。建一个房子。

"狗一叫，商队就走"。С

Alexey Burnakov 2016.08.01 09:37 #786

Dr. Trader:

我甚至没有什么可争论的，这就对了。我们也知道，我们讨论的不仅是分类模型，还有选择预测器（输入）的方法，先看这个主题。

我假设你希望手动选择一打投入，建立一个模型，交易一个星期，开始亏损，再开始挑选投入。我也做过，有时我有一些有趣的策略，比如 "采取一定的颗粒来初始化神经元，精确地训练它7777次迭代，一切都会好起来，但每隔一个周二你就必须针对它的信号进行交易。每隔一天对新的数据进行网络优化"。这样的策略是真实的，但要挑选这样的东西需要很长的时间，而且只能在几个星期内获利。都是因为这样的策略是基于一些短期模式。

相反，我选择一种算法来自动选择条目。简单地说，我在每个条形图上都有大约100个条目，并且有一种算法可以选择这样的条目组合，使它们在整个一年中都能持续发出有效的买入/卖出信号。它不像mt5中的专家顾问优化，一个EA可以取得很好的结果，但在前面的测试中却失败了，但它更复杂，有交叉验证和估计结果的不同标准。我曾经选择了大约一百个条目，现在更小了，只有几十个。我在fronttest上得到60%-70%的准确率，但它仍然不稳定，我需要在选择和训练的整个过程中摆脱自由度，以获得大致相同的结果，甚至每次都从零开始。

拥有设施和程序员的公司使用我们可以使用的相同的数据分析和建模软件。他们将培养一个完美的模型，每月获得100%的利润。我的权力较小，用同样的数据我可以建立一个较弱的模型，比如说，只有50%的利润。我将会很好。

让我这样说吧。顶级基金显示平均年回报率为40-50%。聪明的人在那里工作，也有那些只是伟大的人。我不认为我一年接近50%的大关有什么不寻常的地方，而且有这种增长。

mytarmailS 2016.08.01 09:52 #787

阿列克谢-伯纳科夫。
让我这样说吧。顶级基金显示平均年回报率为40-50%。他们可能在那里工作，既聪明又优秀的人。我没有看到任何不寻常的地方，我每年接近50%，会有这种增长。

首先--基金显示出如此惨淡的收益率，原因只有一个，市场缺乏流动性，很难将大量的资金投入到该策略中，你没有这样的问题

第二--为什么不以每月100%为目标，比如说？

我完全同意Mihail Marchukajtes 的观点，为了提高识别的质量，我们需要提高标志的质量，模型....。他们对总体结果的影响+/-5%。

Alexey Burnakov 2016.08.01 10:07 #788

mytarmailS:

首先--基金显示出如此惨淡的收益率，原因只有一个，市场缺乏流动性，很难将大量的资金投入到该策略中，你没有这样的问题

第二--为什么不以每月100%为目标，比如说？

我完全同意Mihail Marchukajtes 的观点，为了提高识别的质量，我们需要提高标志的质量，模型....。他们对最终结果的影响+/-5%。

你也是一个煽动者。好吧，向我们展示具有这种程度的信息性的输入。为什么我们要采取顶级模式？为了从噪声数据中挤出信号，如果我们有没有噪声的数据，我们也可以在EXCEL中做一个公式。

"每个月100%"。努力奋斗，展示成果，分享想法。我们将听取你的意见，如何将你的盈利能力提高20倍，以及如何在下个月不从缩减中提取。

Alexey Burnakov 2016.08.01 10:44 #789

阿列克谢-伯纳科夫。

你也是一个煽动者。好吧，向我们展示具有这种程度的信息性的输入。为什么我们要采取顶级模式？为了从噪声数据中挤出信号，如果我们有没有噪声的数据，我们可以在Excel中做公式。

"每个月100%"。努力奋斗，展示成果，分享想法。我们将倾听你的意见，如何将你的盈利能力提高20倍，以及如何在下个月不从缩减中撤出。

外汇的 "长寿者"。超过5年的交易。按FS分类。是的，有些人有宇宙性的回报，但其他的统计数字却很糟糕。这就是现实。而Stabiliti正在进行交易。其他所有人都显示FS为3和更少。

mytarmailS 2016.08.01 11:26 #790

阿列克谢-伯纳科夫。

你也是一个煽动者。好吧，向我们展示具有这种程度的信息性的输入。为什么我们要采取顶级模式？为了从噪声数据中挤出信号，如果我们有没有噪声的数据，我们可以在Excel中做公式。

"每个月100%"。努力奋斗，展示成果，分享想法。让我们听听如何将收益率提高20倍，以及如何在下个月不因缩水而迷失。

我们在这里都是煽动者，只有你是达达尼昂，这已经很清楚了，好在至少你不是一个巨魔....。bye.....:)

这里有一个例子http://robostroy.ru/community/article.aspx?id=801

我不认为这是一个真正的交易策略，但我了解到他是一个深刻的实践者，我没有关于市场的问题没有得到回答......我要感谢他。

这个人是博士。技术科学博士，很早以前（大约20年前）就通过了关于 "AI "的论文答辩。他制造机器人已经超过20年了，有很多经验。

而且他说，人们无法从黑箱方法中预测市场，但有必要确定工作属性，了解它们如何以及为何工作，并尽可能地过滤数据，以便只留下有效的内容，忽略噪音。

他有一个由大约100个标志（预测因子）组成的网络，每个特质都有一个完整的库或包，如你所愿。

现在再来比较一下需要整个图书馆的标志和一些名称为 "SMA "的愚蠢的歪门邪道之间的质量差距。, "MACD"，"RSI "等...他们有0.00000001%的有用信息，就像Mihail Marchukajtes 写的那样，这是一个事实，否则模型就会显示他们所能显示的性能，这意味着90%的正确答案。

他建议阅读 "MSUA "和光谱分析，特别是傅里叶分析。

========================================================

再往后我 "蛊惑人心 "取得了什么成果，其实很谦虚，好的想法，因为我想了很多，我的研究同时向很多方向发展，各个领域的知识都非常缺乏，因为经常向论坛参与者求助，但特别是帮助，没有人愿意，他们说你自己学习，然后.....，只有我自己掌握了所有，那么我为什么做这个沟通，因为没有逻辑，我就会分心。

这里是最好的东西在丹。妈妈。我设法挤出来的RF上的新数据是50％，每月连续2个月，但一切仍然是非常不稳定的，我试图填补的图片10倍，但没有得到（得到它）。

底线是，你不应该用模板来限制自己，比如一年30%是很酷的，这并不酷，这是一个思维和创造力的框架。

交易中的机器学习：理论、模型、实践和算法交易 - 页 79