交易中的机器学习:理论、模型、实践和算法交易 - 页 1613

 
阿列克谢-马夫林

什么论点,如果你这样做,就意味着要么你不明白什么,要么我明白。

我的惊讶之处在于,一个训练有素的模型,就像我们在这里谈论的那样,必须在原始数据上进行训练。

如果输入数据中存在相关的,就应该还原成不相关的。

这里有一个例子--我们教模型通过3位数字--RGB来分类颜色的深浅。三位数,这就是纯粹的原始数据!!。在你的方法中,你需要做出预测,比如。

1-R 2-G 3-B - 4 更多的红色 5-更多的绿色 6-比绿色和蓝色加起来更多的红色 ....100500 如果绿色和蓝色一样红,就没有那么红了。))

难道模型不需要自己学习吗,它有原始数据,这就是它的作用!


而你却反其道而行之--乘以原始数据,这些数据是 相互关联的。

也许我错了,但在我看来,只有将符号分为基本部分(如记录规则),你才能得到一个清晰的 模式。让我们回到同样的蜡烛的例子中去

我们有45种可能性,如果纯粹 和唯一的模式是

open[-1]<low

就是这样!,这45个选择中没有其他内容。我已经做了蛮力,选择了一个规则(一个修复),我使用它。

你建议采取 "原始系列",因为 "网络会找到它",我的理解是在你的情况下,这将是:

open[1:2] ; high[1:2] ; low[1:2] ; close[1:2]

因此,简而言之。

我有一件事,一个干净的 模式,以一个规则、一个 价值的形式,没有噪音

你有4行(OHLC),有两个值,总共有8个值, +噪音

问题:谁有更多的冗余和相关的样本?

 
mytarmailS:


但你却在做相反的事情--产生原始数据,相互 关联。

也许我错了,但在我看来,只有把符号分解成基本的部分(如对数规则),你才能拉出一个纯粹的 模式。让我们回到同样的蜡烛的例子中去

我们有45种可能性,如果纯粹 和唯一的模式是

就是这样!,这45个选择中没有其他内容。我已经做了蛮力,选择了一个规则(一个修复),我使用它

你建议采取 "原始系列",因为 "网络会找到它",我的理解是在你的情况下,这将是:

因此,简而言之。

我有一件事,一个干净的 模式,以一个规则、一个 价值的形式,没有噪音

你有4行(OHLC),有两个值,总共有8个值, +噪音

问题:谁有最多的冗余和相关的样本?

1.可能你错了。

2.3 这种情况不会发生,因为该系列是非平稳的。你只是把模型拟合到系列中,甚至不清楚如果你所谓的 "分离出一个纯粹的模式",MO与它有什么关系。如果有这样纯粹的规律性,MO甚至不会被发明,它是由其他基本方法发现的。

4.如果你像你说的那样单独挑出一个特征--你有一个100%的过度训练=训练不足,100%的盲目,看不到任何东西,因此100%的 "哑巴 "模型,对不起,太直率了)

S.s. MO在群众中的地位万岁!)))

 
阿列克谢-马夫林

1.你可能错了。

好吧,很可能你是对的,但我想你明白,所有这些关于一条规则的描述只是一个例子,为了更清楚地表达思想,我们当然应该做规则的集合......而且很有趣的是,什么是更好的,是100条硬性(统计学)规则的集合还是3000条较弱(概率)规则的集合。我认为,如果我们直接解决问题,即如果我们在输入数据上进行训练,第二种变体更好,因为同样具有非平稳性,但如果我们想建立一个具有平稳性的市场模型,我们可能应该更喜欢第一种变体,尽管不一定...总之,我不打算再争论了,你已经说服了我,而不是不相信......

 
Aleksey Vyazmikin:

我对结果不是很满意。我已经收集了相当数量的树叶,但接下来的问题是如何最好地使它们相互配合。问题是,它们往往相互重叠20%-50%或更多,因此给出的信号相同,这不是很好。我的想法是将它们分组,并将每组设置在一个激活阈值上--所以我在想这样做的最佳方法。

选择叶子的问题直到最后也没有解决,即使选择在5年中每一年都表现出良好效果的叶子,也可以预期20%-40%停止工作,更可悲的是,无法理解是否关闭它们--特别是按季度做了测试,结果发现最后一个季度的叶子在随后的季度中覆盖了损失(很多)。

选叶方法本身似乎很有前途,但这个过程极其缓慢。

有点坏了,想问一下--为什么最初不能根据投资组合的最优条件从树的叶子中建立一个树(大致像马科维茨理论 中那样)?也许这已经在某个地方讨论过了,但我没有看到。

 
阿列克谢-尼古拉耶夫

有点坏消息要问--为什么你最初不能根据其叶子的投资组合的最优性条件来建立一棵树(大致上像马科维茨的理论)?也许这已经在某个地方讨论过了,但我没有看到。

我已经写过很多次,现有的MO模型构建算法并不适合交易,原因是它们没有考虑到嘈杂的时间序列的细微差别。这一点很明显,例如,当使用预测值进行拆分时,它在整个样本上给出了正确分类概率的总体优先分布,但这种分布只能由聚集在样本某一部分的罕见现象引起。我检查了采样的叶子的激活频率,这对我来说很明显。

因此,是的--有可能初步建立你所需要的东西,但要做到这一点,你必须改变学习算法(我在这里没有足够的编程能力),或用不同的方法估计随机性,这就是我所做的。虽然我不明白"最佳投资组合条件" 是什么意思。

还有一个变种--选择能提高目标分类概率的预测值范围,并为它们制作单独的预测器--这个想法我现在正在实施,但我还不知道结果会是什么。

顺便说一下,我不记得有任何关于将预测器分割成范围以进一步用于建立树状模型的讨论,而在我看来,这个话题有重要的方面需要讨论,并直接影响到模型的建立,从而影响到最终的结果。

 
阿列克谢-维亚兹米 金。

我已经写过很多次,现有的MO建模算法并不适合于交易

你的意思一定是,MO的标准数据表示法 不适合交易...这不是IR的错。

阿列克谢-维亚兹米 金。


顺便说一下,我不记得有任何关于带状预测网格的讨论,以便以后在构建树状模型时使用。

你说的分区网格是什么意思?

 
阿列克谢-维亚兹米 金。

虽然我不明白"投资组合最优条件" 是什么意思。

在固定的(可接受的)风险水平(波动性或缩减)下实现投资组合收益最大化。

显然是的,算法将不得不改变。不同叶子的股票之间的许多关联性将不得不被计算出来,就时间而言,它可能变得非常昂贵。

我只是觉得这样的话题以前可能在论坛上讨论过。

 
阿列克谢-维亚兹米 金。

顺便说一下,我不记得有任何关于用于树状模型的范围的预测器 网格的讨论,在我看来,这似乎是一个重要的讨论话题,直接影响到模型的建立,从而影响到最终结果。

树就是这样做的,它从每个预测器中抽取不同的范围,检查哪一个更好。

首先分一半,最好的一半再分一半,最好的四分之一再分一半,等等,以此类推,每个预测者。该节点成为所有这些作品在所有预测因素中的最佳划分。
你是手动操作的吗?算法做到了完美和快速。

阿列克谢-维亚兹米 金。

但这种分布只能是由集中在样本的某一部分的罕见现象引起的。我检查了采样的叶子的激活频率,对我来说,这很明显。

有必要寻找可以发现这种罕见现象的预测因素。如果有预测因素,那么最简单的标准模型会发现一切。

 
mytarmailS:

你的意思可能是说,MO的标准信息展示类型 不适合交易... 这不是MO的错)。

我说的是我想说的--在用普通的模型建立方法进行训练时,有许多细微的差别没有被考虑到。 这个问题可以通过完善这些方法、选择性能结果和额外的预测器训练来解决,也许还有其他选择,但到目前为止我还不知道。


mytarmailS:

分区网格是什么意思?

这是一种算法,它检查预测值范围的预测能力,并试图分割范围内的各部分,使其更好地分配预测能力。假设有一个有3个目标的样本,样本分布为1-24%,2-50%,3-26%,有一些预测值的范围,所以网格的目标是找到预测值的区域,例如目标1将被 "预测 "超过24%,分割将突出这个区域。有不同的算法变体来构建这种网格。


阿列克谢-尼古拉耶夫

在一个固定的(可接受的)风险水平(波动性或缩减)下实现投资组合收益最大化。

显然是的,算法将不得不改变。不同叶子的股票之间的许多关联性将不得不被计算出来,就时间而言,它可能变得非常昂贵。

我刚刚想到,类似的话题可能以前在论坛上讨论过。

现在,激活的相关性被考虑进去了,条件相关的叶子进入了同一个组,这就是投资组合的创建方式。但一个投资组合有一个基本策略,为了稳定,你必须做很多。如果使用相同的预测因子,这些策略在时间跨度上的激活程度根本不应该重叠。一般来说,这是一个现实的事情。


elibrarius

树正是这样做的,它从每个预测器中抽取不同的范围,检查哪一个更好。

首先分成两半,最好的一半进一步分成两半,最好的四分之一进一步分成两半,以此类推,每个预测器都是如此。该节点成为所有这些作品在所有预测因素中的最佳划分。
你是手动操作的吗?该算法做到了完美和快速。

我们需要寻找可以检测这种罕见现象的预测因素。如果有预测因素,那么最简单的标准MO模型会发现一切。

你说它做得很完美是什么意思?我不是在手动操作,我在写一个脚本,按照我现在看到的方式来做。

在我的情况下,理想的做法是对每个预测值的变体进行单独评估。而且,我想把放大一个目标的预测器的激活范围合并为一个预测器,我所知道的网格并不是通过依次划分范围来实现的,同样是把排名中的预测器与另一个预测器合并来拼(通过建立一个节点)。到目前为止,在理论上。

下图显示了按时间划分的通常的预测器--从字面上记录时钟,我过滤掉了整个样本中每个目标的偏差小于10%的预测器的激活。事实证明,对于目标Minus来说,18和19小时是有利的,15小时是不利的,我将得到一个新的预测器,样本值为1--结合预测器值18和19,-1--值15,0--输出中的所有其他值。

什么样的分区网格能将分割范围汇总成一个单一的分割,消除中间值,如下图中的值1和4?


 
阿列克谢-维亚兹米 金。

现在,激活的相关性被考虑进去了,条件相关的单子进入了同一个组,这就是投资组合的创建方式。但投资组合有一个基本策略,为了稳定,我们需要做很多。如果使用相同的预测因子,这些策略在时间跨度上的激活程度根本不应该重叠。一般来说,这样做是现实的。

例如,如果所有的策略都只做BUY,那么可能会归结为尽量减少它们在时间上的重叠(尽量减少总是正数的相关关系)。如果允许 "买入 "和 "卖出",时间交叉可用于相互补偿策略的不良部分(负相关通常对组合有利)。

也许,可以通过策略的运行时间和它们的相交时间简单地定义相关关系。