交易中的机器学习:理论、模型、实践和算法交易 - 页 3335

 
Maxim Dmitrievsky #:
将主列车分为 5-10 个子列车,每个子列车又分为小径和轴。按 cv 类型对每个子训练,然后对整个主训练进行预测。将所有模型的原始标签与预测标签进行比较。没有猜中的会被列入黑名单。然后,在训练最终模型时,通过计算每个样本的平均期望值,去除所有坏例子。您也可以选择通过第三类来训练第二个模型,以便将白色样本与黑色样本区分开来。 。

3 行代码,结果在......嗯,我没什么可比的......嗯,在某种程度上。

这里的 "山羊 "是指 cv,也就是说,你可以使用多个模型(每个模型都是在不同的历史片段上训练出来的)从统计学上确定哪些样本是坏的,哪些是好的。这就是所谓的倾向得分,即每个样本在训练中发挥作用的倾向。

当然,标签可能非常垃圾,这种方法几乎可以去除一切。因此,我在一开始就使用随机交易抽样来添加不同的标记变体。鉴于我们不想或不知道如何思考如何标记图表。

带有 kozol 元素、可自行搜索 TC 的 AMO 大致应该是这样的。

根据定义,标签(教师、目标变量)不可能是垃圾。 引文是根据预测因素之外的一些考虑因素标注的。一旦确定了标签,就会出现与找到的标签集相关的预测因子的问题。很容易出现这样的问题:一组标签很美,但我们找不到与之相关的预测因子,只能另寻一组标签。例如,标记是 ZZ 反转。美丽的标记。如何为这些标签找到预测因子呢?

一旦我们开始通过预测因子过滤标签--这就是超级拟合,这就是你在这里展示的一切,包括市场--无法以自然的逐步模式在外部新文件上运行。

 
mytarmailS #:
是的,有意思。

我告诉您,在单独的样本测试中 - 7467,在考试中 - 7177,但没有激活的树叶并不在少数 - 我没有一次数完。

0

这是在测试样本中,根据其值改变类别的树叶分布情况。

1

这是考试。

这是类别的细分情况--有三个类别,第三个是"-1"--没有激活。


对于训练样本。


测试样本


考试样本。

一般来说,你可以看到叶片权重不再与类逻辑相对应--下图是测试样本的图形--没有明确的向量。


一般来说,这种训练方法可以近似任何东西,但不能保证预测器的质量。

总的来说,我承认上图中不同的 "条形图 "在激活位置和频率上非常相似。


mytarmailS#:

事实上,我找到了一种方法,可以找到这种在训练和测试中都不会与目标发生移动的标志......但问题是,这种标志少得可怜,而且筛选方法在功率方面非常昂贵,一般来说,这种方法是在没有老师的情况下通过训练实现的,只有这样,我才能避免拟合。

你不知道的事情是很难讨论的。因此,我只能为你的成功感到高兴。如果我有这样的方法,我也会使用它:)

到目前为止,我的方法还没有取得这样定性的结果,但已经足够相似了。

 
Maxim Dmitrievsky #:
量化在其中发挥了什么作用?10 分制

很难完全隔离思维过程。

各方面都存在问题--因此要研究哪些方面可以改进,以达到事半功倍的效果。定期从 "数据 "跳转到 "学习过程 "并进行实验。

最初的想法是估算相关性,但我还没有找到现成的方法,所以我正在改进自己的方法。我认为,如果树叶相似,就会扭曲估算结果。

马克西姆-德米特里耶夫斯基#:
我通过了星域,奇点很快就开始了。我进入了多元宇宙,遇到了自己的副本。现在,我在不同版本的宇宙中奔波。我无路可逃。现在,我必须找到新的意义。

当大脑或神经网络达到合理的极限,奇点就开始了。

这是个有趣的想法这个游戏,也许我以后有机会会玩,我把游戏当作创意,现在游戏在图形上过时的速度慢多了。

我用一块老式HD7950 显卡(扔到另外一台电脑里,纯粹用来计算)在 10 分以下运行了《战神(2018)》,把画面调到最低,只是被画面震撼到了。但最令人感兴趣的是对父子关系的阐述--在计算机行业中很难找到类似的题材。

马克西姆-德米特里耶夫斯基#:
将主轨道分为 5-10 个子轨道,每个子轨道又分为轨道和轴。在每个子训练中对 cv 类型进行训练,然后对整个主赛道进行预测。将所有模型的原始标签与预测标签进行比较。没有猜中的模型会被列入黑名单。然后,在训练最终模型时,通过计算每个样本的平均期望值,去除所有坏例子。您还可以选择通过第三类来教第二个模型将白色样本与黑色样本区分开来。

3 行代码,结果在......嗯,我没什么可比性......嗯,在某种程度上。

这里的 "山羊 "是指 cv,也就是说,你可以使用多个模型(每个模型都是在不同的历史片段上训练出来的)从统计学上确定哪些样本是坏的,哪些是好的。这就是所谓的倾向得分,即每个样本在训练中发挥作用的倾向。

当然,标签可能非常垃圾,这种方法几乎可以去除一切。这就是为什么我一开始使用随机交易抽样来添加不同的标记变体。鉴于我们不想或不知道如何思考如何标记图表。

带有 kozol 元素、可自行搜索 TC 的 AMO 大致应该是这样的。

但在这里,我们也通过模型来处理数据。您觉得有什么不同吗?

 
Aleksey Vyazmikin #:

但它也是通过模型处理数据。你觉得有什么区别吗?

它是自动的,你不需要思考和(重要的是)做任何事情:)
 
Maxim Dmitrievsky #:
嗯,就像自动驾驶一样,不需要思考和(重要的是)做任何事情:)

考虑到 CatBoost 在训练方法上的过度随机性,很难对这种方法本身进行评估。在那里,他们在建树时会干扰字符串,而且他们会用 bachami 来输入数据,好吧,如果不禁止一切的话......

我在上面的分支中写道:"通过类比,评估有多少张纸在新数据上改变了类别,这很有意思。这可以作为衡量方法/模型质量的标准。

 
Aleksey Vyazmikin #:

考虑到 CatBoost 训练方法本身的过度随机性,很难对该方法本身进行评估。在那里,他们会在建立树时干扰字符串,并用 bacham 来输入数据,如果这不是被禁止的......

正如我在上面的分支中写到的,通过类比来评估有多少张纸在新数据上改变了类别是很有趣的。这可以作为衡量方法/模型质量的标准。

理想情况下,这种随机性不会像数据集随机性那么糟糕
 
Maxim Dmitrievsky #:
理想情况下,这种随机性没有数据集中的随机性那么糟糕

从随机性中偶然得到一个漂亮的模型是有可能的--这就是问题所在,但如果不可能,也就无所谓了。

训练一个模型不是问题,问题是选择一个更有可能在新数据上正确工作的模型。

这种有趣的方法可以提高这种潜力。为了评估模型的有效性,我们需要某种衡量标准,不仅仅是分类准确率的统计,还需要其他的东西,比如对树叶的单独评估。很明显,预测因子中的指标会发生变化--这就是为什么树叶会如此嘈杂,"改变 "实际类别。这就是为什么这是一项复杂的任务--你需要好的标签和稳定的预测器,它们的组合不应该在模型中产生具有罕见值的叶子。

在生产过程中,已经需要对模型中使用的预测因子的值分布变化进行监控,并在变化显著和广泛时对模型进行制动。诚然,这种方法需要积累统计数据,对我们来说,这就等于积累损失,这并不好。我们需要一种更快的方法来排除模型,但这种方法要合理,不能纯粹基于缩水。

问题很多,不解决这些问题,我们就不想把钱交给模型管理。

 
Aleksey Vyazmikin #:

是的,二进制更复杂。但我不明白配给制在这里有什么用。

带有 0 和 1 的二进制符号已经被规范化,其他符号也应该被规范化。

 
Forester #:

包含 0 和 1 的二进制特征已经标准化,其他特征也需要标准化。

希望我能理解您的想法。

但是,在由相同的 32 个分段进行统一量化时,我们可以认为 "1 "分段为 0,"32 "分段为 1。其他数字也是如此。这就是为什么我不明白这里的根本区别是什么。

 
Aleksey Vyazmikin #:

希望我理解了你的思路。

但是,在对相同的 32 段进行统一量化时,可以认为 "1 "段为 0,而 "32 "段为 1。其他数字也是如此。这就是为什么我不明白这里的根本区别是什么。


如果将二进制的 0 和 1 缩小到 32,那么就可以将二进制的 0 和 1 拉长到 0 和 32(还有其他的,比如从 0...5 到 0...32 的 5 个量子)。让一切都成比例。或者将所有数据压缩为一个超立方体(就像神经网络一样,需要进行归一化处理),其本质是一样的--在这两种变体中,我们得到的是相同的比例。