交易中的机器学习:理论、模型、实践和算法交易 - 页 2111 1...210421052106210721082109211021112112211321142115211621172118...3399 新评论 Forester 2020.11.12 11:55 #21101 Aleksey Vyazmikin: 不,这将是一个合适的只是,而不是一个有意义的模型! 我不同意。通过量化,你减少了信息量。最大的量化数量将留下最大的信息量。 但量化到65535比量化到255需要更长的时间。 Aleksey Vyazmikin 2020.11.12 11:56 #21102 elibrarius: 你知道怎么做吗? 是的,我正在做这个工作--它最初是为遗传树做的。 你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是某个量化部分的误差是如何减少的,以及它所包含的样本百分比是多少--平衡这些指标可以选择最佳分区。 Aleksey Vyazmikin 2020.11.12 11:58 #21103 elibrarius: 我不同意。通过量化,你减少了信息量。最大数量的量化将留下最大数量的信息。但量化到65535比量化到255需要更长的时间。 你不同意应该是错误的--外面的信息不多,需要把它从噪音中分离出来。我们(我)需要的是稳定的依赖关系,而不是每5年重复出现的依赖关系,因此没有足够的统计数据来估计它们对特定目标的倾向性,使用不充分的例子只会导致拟合。 Forester 2020.11.12 12:04 #21104 Aleksey Vyazmikin: 是的,我正在做这个工作--它最初是为遗传树做的。 你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是 在某一段量化中误差如何减少 ,以及它所包含的样本百分比是多少--平衡这些指标可以让你选择最佳分区。 你如何估计量化的误差。你只能通过运行训练,并通过所有的列一次性获得,而不是每列量化的时刻。 Aleksey Vyazmikin 2020.11.12 12:05 #21105 elibrarius: Aleksey Vyazmikin: 你如何估计量化的误差。它只能通过在所有列上一次性运行训练来获得,而不是在当前量化的每一列上。 我估计了相对于整个样本的目标余额的变化。如果有两个以上的目标,这一点尤其重要。 Forester 2020.11.12 12:15 #21106 Aleksey Vyazmikin: 我估计了相对于整个样本来说,目标的余额变化。如果有两个以上的目标,情况尤其如此。 在任何情况下,接下来的分裂将通过量化点分裂成2个部分。 你可以相当粗略地移动一个量子的边界--其大小的5-10%-20%--通过量化大的255块。通过应用65535量子,你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。 不过不太可能。通常情况下,它只是击中了中间或四分之一。用65535个量子,你会更准确地找到中间,用255个量子则是256倍的粗糙。 Aleksey Vyazmikin 2020.11.12 12:30 #21107 elibrarius: 在任何情况下,接下来的分裂将通过量化点分裂成2块。你可以相当粗略地移动一个量子的边界--其大小的5-10-20%--通过量化大的255块。通过应用65535量子,你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。 不过不太可能。通常情况下,它只是击中了中间或四分之一。用65535个量子会更准确地找到中间,用255个量子则是256倍的粗糙。 确切地说,会有分裂,但分裂不会是50%,而是不平等的--取决于与上层分裂的对应关系,但从逻辑上看,如果你看哪里的单位饱和,或者哪里的单位数量相等(相对于整个样本的平衡),机会就会不同。目标是获得至少1%的叶子中的样本,同时获得约65%的同一类别的标签。 Forester 2020.11.12 12:46 #21108 Aleksey Vyazmikin: 确切地说,会有分裂,但分裂不会是50%,而是不均匀的--取决于与顶部分裂的对应关系(),但从逻辑上看,如果你在单位饱和的部分 或有偶数的部分(相对于整个样本的平衡)进行搜索,机会会有所不同。目标是获得至少1%的样本的叶子,同时获得约65%的同一类别的标签。我认为这是一个相当困难的任务。而如果能找到这样的功能,即使没有MO,也是唯一的工作方法。不幸的是,我们没有这样的功能。 Aleksey Vyazmikin 2020.11.12 13:00 #21109 Maxim Dmitrievsky: 我在考试中不需要它,但它可能会派上用场。 结果很奇怪--在测试和训练样本中,召回率为0.6-0.8,在没有转换的考试中,召回率为0.009,转换率为0.65--这里出了问题:( 我有一种感觉,CatBoost已经学会了转换算法 :) 还有,是否有机会标明新旧两条线?然后可以从转换后的样本中删除转换后的 字符串,看看是否是解释的问题,还是没有定性的训练都一样。 Aleksey Vyazmikin 2020.11.12 13:10 #21110 elibrarius: 我认为这是一个相当大的挑战。而如果能找到这样的功能,即使没有国防部,也是唯一可行的办法。不幸的是,我们没有这样的功能。 由y是网格分割,由X是整个样本中每个类别的目标之和的百分比偏差。过滤器是5%。我们可以看到,不同的班级在不同的部分占主导地位,有时会出现镜像变化,改善是由于某个班级的原因(直方图到了负数的位置),有时则没有。所有这些都应该在训练中使用,但我所知的标准训练方法并没有很好地考虑到这一点。有可能用遗传学的方法进行过度训练(更准确地说是用消除法)会更有效--应该这样做。 1...210421052106210721082109211021112112211321142115211621172118...3399 新评论 您错过了交易机会: 免费交易应用程序 8,000+信号可供复制 探索金融市场的经济新闻 注册 登录 拉丁字符(不带空格) 密码将被发送至该邮箱 发生错误 使用 Google 登录 您同意网站政策和使用条款 如果您没有帐号,请注册 可以使用cookies登录MQL5.com网站。 请在您的浏览器中启用必要的设置,否则您将无法登录。 忘记您的登录名/密码? 使用 Google 登录
不,这将是一个合适的只是,而不是一个有意义的模型!
我不同意。通过量化,你减少了信息量。最大的量化数量将留下最大的信息量。
但量化到65535比量化到255需要更长的时间。
你知道怎么做吗?
是的,我正在做这个工作--它最初是为遗传树做的。
你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是某个量化部分的误差是如何减少的,以及它所包含的样本百分比是多少--平衡这些指标可以选择最佳分区。
我不同意。通过量化,你减少了信息量。最大数量的量化将留下最大数量的信息。
但量化到65535比量化到255需要更长的时间。
你不同意应该是错误的--外面的信息不多,需要把它从噪音中分离出来。我们(我)需要的是稳定的依赖关系,而不是每5年重复出现的依赖关系,因此没有足够的统计数据来估计它们对特定目标的倾向性,使用不充分的例子只会导致拟合。
是的,我正在做这个工作--它最初是为遗传树做的。
你需要评估信息在整个样本中的分布以及它与目标的关系。我看的是 在某一段量化中误差如何减少 ,以及它所包含的样本百分比是多少--平衡这些指标可以让你选择最佳分区。
你如何估计量化的误差。你只能通过运行训练,并通过所有的列一次性获得,而不是每列量化的时刻。
Aleksey Vyazmikin:
你如何估计量化的误差。它只能通过在所有列上一次性运行训练来获得,而不是在当前量化的每一列上。
我估计了相对于整个样本的目标余额的变化。如果有两个以上的目标,这一点尤其重要。
我估计了相对于整个样本来说,目标的余额变化。如果有两个以上的目标,情况尤其如此。
在任何情况下,接下来的分裂将通过量化点分裂成2个部分。
你可以相当粗略地移动一个量子的边界--其大小的5-10%-20%--通过量化大的255块。通过应用65535量子,你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。
不过不太可能。通常情况下,它只是击中了中间或四分之一。用65535个量子,你会更准确地找到中间,用255个量子则是256倍的粗糙。
在任何情况下,接下来的分裂将通过量化点分裂成2块。
你可以相当粗略地移动一个量子的边界--其大小的5-10-20%--通过量化大的255块。通过应用65535量子,你将有一个0.5%的量子的步骤。而树会挑选出最好的一个。
不过不太可能。通常情况下,它只是击中了中间或四分之一。用65535个量子会更准确地找到中间,用255个量子则是256倍的粗糙。
确切地说,会有分裂,但分裂不会是50%,而是不平等的--取决于与上层分裂的对应关系,但从逻辑上看,如果你看哪里的单位饱和,或者哪里的单位数量相等(相对于整个样本的平衡),机会就会不同。目标是获得至少1%的叶子中的样本,同时获得约65%的同一类别的标签。
确切地说,会有分裂,但分裂不会是50%,而是不均匀的--取决于与顶部分裂的对应关系(),但从逻辑上看,如果你在单位饱和的部分 或有偶数的部分(相对于整个样本的平衡)进行搜索,机会会有所不同。目标是获得至少1%的样本的叶子,同时获得约65%的同一类别的标签。
我认为这是一个相当困难的任务。
而如果能找到这样的功能,即使没有MO,也是唯一的工作方法。
不幸的是,我们没有这样的功能。
我在考试中不需要它,但它可能会派上用场。
结果很奇怪--在测试和训练样本中,召回率为0.6-0.8,在没有转换的考试中,召回率为0.009,转换率为0.65--这里出了问题:(
我有一种感觉,CatBoost已经学会了转换算法 :)
还有,是否有机会标明新旧两条线?然后可以从转换后的样本中删除转换后的 字符串,看看是否是解释的问题,还是没有定性的训练都一样。
我认为这是一个相当大的挑战。
而如果能找到这样的功能,即使没有国防部,也是唯一可行的办法。
不幸的是,我们没有这样的功能。
由y是网格分割,由X是整个样本中每个类别的目标之和的百分比偏差。过滤器是5%。我们可以看到,不同的班级在不同的部分占主导地位,有时会出现镜像变化,改善是由于某个班级的原因(直方图到了负数的位置),有时则没有。所有这些都应该在训练中使用,但我所知的标准训练方法并没有很好地考虑到这一点。有可能用遗传学的方法进行过度训练(更准确地说是用消除法)会更有效--应该这样做。