交易中的机器学习:理论、模型、实践和算法交易 - 页 58

 
我有一个问题要问尤里。在算出一个三段式模型的结果时,当我手动输入数据时,结果有时会显示一个破折号。也就是说,我有0、1和一个破折号。那么,破折号是什么意思?
 

我试着对之字形进行分类,是的,但不是对枢轴点进行分类,而是对之字形显示的整个趋势进行分类,如果当前的之字形趋势是向下的,结果是0,如果趋势是向上的,结果是1。zz的趋势看起来很不平衡,但这不是我放弃的原因。我不喜欢的是,这个模型需要很高的精度。如果模型在趋势中犯了一两个错误,在错误的时间逆转了交易,哪怕只是一个柱子,通常会导致额外的损失,再加上每次都要支付点差的佣金。该模型只有在打开交易,等待趋势结束,然后反转的情况下才会获利。在每个趋势中没有一个错误。

如果它预测的是下一个栏杆而不是趋势,那么每一个错误都会导致较少的资金损失。


我不做任何平衡,当预测下一栏时,类别的散布是最小的,我不认为某个类别的+-10%会对结果产生很大影响。

在这里,他们在文章中写道,平衡可以由正确的模型估计(F-measure或R-Precision)代替。这是SanSanych之前链接的文章在俄罗斯的类似版本。

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

...

然而,这个指标[精度]有一个特殊性,需要加以考虑。它给所有的文件以相同的权重,如果训练集中的文件的分布被转移到一个或多个类别,这可能是不正确的。在这种情况下,分类器拥有更多关于这些类别的信息,因此,在这些类别中,它将做出更充分的决定。在实践中,这导致了这样一种情况:你有,比如说,80%的准确率,但在一个特定的类别中,分类器的工作超出了所有的比例,甚至没有正确定义三分之一的文件。

解决这种情况的一个办法是在一个经过专门训练的、平衡的文档语料库上训练分类器。这种解决方案的缺点是,你从分类器那里拿走了关于文件的相对频率的信息。在其他条件相同的情况下,这些信息可能对做出正确的决定非常有用。

另一个解决方案是改变正式质量评估的方法。

准确性和完整性

精度和召回率是评估大多数信息提取算法时使用的指标。有时它们被单独使用,有时作为衍生指标的基础,如F-measure或R-Precision。准确性和完整性的本质是非常简单的。

一个系统在一个类别中的准确度是指相对于系统分配给该类别的所有文件而言,真正属于该类别的文件的比例。完整性是指分类器发现的属于该类的文件相对于测试样本中该类的所有文件的比例。

....

F-measure

很明显,准确性和完整性越高越好。但在现实生活中,最大的准确性和完整性是无法同时实现的,我们必须寻找一种平衡。这就是为什么我们希望有某种指标,将关于我们算法的准确性和详尽性的信息结合起来。在这种情况下,我们将更容易决定在生产中推出什么样的实施方案(谁的方案多谁就好)。这正是这样一个指标--F-measure1。

F-measure准确性和完整性之间的调和平均值如果准确性或完整性趋向于零,它就趋向于零。


等。文章中有各种漂亮的图表。

 
Dr.Trader:

我试着对之字形进行分类,是的,但不是对枢轴点进行分类,而是对之字形显示的整个趋势进行分类,如果当前的之字形趋势是向下的,结果是0,如果趋势是向上的,结果是1。zz的趋势看起来很不平衡,但这不是我放弃的原因。我不喜欢的是,这个模型需要很高的精度。如果模型在趋势中犯了一两个错误,在错误的时间逆转了交易,哪怕只是一个柱子,通常会导致额外的损失,再加上每次都要支付差价的佣金。该模型只有在打开交易,等待趋势结束,然后反转的情况下才会获利。在每个趋势中没有一个错误。

如果它预测的是下一个栏杆而不是趋势,那么每一个错误都会导致较少的资金损失。


我不做平衡,对于下一栏的预测,班级的分布是最小的,我不认为+-10%的一个班级会对结果产生多大影响。

在这里,他们在文章中写道,平衡可以由正确的模型估计(F-measure或R-Precision)代替。这是SanSanych之前链接的文章在俄罗斯的类似版本。

http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html

等,文章中还有各种漂亮的图表。

一个小建议。任何系统都会导致一个单一的现象。这是一个信号!!!。所有条件的总和导致了一个既成事实,这就是决定点。因此,任何系统,不管它有多复杂,都会导致买入或卖出的信号。所以建议对它们进行分类。马车过境。发生交叉,有一个买入信号,向相反方向交叉,有一个卖出信号,没有第三个信号。因此,为了进行正确的分类,我们应该分别对卖出和买入进行分类。 因此,我们可以将训练间隔延长一倍,并保持泛化水平。一开始,我的模型很少超过40-50%的概括性,但在我理解了如何处理数据之后。分类后得到的模型有什么意义。在相同的数据上,我现在得到的模型不低于70%,平均为80-90%,将来,在未知的数据上,误差大约是10-12分之1。这就很能赚钱了。但我把训练区间的30%作为置信区间。即我拿100个买入信号和100个卖出信号,在30或50个信号内,你可以不重新训练模型而工作。在预测器的第一个版本中,在大约40分钟内对6个输入进行了优化,这不是很方便,现在它在10分钟内进行了9个输入。而这只是提高了该模型的质量。现在的问题是在哪里找到这么多的投入。但我们并不在黑暗中。我们仍然有东西可以提供给预测者 :-)
 
Mihail Marchukajtes:
我有一个问题要问尤里。在算出一个三段式模型的结果时,当我手动输入数据时,结果有时会显示一个破折号。也就是说,我有0、1和一个破折号。这就是破折号的意思吗?

与苏格拉底的名言 "我知道我不知道的东西 "一样。三元分类器的回答是 "减",它说在训练集中没有与被分类的模式相似的例子,因此他不能明确地将其归于任何类别,即他不能对所提出的模式给予肯定的回答。他诚实地承认自己在某些知识领域缺乏能力,而不是试图以自以为是的面孔积极回答他不知道答案的问题。

 
尤里-雷舍托夫

这与苏格拉底的名言 "我知道我不知道的东西 "相同。回复为负数的三元分类器告诉你,训练样本不包含与被分类模式相似的例子,所以它不能明确地进行分类,也就是说,它不能对所呈现的模式给出肯定的答案。

嗯。告诉我,在可预见的未来,是否有可能将三元模型卸载到一个文件中,以便以后在MKUL中使用它?以及二进制,但当你用手输入时,有可能会犯错,所有.....。
 
Mihail Marchukajtes:
嗯。嗯,我明白了...告诉我,在可预见的未来,是否有可能将三元模型上传到一个文件中,以便你以后可以在MKUL中使用它?以及二进制,而当你用手输入时,有机会犯错,所有.....。
我现在正在努力。也就是说,代码生成器还没有完成,目前只给出了二元分类器中的一个,而不是整个三元分类器的来源。
 
尤里-雷舍托夫

苏格拉底的名言 "我知道我不知道的事 "也是这个意思。三元分类器的回答是负数,他说在训练样本中没有与被分类的模式相似的例子,所以他不能明确地将其归于任何类别,也就是说,他不能对提出的模式给出肯定的答案。诚实地承认他在某些知识领域缺乏适当的能力,而不是试图以自以为是的面孔积极回答他不知道答案的问题。

从附图来看,我的观点对吗?左边是二元分类器;右边是三元分类器(白色区域为 "减")。

如果是这样的话,我觉得这个想法很好,不知道为什么,我以前没有见过,能不能请教一些关于三元分类器的文章?



后来完成了这个。

直观地说,这项任务非常简单。假设有2个预测因子(X和Y),这意味着我们需要在二维空间工作(就像上面的图片)。然后我们需要包围这样的二维空间,包括所有的类 "买"(蓝色填充)。然后,围出第二个空间,包括所有 "卖出 "类(红色)。两个围栏的空间不得重叠。要对新数据进行分类,只需查看所需的点属于哪个围栏空间。如果它没有任何进展(右图中的白色)--那么很明显,模型对这个点不能说什么,此刻不应该执行交易。

有了3个预测器,就会有一个3维空间,其中的类将被一些三维的体积形状所包围。等等,预测因素越多,形状就越多维。

是否存在这样的模式?通常,分类器会在空间中找到某种超平面,将类别分开。但这里我们需要两个封闭的超构图。

 

Mihail Marchukajtes:

...

在预测器的第一个版本中,6个输入在大约40分钟内完成优化,这非常不方便,但现在9个输入在10分钟内完成。而这只会提高模型的质量。现在的问题是在哪里找到这么多的投入。但我们并不在黑暗中。我们仍然有东西可以提供给预测者 :-)
是的,我也在尝试严格的买/卖分类。但是,你是如何得到原始的6个输入的,你只是从一些已知的策略中提取吗?充分的投入是最重要的事情之一。相反,我有数以千计的条目(价格和指标超过一百条),需要把它们筛选出来,留下几十条,因为在这么多的输入上,任何模型都会过度训练。
 
Dr.Trader:

从附图来看,我的观点对吗?


左边是二元分类器;右边是三元分类器(白色区域为 "减去")。

如果它是原始的傻瓜,它可以作为一种视觉辅助。

Dr.Trader:
如果是这样,我想这是一个好主意,由于某些原因,我以前没有遇到过,请问您能提供一些关于三元分类器的文章吗?

如果谷歌没有被禁止,你可以用 "三元分类器机器学习 "这个短语搜索。

 
尤里-雷舍托夫

如果你没有被谷歌禁止,你可以搜索 "三元分类器机器学习"。

换句话说,就是 "查找导致我的网站的第一个谷歌链接" :)

我发现,你有一个两个模型的委员会,这不是我所理解的和上面写的。