市场礼仪或雷区中的良好风度

Vladimir 2009.06.23 05:11 #811

Neutron >> :

这是我自己没有完全理解的地方。

根据声明（Alexander Ezhov,Sergey Shumsky"Neurocomputing"），有一个最佳长度，在这个长度上泛化误差Popt=w^2/d最小，其中d是NS输入的维度，w是NS所有可调整参数的数量。因此，从这个角度来看，如果P<Popt，NS是过度训练的，NS "记住 "了训练样本。P>Popt的变体也不好，因为在较长的时间内，市场趋势逆转的概率更大，这等于减少了样本之间的关联性。

另一方面，NS可以被 "拖 "到过多的训练历时上，其结果是泛化误差又开始增长，或者不增长。一般来说，需要用一组统计数字进行数值实验，这本身就很有研究价值！"。但是，这必须要做。这将使事情变得更加容易，证明上述训练向量的最佳长度的方程式。gpwr，你想修修补补吗？

如果你看一下你的图表

那么就出现了几个问题。按照我的理解，圆圈中的红线是用不同的随机初始权重进行的几次统计实验的平均学习误差。圆圈中的蓝线是未训练过的数据的平均预测误差。对吗？细线显示了散点的范围。现在的问题

1.底部的细蓝线与底部的细红线是否对应？换句话说，对于学习误差最小的统计实验来说，样本外预测的准确性是否有所提高？

2.由于学习误差的扩散没有缩小到零，那么学习就没有达到全局最小值。

我现在非常关心这个问题：我是否应该寻找一种能达到全局最小值的学习算法，希望对未训练过的样本的预测会更准确？我正在运行我的网格，看看它的预测有多不一致，这取决于我在哪里停止训练它。即使我设置了相同的1000个epochs的数量，在相同的训练样本上，不同的运行预测也是不同的。一半的预测是价格会上升，另一半会下降。我对这一点很不满意。如果你训练的时间很长，网络就会越来越接近全局最小值，而且在不同的运行中其预测结果是相同的。

关于样本的最佳数量，我会考虑的。这并不容易。你必须了解市场的统计数据，以及其分布变化的速度。增加样本数量将导致出现这样的情况：网子初步探测到一头牛，在这个过程中，它从牛变成了龟。最终，网友会得出结论，这是一只有蹄子的角龟。如果你减少样本的数量，比方说只给网友感受牛的角，那么就会有很多变种：牛、麋鹿、山羊、鹿等等。

Neutron 2009.06.23 05:34 #812

gpwr писал(а)>>

增加样本的数量会使网子用它的触角来识别母牛，并在这个过程中把母牛变成乌龟。结果，网友们得出结论，这是一只有蹄子的角龟。如果为了减少样本的数量，比如说只给网友摸牛的角，那么就会有很多变种：牛、驼鹿、山羊、鹿等等。

+5 我完全同意。

然而，你却翻开了耶约夫和舒姆斯基。也许你会得到一些关于证明的想法。

圆圈中的蓝线是原始数据的平均预测误差。对吗？

正确。

1.底部的细蓝线与底部的细红线是否对应？换句话说，对于学习误差最小的统计实验来说，样本外预测的准确性是否有所提高？

由于资源紧张，我还没有做完整的实验。但是，我同意这是有必要的，我会让自己去做。

P.S.gpwr，我在网上看到了两个美国人的工作链接，他们在5年前就证明了双层非线性NS的存在并实现了改良的ORO算法，只有一个输出神经元。因此，有了特殊类型的激活函数（其具体类型并不影响网络计算能力），新算法的学习速度超过了经典的ORO两个数量级。你见过这样的事情吗？

Vladimir 2009.06.23 05:52 #813

Neutron >> :

+5 我完全同意。

不过，你应该翻翻《Jejov》和《Shumsky》。也许你会得到一些关于证据的想法。

对。

由于资源紧张，我还没有做完整的实验。但我同意，这是必要的，我将强迫自己去做。

P.S.gpwr，我在网上看到了两个美国人的工作，他们在5年前就证明了双层非线性NS的存在并实现了改良的ORO算法，只有一个输出神经元。因此，有了特殊类型的激活函数（其具体类型并不影响网络计算能力），新算法的学习速度超过了经典的ORO两个数量级。你从未遇到过这样的事情吗？

我见过RFO的几个变种。

QuickProp - 1988年，加入二阶导数以加快收敛速度

RProp--弹性反向传播--1993年，德国里德米勒，该算法的要点是用梯度的符号代替梯度的符号

iRProp - 改进的RProp - 2000年，Igel，德国，相同的RProp，但如果前一纪元的学习误差增加，网络就会退一步。

SARProp--模拟退火反向传播--1998年，澳大利亚的Treadgold，为了实现全局收敛，在某些条件下，当前一个纪元的误差增加时，增加了随机步长。

JRProp - 雅可比RProp，2005年，Anastasiadis，来自英国的希腊人，与iRProp相同，但误差增加时的返回方法略有不同

GRProp, GJRProp - Global RProp/JRProp - 2005, Anastasiadis, 在每个纪元选择最小的权重步骤，并由一个奇怪的公式代替

我都试过了。RProp、iRProp、JRProp的工作原理几乎相同。全球SARProp和GRProp方法不起作用。你可以很容易地找到关于这些算法的文章。

请看这里的俄语版

http://masters.donntu.edu.ua/2005/kita/tkachenko/library/article01/index.htm

www.iis.nsk.su/preprints/pdf/063.pdf

Neutron 2009.06.23 07:44 #814

谢谢你。我去看看。

那两个美国人想出了他们的快速算法，完全是为了单一输出的NS，也就是说，我们在谈论高度专业化的东西。

paralocus 2009.06.23 08:43 #815

我自己买了一个2001i Pro。

你能简单评论一下我昨天发布的分配图吗？

Neutron 2009.06.23 09:20 #816

嗯，当然了。

他们是正确的。第一个和第三个数字没有什么意义，因为最后一个数字的统计数字很小，而第一个数字的H 很小。然而，第二个数字是有代表性的。

对于Kagi分布（左图），我们可以注意到没有小于分裂阶梯H 的肩长（paralocus，你当然是一个伟大的原创，在不寻常的表示dnans，例如测量分裂阶梯在传播而不是点......）和肩长出现的频率随着其长度的增加呈指数下降。对于一些交易，我们可以注意到介词+/-H 中的长度出现频率几乎呈带状分布，在过渡到长度大于H 时，同样呈指数衰减，这可以在右图中看到。我认为NS的输入数据的这种表示方式（仍以Н 为标准），几乎是理想的，因为它不需要 "狡猾的 "标准化和居中程序（MO完全等于零）。然而，关于Cagi代表的优化问题仍未解决。在这里，问题应该得到全面的解决，环节中的第二个重要块是MM。对于没有再投资的TC，Kagi-partitioning确实是最优的。

paralocus 2009.06.23 09:53 #817

谢谢你。MM对我来说仍然是一个陌生的领域。我曾多次尝试将我用一手积累的资金进行再投资，结果得到了巨大的损失。在这个话题的开头，你写了关于MM与杠杆的关系。但是杠杆率是否可以由交易商调整？在我看来，杠杆率=100，仅此而已。你只能选择配对来减少风险。我更喜欢澳元兑美元 - 我也是从你的帖子中得到的。好吧，时机还没有到来（对我来说）。我现在要做的是双层的工作。我今天将进行编码，明天将向你展示我的成果。

Neutron 2009.06.23 11:24 #818

杠杆率与地段的价值与资本量成正比。因此，通过增加或减少交易的手数，你本质上是在改变杠杆的大小。对于分析来说，使用杠杆率比批量大小更容易，因为它是无尺寸的。这就是为什么我在我的公式中使用它。

Neutron 2009.06.24 02:48 #819

从本质上讲，MT测试仪是一个有多个输入（MAs、随机指标和其他TA指标）的黑盒子，有数不清的可调整参数（MAs的周期、最佳振幅等）和一个 "棘手的 "算法，用于将其全部混合在里面。在输出中，我们有一个卖出/买入或停止交易订单。有一个优化程序，可以在历史数据的TS最大利润的条件下选择最佳参数。它是否让你想起了什么？确切地说，如果我们认为TA指标连同其处理的狡猾（非线性）算法，其实质是多层pseptron激活的非线性函数，那么我们这里所有的人多年来一直在做同样的事情--建立和教育我们的NS!只是，这个事实并不明显，这导致在使用策略测试器时出现了很多问题（拟合、找到的最佳状态不稳定等）。论坛上许多受人尊敬的人经常对NS持怀疑态度，而他们所有的空闲时间都在做同样的事情，似乎没有其他的事情！这就是所谓的NS。想一想吧。

如果情况确实如此，那么显然我们需要转入人工智能术语的语言。这么多年来困扰我们的事情，很多都会变得很明显。例如，在历史上拟合一个测试器，根本就不够长（以TC事件即交易来衡量，而不是以条数来衡量），或者类似地，可调整参数的数量过多。盈利能力不足--使用价格线性转换的指标（没有利用市场事件之间的非线性关联），等等。另一个要点是--在NS的理论中证明，网络的计算能力不取决于特定类型的非线性。由此可见，把价格序列处理的智能和非琐碎的指标和算法塞进TS没有什么意义，它不能明显影响TS的预测性。但非常重要的是，要尽量减少概括误差（就TC而言），为此，只需选择最佳的历史数据长度和指标数量就足够了！这也是我们的目标。

简而言之，我们所有人都会做同样的事情，不管我们是在打磨我们的策略测试器还是在写我们自己的网络，这都不重要。重要的是，我们要清楚地了解我们在做什么以及为什么。

P.S. 我在合成材料上运行了一个小的孤独的perseptron。

可以看出，在训练过程中，神经元自信地滚落到全局最小值（图中左侧为红色），这是由分散性减少到零（细线）表示的，这也是不同初始化权重值的实验的学习过程的特征。另一方面，泛化误差（预测能力的倒数）在学习过程中的某个时刻又开始增长，表明神经元失去了泛化知识的能力。右图显示了相同的数据，但在凹凸轴上。学习的最佳状态得到了很好的体现。

paralocus 2009.06.24 07:54 #820

当我在 "打磨测试器 "时，我也有类似的感觉，但它没有实现......-:)

但现在，看似简单，但更可行的想法出现了。我昨天制定的东西。

Оптимальным каги-разбиением тикового ВР с порогом Н, следует считать такое разбиение, при котором имеется минимальное количество следующих друг за другом одноцветных плеч ряда транзакций. При этом средняя длина плеча равна величине средней взятки.

也就是说，它实际上变成了你所写的那样--采取等于停止!这里有一个微妙的问题。

如果收到的一系列交易的分布是这样的，超过50%的连续肩部有不同的颜色，那么为什么要用NS呢？（别踢我，我只是问问...-:)

P.S. 纠正了错别字

市场礼仪或雷区中的良好风度 - 页 82