市场礼仪或雷区中的良好风度 - 页 81

 
在做这个四舍五入的时候,不要忘记把分布中等于0的数值除以2。
 
是的,知道了(+/-0)。
 
Neutron >> :

重点是,我不是在打同一个训练样本的统计数字,而是在每个周期中一次转移一个样本。因此,训练的结果并不吻合。我不记得我为什么要这样做,但这并不改变本质。显然,我想展示市场中的准稳定过程,并反映它们对学习速度的影响。

下面是在同一训练样本上进行10次实验的平均值,结果是什么样子的(图左)。

你可以看到,初始化为零的权重没有统计学上的变化。

右图是基于一个有12个输入、隐藏层有5个神经元、输出有1个神经元的网络架构,训练样本为120个,也就是说,它是你的案例的一个副本。这些统计数字是从50个独立的数字实验中收集的。另外,一切工作都很正常。

不,我用第一个开盘价差作为输入(我想从上下文中可以看出)。很明显,平均数是零。预测了下一个差异的振幅和符号。

至于该定理,我喜欢它。但是,它与我们的网络有关,是一种特殊的情况!

你已经证明了训练样本长度趋于无穷大的退化情况。真的,在这种情况下,对于代表SV的MO为零的输入数据向量,我们得到的权重为零--对于综合SV来说,明天的最佳预测是今天的当前值。但是,一旦我们采取有限长度的训练样本,训练后的权重将趋于平衡,使误差的平方最小。作为证明这一说法的例子,以SLAE(相同的NS)为例。在这种情况下,权重是唯一定义的,训练样本的训练误差完全等于零(未知数的数量等于方程的数量),而权重(未知数处的系数)显然不等于零。

我同意你对我的定理的评论。事实上,减少训练集的数量会使权重偏离零。但我相信该定理适用于网络,因为为了计算相关度,我不需要使用无限多的训练集。统计平均值R(m)=E{x[i]x[i+m]}被计算为可用数据的总和(x[i]x[i+m])。该定理的意义在于,它表明只有当这些和(相关性)明显不同于零时,网络才会有预测能力;否则,权重将收敛为零。这就是为什么找到输入和输出之间非零相关性的训练数据很重要。那些相关度低的输入可以被丢弃,因为它们对网络的预测没有帮助。

据我所知,你在上述图表中的训练误差并没有被2除以或被集数除以。这样说对吗?我想在我的网络上运行你的输入,以确保一切正常工作。你能不能把它们保存在一个文件中,因为它们被输入到网络输入和输出,并把它们放在这里。你可以用你的5-4-1网络与40个样本来减少数据量。

 

不同H 的建设卡基和交易系列的分配肩。


1.H= 1(一次传播)


2.Н= 4


3.Н= 15


 
gpwr >> :

我同意你对我的定理的评论。事实上,减少训练样本中的集数会使权重偏离零。但我认为该定理适用于网络,原因是为了计算相关度,你不需要使用无限多的训练集。统计平均值R(m)=E{x[i]x[i+m]}被计算为可用数据的总和(x[i]x[i+m])。该定理的意义在于,它表明只有当这些和(相关性)明显不同于零时,网络才会有预测能力;否则,权重将收敛为零。这就是为什么找到输入和输出之间非零相关性的训练数据很重要。那些相关度低的输入可以被丢弃,因为它们对网络的预测没有帮助。

据我所知,你在上述图表中的训练误差并没有被2除以或被集数除以。这样说对吗?我想在我的网络上运行你的输入,以确保一切工作正常。你能不能把它们保存在一个文件中,因为它们被输入到网络输入和输出,并把它们放在这里。你可以用你的5-4-1网络与40个样本来减少数据。

将历时数增加到1000,并调整了iProp+的设置,使权重步长不会迅速减弱。还删除了学习误差除以2* epochs的数量。它给我的结果更令人满意,更接近于中子。随机权重的学习误差是零权重的2-3倍,这表明输入和输出之间存在着相关性。但是,我还是不喜欢从第4纪元到第70纪元的学习误差几乎没有变化。我们需要改进学习算法。虽然大多数商业NS包使用iProp+,所以我相信这个算法。这就留下了缓慢而复杂的ML和BFGS。


 
gpwr >> :

我同意你对我的定理的评论。


既然你的数学这么好,你为什么不试着证明另一个关于市场BP(最好不是BP,而是一系列的Kagi交易)的网络输入维度的最佳定理--那是一个非常有用的东西

 
paralocus >> :

既然你的数学这么好,你为什么不试着证明另一个关于市场BP(最好不是BP,而是一系列的Kagi交易)上的网络输入维度的最佳定理呢--那才是真正的东西!你可以把这个定理告诉我们。

我会试一试的。

 
gpwr писал(а)>>

我同意你对我的定理的评论。事实上,减少训练集的数量会使权重偏离零。但我相信该定理适用于网络,因为为了计算相关度,我不需要使用无限多的训练集。统计平均值R(m)=E{x[i]x[i+m]}被计算为可用数据的总和(x[i]x[i+m])。该定理的意义在于,它表明只有当这些和(相关性)明显不同于零时,网络才会有预测能力;否则,权重将收敛为零。这就是为什么找到输入和输出之间非零相关性的训练数据很重要。相关性低的输入可以被丢弃,因为它们对网络的预测没有帮助。

样本之间也存在着非线性的关联。它被双层非线性NS抓住了,而没有被线性判别器抓住,你为它证明了极限定理。

根据我的理解,你在给定的图上训练的错误没有被2除以,也没有被集合的数量除以。对吗?我想在我的网络上运行你的输入数据,以确保一切工作正常。你能不能把它们保存在一个文件中,因为它们被送入网络输入和输出,并把它们放在这里。你可以用你的5-4-1网络与40个样本来减少数据。

下面是我使用的输入文件。

附加的文件:
dif.zip  14 kb
 
Neutron >> :

样本之间也存在非线性相关关系。它被双层非线性NS所捕获,而不被线性判别器所捕获,你已经证明了它的极限定理。

下面,附上一个带有输入数据的文件,我使用了这个文件。

>> 谢谢你。有很多关于非线性相关的内容要谈。我将在过一会儿给出我的想法。同时,我对你关于 "齿轮女孩 "的有趣结论感到好奇。未学习过的网络("三元女孩")对样本外数据显示出更准确的预测,这一事实让我感到震惊。未学习状态的方差比学习状态的方差大得多。而如果学到的状态是全局熵最小值(误差平方),那么这样的状态的方差是零,因为只有一个全局最小值。由于网络中存在大量的非膨胀状态,对于相同的输入数据会有很多不同的预测。你可以从你的图表中看到这一点。总而言之,这是一个有趣但令人震惊的结论。

 

这是我自己没有完全理解的地方。

根据声明(Alexander Ezhov,Sergey Shumsky"Neurocomputing"),有一个最佳长度,在这个长度上泛化误差Popt=w^2/d 最小,其中d是 NS输入的维度,w 是NS所有可调整参数的数量。因此,从这个角度来看,如果P<Popt,NS是过度训练的,NS "记住 "了训练样本。P>Popt 的变体也不好,因为在较长的时间内,市场趋势逆转的概率更大,这等于减少了样本之间的关联性。

另一方面,NS可以被 "拖 "到过多的训练历时,其结果是泛化误差又开始增长,或者不被拖动。一般来说,我们需要用一组统计数字进行数值实验,这本身就是非常递归的!我们要做的是,用一组统计数字进行实验。但是,这必须要做。这将使事情变得更加容易,证明上述训练向量的最佳长度的方程式。gpwr,你想修修补补吗?