基于宏观经济指标的市场预测 - 页 9

 
transcendreamer:


我还是不同意--回归在任何数据上都能正常工作,不一定比其他方法更好,但仍然足够好,特别是如果你考虑到它对计算资源 的需求极低的话。


回归法对任何数据都不起作用。这对线性回归来说尤其如此,这一点在本主题的开头就已经提到。

应用线性回归的问题可以分为两个层次。

1.回归系数的初级估计。确切地说,是评估(EVALUATION)。如果我们写y=a+inx,这里就没有准确性,因为回归不是方程,正确的条目是y ~ a+inx,其中的倾斜符号强调系数不是常数,而是具有一定准确性的随机变量的估计值,因此不能像你在帖子中建议的那样把它们加在一起。

因此,在使用任何回归拟合软件包时,每个系数都与一些数字集相匹配,这些数字将指定的系数值作为一个随机变量。总的结果以星号的形式显示在最右边一栏。三个星号意味着你可以把一个系数的值作为一个常数,或者说作为一个随机值的估计值,误差小,范围小。如果没有星号,给定的值根本就不是什么,不能以任何方式使用。

但这并不是所有的麻烦。而主要的麻烦有以下几点。

2.线性回归只适用于静止的数据,即具有近似恒定的mo和恒定的方差。你提到的转变,导致趋势的消除,正是试图把它带到一个固定的形式。所有这些都被概括为ARIMA模型的形式,但有这样的金融系列,而且是大多数,当ARIMA模型不能解决问题的时候。

如果你不区分所有这些微妙之处,用线性回归得到的结果就是一个空洞的数字游戏。

 
faa1947:

回归法对任何数据都不起作用。这对线性回归来说尤其如此,这一点在本主题的开头就已经提到。

应用线性回归的问题可以分为两个层次。

1.回归系数的初级估计。确切地说,是评估(EVALUATION)。如果我们写y=a+inx,就不再准确了,因为回归不是一个方程,正确的条目是y ~ a+inx,其中的tilde符号强调系数不是常数,而是有一定精度的随机变量的估计值,因此我们不能像你在帖子中建议的那样把它们加起来。

因此,在使用任何回归拟合软件包时,每个系数都与一些数字集相匹配,这些数字将指定的系数值作为一个随机变量。总的结果以星号的形式显示在最右边一栏。三个星号意味着你可以把系数的值看作是一个常数,或者说是对一个随机值的估计,误差很小,分布很广。如果没有星号,给定的值根本就不是什么,不能以任何方式使用。

但这并不是所有的麻烦。而主要的麻烦有以下几点。

2.线性回归只适用于静止的数据,即具有近似恒定的mo和恒定的方差。你提到的转变,导致趋势的消除,正是试图把它带到一个固定的形式。所有这些都被概括为ARIMA模型的形式,但有这样的金融系列,而且是大多数,当ARIMA模型不能解决问题的时候。

如果你不区分所有这些微妙之处,用线性回归得到的结果就是一个空洞的数字游戏。

对我来说,它工作得很好)))),它只是线性回归

将系数相加是一种粗略的方法,我同意。

我曾试图分析系数的显著性和方差分析,但在实践中,我认为这没有什么用处

在图形上更容易和更方便地看到最终曲线的表现,以及它与原始数据的理论值的吻合程度。

这就是为什么我把解决方案的矢量作为原样,对于大多数情况下这就足够了。

如果它能很好地适应数据,那么一切都很好。

我已经尝试了其他更好的解决方案,其他方法--结果与回归的结果没有什么不同

我注意到,有些系数可能会在一定范围内浮动,但这并不影响最终的曲线。

但这没关系--反正这些系数是不稳定的,它们会随着时间逐渐变化,所以评估它们没有意义

关于静止性--当然它不存在于市场中,那么该怎么做?

以我的方式来做可能是不学术的。

但接下来该拿什么来替代呢?

 
transcendreamer:

.....

但是,那么应该用什么来代替呢?

你把自己限制在线性回归 上,但你可以把问题说成:根据手头的任务选择最合适的回归类型。你可以把所有大量的回归(不仅仅是线性回归)看作是一堆黑盒子,在评估所得到的结果时,集中于有意义的问题。

要想从线性回归中获得如出一辙的短裤,你必须花费大量的时间。

接下来,决定你要预测的类型,即:你是要预测价值,如货币对的价格,还是预测价格的方向,某种定性特征的 "多-空 "或其他终端订单。

现在你必须决定某种时间的投资。

在第一阶段,我推荐Rattle作为通往100多个模型世界的大门。从你对线性回归的推理水平来看,这是你一两天的时间。你最终有6种类型的模型,其中一种几乎是你最喜欢的,只叫 "广义线性",但其他的更有趣,你可以用它来做预测模型。

 
faa1947:

你把自己限制在线性回归 上,但你可以把问题说成:根据手头的任务选择最合适的回归类型。你可以把所有大量的回归(不仅仅是线性回归)看作是一堆黑盒子,并集中精力解决评估结果的有意义的问题。

要想从线性回归中获得如出一辙的短裤,你必须花费大量的时间。

接下来,决定你要预测的类型,即:你是要预测价值,例如货币对的价格,还是预测价格的方向,某种定性特征 "多空 "或其他终端的订单。

现在你必须决定某种时间的投资。

在第一阶段,我建议把Rattle作为一扇通往100多个模型世界的大门。从你对线性回归的推理水平来看,这是你一两天的时间。你最终有6种类型的模型,其中一种几乎是你最喜欢的,只叫 "广义线性",但其他的更有趣,你可以用它来做预测模型。

不幸的是,正如我所说,其他优化器与线性回归相比,并没有显示出明显更好的结果。

也许在某些科学应用中,它们可能会带来优势,但在交易中,准确的预测是一种幻觉。

如果我没记错的话,GLM是为保险业开发的,SVM和ADA的范围太窄,逻辑回归不适合,原因很明显。

神经网络和随机森林具有多功能性和更大的优势,因为它们绕过了零根问题,可以指定任何目标函数。

但这是一个真正令人头疼的问题,至少对我这个人道主义者来说。

主成分法是我的一个发现,但我还没能把它应用于我的问题(投资组合)。

随机森林绝对值得关注,我打算在一段时间后尝试一下,但我不指望有什么效果。

太糟糕了,没有GA的拨浪鼓,否则我就找不到。

 

我不会把线性回归称为 "俗气"。而且,没有必要认为我没有尝试过其他一堆模型。

大家都知道,任何非线性模型y=f(x1,x2,...)都可以分解为一个泰勒级数。

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ...。+ a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2+ ...

熟悉数学的人知道,这是将函数 f(x1,x2,...)分解为多项式(更准确地说是单项式)基数x、x^2、x^3等等。线性回归只保留了这个扩展的线性项,所以它是一个一阶近似值。非线性基数可以从各种著名的多项式中选择,例如Chebyshev, Hermite, Legendre, 等等。但正确的多项式选择方法是QR分解或在更一般的情况下选择正交多项式,考虑到输入x1, x2, ... 的统计特性。神经网络试图做同样的分解,但根据科尔莫戈罗夫定理,对输入的exp函数进行分解。这是很不方便的分解,因为输入的指数函数不是相互正交的,这导致了很多数字问题和解决方案的变体。在任何情况下,我们的非线性函数的所有这些分解将有一个线性模型作为一阶近似。因此,如果线性近似(回归)不能给我们带来预期的结果,那么就没有必要去做更高程度的非线性。即使是线性回归也可以用不同的方法(RMS、MNM和其他任意的误差函数)来解决,我都试过了。

顺便说一下,所有计量经济学的ARMA、ARIMA和其他模型都是上述模型y[n]=f(x1[n-d1],x2[n-d2],...)的个别情况,其中一些输入是延迟的输出,即y[n-1],y[n-2],因此被称为 "自回归 "模型。虽然用RMS或CMM方法解决自回归模型并不健康,因为得到的系数会导致振荡模型。我们需要伯格,修正协方差等。但我早就过了这个 "自回归 "章节,我不想再回来了。尽管我的市场模型允许选择延迟退出作为投入之一。但迄今为止,它从未选择过这样的 "自回归 "输入,这意味着经济指标比过去的价格本身更适合预测价格(这构成了绝大多数基于技术分析的交易者方法的基础)。

 
faa1947:

我有一个建议。

删除带有列名的tsv.文件。指定哪个(哪些)列应被用作目标变量。当然,表行应该指的是一个时间点。

我将在Rattle中运行它,如果你允许,我将在这里发布6个非常体面的模型的结果。


建议接受。指定一个可接受的数据文件格式。垫子可以吗?这是个很大的数据,CSV会吃掉整个磁盘。MAT只有6MB。

但我有一个条件:对2000年至2015年期间进行预测,但只能根据预测日期之前的数据。也就是说,如果你对2000年第一季度进行预测,你就用到2000年第一季度的数据进行操作。从包括2015年在内的所有可用数据中选择预测因子,然后用它们来预测2000年第一季度,即使模型系数是从2000年第一季度之前的数据中计算出来的,也是在展望未来。我过去也有过这种错误,我的模型有惊人的准确预测。简而言之,我的条件是,预测者被选中,而预测模型本身是由预测日期之前的数据计算出来的。

 
gpwr:

接受报价。指定一个可接受的数据文件格式。垫子还好吗?数据太多,CSV会吃掉整个磁盘。MAT只有6MB。


第一个问题是文件。我们必须考虑一下。我确信MAT需要R - R和MATLAB非常友好,但我不知道如何做。当我准备好后,我会回信。

 
gpwr:

我不会把线性回归称为 "俗气"。



对非平稳数据来说是 "可怜的"。

总结一下我的帖子:工具必须符合问题的需要。

对于回归--金融序列的非平稳性是根本问题。因此,在选择工具包时,你需要看一下所选的工具是如何解决非平稳性问题的。我提到的ARIMA在一定程度上解决了非平稳性问题,但我从未听说过泰勒数列解决了非平稳性问题。在回归的框架内,ARIMA不是唯一的工具,尽管它仍然在美国政府结构中使用,它不是最先进的。在众所周知的作品中,我将提到经过大量修改的ARCH。

非平稳性的结果是模型的超拟合。它表现为:你可以建立一个具有非凡准确性的模型,但它在训练样本之外不起作用,而且是偷偷摸摸地:然后它起作用,然后它不起作用。你说的简单模型优于复杂模型是一个众所周知的事实,是基于这样一个事实:复杂模型比简单模型更容易超级拟合。

 
gpwr:

我不会把线性回归称为 "俗气"。而且,没有必要认为我没有尝试过其他一堆模型。

大家都知道,任何非线性模型y=f(x1,x2,...)都可以分解为一个泰勒级数。

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ...。+ a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2+ ...

熟悉数学的人知道,这是将函数 f(x1,x2,...)分解为多项式(更准确地说是单项式)基数x、x^2、x^3等等。线性回归只保留了这个扩展的线性项,所以它是一个一阶近似值。非线性基数可以从各种著名的多项式中选择,例如Chebyshev, Hermite, Legendre, 等等。但正确的多项式选择方法是QR分解或在更一般的情况下选择正交多项式,考虑到输入x1, x2, ... 的统计特性。神经网络试图做同样的分解,但根据科尔莫戈罗夫定理,对输入的exp函数进行分解。这是很不方便的分解,因为输入的指数函数不是相互正交的,这导致了很多数字问题和解决方案的变体。在任何情况下,我们的非线性函数的所有这些分解将有一个线性模型作为一阶近似。因此,如果线性近似(回归)不能给我们带来预期的结果,那么就没有必要去做更高程度的非线性。即使是线性回归也可以用不同的方法(RMS、MNM和其他任意的误差函数)来解决,我都试过了。

顺便说一下,所有计量经济学的ARMA、ARIMA和其他模型都是上述模型y[n]=f(x1[n-d1],x2[n-d2],...)的个别情况,其中一些输入是延迟的输出,即y[n-1],y[n-2],因此被称为 "自回归 "模型。尽管用RMS或CMM方法解决自回归模型并不健康,因为得到的系数会导致振荡模型。我们需要伯格,修正协方差等。但我早就过了这个 "自回归 "章节,我不想再回来了。尽管我的市场模型允许选择延迟退出作为投入之一。但迄今为止,它从未选择过这样的 "自回归 "条目,这意味着经济指标比过去的价格本身更适合预测价格(这是绝大多数交易者基于技术分析的方法的基础)。

我想这就是我的意思 ))))

我在这组数据上建立回归,得到的是 "一般 "的模型,而其他方法几乎也总是给出 "一般 "的模型

如果线性回归给出了一个 "或多或少 "的模型,那么我注意到其他方法可能会改善它

 
最好能给出一个明确的定义,或者至少澄清 "预测"、"预报 "等的含义。 没有这一点,"预测 "就毫无意义。因为,根据地平线的不同,同一个 "预测 "在一个地平线上可能是正确的,在另一个地平线上可能是不正确的。此外,这种情节可能多次交替出现。