基于宏观经济指标的市场预测

СанСаныч Фоменко 2015.02.25 14:23 #81

transcendreamer:

我还是不同意--回归在任何数据上都能正常工作，不一定比其他方法更好，但仍然足够好，特别是如果你考虑到它对计算资源的需求极低的话。

回归法对任何数据都不起作用。这对线性回归来说尤其如此，这一点在本主题的开头就已经提到。

应用线性回归的问题可以分为两个层次。

1.回归系数的初级估计。确切地说，是评估（EVALUATION）。如果我们写y=a+inx，这里就没有准确性，因为回归不是方程，正确的条目是y ~ a+inx，其中的倾斜符号强调系数不是常数，而是具有一定准确性的随机变量的估计值，因此不能像你在帖子中建议的那样把它们加在一起。

因此，在使用任何回归拟合软件包时，每个系数都与一些数字集相匹配，这些数字将指定的系数值作为一个随机变量。总的结果以星号的形式显示在最右边一栏。三个星号意味着你可以把一个系数的值作为一个常数，或者说作为一个随机值的估计值，误差小，范围小。如果没有星号，给定的值根本就不是什么，不能以任何方式使用。

但这并不是所有的麻烦。而主要的麻烦有以下几点。

2.线性回归只适用于静止的数据，即具有近似恒定的mo和恒定的方差。你提到的转变，导致趋势的消除，正是试图把它带到一个固定的形式。所有这些都被概括为ARIMA模型的形式，但有这样的金融系列，而且是大多数，当ARIMA模型不能解决问题的时候。

如果你不区分所有这些微妙之处，用线性回归得到的结果就是一个空洞的数字游戏。

transcendreamer 2015.02.25 17:41 #82

faa1947:

回归法对任何数据都不起作用。这对线性回归来说尤其如此，这一点在本主题的开头就已经提到。

应用线性回归的问题可以分为两个层次。

1.回归系数的初级估计。确切地说，是评估（EVALUATION）。如果我们写y=a+inx，就不再准确了，因为回归不是一个方程，正确的条目是y ~ a+inx，其中的tilde符号强调系数不是常数，而是有一定精度的随机变量的估计值，因此我们不能像你在帖子中建议的那样把它们加起来。

因此，在使用任何回归拟合软件包时，每个系数都与一些数字集相匹配，这些数字将指定的系数值作为一个随机变量。总的结果以星号的形式显示在最右边一栏。三个星号意味着你可以把系数的值看作是一个常数，或者说是对一个随机值的估计，误差很小，分布很广。如果没有星号，给定的值根本就不是什么，不能以任何方式使用。

但这并不是所有的麻烦。而主要的麻烦有以下几点。

2.线性回归只适用于静止的数据，即具有近似恒定的mo和恒定的方差。你提到的转变，导致趋势的消除，正是试图把它带到一个固定的形式。所有这些都被概括为ARIMA模型的形式，但有这样的金融系列，而且是大多数，当ARIMA模型不能解决问题的时候。

如果你不区分所有这些微妙之处，用线性回归得到的结果就是一个空洞的数字游戏。

对我来说，它工作得很好))))，它只是线性回归。

将系数相加是一种粗略的方法，我同意。

我曾试图分析系数的显著性和方差分析，但在实践中，我认为这没有什么用处

在图形上更容易和更方便地看到最终曲线的表现，以及它与原始数据的理论值的吻合程度。

这就是为什么我把解决方案的矢量作为原样，对于大多数情况下这就足够了。

如果它能很好地适应数据，那么一切都很好。

我已经尝试了其他更好的解决方案，其他方法--结果与回归的结果没有什么不同

我注意到，有些系数可能会在一定范围内浮动，但这并不影响最终的曲线。

但这没关系--反正这些系数是不稳定的，它们会随着时间逐渐变化，所以评估它们没有意义

关于静止性--当然它不存在于市场中，那么该怎么做？

以我的方式来做可能是不学术的。

但接下来该拿什么来替代呢？

СанСаныч Фоменко 2015.02.25 19:11 #83

transcendreamer:

.....

但是，那么应该用什么来代替呢？

你把自己限制在线性回归上，但你可以把问题说成：根据手头的任务选择最合适的回归类型。你可以把所有大量的回归（不仅仅是线性回归）看作是一堆黑盒子，在评估所得到的结果时，集中于有意义的问题。

要想从线性回归中获得如出一辙的短裤，你必须花费大量的时间。

接下来，决定你要预测的类型，即：你是要预测价值，如货币对的价格，还是预测价格的方向，某种定性特征的 "多-空 "或其他终端订单。

现在你必须决定某种时间的投资。

在第一阶段，我推荐Rattle作为通往100多个模型世界的大门。从你对线性回归的推理水平来看，这是你一两天的时间。你最终有6种类型的模型，其中一种几乎是你最喜欢的，只叫 "广义线性"，但其他的更有趣，你可以用它来做预测模型。

transcendreamer 2015.02.25 20:43 #84

faa1947:

你把自己限制在线性回归上，但你可以把问题说成：根据手头的任务选择最合适的回归类型。你可以把所有大量的回归（不仅仅是线性回归）看作是一堆黑盒子，并集中精力解决评估结果的有意义的问题。

要想从线性回归中获得如出一辙的短裤，你必须花费大量的时间。

接下来，决定你要预测的类型，即：你是要预测价值，例如货币对的价格，还是预测价格的方向，某种定性特征 "多空 "或其他终端的订单。

现在你必须决定某种时间的投资。

在第一阶段，我建议把Rattle作为一扇通往100多个模型世界的大门。从你对线性回归的推理水平来看，这是你一两天的时间。你最终有6种类型的模型，其中一种几乎是你最喜欢的，只叫 "广义线性"，但其他的更有趣，你可以用它来做预测模型。

不幸的是，正如我所说，其他优化器与线性回归相比，并没有显示出明显更好的结果。

也许在某些科学应用中，它们可能会带来优势，但在交易中，准确的预测是一种幻觉。

如果我没记错的话，GLM是为保险业开发的，SVM和ADA的范围太窄，逻辑回归不适合，原因很明显。

神经网络和随机森林具有多功能性和更大的优势，因为它们绕过了零根问题，可以指定任何目标函数。

但这是一个真正令人头疼的问题，至少对我这个人道主义者来说。

主成分法是我的一个发现，但我还没能把它应用于我的问题（投资组合）。

随机森林绝对值得关注，我打算在一段时间后尝试一下，但我不指望有什么效果。

太糟糕了，没有GA的拨浪鼓，否则我就找不到。

Vladimir 2015.02.26 03:33 #85

我不会把线性回归称为 "俗气"。而且，没有必要认为我没有尝试过其他一堆模型。

大家都知道，任何非线性模型y=f(x1,x2,...)都可以分解为一个泰勒级数。

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ...。+ a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2+ ...

熟悉数学的人知道，这是将函数 f(x1,x2,...)分解为多项式（更准确地说是单项式）基数x、x^2、x^3等等。线性回归只保留了这个扩展的线性项，所以它是一个一阶近似值。非线性基数可以从各种著名的多项式中选择，例如Chebyshev, Hermite, Legendre, 等等。但正确的多项式选择方法是QR分解或在更一般的情况下选择正交多项式，考虑到输入x1, x2, ... 的统计特性。神经网络试图做同样的分解，但根据科尔莫戈罗夫定理，对输入的exp函数进行分解。这是很不方便的分解，因为输入的指数函数不是相互正交的，这导致了很多数字问题和解决方案的变体。在任何情况下，我们的非线性函数的所有这些分解将有一个线性模型作为一阶近似。因此，如果线性近似（回归）不能给我们带来预期的结果，那么就没有必要去做更高程度的非线性。即使是线性回归也可以用不同的方法（RMS、MNM和其他任意的误差函数）来解决，我都试过了。

顺便说一下，所有计量经济学的ARMA、ARIMA和其他模型都是上述模型y[n]=f(x1[n-d1],x2[n-d2],...)的个别情况，其中一些输入是延迟的输出，即y[n-1]，y[n-2]，因此被称为 "自回归 "模型。虽然用RMS或CMM方法解决自回归模型并不健康，因为得到的系数会导致振荡模型。我们需要伯格，修正协方差等。但我早就过了这个 "自回归 "章节，我不想再回来了。尽管我的市场模型允许选择延迟退出作为投入之一。但迄今为止，它从未选择过这样的 "自回归 "输入，这意味着经济指标比过去的价格本身更适合预测价格（这构成了绝大多数基于技术分析的交易者方法的基础）。

Market prediction based on

Vladimir 2015.02.26 03:55 #86

faa1947:

我有一个建议。

删除带有列名的tsv.文件。指定哪个（哪些）列应被用作目标变量。当然，表行应该指的是一个时间点。

我将在Rattle中运行它，如果你允许，我将在这里发布6个非常体面的模型的结果。

建议接受。指定一个可接受的数据文件格式。垫子可以吗？这是个很大的数据，CSV会吃掉整个磁盘。MAT只有6MB。

但我有一个条件：对2000年至2015年期间进行预测，但只能根据预测日期之前的数据。也就是说，如果你对2000年第一季度进行预测，你就用到2000年第一季度的数据进行操作。从包括2015年在内的所有可用数据中选择预测因子，然后用它们来预测2000年第一季度，即使模型系数是从2000年第一季度之前的数据中计算出来的，也是在展望未来。我过去也有过这种错误，我的模型有惊人的准确预测。简而言之，我的条件是，预测者被选中，而预测模型本身是由预测日期之前的数据计算出来的。

СанСаныч Фоменко 2015.02.26 07:31 #87

gpwr:

接受报价。指定一个可接受的数据文件格式。垫子还好吗？数据太多，CSV会吃掉整个磁盘。MAT只有6MB。

第一个问题是文件。我们必须考虑一下。我确信MAT需要R - R和MATLAB非常友好，但我不知道如何做。当我准备好后，我会回信。

СанСаныч Фоменко 2015.02.26 07:42 #88

gpwr:

我不会把线性回归称为 "俗气"。

对非平稳数据来说是 "可怜的"。

总结一下我的帖子：工具必须符合问题的需要。

对于回归--金融序列的非平稳性是根本问题。因此，在选择工具包时，你需要看一下所选的工具是如何解决非平稳性问题的。我提到的ARIMA在一定程度上解决了非平稳性问题，但我从未听说过泰勒数列解决了非平稳性问题。在回归的框架内，ARIMA不是唯一的工具，尽管它仍然在美国政府结构中使用，它不是最先进的。在众所周知的作品中，我将提到经过大量修改的ARCH。

非平稳性的结果是模型的超拟合。它表现为：你可以建立一个具有非凡准确性的模型，但它在训练样本之外不起作用，而且是偷偷摸摸地：然后它起作用，然后它不起作用。你说的简单模型优于复杂模型是一个众所周知的事实，是基于这样一个事实：复杂模型比简单模型更容易超级拟合。

transcendreamer 2015.02.26 08:00 #89

gpwr:

我不会把线性回归称为 "俗气"。而且，没有必要认为我没有尝试过其他一堆模型。

大家都知道，任何非线性模型y=f(x1,x2,...)都可以分解为一个泰勒级数。

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ...。+ a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2+ ...

熟悉数学的人知道，这是将函数 f(x1,x2,...)分解为多项式（更准确地说是单项式）基数x、x^2、x^3等等。线性回归只保留了这个扩展的线性项，所以它是一个一阶近似值。非线性基数可以从各种著名的多项式中选择，例如Chebyshev, Hermite, Legendre, 等等。但正确的多项式选择方法是QR分解或在更一般的情况下选择正交多项式，考虑到输入x1, x2, ... 的统计特性。神经网络试图做同样的分解，但根据科尔莫戈罗夫定理，对输入的exp函数进行分解。这是很不方便的分解，因为输入的指数函数不是相互正交的，这导致了很多数字问题和解决方案的变体。在任何情况下，我们的非线性函数的所有这些分解将有一个线性模型作为一阶近似。因此，如果线性近似（回归）不能给我们带来预期的结果，那么就没有必要去做更高程度的非线性。即使是线性回归也可以用不同的方法（RMS、MNM和其他任意的误差函数）来解决，我都试过了。

顺便说一下，所有计量经济学的ARMA、ARIMA和其他模型都是上述模型y[n]=f(x1[n-d1],x2[n-d2],...)的个别情况，其中一些输入是延迟的输出，即y[n-1]，y[n-2]，因此被称为 "自回归 "模型。尽管用RMS或CMM方法解决自回归模型并不健康，因为得到的系数会导致振荡模型。我们需要伯格，修正协方差等。但我早就过了这个 "自回归 "章节，我不想再回来了。尽管我的市场模型允许选择延迟退出作为投入之一。但迄今为止，它从未选择过这样的 "自回归 "条目，这意味着经济指标比过去的价格本身更适合预测价格（这是绝大多数交易者基于技术分析的方法的基础）。

我想这就是我的意思 ))))

我在这组数据上建立回归，得到的是 "一般 "的模型，而其他方法几乎也总是给出 "一般 "的模型

如果线性回归给出了一个 "或多或少 "的模型，那么我注意到其他方法可能会改善它

[删除] 2015.02.26 08:49 #90

最好能给出一个明确的定义，或者至少澄清 "预测"、"预报 "等的含义。没有这一点，"预测 "就毫无意义。因为，根据地平线的不同，同一个 "预测 "在一个地平线上可能是正确的，在另一个地平线上可能是不正确的。此外，这种情节可能多次交替出现。

基于宏观经济指标的市场预测 - 页 9