交易中的机器学习:理论、模型、实践和算法交易 - 页 91

 
ForeCA: Forecastable Component Analysis
  • 2012.05.22
  • Georg
  • www.gmge.org
Forecastable component analysis (ForeCA) is a novel dimension reduction (DR) technique to find optimally forecastable signals from multivariate time series (published at JMLR). ForeCA works similar to PCA or ICA, but instead of finding high-variance or statistically independent components, it finds forecastable linear combinations. ForeCA is...
 
Vizard_
和所有来者。在z1档案中,有两个文件train和test。对于Target来说,在训练中建立模型,应用于测试,发布结果的百分比(成功预测)。
的情况下),两个样本(训练=xx%,测试=xx%)。方法和模式不需要公布,只需要公布数字。允 许进行任何数据操作
和采矿方法。

1.你所有的预测器都没有预测能力--无一例外都是噪音

2.建立了三个模型:RF、ada、SVM。以下是结果

rf

呼叫。

randomForest(公式 = TFC_Target ~ ,

data = crs$dataset[crs$sample, c(crs$input, crs$target)] 。

ntree = 500, mtry = 3, importance = TRUE, replace = FALSE, na.action = randomForest::na.roughfix)


随机森林的类型:分类

树木的数量: 500

在每个分叉处尝试的变量数量:3。


OOB估计的错误率:49.71%。

混淆矩阵。

[0, 0] (0, 1] class.error

[0, 0] 197 163 0.4527778

(0, 1] 185 155 0.5441176

盛大

呼叫。

ada(TFC_Target ~ . , data = crs$dataset[crs$train, c(crs$input,

crs$target)], control = rpart::rpart.control(maxdepth = 30,

cp = 0.01, minsplit = 20, xval = 10), iter = 50)


损失:指数法:离散法 迭代:50次


数据的最终混淆矩阵。

最终预测

真值 (0,1) [0,0] 。

(0,1] 303 37

[0,0] 29 331


训练误差:0.094


误差:0.157 迭代=50

证券公司

SVM模型的摘要(用ksvm建立)。


支持向量机的 "ksvm "类对象


SV类型: C-svc (分类)

参数:成本C = 1


高斯Radial Basis核函数。

超参数 : sigma = 0.12775132444179


支持载体的数量 : 662


目标函数值 : -584.3646

训练误差:0.358571

包括概率模型。


所用时间:0.17秒。

在测试装置上(我指的是拨浪鼓,不是你的。)

Test.csv上的Ada Boost模型的误差矩阵[验证](计数)。


预测的

实际(0,1) [0,0] 。

[0,0] 33 40

(0,1] 35 42


Test.csv上的Ada Boost模型的误差矩阵[验证](比例)。


预测的

实际(0,1) [0,0] 误差

[0,0] 0.22 0.27 0.55

(0,1] 0.23 0.28 0.45


总体误差:50%,平均班级误差:50%。


拉特时间戳: 2016-08-08 15:48:15 用户

======================================================================

test.csv上的随机森林模型的误差矩阵[验证](计数)。


预测的

实际 [0,0] (0,1)

[0,0] 44 29

(0,1] 44 33


test.csv上的随机森林模型的误差矩阵[验证](比例)。


预测的

实际 [0,0] (0,1] 误差

[0,0] 0.29 0.19 0.40

(0,1] 0.29 0.22 0.57


总体误差:49%,平均班级误差:48%。


拉特时间戳: 2016-08-08 15:48:15 用户

======================================================================

test.csv上的SVM模型的误差矩阵[验证](计数)。


预测的

实际 [0,0] (0,1)

[0,0] 41 32

(0,1] 45 32


test.csv上的SVM模型的误差矩阵[验证](比例)。


预测的

实际 [0,0] (0,1] 误差

[0,0] 0.27 0.21 0.44

(0,1] 0.30 0.21 0.58


总体误差:51%,平均班级误差:51%。


拉特时间戳: 2016-08-08 15:48:15 用户

随机森林的ROC分析

证实了上述情况。

结论。

你的这套预测器是没有希望的。

 
阿列克谢-伯纳科夫:所以我们在火车上用最好的模型训练到脸色发青。也许是两到三个模型。然后是他们的一次性测试。
是的,这正是条件中所说的(在训练中建立一个模型,在测试中应用它)。
 
mytarmailS:

如果我理解正确的话,一个可以选择可以预测和不能预测的BP的软件包

我看了一下,从描述来看,这是一个非常好的包(ForeCA,它甚至在R仓库里,不需要从githab下载任何东西)。其主要特点是,它对数据的 "可预测性 "进行评级。
而加上这个,也很重要,可以应用于降低数据的维度。也就是说,从现有的预测器中,这个软件包会做出两个新的预测器,而且预测性出奇地好。同时,它将消除垃圾等。让我想起了主成分法,但不是成分,而是会做出自己的东西。

非常简单--给这个包一个有很多预测因素(价格、指标、三角洲、垃圾等)的表。ForeCA将给出一个新的表格,而不是原来的表格。这个新表被用来训练预测模型(gbm、rf、nnet等)。
如果更复杂一点,这是另一个用于数据变换 的软件包,偏重于股票市场。

这一切听起来都很好,直截了当,甚至太多,我得去看看。

 
mytarmailS:

如果我理解正确的话,是一个选择可以预测的BP和不能预测的BP的包。

http://www.gmge.org/2012/05/foreca-forecastable-component-analysis/

http://www.gmge.org/2015/01/may-the-forec-be-with-you-r-package-foreca-v0-2-0/

极为好奇。

该软件包已安装,文档可用。

也许有人会试一试并公布结果?

 
Dr.Trader:

我看过了,从描述来看,这是一个非常好的包(ForeCA,它甚至在R仓库里,不需要从githab下载东西)。其主要特点是,它对数据的 "可预测性 "进行评级。
而加上这个,也很重要,可以应用于降低数据的维度。也就是说,从现有的预测器中,这个软件包会做出两个新的预测器,而且预测性出奇地好。同时,它将消除垃圾等。让我想起了主成分法,但不是成分,而是会做出自己的东西。

非常简单--给这个包一个有很多预测因素(价格、指标、三角洲、垃圾等)的表格。ForeCA将给出一个新的表格,而不是原来的表格。这个新表被用来训练预测模型(gbm、rf、nnet等)。
如果更复杂一点,这是另一个用于数据核变换的软件包,偏向于股票市场。

这一切听起来都很好,直截了当,甚至太好,我得去看看。

那不就需要预选吗?

伙计们,赶紧行动起来吧!

 
桑桑尼茨-弗门科

结论。

你的这套预测器是没有希望的。

OK)))),但要仔细阅读条件 --
"发布结果,以%为单位(成功预测的案例),针对两个样本(训练=xx%,测试=xx%)。不需要指定方法和模型,只需要数字"。
我们正在等待更多的结果。我想知道米哈伊尔-马尔丘卡耶斯会得出什么结论。
 
Vizard_
OK)))),但要仔细阅读条件 --
"发布结果,以%为单位(成功预测的案例),针对两个样本(训练=xx%,测试=xx%)。不需要指定方法和模型,只需要数字"。
我们正在等待更多的结果。我想知道米哈伊尔-马尔丘卡耶斯会得出什么结论。

测试是不必要的!

该模型不能被训练!你不能测试一个空的空间。

 
让我试试.....刚刚看到....
 
Dr.Trader:

我读了描述,听起来是一个非常好的软件包(ForeCA, ..............

我不明白这种 "可预测性 "是如何计算的,如果不考虑目标,是否有任何意义?