交易中的机器学习:理论、模型、实践和算法交易 - 页 1830

 
叶夫根尼-迪尤卡

可悲的是,你说规律性,规律性,但问你到底是什么在驱动市场,你不会说......因为你对一个规律性的理解,以概率的形式从网络中得到的答案为终点

你所有的解决方案是在不同的数据上建立数百个网络,并以概率的形式分析它们的输出...

如果你了解市场和它的规律呢?

那么一个 日志规则就可以描述你所描述的数百个网络...


例如,这里有一个只有三个元素的规则,它和你的一百个网的交易一样好。



那么,如果我找到1000条这样的规则,并从它们中创建某种随机森林,或规则的集合,会不会提高质量?

如果你试图让1000个神经元组成一个集合,每个神经元有100个?你会得到10万个神经元,首先你不能为10万个神经元找到一个独特的数据集,其次你必须等待很长时间才能得到答案 -....

一句话--我的方法更 "干净"、更快、更有可扩展性+可以解释,你的方法不可能开发(()。

可悲的是

 
mytarmailS:

一句话--我的方法更 "干净"、更快、更有可扩展性,你的方法不可能开发((

说实话,你的方法也不是很清楚,但也许只是为了我....。

 
叶夫根尼-迪尤卡

这里有一个如何压缩信息的活生生的例子 ,这不是我做的,但我为这个概念努力。

数据是费希尔的 虹膜。

iris[sample(100,100),] 
    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
51           7.0         3.2          4.7         1.4 versicolor
31           4.8         3.1          1.6         0.2     setosa
79           6.0         2.9          4.5         1.5 versicolor
33           5.2         4.1          1.5         0.1     setosa
73           6.3         2.5          4.9         1.5 versicolor
80           5.7         2.6          3.5         1.0 versicolor
16           5.7         4.4          1.5         0.4     setosa
74           6.1         2.8          4.7         1.2 versicolor
30           4.7         3.2          1.6         0.2     setosa
17           5.4         3.9          1.3         0.4     setosa
25           4.8         3.4          1.9         0.2     setosa
75           6.4         2.9          4.3         1.3 versicolor
57           6.3         3.3          4.7         1.6 versicolor
65           5.6         2.9          3.6         1.3 versicolor
96           5.7         3.0          4.2         1.2 versicolor
.........
......
...
..
..


为了清楚起见,我们正在训练一个随机森林,但让我们假装它是你的神经网络的一个集合。

训练有素....

我们得到了预测性规则,大约有700条。

condition                                              pred        
  [1,] "X[,3]<=2.45"                                          "setosa"    
  [2,] "X[,3]>2.45 & X[,3]<=4.85"                             "versicolor"
  [3,] "X[,3]>2.45 & X[,3]<=4.85 & X[,4]<=1.6"                "versicolor"
  [4,] "X[,4]>1.6"                                            "virginica" 
  [5,] "X[,3]>2.45 & X[,3]<=4.95 & X[,4]<=1.75"               "versicolor"
  [6,] "X[,3]>4.95 & X[,4]<=1.55"                             "virginica" 
  [7,] "X[,3]>4.85 & X[,3]<=5.15 & X[,4]<=1.75 & X[,4]>1.55"  "versicolor"
  [8,] "X[,4]>1.75"                                           "virginica" 
  [9,] "X[,3]>5.15"                                           "virginica" 
 [10,] "X[,3]<=2.45"                                          "setosa"    
 [11,] "X[,3]<=4.95 & X[,3]>2.45 & X[,4]<=1.65"               "versicolor"
 [12,] "X[,4]>1.65"                                           "virginica" 
 [13,] "X[,3]>4.85 & X[,4]>1.65"                              "virginica" 
 [14,] "X[,4]>1.9"                                            "virginica" 
 [15,] "X[,3]>4.95 & X[,4]<=1.65"                             "virginica" 
 [16,] "X[,3]>4.95 & X[,4]<=1.75 & X[,4]>1.65"                "versicolor"
 [17,] "X[,3]>4.95"                                           "virginica" 
 [18,] "X[,4]<=0.8"                                           "setosa"    
 [19,] "X[,3]<=4.75 & X[,4]>0.8"                              "versicolor"
 [20,] "X[,3]>4.75 & X[,3]<=5 & X[,4]<=1.7"                   "versicolor"
 [21,] "X[,3]>5 & X[,4]<=1.55"                                "virginica" 
 [22,] "X[,3]>4.75 & X[,3]<=5.45 & X[,4]<=1.7 & X[,4]>1.55"   "versicolor"
 [23,] "X[,3]>5.45"                                           "virginica" 
 [24,] "X[,4]>1.7"                                            "virginica" 
 [25,] "X[,3]<=5.05 & X[,4]>0.8 & X[,4]<=1.75"                "versicolor"
 [26,] "X[,3]>4.95"                                           "virginica" 
 [27,] "X[,2]>2.6 & X[,3]<=5.05 & X[,3]>4.95"                 "versicolor"
 [28,] "X[,4]>1.75"                                           "virginica" 
 [29,] "X[,2]>3.1 & X[,3]<=5.05 & X[,4]>0.8"                  "versicolor"
 [30,] "X[,3]>5.05 & X[,4]<=1.55"                             "virginica" 
 [31,] "X[,2]<=2.85 & X[,3]>5.05 & X[,4]<=1.7 & X[,4]>1.55"   "versicolor"
 [32,] "X[,3]>5.05"                                           "virginica" 
 [33,] "X[,3]>5.05"                                           "virginica" 
 [34,] "X[,4]<=0.75"                                          "setosa"    
 [35,] "X[,3]<=4.95 & X[,4]>0.75 & X[,4]<=1.7"                "versicolor"
 [36,] "X[,4]>1.7"                                            "virginica" 
 [37,] "X[,2]>3.1 & X[,3]<=4.95 & X[,4]>0.75"                 "versicolor"
 [38,] "X[,3]>4.95"                                           "virginica" 
 [39,] "X[,3]<=4.95 & X[,4]>0.8 & X[,4]<=1.7"                 "versicolor"
 [40,] "X[,4]>1.7"                                            "virginica" 
 [41,] "X[,3]>4.95"                                           "virginica" 
 [42,] "X[,4]<=0.7"                                           "setosa"    
 [43,] "X[,2]<=2.25 & X[,4]<=1.25"                            "versicolor"
 [44,] "X[,2]<=2.25"                                          "versicolor"
 [45,] "X[,2]>2.25 & X[,4]>0.7 & X[,4]<=1.75"                 "versicolor"
 [46,] "X[,3]>5.3"                                            "virginica" 
 [47,] "X[,4]>1.75"                                           "virginica" 
 [48,] "X[,3]>2.45 & X[,3]<=4.95 & X[,4]<=1.75"               "versicolor"
 [49,] "X[,3]>4.95 & X[,4]<=1.55"                             "virginica" 
 [50,] "X[,3]>4.95 & X[,3]<=5.45 & X[,4]<=1.75 & X[,4]>1.55"  "versicolor"
 [51,] "X[,3]>4.95"                                           "virginica" 
 [52,] "X[,4]>1.75"                                           "virginica" 
 [53,] "X[,2]>3 & X[,3]>2.45 & X[,3]<=4.85"                   "versicolor"
 [54,] "X[,4]>1.75"                                           "virginica" 
 [55,] "X[,3]<=4.85 & X[,4]>0.8 & X[,4]<=1.65"                "versicolor"
 [56,] "X[,3]<=4.65 & X[,4]>1.65"                             "virginica" 
 [57,] "X[,4]>1.65"                                           "virginica" 
 [58,] "X[,3]<=5.3 & X[,4]<=1.75"                             "versicolor"
 [59,] "X[,2]>2.6 & X[,3]>4.85 & X[,3]<=5.3 & X[,4]<=1.75"    "versicolor"
 [60,] "X[,3]>5.3"                                            "virginica" 
 [61,] "X[,4]>1.75"                                           "virginica" 
 [62,] "X[,3]<=2.5"                                           "setosa"    
 [63,] "X[,3]>2.5 & X[,3]<=4.95 & X[,4]<=1.75"                "versicolor"
 [64,] "X[,3]>4.95 & X[,3]<=5.05 & X[,4]<=1.65"               "virginica" 
 [65,] "X[,4]<=1.75"                                          "versicolor"
 [66,] "X[,3]<=4.75 & X[,4]>1.65"                             "virginica" 
 [67,] "X[,3]>4.75 & X[,4]<=1.75 & X[,4]>1.65"                "versicolor"
 [68,] "X[,3]>5.35"                                           "virginica" 
 [69,] "X[,4]>1.75"                                           "virginica" 
 [70,] "X[,3]<=4.75 & X[,4]>0.7"                              "versicolor"
 [71,] "X[,4]>1.65"                                           "virginica" 
 [72,] "X[,3]>4.75 & X[,3]<=4.95 & X[,4]<=1.7"                "versicolor"
 [73,] "X[,2]<=2.65 & X[,3]>4.95"                             "virginica" 
 [74,] "X[,2]<=2.75 & X[,2]>2.65 & X[,4]<=1.7"                "versicolor"
 [75,] "X[,3]>4.75"                                           "virginica" 
 [76,] "X[,4]>1.7"                                            "virginica" 
 [77,] "X[,2]>3.1 & X[,3]>4.75 & X[,3]<=4.85"                 "versicolor"
 [78,] "X[,4]>1.7"                                            "virginica" 
 [79,] "X[,3]>2.45 & X[,3]<=5 & X[,4]<=1.65"                  "versicolor"
 [80,] "X[,4]<=1.65"                                          "versicolor"
 [81,] "X[,3]>5"                                              "virginica" 
 [82,] "X[,4]>1.65"                                           "virginica" 
 [83,] "X[,3]>2.45 & X[,3]<=5.05 & X[,4]<=1.75"               "versicolor"
 [84,] "X[,4]>1.75"                                           "virginica" 
 [85,] "X[,2]>3.1 & X[,3]>2.45 & X[,3]<=5.05"                 "versicolor"
 [86,] "X[,3]>5.05"                                           "virginica" 
 [87,] "X[,3]<=4.95 & X[,4]>0.8 & X[,4]<=1.65"                "versicolor"
 [88,] "X[,3]>4.95 & X[,4]<=1.55"                             "virginica" 
 [89,] "X[,3]<=5.45 & X[,4]<=1.65 & X[,4]>1.55"               "versicolor"
 [90,] "X[,3]>4.95"                                           "virginica" 
 [91,] "X[,4]>1.65"                                           "virginica" 
 [92,] "X[,4]>0.75 & X[,4]<=1.65"                             "versicolor"
 [93,] "X[,4]>1.65"                                           "virginica" 
 [94,] "X[,2]>3.1 & X[,3]<=4.85 & X[,4]>0.75"                 "versicolor"
 [95,] "X[,4]>1.65"                                           "virginica" 
 [96,] "X[,3]<=4.95 & X[,4]>0.8 & X[,4]<=1.75"                "versicolor"
 [97,] "X[,3]<=4.95 & X[,4]<=1.75 & X[,4]>1.65"               "virginica" 
 [98,] "X[,3]>4.95 & X[,4]<=1.55"                             "virginica" 
 [99,] "X[,3]>4.95 & X[,3]<=5.45 & X[,4]<=1.75 & X[,4]>1.55"  "versicolor"
..........................
..............
.......
....
..

现在神奇的是,有一种算法可以在这700条规则中做出7条,而且质量的损失最小。

learner[,-c(1:3)]
     condition                                pred        
[1,] "X[,3]<=2.45"                            "setosa"    
[2,] "X[,3]<=4.95 & X[,3]>2.45 & X[,4]<=1.65" "versicolor"
[3,] "X[,3]>4.95 & X[,4]>1.7"                 "virginica" 
[4,] "X[,2]<=3.1 & X[,3]<=4.95 & X[,4]>1.65"  "virginica" 
[5,] "X[,3]>4.95 & X[,4]<=1.55"               "virginica" 
[6,] "X[,3]<=5.3 & X[,4]<=1.75"               "versicolor"
[7,] "X[,1]==X[,1]"                           "versicolor"

所以这就是我们整个700规则的随机森林。

不错吧?:)

 
mytarmailS:

可悲的是,你说规律性,规律性,但问你到底是什么在驱动市场,你不会说......因为你对规律性的理解以概率形式的网络的答案为终点

你的整个解决方案是在不同的数据上建立数百个网络,并以概率的形式分析其输出...

是的,没错,为了一个真正的实际效果。

如果你了解市场和它的规律呢?

为什么呢,也许这根本不可能。

那么一个 日志规则就可以描述你所描述的数百个网。

这都是幻想,在云端飞翔。

以上答复...

 
Evgeny Dyuka:

在上面的文字中回答...

你写道:

叶夫根尼-迪尤卡

2.在实践中,使用我的方法,你只能在大约1%的问题中得到可接受的回答。简单地说,如果你在每一个分钟的灯光下问网络 "5分钟后价格将在哪里上涨或下跌",网络只会在100次中给你一个答案。

你不认为原因是你99%的数据是垃圾,1%是有用的,你不认为这1%可以用1-3条记录规则来描述吗?

 
mytarmailS:

你写道。

叶夫根尼-迪尤卡

2.在实践中,使用我的方法,你只能在大约1%的问题中得到一个可接受的准确答案。简单地说,如果你问网友 "5分钟后价格将在哪里上涨或下跌",你将得到100次中只有一次的答案。

难道你不觉得原因是在你的数据中,有99%的垃圾和1%的有用信息吗? 难道你不觉得这1%可以用1-3条记录规则来描述吗?

不幸的是,情况并非如此。

99%的垃圾是我们所研究的物体的 内在属性。这是它的本质。
我们都希望它里面有和谐,有简单易懂的规则,这一点我们还没有找到,但会找到。没有这样的规则。在哲学上,它们当然可能存在,一切都有原因,但它们超出了我们目前和未来的能力。

这1%也不是由简单的规则来描述的,网络是在50万个例子上进行训练才达到的,这些显然不是简单的规则。

 
mytarmailS:

这里有一个如何压缩信息的活生生的例子 ,这不是我做的,但我为这个概念努力。

数据是费希尔的虹膜。


为了清楚起见,训练一个随机森林,但让我们假装它是你的神经网络的集合。

训练有素....

我们得到了预测性规则,大约有700条。

现在神奇的是,有一种算法可以在这700条规则中做出7条,而且质量的损失最小。

所以这就是我们整个700规则的随机森林。

不错吧?:)

为了描述150行数据(Iris数据中有150行),我们最多需要150条规则(如果所有行都是唯一的)。
你从哪里得到700元?

 
elibrarius:

要描述150行数据(Iris数据有150行),你最多需要150条规则(如果所有行都是唯一的)。
你从哪里得到700元?

我不知道forrest包是如何工作的,但如果有100棵树,它就会产生400-700条规则,可能把每个分支都算作一条规则。

Evgeny Dyuka:
很遗憾,这不是真的。

99%的垃圾是我们所研究的对象的内在属性。这就是它的建造方式,这就是它的性质。
我们都希望它里面有和谐,有清晰简单的规则,我们还没有找到,但我们会找到的。没有这样的规则。在哲学上,它们当然可能存在,一切都有原因,但它们超出了我们目前和未来的能力。

这1%也不是由简单的规则描述的,该网络是在50万个例子上训练出来的--这些显然不是简单的规则。

嗯...

 
mytarmailS:

因此,这就是我们整个700规则的随机森林

不错吧?:)

减叶的原则是什么?按相似性进行分组,并从组中选择最佳选项 ?

 
mytarmailS:

我不知道forrest包是如何工作的,但当设置为100棵树时,它会产生400-700条规则,很可能每个分支都算作一条规则。

我不知道...

显然,700是100棵树的总数。

如果你建立了一棵树,你会得到同样的7条规则,你认为这是神奇的))。

下面是一棵树给我的虹膜的结果(准确率为96%,即150个例子中有6个错误)。


 if(x[3]<1.800000){
  if(x[3]<1.000000){v[0]=1.000000;v[1]=0.000000;v[2]=0.000000;s=50;}
  else{
   if(x[2]<4.700000){
    if(x[2]<4.500000){v[0]=0.000000;v[1]=1.000000;v[2]=0.000000;s=29;}
    else{v[0]=0.000000;v[1]=0.909091;v[2]=0.090909;s=11;}}
   else{v[0]=0.000000;v[1]=0.714286;v[2]=0.285714;s=14;}}}
 else{
  if(x[0]<6.300000){v[0]=0.000000;v[1]=0.090909;v[2]=0.909091;s=11;}
  else{v[0]=0.000000;v[1]=0.000000;v[2]=1.000000;s=35;}}