Mihail Marchukajtes: 好吧,我又注意到这件事了。事情是这样的,我有一个数据集,perdicts 12,然后他们的滞后期来了,lag1和lag2。以前,输入大多是在集合的开始,即滞后很少,然后不超过滞后1,很少滞后2。我可以理解,样本的数据量过大,但事实是,在归纳之前,滞后1和滞后2的频率更高。但事实是,以前的概括主要是在初始列,现在是在最后列....。几乎,所以推断....
нужно найти такие строчки которые повторяются не менее 10 раз в всей выборке и в каждой из найденных одинаковых групок которые повторялись, количество "1" в target.label должно превышать 70% по отношению к "0" вот найденные одинаковые строчки единичек больше чем нулей...
#пара строк из той таблицы, не буду я всё текстом копировать, потом первая строка повторена ещё дважды dat <- data.frame(cluster1=c(24,2,13,23,6), cluster2=c(5,15,13,28,12), cluster3=c(18,12,16,22,20), cluster4=c(21,7,29,10,25), cluster5=c(16,22,24,4,11), target.label=c(1,1,0,1,0)) dat <- rbind(dat, dat[1,], dat[1,]) #результат последней строки поменян на 0 для эксперимента dat[7,"target.label"]=0
library(sqldf) #для sqldf точек в названиях колонок быть не должно colnames(dat)[6] <- "target"
dat1 <- sqldf( "select cluster1, cluster2, cluster3, cluster4, cluster5, avg(target) as target_avg, count(target) as target_count from dat group by cluster1, cluster2, cluster3, cluster4, cluster5" ) dat1 dat1[ dat1$target_count>=10 & dat1$target_avg>0.63 , ] dat1[ dat1$target_count>=10 & ( dat1$target_avg<0.37 | dat1$target_avg>0.63 ), ] #на случай если оба "0" или "1" встречаются чаще 70%
好吧,我又注意到这件事了。事情是这样的,我有一个数据集,perdicts 12,然后他们的滞后期来了,lag1和lag2。以前,输入大多是在集合的开始,即滞后很少,然后不超过滞后1,很少滞后2。我可以理解,样本的数据量过大,但事实是,在归纳之前,滞后1和滞后2的频率更高。但事实是,以前的概括主要是在初始列,现在是在最后列....。几乎,所以推断....
所以你需要回滚到以前的版本。
我的航班很好。也许是因为样本中没有滞后期?
总的来说,它看起来不错,我想知道最后会发生什么。
关于委员会--我已经贴出了一些例子,但也有使用回归与四舍五入进行分类的模型,那里就不是那么明确了。我试着用两种不同的方式来组合投票。
1) 把所有的东西都归类到班级,选票多的班级。
即有三个模型的4条预报
c(0.1, 0.5, 0.4, 0.4) c(0.6, 0.5, 0.7, 0.1) c(0.1, 0.2, 0.5, 0.7) 我将进一步把它四舍五入到班上
c(0, 1, 0, 0) c(1,1,1,0) c(0,0,1,1) ,最后的预测向量将是c(0, 1, 1, 0),按票数计算。
2) 另一个选择是马上找到平均结果,然后再四舍五入到班级中去
结果将是c((0.1+0.6+0.1)/3, (0.5+0.5+0.2)/3, (0.4+0.7+0.5)/3, (0.4+0.1+0.7)/3)
或(0.2666667, 0.4000000, 0.53333, 0.4000000),或
c(0, 0, 1, 0)
包tsDyn SETAR功能
结果发现,阈值(像RSI中可以有两个阈值)是可变的。给出了惊人的结果。
另外,我们不要忘记分类中的校准算法。问题是,现实中的类别预测不是一个名义值,算法计算的是类别概率,是一个真实的数字。然后将这个概率除以例如一半,你就得到两个等级。如果概率是0.49和051,那就是两个班级呢?0.48和052怎么样?这是在划分阶级吗?这里是SETAR将分为两类的地方,在这两类之间将是Reshetovskie "围墙"。
总的来说,它看起来不错,我想知道最后会发生什么。
关于委员会--我已经贴出了一些例子,但也有使用回归与四舍五入进行分类的模型,那里就不是那么明确了。我已经尝试了两种不同的合并投票方式。
1)把所有的东西都归类为班级,选取得票最多的班级。
即有一个来自三个模型的4条预测
c(0.1, 0.5, 0.4, 0.4) c(0.6, 0.5, 0.7, 0.1) c(0.1, 0.2, 0.5, 0。7) 我将进一步四舍五入到类
c(0, 1, 0, 0) c(1,1,1,0) c(0,0,1,1) ,最后的预测向量将是c(0, 1, 1, 0) 按票数计算。
2)另一个选择是直接找到平均结果,然后才四舍五入到班级
,结果将是c((0.1+0.6+0.1)/3, (0.5+0.5+0.2)/3, (0.4+0.7+0.5)/3, (0.4+0.1+0.7)/3)
或(0.2666667, 0.533333, c(0,0,1)或
)
伙计们,请帮助我解决这个问题,因为我认为我不会得到答案。
http://ru.stackoverflow.com/questions/586979/%D0%9A%D0%B0%D0%BA-%D0%B8%D0%B7-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%B2%D1%8B%D1%87%D0%BB%D0%B5%D0%BD%D0%B8%D1%82%D1%8C-%D0%BD%D0%B5%D0%BA%D0%B8%D0%B5-%D0%B3%D1%80%D1%83%D0%BF%D0%BF%D1%8B-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%BF%D0%BE-%D1%83%D1%81%D0%BB%D0%BE%D0%B2%D0%B8%D1%8E
你也可以在这里回答,我不在意。
那我就在这里回答吧。
dat <- data.frame(cluster1=c(24,2,13,23,6), cluster2=c(5,15,13,28,12), cluster3=c(18,12,16,22,20), cluster4=c(21,7,29,10,25), cluster5=c(16,22,24,4,11), target.label=c(1,1,0,1,0))
dat <- rbind(dat, dat[1,], dat[1,])
#результат последней строки поменян на 0 для эксперимента
dat[7,"target.label"]=0
library(sqldf)
#для sqldf точек в названиях колонок быть не должно
colnames(dat)[6] <- "target"
dat1 <- sqldf( "select cluster1, cluster2, cluster3, cluster4, cluster5, avg(target) as target_avg, count(target) as target_count from dat group by cluster1, cluster2, cluster3, cluster4, cluster5" )
dat1
dat1[ dat1$target_count>=10 & dat1$target_avg>0.63 , ]
dat1[ dat1$target_count>=10 & ( dat1$target_avg<0.37 | dat1$target_avg>0.63 ), ] #на случай если оба "0" или "1" встречаются чаще 70%
tsDyn包是一个SETAR函数
SETAR具体指的是委员会的校准,还是说这是创建财务模型的一个独立话题?
我翻阅了软件包的手册,没有看到我需要的东西......情况是这样的:我有一个有10000个例子的训练表。并且有100个模型在这些例子上训练。为了测试这些模型,你可以用它们来预测相同的输入数据,得到100个向量,每个向量有10000个预测结果。SETAR可以用来以某种方式将所有这100个向量合并成一个?
然后,对于有新数据的预测,又会有100个预测,我们需要将它们合并成一个(不会有100个向量,而是100个单一的预测)。使用从训练数据中获得的委员会参数,SETAR是否也能做到这一点?
SETAR具体指的是委员会的校准,还是说这是创建财务模型的一个独立话题?
我翻阅了软件包的手册,我没有看到我需要的东西...情况是这样的:我有一个有10000个例子的训练表。我有100个模型在这些例子上训练。为了测试这些模型,你可以用它们来预测相同的输入数据,得到100个向量,每个向量有10000个预测值。SETAR可以用来以某种方式将所有这100个向量合并成一个?
然后,对于有新数据的预测,又会有100个预测,我们需要将它们合并成一个(不会有100个向量,而只是100个单一的预测)。SETAR是否也能做到这一点,使用从训练数据中得出的委员会参数?
所以你需要回滚到以前的版本。
我运行良好。也许是因为样本中没有滞后期?