Сбербанк запустил сервис, в котором диагноз по описанным пациентами симптомам будет ставить искусственный интеллект. Цифровая медицина — перспективное направление, но эксперты пока видят очень много рисков в «лечении» нейросетями Входящие в группу Сбербанка компании — «СберЗдоровье», «СберМед ИИ» и «Лаборатория по искусственному интеллекту» —...
我在维基上给出的那个关于半成品的链接。我理解这些标记是稳定部分的边缘。
ZZ不走,因为打分就这样进行,没有任何章节的差异,学习也是这样进行的,如果通过打分ZZ,就像有太多的例子,有不同的特点,学习的效果也不可能好。
标签是已知的目标{classes}。其余的数据没有它们,只是以特征的形式存在。
这些标签应该是带有某种意义的。例如,标明是猫或鳄鱼的标签
在我们的情况下,我们不知道这些猫在哪里。我的意思是,我们不知道任何模式,也不知道它们有什么不同,这使得它更加困难。
因此,我们可以通过暴力破解初始标记,通过变体
是已知的目标/类别而已。没有他们的其余数据
这就像设定正确的搜索方向一样))。
这些标签应该是带有某种意义的。例如,说是猫或鳄鱼的标签。
在我们的情况下,我们不知道这些猫在哪里。也就是说,我们不知道任何模式,也不知道它们有什么不同,这使任务更加困难。
因此,我们可以通过暴力破解初始标记,通过变体。
完全的暴力破解总是比不完全的暴力破解好。关于不完全正确的分区的观点一直都存在。而维度的诅咒只有通过正确的搜索方向才能得到解决。这是一个寻找/确定正确的区域来搜索变体的问题。
我试图扩展GMM的小样本可接受性的想法。训练6个月,测试5年。 我把标签分成固定大小的n个部分。 对于每个部分,我创建了自己的GMM模型,从每个部分产生1000个样本,把它们堆起来,训练catbust。我选择了功能,得到了这样的结果。
第二个版本,同样的标签,同样的分区,但有预混合。
X = X.sample(frac=1.0)
在这两种情况下,都使用了一个固定的目标。如果你愿意,我可以重现这个实验。我不善于解释这种现象,也许有一个解释。
我试图扩展GMM的小样本可接受性的想法。训练6个月,测试5年。 我把标签分成固定大小的n个部分。 对于每个部分,我创建了自己的GMM模型,从每个部分产生1000个样本,把它们堆起来,训练catbust。我选择了功能,得到了这样的结果。
第二个版本,同样的标签,同样的分区,但有预混合。
在这两种情况下,都使用了一个固定的目标。如果你愿意,我可以重现这个实验。我对这种现象的解释能力不强,也许有一个解释。
对不起,各位,有一个问题。
你的网格中的加权比例是多少,你在多少个交易 上进行训练?
我想了解这些数量之间的关系,并猜测过度训练对这种关系的依赖性。谢谢你。
这个混合是在gmm之前还是在boost之前?你需要检查训练/测试的班级平衡。也许零去了培训,一去了测试。你也可以尝试按买入和卖出标记分开聚类。
混合是在创建GMM之前完成的。
在这之前,我按条件丢弃标签。
这总能使等级平衡达到1/1,并有轻微变化。
在这种情况下,115个标签被混合,并被分成4个部分。之后,在此基础上创建了4个GMMs。从每一个标签中抽取1000个标签,并将它们合并成一个数据框架。在下一步,它将被分割成测试和三轨。
样本班的平衡与理想的情况有些不同。但火车和测试的样本比例大致相同
下面是模拟结果,同样的115个标签样本被分成4部分,但没有混合。 当然,类别的平衡性要好一些,但我认为这对结果影响不大。
这听起来可能很傻,但我认为系列中存在某种时间上的相关性,GMM模型在系列的不同部分发现了这种相关性。如果你通过洗行来打破排序,它就会消失。
我没有想到单独的集群,我今晚会试试。
搅拌是在创建GMM之前进行的。
在这样做之前,我按条件放弃了标签。
这总能使等级平衡达到1/1,并有轻微变化。
在这种情况下,115个标签被洗牌,并被分成4个部分。之后,在此基础上创建了4个GMMs。从每一个标签中抽取1000个标签,并将它们合并成一个数据框架。在下一步,它将被分割成测试和三轨。
样本班的平衡与理想的情况有些不同。但火车和测试的样本比例大致相同
下面是模拟结果,同样的115个标签样本被分成4部分,但没有混合。 当然,类别的平衡性要好一些,但我认为这对结果影响不大。
这听起来可能很傻,但我认为系列中存在某种时间上的相关性,GMM模型在系列的不同部分发现了这种相关性。如果你通过洗行来打破排序,它就会消失。
没有想到单独的集群,我今晚会试试。
我得画出来,不是很清楚......那么,在这两种情况下的分布是不同的,这是一个事实。另外,你已经删除了序列化的内容。最有可能的是,分布结果是非常无信息的,取样后的新点开始位于一个不明确的地方。即系列中的信息丢失了,是的,因为这些引文不是独立的。
或者在一些简单的例子上做(不是报价),然后进行比较。
我必须画出来,这不是很清楚...那么,在这两种情况下的分布是不同的,这是一个事实。加上你已经删除了这个系列。最有可能的是,分布结果是非常无信息的,取样后的新点开始位于一个不明确的地方。即系列中的信息丢失了,是的,因为这些引文不是独立的。
或者在一些简单的例子上做(不是报价),然后进行比较。
马克西姆,你好。我已经很久没有来这里了......我已经试着处理了,我有很多问题)))。我认为MARKUP是一种差价?标记是当前值与当前+一个随机数的简单比较,根据符号>或<你把标记1或0.对吗?对于一个测试,你设置markup=0.0?(如果托盘MARKUP=0.00001我想)))对吗?
马克西姆,你好,我已经很久没有来过这里了...我正在努力理解它,我有很多问题))))。我认为MARKUP是一种差价?标记是当前值与当前+一个随机数的简单比较,根据符号>或<你把标记1或0.对吗?对于一个测试,你把markup=0.0?(对于托盘,我认为MARKUP=0.00001))对吗?
你好。是的,这是正确的。测试器中也使用了同样的标记。关于文章,可能最好在文章中询问。要在一个地方拥有。
我分析反馈,看看哪些地方可以改进。