交易中的机器学习:理论、模型、实践和算法交易 - 页 1934

 
Valeriy Yastremskiy:

而你想要的结果是什么呢?,用谐波的方式来进行傅里叶。或正交多项式,有很多这样的例子。一切都可以被分解)。

我不需要分解,我需要创造。我需要创建一个能满足我需求的函数,我不知道这个函数是什么。

也许按谐波列举,但我将考虑所有的变体。

从本质上讲,它是相同的近似,但列举 不是为了减少误差,而是为了与条件的对应。


因此,我想知道这个搜索是 如何组织的 ,即使是在一个简单的谐波近似中,那里乘以什么来改变函数?

一般来说,将一个功能调整为另一个功能的机制是如何运作的?
 
mytarmailS:

我不需要分解,我需要创造。我需要从时间上创建一个能满足我的条件的函数,哪个函数我不知道,所以我需要创建一个搜索

可能是谐音枚举,但我将考虑所有的选项。

本质上,它是相同的近似,但 不是在减少误差,而是在与条件的对应上。


所以我想知道这个搜索是 如何组织的 ,即使是在一个简单的谐波近似中,那里乘以什么来改变函数?

一般来说,将一个功能调整为另一个功能的机制是如何运作的?

我不能用公式说,在从最大的时期到最小的时期的分解的意义上。你找到最大的谐波,从真实的信号中减去它,从剩下的信号中找到最大的一个,然后把它减到要求的精度。而在近似中(用直断线性函数近似表示真实信号),我们用直线表示离散部分的谐波。如果取样是半个周期(如果超过这个周期,什么也不会出来),我们将得到 "P "或极值之间的直线,如果是四分之一或更多,我们将得到断线。而如果我们减少采样步骤,我们就会提高精度。

如果价格选择较长,可以将其分解为较短的部分,并在这些部分上列举/选择线性、幂、谐和和对数函数。理想情况下,谐波和线性正交应该能解决这个问题。不止一次证明了这一点。但只是在历史上。

与市场没有关系,我们的功能/数学模型随着时间的推移而变化,没有明确的标准,没有证明需要多少数据来确定数学模型和它与相同的BP不匹配,除了在半期的离散性不会给出结果,这已经被证明)。所有的经验性或NS与MO)但也是经验性的。

没有功能与变化的条件,我们在这一段有一组谐波,在下一段有另一组谐波。声音的取样是48千赫兹,是我们听觉的两倍,所以我们在高频率上会有损失。而数字式每周期有2个信号电平,为1/48000秒。

 
mytarmailS:

我不需要分解,我需要创造。我需要从时间上创建一个能满足我的条件的函数,哪个函数我不知道,所以我需要创建一个搜索

可能是谐音枚举,但我将考虑所有的选项。

从本质上讲,它是相同的近似,但列举 不是为了减少误差,而是为了与条件的对应。


因此,我想知道这个搜索是 如何组织的 ,即使是在一个简单的谐波近似中,在那里乘以什么来改变函数?

一个功能与另一个功能的配合机制是如何运作的?
谐波,是通过傅里叶吗? 它只是将不同周期和振幅的正弦波A1*cos(2Pi*t/T1+Fi1)+A2*cos(2Pi*t/T2+Fi2) +...A - 振幅,T - 周期,Fi - 相位
 
mytarmailS:

我跟你说过多少次了,3次还是5次?

那么,他们为什么要编造它呢?之前发布的视频中,有一个人算是使用了这个奇迹般的魔鬼,并得出结论,这个样本适合训练...

 
Aleksey Vyazmikin:

那么,他们为什么要想出这个办法呢?早些时候发布的视频中,有一个人算是使用了这个神奇的工具,并得出结论,采样适合于训练...

他用了t-sne(喜欢),但这并不重要,它可以工作,而且工作得很好,但不像其他东西那样用于市场,只要从网上下载任何数据集,你就会发现它工作得很好,但...

但我可以得出一些结论:集群是稳定的,但它们与利润不相关,目标与利润相关,但在集群周围移动,可能是因为每个目标都是客观现实。 我将尝试通过其历史类似物来识别模式,但不是通过价格,而是通过umap,因为我从一开始就想。


罗夏
谐波,是不是像傅里叶波? 就是不同周期和振幅的正弦波加在一起 A1*cos(2Pi*t/T1+Fi1)+A2*cos(2Pi*t/T2+Fi2) +...A - 振幅,T - 周期,Fi - 相位

老兄,这很复杂....我理解谐波,但从谐波中收集系列并尝试它们可能是愚蠢的,可能它应该作为某物对某物的依赖来做,这是他妈的硬....。但如果做到了,就是圣 杯。

 
mytarmailS:

特征选择[编辑|编辑代码]

主要文章特征选择

特征选择方法 试图找到原始变量的一个子集(称为特征或属性)。有三种策略--过滤策略(例如特征积累 [en])、包装策略(例如,根据准确性进行搜索)和嵌入策略(根据预测误差,在建立模型时选择添加或删除特征)。另见组合优化问题

在某些情况下,数据分析,如回归分类,可以在缩小的空间中比在原始空间中更准确地完成[3]。

投影的特征[编辑|编辑代码]

特征投影将数据高维空间 转换到低维空间。数据的转换可以是线性的,如主成分法(PCM,但也有一些非线性 的缩小技术 对于多维数据,张量 表示可用于通过子空间的多线性训练 来降低维度 [en] [ 6]

我错过了有你解释的文字--我纠正自己

我马上有一些问题。

1.如何以任何规则的形式获得特征选择及其转换的结果,以便在代码中单独使用?

2.也许有一种方法可以将选定的特征和它们的转变可视化--通过树或其他东西?

3.你试过这些特征选择策略吗?

特征选择方法 试图找到原始变量的一个子集(这被称为特征或属性)。有三种策略--过滤策略(例如特征积累 [en]),包装策略(例如,根据准确性进行搜索),以及嵌入策略(根据预测误差选择属性,在模型建立过程中添加或删除)。另见组合优化问题

在某些情况 下,数据分析,如回归分类,可以在缩小的空间中比在原始空间中更准确地完成[3]

mytarmailS:

这就是我们昨天所做的。

降维[编辑|编辑代码]

对于高维数据集(即超过10个维度),通常在应用k-nearest neighbours算法(k-NN)之前 进行缩减,以避免维度诅咒的影响 [16]


降维的优点[编辑|编辑代码]

  1. 它减少了所需的时间和记忆。
  2. 消除多重共线性可提高机器学习模型的速度。
  3. 当缩小到很低的维度,如二维或三维 时,更容易在视觉上表示数据。

在我看来,从代码上看,聚类是独立的,投影构造也是独立的,然后我们只是在渲染时将聚类的结果用于调色--不是吗?

 
mytarmailS:

他用了t-sne(喜欢),但这并不重要,好吧,他们编造了它,它可以工作,而且工作得很好,但不适合市场,就像其他一切,从互联网上下载任何数据集,看到这个东西工作得很好,但...

但我可能会得出结论:群组是稳定的,但它们没有与利润产生共鸣,目标与利润产生共鸣,但在群组周围移动,可能是因为每个目标都是客观现实。 我想尝试使用历史类似物来识别模式,不使用价格,而是使用umap,因为我从一开始就计划。

那么,你如何在历史上标记它们进行分类?然后,所以你已经认出了他们,然后呢?有一天,我在4个集群中分布寻找目标......。除非你把目标从集群改变到集群。一般来说,我们需要了解为什么字符串会进入不同的群组--分析逻辑,如果有的话,并且与市场相连接。

 
Aleksey Vyazmikin:

错过了有你解释的文字--我纠正了

我马上有一些问题。

1.如何在代码中以任何规则的形式获得特征选择的结果与它们的转换,以便单独应用?

2.也许有一种方法可以将选定的特征和它们的转变可视化--通过树或其他东西?

3.你试过这些特征选择策略吗?

4.在我看来,代码中的聚类是独立的,投影构建是独立的,然后我们只是在渲染时将聚类的结果用于调色,不是吗?


1.这和想要10万的收盘价是一样的,由规则描述,在代码中单独应用

2.属性是以函数的形式出现的,这意味着什么?

3.我尝试了一些东西;它降低了维度,但质量并没有提高,但我仍然认为将10k属性压缩到500而不损失质量,我觉得非常酷。

4.没错,我们先降维然后再聚类,这里也写了-------。对于高维数据集(即维数高于10),通常 应用K-近邻法之前先降 维。

 
mytarmailS:


1.这与希望10万的收盘价在代码中单独使用 的规则描述是一样的

2.特征以函数的形式出现,并带有所有的后果

3.我尝试了一些东西;它降低了维度,但质量没有增加,但它仍然很酷,例如,我们可以将10k属性压缩到500而没有质量损失,我觉得非常酷,或压缩到50而有可接受的损失。

4.没错,我们先降维然后再聚类,这里是这么说的------- 对于高维数据集(即维数高于10的数据集),通常 应用k-近邻法之前进行 降维。

1.你一定是误解了这个问题--只是把规则卸载到一个文件中,而且有规则,这在2中得到了确认。

2.

3.预测因素之间可能有很高的相关性,包括转换后?是否有可能得到一个已退休的预测器的列表,或者它们没有被退休,只是被合并成了一组而已--想不通。

4.也许我误解了代码,或者把它归类错了,我再贴一次

#way <- "F:\\FX\\R\\tree_classification_2019_fS_Eks_29\\Test_Pred_ALL_01.csv"  #  ваш путь
way <- "F:\\FX\\R\\2020_04_11_Pred_New_Full\\Pred_New_Full.csv"  #  ваш путь

dt <- read.csv(file = way,header = T,sep = ";") #  читаем файл

target <- dt$Target_100 #  целевую в отдельную переменную

dt <- dt[, ! colnames(dt)  %in% 
           #            c("Target_100_Buy","Target_100_Sell",
           #             "Time","Target_100")  ] #  удаляем не нужные колонки
                      c("Target_100")  ] #  удаляем не нужные колонки

km <- kmeans(um$layout, centers = 4)           

#  роскоментируем и Устанавливаем нужные пакеты после чего эту строку можно удалить
#install.packages(c("rgl", "car" , "umap"))



#  про umap
#https://cran.r-project.org/web/packages/umap/vignettes/umap.html
#https://github.com/ropenscilabs/umapr

library(umap)
um <- umap(dt,n_components=3)   
#  n_components=3  во сколько измерений уменьшаем данные, можно 100 можно 1
#  можно 333, но нам для 3 д надо трех мерное пространство поетому у нас n_comp=3
um.res <- um$layout #  наши три вектора выход 



#тут  все настройки по пакету  car
#  http://www.sthda.com/english/wiki/amazing-interactive-3d-scatter-plots-r-software-and-data-visualization
library(car)  # 3 d

target <- as.factor(target)  #   target нужен для того чтобы окрасить точки в цвет целевой

scatter3d(x = um.res[,1], 
          y = um.res[,2], 
          z = um.res[,3],
          groups = as.factor(km$cluster),
          grid = FALSE, 
          surface = FALSE,
          ellipsoid = TRUE,
            bg.col = "black")


write.csv(km$cluster, file = "F:\\FX\\R\\2020_04_11_Pred_New_Full\\Pred.csv", sep = ";",row.names = F,col.names = T)
 
Aleksey Vyazmikin:

1.你一定是误解了这个问题--它是关于将规则上传到一个文件中,而且有规则,这一点在第2点中已经确认。

2.这很好。

3.预测因素之间可能有很高的相关性,包括转换后?是否有可能得到一个已退休的预测器的列表,或者它们没有被退休,只是被合并成了一组而已--想不通。

4.也许我误解了代码,或者把它归类错了,我再贴一次

1.我还是不明白。

3.转化后不可能有相关的特征。是的,我们可以说它们被合并到其他结构(属性)中,但没有多余的东西

4.

dt <- dt[, ! colnames(dt)  %in% 
           #            c("Target_100_Buy","Target_100_Sell",
           #             "Time","Target_100")  ] #  удаляем не нужные колонки
                      c("Target_100")  ] #  удаляем не нужные колонки

论文是一个表达式,即不能对其进行评论 )))