トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング

mytarmailS 2020.07.30 12:44 #19331

Valeriy Yastremskiy：

そして、最終的にどうしたいかというと、高調波でフーリエへの道です。あるいは直交多項式、たくさんありますね。あらゆるものが分解できる)

分解するのではなく、創造することが必要なのです。私のニーズを満たすような機能を作る必要がある、この機能が何なのかわからない。

おそらく高調波による列挙でしょうが、私はすべてのバリエーションを検討します。

本質的には同じ近似であるが、誤差の低減ではなく、条件への対応を重視する。

そこで、この探索が どのように構成されて いるのか知りたいのですが、単純な調和近似でも、そこに何が掛け合わされて関数が変化するのでしょうか？

ある機能を別の機能に調整する仕組みは、一般的にどうなっているのでしょうか？

Valeriy Yastremskiy 2020.07.30 13:17 #19332

mytarmailS:

分解するのではなく、創造することが必要なのです。条件を満たす関数を時間から作る必要があるが、どの関数か分からないので、検索を 作る必要がある。

おそらくハーモニック・エニュメレーション だと思いますが、あらゆる選択肢を検討します。

本質的には同じ近似であるが、誤差の低減ではなく、条件への対応を重視する。

そこで、この探索が どのように構成されて いるのか知りたいのですが、単純な調和近似でも、そこに何が掛け合わされて関数が変化するのでしょうか。

ある機能を別の機能に調整する仕組みは、一般的にどうなっているのでしょうか？

最大周期から最小周期への分解という意味で、数式では言えません。最大の高調波を見つけ、それを実信号から引き、残りの中から最大のものを見つけ、必要な精度で引き算するのです。そして、近似（実信号の直線破線関数による近似表現）では、高調波を直線で離散的に表現している。サンプリングが半周期（それ以上だと何も出てこない）なら、極値間の直線「P」、4分の1以上なら折れ線になります。そして、サンプリングステップを減らせば、精度が上がります。

価格選択が長い場合は、短いセクションに分割し、そのセクションで線形、べき乗、調和、対数関数を列挙/選択することができる。理想的にはハーモニクスとリニアオーソゴナルで解決することです。一度だけでなく、何度も証明されている。ただし、歴史上だけ。

市場とのポイントはありません、我々は時間の経過とともに関数/数学的モデルの変化と明確な基準を持っていない、どのくらいのデータが数学的モデルと同じBPとそのミスマッチを決定するために必要であることが証明されていない、半期で離散以外の結果を与えることはありません、これは証明されている).すべて経験的、またはMOを使ったNS)でありながら、経験的でもある。

条件が変わっても機能はありません。このセクションには1組の高調波があり、次のセクションには別の高調波があります。音のサンプリングは48キロヘルツで、私たちが聞いている音の2倍なので、高音域で負けてしまうのです。そして、デジタルは1/48000秒の周期で2つの信号レベルがあります。

Rorschach 2020.07.30 13:18 #19333

mytarmailS:

分解するのではなく、創造することが必要なのです。条件を満たす関数を時間から作る必要があるが、どの関数か分からないので、検索を 作る必要がある。

おそらくハーモニック・エニュメレーション だと思いますが、あらゆる選択肢を検討します。

要するに同じ近似値なのだが、誤差を減らすことではなく、条件との対応を重視して列挙して いる。

そこで、この探索が どのように構成されて いるのか知りたいのですが、単純な調和近似でも、そこに何が掛け合わされて関数が変化するのでしょうか？

ある機能を別の機能に当てはめる仕組みはどうなっているのでしょうか？

高調波、フーリエ法ですか？単純に周期と振幅の異なる正弦波を足したもの A1*cos(2Pi*t/T1+Fi1)+A2*cos(2Pi*t/T2+Fi2)+...A：振幅、T：周期、Fi：位相

Aleksey Vyazmikin 2020.07.30 19:16 #19334

mytarmailS:

何度言ったらわかるんだ、3、5？

では、なぜ作り上げたのかというと、先ほど掲載されていた、このミラクルデビルをなんとなく使ってみて、「このサンプルはトレーニングに適している」と結論づけた男性の動画が......。

mytarmailS 2020.07.30 19:58 #19335

Aleksey Vyazmikin：

さて、なぜ思いついたかというと、この奇跡の道具をなんとなく使ってみて、サンプリングがトレーニングに適していると結論づけた男性の動画が先にアップされていたのですが......。

彼はt-sne（のようなもの）を使いましたが、それは問題ではありません、それは機能し、うまく機能しますが、他のもののように市場には使えません、ただインターネットから任意のデータセットをダウンロードすれば、うまく機能することがわかりますが...。

しかし、いくつかの結論は出せる。クラスタは安定しているが、利益とは相関しない。ターゲットは利益と相関するが、クラスタの周りを移動する。おそらく、それぞれのターゲットは客観的な現実だからだ。過去の類似性によってパターンを認識しようとするが、価格ではなく、最初から望んでいたようにumapによって認識しようと思う。

ロールシャッハ：
高調波って、フーリエ波みたいなもの？周期と振幅の異なる正弦波を足しただけ A1*cos(2Pi*t/T1+Fi1)+A2*cos(2Pi*t/T2+Fi2) +......A：振幅、T：周期、Fi：位相

男、複雑です......。ハーモニクスのことはわかるけど、ハーモニクスからシリーズを集めて試着するのは多分アホで、多分何かに依存する形でやるべきだよな、クソ難しい...。とはいえ、やってしまえばこっちのもんだ

Aleksey Vyazmikin 2020.07.30 20:05 #19336

mytarmailS:

特徴量の選択[edit｜edit code]を行う。

主な記事：特徴量の選択

特徴選択法は、元の変数の部分集合（特徴または属性と呼ばれる）を見つけようとするものである。フィルタ戦略（特徴量の蓄積 ^[en]など）、ラッピング戦略（精度に応じた検索など）、エンベッディング戦略（予測誤差に基づき、モデル構築時に追加・削除する特徴を選択する）の3つである。組合せ最適化問題も参照のこと。

場合によっては、回帰や分類などのデータ解析が、元の空間よりも縮小された空間の方がより正確に行えることもある^[3]。

特徴の投影[edit｜edit code] のページです。

特徴量の投影は、高次元空間から低次元空間へのデータ変換を行う。データの変換は、主成分法（PCM）のように線形であることもあるが、非線形なダウンサイジング手法も数多く存在する^。多次元データに対しては、テンソル表現を用いて、部分空間の多次元の学習により次元を減らすことができる ^[en] ^[6]．

皆さんの解説で文章を見落としていました～と訂正します。

さっそくですが、いくつか質問させてください。

1.特徴量の選択とその変換の結果を、コード内で個別に使用するためのルールの形で取得するにはどうすればよいでしょうか？

2.選択した特徴量とその変換を、ツリーなどで視覚化する方法はないでしょうか。

3.これらの特徴選択戦略を試されましたか？

特徴選択法は、元の変数の部分集合（これを特徴または属性と呼ぶ）を見つけようとするものである。フィルタ戦略（特徴量の蓄積 ^[en] など）、ラッピング戦略（精度に応じた検索など）、エンベッディング戦略（予測誤差に基づきモデル構築時に追加・削除する属性を選択）の3つである。組合せ最適化問題も参照のこと。

場合によっては、回帰や分類などのデータ解析が、元の空間よりも縮小された空間の方がより正確に行えることもある^[3]。

mytarmailS:

昨日もそうでしたね。

次元数削減[edit｜edit code] を行う。

高次元のデータセット（すなわち10次元以上）の場合、次元の呪いの影響を避けるために、通常、k-nearest neighboursアルゴリズム（k-NN）を適用する前にダウンサイジングが行われる^[16]。

次元削減のメリット[編集|編集コード]。

必要な時間やメモリを削減することができます。
多重共線性を除去することで、機械学習モデルの処理速度が向上する。
2Dや3Dといった非常に低い次元に縮小した方が、視覚的にデータを表現しやすくなります。

そして、クラスタリングとプロジェクション・コンストラクションは別々で、レンダリングの際にクラスタリングの結果をカラーグレーディングに使っているように私には見えたのですが......。

Aleksey Vyazmikin 2020.07.30 20:13 #19337

mytarmailS:

彼はt-sne（のようなもの）を使いましたが、それは重要ではありません、まあ、彼らはそれを作り上げました、そしてそれは機能し、素晴らしい働きをしますが、市場には通用しません、他のすべてのように、インターネットから任意のデータセットをダウンロードし、事は素晴らしい働きをすると見ていますが...。

しかし、私は結論付けるかもしれない：クラスタは安定しているが、利益とは共鳴しない、ターゲットは利益と共鳴するが、クラスタの周りを移動する、おそらくそれぞれのターゲットは客観的な現実であるからだ。私は、価格を使用せず、当初から計画していたようにumapを使って、過去の類似性を使ってパターンを認識しようとしたいのです。

では、分類のために履歴に印をつけるにはどうしたらいいのでしょうか。そして、それらを認識した上で、どうするのか？先日、4つのクラスターに分散してターゲットを探していたのですが......。クラスタごとにターゲットを変更しない限り。一般的には、文字列が異なるクラスタになった理由を理解する必要があります。もしロジックがあり、市場と連続しているのであれば、それを分析します。

mytarmailS 2020.07.30 20:15 #19338

Aleksey Vyazmikin：

説明のある文章を見逃していました - 訂正します。

さっそくですが、いくつか質問させてください。

1.特徴量の選択とその変換の結果を、コード内の別のアプリケーションのための任意のルールの形で取得する方法は？

2.選択した特徴量とその変換を、ツリーなどで視覚化する方法はないでしょうか。

3.これらの特徴選択戦略を試されましたか？

4.コードからすると、クラスタリングもプロジェクションも別々で、レンダリング時にクラスタリング結果をカラーグレーディングに使っているように見えますが、違いますか？

1.コードに別のアプリケーションのためのルールで記述された100kの終値を望むことと同じである。

2.属性は機能という形で提供され、それが意味するものはすべて含まれる。

3.あることを試してみた。次元は減るが、品質は上がらない。それでも、10kの属性を品質を落とさずに500に圧縮するのはカッコいいと思う。許容範囲の損失で50にするのもカッコいいと思う。

4. その通り、まず次元数を減らしてからクラスタリングしています、ここにも書いてあります ----- 高次元のデータセット（つまり次元数が10以上）の場合、通常はk-nearest neighborhood 法を適用する前にサイズダウンを行います。

Aleksey Vyazmikin 2020.07.30 20:38 #19339

mytarmailS:

1.100個の終値をコードで別々に使えるようにルールで記述してほしいのと同じこと

2.特性は、すべての結果を伴う関数として表示されます。

例えば、10kの属性を500に圧縮しても品質は落ちないし、50に圧縮しても品質は落ちない。

4. このように、まず次元削減を行ってからクラスタリングを行ったと、ここに書いてある ----- 高次元のデータセット（すなわち10次元以上）の場合、次元削減は通常、k-nearest neighbor 法を適用する前に行われます。

1.質問を誤解されているようですが、あくまでルールをファイルにアンロードすることであり、ルールがあることは2.で確認済みです。

2.

3.変換後を含め、予測因子間の相関が高い可能性が高い？引退した予測因子のリストを入手することは可能ですか？それとも引退せずにグループに統合されただけですか？

4.もしかしたら、私がコードを誤解していたか、クラスタリングが間違っていたかもしれないので、もう一度投稿します

#way <- "F:\\FX\\R\\tree_classification_2019_fS_Eks_29\\Test_Pred_ALL_01.csv"  #  ваш путь
way <- "F:\\FX\\R\\2020_04_11_Pred_New_Full\\Pred_New_Full.csv"  #  ваш путь

dt <- read.csv(file = way,header = T,sep = ";") #  читаем файл

target <- dt$Target_100 #  целевую в отдельную переменную

dt <- dt[, ! colnames(dt)  %in% 
           #            c("Target_100_Buy","Target_100_Sell",
           #             "Time","Target_100")  ] #  удаляем не нужные колонки
                      c("Target_100")  ] #  удаляем не нужные колонки

km <- kmeans(um$layout, centers = 4)           

#  роскоментируем и Устанавливаем нужные пакеты после чего эту строку можно удалить
#install.packages(c("rgl", "car" , "umap"))



#  про umap
#https://cran.r-project.org/web/packages/umap/vignettes/umap.html
#https://github.com/ropenscilabs/umapr

library(umap)
um <- umap(dt,n_components=3)   
#  n_components=3  во сколько измерений уменьшаем данные, можно 100 можно 1
#  можно 333, но нам для 3 д надо трех мерное пространство поетому у нас n_comp=3
um.res <- um$layout #  наши три вектора выход 



#тут  все настройки по пакету  car
#  http://www.sthda.com/english/wiki/amazing-interactive-3d-scatter-plots-r-software-and-data-visualization
library(car)  # 3 d

target <- as.factor(target)  #   target нужен для того чтобы окрасить точки в цвет целевой

scatter3d(x = um.res[,1], 
          y = um.res[,2], 
          z = um.res[,3],
          groups = as.factor(km$cluster),
          grid = FALSE, 
          surface = FALSE,
          ellipsoid = TRUE,
            bg.col = "black")


write.csv(km$cluster, file = "F:\\FX\\R\\2020_04_11_Pred_New_Full\\Pred.csv", sep = ";",row.names = F,col.names = T)

mytarmailS 2020.07.30 20:58 #19340

Aleksey Vyazmikin：

1.質問を誤解されているようですが、ルールのファイルへのアップロードについてであり、2.で確認したように、ルールはあります。

2.これはいい。

3.変換後を含め、予測因子間の相関が高い可能性が高い？引退した予測因子のリストを入手することは可能ですか？それとも引退せずにグループに統合されただけですか？

4.もしかしたら、私がコードを誤解していたか、クラスタリングが間違っていたかもしれないので、もう一度投稿します

1.まだ理解できていない。

3.変換後に相関のある特徴が存在し得ない。たしかに、他の構造（属性）にマージされていると言えるが、冗長性なし

4.

dt <- dt[, ! colnames(dt)  %in% 
           #            c("Target_100_Buy","Target_100_Sell",
           #             "Time","Target_100")  ] #  удаляем не нужные колонки
                      c("Target_100")  ] #  удаляем не нужные колонки

は1つの表現であり，コメントすることはできません )))

トレーディングにおける機械学習：理論、モデル、実践、アルゴトレーディング - ページ 1934

特徴の投影[edit｜edit code] のページです。

次元数削減[edit｜edit code] を行う。

次元削減のメリット[編集|編集コード]。