マクロ経済指標に基づく市場予測 - ページ 9

 
transcendreamer:


回帰はどんなデータでもうまくいくし、他の方法よりも優れているとは限らない。しかし、特に計算機資源に対する 需要が極めて少ないことを考慮すれば、十分な効果がある。


回帰はどんなデータでもうまくいくわけではありません。特に、このスレッドの冒頭で紹介されている線形回帰の場合はそうです。

線形回帰を適用する際の問題は、2つのレベルに分けられる。

1.回帰係数の一次推定。まさにEVALUATION。y=a+inx と書くと、回帰は方程式ではないので、ここに正確さはなく、正しい記入は y ~ a+inx で、チルダ記号は係数が定数ではなく、ある精度の確率変数の推定値であることを強調しているので、あなたの投稿にあるように足し算はできないのです。

従って、回帰フィッティングパッケージを使用する場合、各係数は、指定された係数値を確率変数として特徴付けるいくつかの数値のセットとマッチングされます。合計結果は、右端の列にアスタリスクで表示されます。3つのアスタリスクは、係数の値を定数とみなすか、むしろ誤差と広がりの小さいランダムな値の推定値とみなすことができることを意味しています。アスタリスクがない場合、与えられた値は全く何もなく、いかなる方法でも使用することはできない。

しかし、面倒なのはこれだけではありません。そして、主なトラブルは以下の通りです。

2. 線形回帰は定常データ、すなわち、ほぼ定数moと定数分散を持つデータにのみ適用できる。トレンドの除去につながる、おっしゃるような変形は、静止した形に持っていこうとするものです。これらはすべてARIMAモデルの形で一般化されるが、ARIMAモデルで問題が解決しない場合、そのような金融系列があり、そのほとんどがARIMAモデルである。

このような微妙な違いをすべて見分けなければ、線形回帰で得られる結果は空虚な数字遊びになってしまうのです。

 
faa1947:

回帰はどんなデータでもうまくいくわけではありません。特に、このスレッドの冒頭で紹介されている線形回帰の場合はそうです。

線形回帰を適用する際の問題は、2つのレベルに分けられる。

1.回帰係数の一次推定。まさにEVALUATION。y=a+inx と書くと、回帰は方程式ではないので、正確ではなくなり、正しい入力は y ~ a+inx で、チルダ記号は係数が定数ではなく、ある精度の確率変数の推定値であることを強調しているので、あなたの投稿にあるように足し算はできないのです。

従って、回帰フィッティングパッケージを使用する場合、各係数は、指定された係数値を確率変数として特徴付けるいくつかの数値のセットとマッチングされます。合計結果は、右端の列にアスタリスクで表示されます。3つのアスタリスクは、係数の値を定数とみなすか、むしろ誤差と広がりの小さいランダムな値の推定値とみなすことができることを意味しています。アスタリスクがない場合、与えられた値は全く何もなく、いかなる方法でも使用することはできない。

しかし、面倒なのはこれだけではありません。そして、主なトラブルは以下の通りです。

2. 線形回帰は定常データ、すなわち、ほぼ定数moと定数分散を持つデータにのみ適用できる。ご指摘の、トレンドの除去につながる変形は、まさに定常型に持っていこうとするものです。これらはすべてARIMAモデルの形で一般化されるが、ARIMAモデルで問題が解決しない場合、そのような金融シリーズがあり、そのほとんどがARIMAモデルである。

このような微妙な違いをすべて見分けなければ、線形回帰で得られる結果は空虚な数字遊びになってしまうのです。

うまくいくのですが )))) そして単なる線形回帰 です。

係数の合計は、粗雑な方法だと思いますね。

係数の有意性や分散分析を試みたが、実際にはほとんど意味がないように思われる

最終的な曲線がどのような挙動を示すのか、理論値と元のデータとの関連性をグラフ上で視覚的に確認できるため、より簡単で便利です。

だから、解のベクトルをそのまま使う。

それがデータにうまくフィットすれば、万々歳です。

他のより良い解決策、他の方法を試したが、結果は回帰のそれと大差ない

いくつかの係数がある限度内で浮くことがありますが、最終的なカーブにはあまり影響しません。

しかし、それでいいのです。これらの係数はどうせ不安定で、時間とともに徐々に変化していくので、評価する意味がないのです

定常性については、もちろん市場には存在しないので、どうすればいいのか?

私のようなやり方は学術的ではないのでしょう。

が、では何を代用すればいいのか?

 
transcendreamer:

.....

が、では何を代用すればいいのか?

線形回帰に 限定していますが、次のような質問もできます。「目の前の課題に応じて、最も適切な回帰の種類を選択しなさい。線形に限らず)膨大な数の回帰をブラックボックスの集まりと考え、得られた結果を評価する上で意味のある問題に集中すればよいのです。

線形回帰から短いズボンのように抜け出すには、多くの時間を費やす必要があります。

次に、あなたが予測しているものの種類を決定する、すなわち:あなたは、通貨ペアの価格などの値を予測しようとしている、または価格の方向、端末の "ロングショート "や他の注文の質的特性のいくつかの種類を予測することです。

あとは、何らかの時間的な投資を決めることです。

最初の段階では、100を超えるモデルの世界への扉として、ラトルをお勧めします。線形回帰に関するあなたの推論のレベルから判断すると、1日か2日の時間です。最終的に6種類のモデルができあがりますが、そのうちの1つはほとんどお馴染みの「一般化線形」と呼ばれるものだけで、他はもっと面白いモデルで、実際に予測モデルを作ることができるものです。

 
faa1947:

線形回帰に 限定していますが、次のような質問もできます。「目の前の課題に応じて、最も適切な回帰の種類を選択しなさい。線形に限らず)膨大な数の回帰をブラックボックスとして考え、結果を評価するという意味のある問題に集中することができるのです。

線形回帰から短いズボンのように抜け出すには、多くの時間を費やす必要があります。

次に、あなたが予測しているものの種類を決定する、すなわち:あなたは、通貨ペアの価格などの値を予測しようとしている、または価格の方向、端末の "ロングショート "や他の注文の質的特性のいくつかの種類を予測することです。

あとは、何らかの時間的な投資を決めることです。

最初の段階では、100を超えるモデルの世界への扉として、ラトルをお勧めします。線形回帰に関するあなたの推論のレベルから判断すると、1日か2日の時間です。最終的に6種類のモデルができあがりますが、そのうちの1つはほとんどお馴染みの「一般化線形」と呼ばれるものだけで、他はもっと面白いモデルで、実際に予測モデルを作ることができるものです。

残念ながら、私が言ったように、他のオプティマイザは線形回帰と比較して有意に良い結果を示していない。

科学的な応用では有利に働くかもしれないが、取引では正確な予測は幻想である。

GLMは保険用に開発されたもので、私の記憶が間違っていなければ、SVMやADAは焦点が狭すぎる、ロジスティック回帰は明白な理由で適さない

ニューラルネットワークとランダムフォレストは、ゼロルート問題を回避でき、任意のターゲット関数を指定できるため、汎用性が高く、より有利である

が、少なくとも人情家の私にとっては、本当に頭の痛い話です。

主成分法は自分にとって発見だったが、自分の問題(ポートフォリオ)には適用できていない。

ランダムフォレストは確かに注目に値しますし、私もしばらくしてから試してみようと思っていますが、あまり効果は期待できません。

ガラケーにGAがないのが残念、もしくは見つからなかった

 

私は線形回帰を「安っぽい」とは言いません。それに、私が他の機種をたくさん試していないと決めつける必要はありません。

任意の非線形モデル y = f(x1,x2,...) がテイラー級数に分解できることは誰もが知っています。

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ...+ a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

数学に詳しい人なら、関数 f(x1,x2,...) を多項式(正確には単項式)の底 x, x^2, x^3 などに分解 することだと知っているはずだ。線形回帰はこの展開の線形項のみを保持するため、一次近似となる。非線形基底は、Chebyshev、Hermite、Legendreなど、様々なよく知られた多項式から選択することができる。しかし、多項式を選択する正しい方法は、QR分解、またはより一般的なケースとして、入力x1, x2, ...の統計的特性を考慮した直交多項式の選択です。ニューラルネットワークは、コルモゴロフの定理に従って、入力の指数関数に対して同じ分解を行おうとするものである。これは、入力の指数関数が互いに直交していないため、数値上の問題や解法のバリエーションが多く、非常に不便な分解です。いずれにせよ、これらの非線形関数の分解は、すべて一次近似として線形モデルを持つことになる。つまり、線形近似(回帰)で期待通りの結果が得られないのであれば、より高度な非線形性に行く意味はないのである。線形回帰でも様々な方法(RMS、MNM、その他任意の誤差関数)で解くことができ、私もすべて試しました。

ちなみに、すべての計量経済学的なARMA、ARIMAなどのモデルは、上記のモデル y[n] = f(x1[n-d1],x2[n-d2],...) の個別ケースで、一部の入力が遅延出力、すなわちy[n-1]、y[n-2]となるので、「自己回帰」モデルと呼ばれます。自己回帰モデルをRMS法やCMM法で解くと、得られた係数が振動的なモデルになるため、健全ではありませんが。BurgやModified Covarianceなどが必要です。しかし、私はこの「自己回帰」の章をずいぶん前に通過してしまったので、もう戻ってきたくありません。私の市場モデルは、インプットの1つとして、ディレイドエグジットを選択することができますが。しかし、これまでのところ、そのような「自己回帰的」な入力を選択したことはなく、経済指標は過去の価格そのものよりも価格の予測に適していることを意味します(これは、技術分析に基づくトレーダーの手法の大半の基礎を形成しています)。

 
faa1947:

提案があります。

列の名前をつけたtsv.ファイルをドロップします。どの(どの)列をターゲット変数として使用するかを指定します。当然ながら、テーブルの行はある一点を参照する必要がある。

ラトルで実行し、許可を得て、非常にまともな6機種の結果をここに掲載します。


提案受付中。使用可能なデータファイル形式を指定する。マットでいいのか?データ量が多いな、CSVだとディスクを食いつぶしてしまいそうだ。MATはわずか6MB。

ただし、2000年から2015年までの予測は、予測日以前のデータに基づいて行うという条件があるんだ。つまり、2000年第1四半期の予測をする場合、2000年第1四半期までのデータで運用することになる。2015年を含む利用可能なすべてのデータから予測因子を選択し、それを使って2000年第1四半期を予測することは、たとえモデルの係数が2000年第1四半期以前のデータから計算されていたとしても、先を見通すことになる。過去にこのエラーが発生したことがありますが、私のモデルは驚異的な精度の予測をしていました。つまり、私の条件は、予測因子を選択し、予測モデル自体は予測日以前のデータから計算することです。

 
gpwr:

オファーを受けた。使用可能なデータファイル形式を指定する。マットは大丈夫ですか?データ量が多すぎて、CSVがディスクを食ってしまう。MATはわずか6MB。


最初の問題は、ファイルです。考えないといけませんね。MATはRをとるんだろうなーRとMATLABは親和性が高いけど、どうしたらいいのかわからないしなー。準備が整ったら、また書き込みます。

 
gpwr:

私は線形回帰を「安っぽい」とは言いません。



非定常データに対して「情けない」。

そして、私の投稿を要約すると、ツールは問題に適合していなければならない、ということです。

回帰分析の場合 - 金融系列の非定常性が根本的な問題である。ですから、ツールキットを選択する際には、選択したツールが非定常性の問題をどのように解決しているかを見る必要があります。私が述べたARIMAは非定常性の問題をある程度解決してくれますが、テイラー級数が非定常性の問題を解決するというのは聞いたことがありません。回帰分析の枠組みの中では、ARIMAが唯一のツールではないが、米国の政府機構では今でも使われているし、最も進んだツールでもない。有名どころでは、ARCHにいろいろ手を加えたものを挙げます。

非定常性の結果は、モデルのスーパーフィッティングである。それは、並外れた精度でモデルを構築できても、学習サンプルの外ではうまくいかない、そしてこっそり、うまくいったりいかなかったりする、という事実として現れます。複雑なモデルよりも単純なモデルの方が優れているというお話は、よく知られた事実で、単純なモデルよりも複雑なモデルの方がスーパーフィッティングがしやすいという事実に基づいています。

 
gpwr:

私は線形回帰を「安っぽい」とは言いません。それに、私が他の機種をたくさん試していないと決めつける必要はありません。

任意の非線形モデル y = f(x1,x2,...) がテイラー級数に分解できることは誰もが知っています。

y = a0 + a11*df/dx1*x1 + a12*df/dx2*x2 + ...+ a21*d^2f/dx1^2*x1^2 + a22*d^2f/dx2^2*x2^2 + b11*d^2f/dx1/dx2*x1*x2 + ...

数学に詳しい人なら、関数 f(x1,x2,...) を多項式(正確には単項式)の底 x, x^2, x^3 などに分解 することだと知っているはずだ。線形回帰はこの展開の線形項のみを保持するため、一次近似となる。非線形基底は、Chebyshev、Hermite、Legendreなど、様々なよく知られた多項式から選択することができる。しかし、多項式を選択する正しい方法は、QR分解、またはより一般的なケースとして、入力x1, x2, ...の統計的特性を考慮した直交多項式の選択です。ニューラルネットワークは、コルモゴロフの定理に従って、入力の指数関数に対して同じ分解を行おうとするものである。これは、入力の指数関数が互いに直交していないため、数値上の問題や解法のバリエーションが多く、非常に不便な分解です。いずれにせよ、これらの非線形関数の分解は、すべて一次近似として線形モデルを持つことになる。つまり、線形近似(回帰)で期待通りの結果が得られないのであれば、より高度な非線形性に行く意味はないのである。線形回帰でも様々な方法(RMS、MNM、その他任意の誤差関数)で解くことができ、私もすべて試しました。

ちなみに、すべての計量経済学的なARMA、ARIMAなどのモデルは、上記のモデル y[n] = f(x1[n-d1],x2[n-d2],...) の個別ケースで、一部の入力が遅延出力、すなわちy[n-1]、y[n-2]となるので、「自己回帰」モデルと呼ばれます。自己回帰モデルをRMS法やCMM法で解くと、得られた係数が振動的なモデルになるため、健全ではありませんが。BurgやModified Covarianceなどが必要です。しかし、私はこの「自己回帰」の章をずいぶん前に通過してしまったので、もう戻ってきたくありません。私の市場モデルは、インプットの1つとして、ディレイドエグジットを選択することができますが。しかし、これまでのところ、それは経済指標が過去に価格そのものよりも価格を予測するために適していることを意味するような "自己回帰 "エントリを選択したことがない(これはテクニカル分析に基づくトレーダーの方法の大半の基礎である)。

ということなんでしょうね ))))

データセットに対して回帰計算を行うと、「まあまあ」のモデルが得られる。他の手法でも、ほぼ常に「まあまあ」のモデルが得られる。

そして、もし線形回帰が「多少なりとも」モデルを与えるのであれば、他の方法がそれを少し改善するかもしれないことに気づきます。

 
予測」「予知」などの定義、少なくとも「予測」の地平はどうなっているのか、明確にしていただければと思います。 これがないと「予測」の意味がありません。なぜなら、地平線によって、同じ「予測」がある地平線では正しく、別の地平線では不正確になる可能性があるからです。しかも、そのようなプロットは何度も交互に繰り返されることがあります。