ベイズ回帰 - このアルゴリズムを使ってEAを作った方はいらっしゃいますか? - ページ 38

 
Vasiliy Sokolov:
すべての言葉を購読しています。もし、次のセクションで、この回帰の特性が全く違うものになるのなら、回帰を構築することに何の意味があるのでしょうか。モデルをいじってデータに合わせることはいくらでもできますが、少なくとも線形回帰 の観点からは、Y(価格)はX(時間)に依存しないと認める方が簡単です。

これも常識の一例です。

私の同僚がCourseraでデータサイエンスを学んでいて、卒業プロジェクトでランダムに生成された系列(マルチンゲール、または正規分布の増分を持つウィーナー過程とも言える)に対して線形回帰近似を作り、系列の次のセグメントですべての回帰パラメータが完全に予測不可能にドリフトすることを実証したんだ。おもちゃの問題。

回帰を使うなら(原理はよく知らないが、私はくし形回帰に傾く)、価格刻みか価格デリバティブでやるだろう。そして、堅牢な指標を手に入れるチャンスです。しかし、この場合でも正規分布の残差を得ることは非現実的である。

 
Alexey Burnakov:

これも常識の一例です。

私の同僚がCourseraでデータサイエンスを学んでいて、卒業プロジェクトでランダムに生成された系列(マルチンゲール、または正規分布の増分を持つウィーナー過程とも言える)に対して線形回帰近似を作り、系列の次のセグメントですべての回帰パラメータが完全に予測不可能にドリフトすることを実証したんだ。おもちゃの問題。

回帰を使うなら(原理はよく知らないが、私はくし形回帰に傾く)、価格刻みか価格デリバティブでやるだろう。そして、堅牢な指標を手に入れるチャンスです。しかし、この場合でも正規分布の残差を得ることは非現実的である。

;)

リッジ回帰では、残差分布の正規性は必要ありません。

ベイズ回帰は櫛形回帰と似ていますが、ノイズがデータに正規分布しているという仮定に基づいています。したがって、データ構造の一般的な理解がすでに存在していると考えられ、これにより線形回帰と 比較してより正確なモデルを 得ることが可能になっています。

 
リッジ回帰は多重共線性の問題を解決する - 互いに相関する独立変数が非常に多い場合
 
Дмитрий:

;)

リッジ回帰では、残差の分布の正規性は要求されない。


まあ、正直なところ、回帰亜種はよく知らないんですけどね。しかし、残差の正規性が要求されないというのは非常に良いことです。そして、リッジ回帰の方が市場には適用しやすいかもしれません。そこで、係数の値には制約が課される。私は、この種の見積もり回帰で確かな結果が得られた例を知っています。

また、一部の回帰因子の係数をゼロに縮退できる場合は、L2-regulationによる回帰も存在する。リグレッサーの数が多く、入力ベクトルの次元を小さくしたい場合に有効である。

しかし、詳細を知らずに回帰行列の迷路に入り込むのは危険なことです。

 
Дмитрий:
リッジ回帰は多重共線性の問題を解決する - 互いに相関する独立変数が非常に多い場合

そして、これはリッジ回帰の非常に便利な点でもあります。

実際には、回帰因子間の独立性を得ることはほとんど非現実的であり、共線性の存在は順序線形回帰の すべての統計量を歪めてしまう。したがって、SanSanychが正しく指摘するように、メソッドの適用可能性が先に来るのです。

 
Alexey Burnakov:


また、個々の回帰因子の係数をゼロに縮退することが可能な場合は、L2-regulationを用いた回帰もある。これは、リグレッサーの数が多く、入力ベクトルの次元を小さくする必要がある場合に有効である。


Lasso-regression(ラッソ回帰)?そう、そういうものがあるんです。

実際には、リッジ回帰を使用する方が便利です。これは、因子の包含または除外を伴う回帰として実装されています

 
Дмитрий:

Lasso回帰?そう、そういうものがあるんです。

実際には、リッジ回帰がより便利で、因子の包含・除外を伴う回帰として実装されている

ええ、そうです。

以下は、ロバスト回帰を使って、コンペティションの3位という相場を予測した例ですが、詳細は不明です:http://blog.kaggle.com/2016/0 2/12/winton-stock-market-challenge-winners-interview-3rd-place-mendrika-ramarlina/。

そして、もうひとつのゴージャスな例として、私が思うに、https://www.kaggle.com/c/battlefin-s-big-data-combine-forecasting-challenge/forums/t/5966/share-your-approach

Sergey Yurgensonを読み、彼のコードを見る(別のコンテストで2位)。

私のアルゴリズムはMatlabで書かれたもので、以下にコードを提供します。このアルゴリズムの主な考え方は、少数の予測因子を用いた線形回帰モデル(ロバスト回帰)であり、各予測因子のスループットのp値に基づいて選択される。

Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
Winton Stock Market Challenge, Winner's Interview: 3rd place, Mendrika Ramarlina
  • 2016.12.02
  • blog.kaggle.com
The Stock Market Challenge, Winton's second recruiting competition on Kaggle, asked participants to predict intra and end of day stock returns. The competition was crafted by research scientist at Winton to mimic the type of problem that they work on everyday. Mendrika Ramarlina finished third in the competition with a combination of simple...
 

また、L1 / L2-regulationの件ですが、 https://msdn.microsoft.com/ru-ru/magazine/dn904675.aspx

いずれにせよ、お互いを知ることは有益なことです。

 
Alexey Burnakov:

そして、これはリッジ回帰の非常に便利な点でもあります。

実際には、回帰因子間の独立性を得ることはほとんど非現実的であり、共線性の存在は順序線形回帰の すべての統計量を歪めてしまう。したがって、SanSanychが正しく指摘するように、メソッドの適用可能性が先に来るのです。

主成分法を試してみました。理想的なようです。この変換により、互いに相関がゼロの回帰因子の集合が得られる。やはり、主な多様性を説明する「主要なもの」を選択することが可能なのです。

分類作業にかかる時間を大幅に削減。少なくとも、誤差を%単位で減らすことができるだろう。

 
СанСаныч Фоменко:

主成分法を試してみました。理想的なようです。この変換により、互いに相関がゼロの回帰因子の集合が得られる。また、主な多様性を説明する「主要な」ものを選択することも可能である。

分類作業にかかる時間を大幅に削減。少なくとも、誤差を%単位で減らすことができるだろう。

最近、同僚と線形回帰の 歴史と発展について議論していた。長い話を短くすると、当初はデータも少なく、予測因子も少なかったのです。通常の線形回帰は、いくつかの仮定で管理されます。その後、IT技術の発展によりデータ量が増え、予測変数の数は簡単に数万を超えるようになった。このような条件下では、通常の線形回帰は役に立ちません - 過学習です。そのため、正則化されたバージョン、分布の要件にロバストなバージョンなどが登場した。