トレーディングにおける機械学習:理論、モデル、実践、アルゴトレーディング - ページ 1308

 
エリブラリウス

ISOはすべてについてリリースされているわけではありません)。この場合、MOコベナンツのいう第2項を参考にするとよいでしょう。

使っているキャットバストでは、テストと書いてあっても、説明に「検証に使う」と書いてあるんですよ。他のパッケージでは、XGBoost、Darch - 彼らは、検証を書き込みます。

当初はテストセットとトレーニングセットがあり、クロスバリデーション法が登場し、そのようなサンプルをバリデーションサンプルと呼んでいた(実際にはトレーニングとテストをクロスバリデーションするために使用される)。ブースティングは,学習を停止するためのサンプルが必要で,テストと呼ばれ,学習結果をテストするために使われるため検証もされるが,クロスバリデーションとは対照的に学習はしない.

私が言いたいのは、トレーニング方法によってサンプリングの使い方が違うのではないかということです。バリデーションは、サンプリングの一種というより、行動なのですが...。

 
ウラジミール・ペレヴェンコ

検証セットは学習に関与している。学習時にモデルのパラメータを設定するために使用される。検証セットを必要としないパッケージもありますが、この場合、fit()関数の中で学習セットを何らかの割合でtrain/validに分割します。でも、自分で指定したほうがいいんですよ。

テストスイートは学習済みモデルの品質をチェックするために使用され、このデータは学習中にモデルによって見られるべきではありません。

ですから、これらはやはり別物です、混乱する必要はありません。

グッドラック

よし、そうしよう。私は、当初、自分の頭の中で概念を分けることがいかに便利か、それが他人にとって都合が悪いのであれば、自分の概念だけでいさせてほしいという話をしたので、IRの様々な手法の作成に参加した百人の発言についての統計はありませんし、異議を唱える気もありません。

 
アレクセイ・ヴャジミキン

よし、そうしよう。私は元々、自分の中で概念を分けて考えるのが心地よい、他の人が心地よくないのなら、自分一人で概念を持っていればいい、という話をしたので、MOのさまざまな方法を作るのに関わった数百人の発言に関する統計もなく、反論する気もない。

そう、この話題はすでにかなりスパム化されており、今や誰もが独自の用語を発明しなければならないのです:)

特にデータサンプルの名称については、その形成や利用方法には様々なものがあり、本質的なことは、これらのデータが学習プロセスに参加した(In-Sample)か、参加しなかった(Out-Of-Sample)か、というただ一つの事実しか残っていないので、議論する意味がないように思います。
なぜなら、ISのサンプルはすべて、何らかの形でモデルの適合に使われ、OOSはその品質を評価するためにのみ使われるからです。


そして、曖昧さをなくすために、トレーニングに使用したすべてのサンプル-ISをバックテストとして表現し、OOSをフォワードとして表現するという、通常のテスターの形で結果を提示することが論理的であると思います。

 
イワン・ネグレシュニー

そう、この話題はすでにかなり散らかっていて、今はみんなが自分の専門用語を作らなければならないのです:)

特にデータサンプルの名称については、その形成や利用方法には様々なものがあり、本質的なことは、IMHOでは、これらのデータが学習過程に参加したかどうか(In-Sample)、(Out-Of-Sample)という事実しか残っていないので、議論する意味はないように思います。
なぜなら、ISのサンプルはすべて、何らかの形でモデルの適合に使われ、OOSはその品質を評価するためにのみ使われるからです。


また、わかりやすくするために、トレーニングで使用したすべてのサンプル-ISをバックテストとして、OOSをフォワードとして、テスターに馴染みのある形で結果を提示するのが筋だと思います。


なぜなら、トレーニングに参加しなかったサンプルは、参加したサンプルよりもずっと小さいことが多く、そのような壊れたグラフでは視覚的に何もわからないからです。

 
ちなみに、Catbustにはクロスバリデーションがあり、その場合は「テスト」キーは不要で、さまざまな方法で分解された1つのサンプルを使用します。
 
Aleksey Vyazmikin:
ところで、Catbustはクロスバリデーション(交差検証)を採用しています。

科学者はそんなことを考えながら仕事をしていますが、神経回路網の 中で何が起こっているのか、ましてや森の中で何が起こっているのか、物事が正確にどのように、なぜ、どの瞬間にどこで変化するのか、理解できていないのです。我々は彼らの権威を信じて、高い力を信じながら彼らのモデルを適用するしかないのです。

 
ケシャ・ルートフ

科学者はそんなことを考えながら仕事をしていますが、 森は おろか、神経ネットワークで何が起こっているのか 物事がどのように、なぜそうなっているのか、物事はどの瞬間にどこで変化するのか、なぜそうなるのか、彼らは理解していません。我々はただ彼らの権威を信じて、高い力を信じて彼らのモデルを適用するしかないのです。

森林・樹木を扱ったことがないのは明らかです。その解答は、人間が容易に解釈できるものです。木アルゴリズムに関する基本的な記事であれば、2、3ページで説明できるだろう。
 
アレクセイ・ヴャジミキン

よし、そうしよう。私は元々、自分の中で概念を分けて考えるのが心地よい、他の人が心地よくないのなら、 自分の概念で一人にして くれ、という話をしたので、MoDの様々な方法を作るのに関わった何百人もの人の発言に関する統計もなく、反論する気もない。

頑固は頑固なりに近い意味です。あなたのアイデアをMOで成功させるために、ぜひお役立てください。これらは、研究者にとって有用な資質です。;-)

PS 葉の選択システムの名前を考えました:「ハーバリウム」-木、森、切り株、ジャングルからの方法のコレクションを追加します。
 
エリブラリウス

PS 葉の選択システムの名前を考えました:「ハーバリウム」-木、森、切り株、ジャングルからの方法のコレクションを追加します。

)))木こりや製材所と言ったところでしょうか。

 
ケシャ・ルートフ

科学者はそのようなものに取り組んでいますが、森はおろか、神経ネットワークで何が起こっているのか、どのように、どのような理由で、すべてが正確に、どの瞬間に何が変化し、なぜそうなるのか、彼らは理解しておらず、我々は彼らの権威を信じ、高い力を信じて彼らのモデルを適用するしかないのです。

私も一部同意見で、今は高速計算の時代で、コンピュータを使う前は紙で計算していましたが、今は情報量も処理方法も膨大で、プロセスよりも結果に注目した方が適切な場合が多いのです。

理由: