Всем привет! Меня зовут Алексей Бурнаков. Я Data Scientist в компании Align Technology. В этом материале я расскажу вам о подходах к feature selection, которые мы практикуем в ходе экспериментов по анализу данных. В нашей компании статистики и инженеры machine learning анализируют большие объемы клинической информации, связанные с лечением...
使用部品数の関数として、R^2と勝訴率のグラフを描きました。フロントテストでは、41成分で最も良い結果が得られました(約70%の利得、非常に良い)。でも、バックテストのチャートからはそれがわからず、ずっと上がり続けているんです。部品の重要度に頼れば、73を取るべきだったのですが、これはfronttestではベストな結果ではありません。
フロントテストのR^2は、50%以上のゲインでもマイナスになることがあります。これは、要求される結果がアンバランスで、クラスの数「0」と「1」が異なるため、それらの平均が0.5ではなく、そこからR^2が少し悪くなっています。
もしそうなら、私のデータセット(バイナリ分類)を添付します。
9つの入力パラメータ(冒頭)と1つの出力パラメータ(一番右の列)があり、すべて情報量が多い。
出力が1の場合、次のバーの始値 差が正、0の場合、負となります。
興味あるのは、私のアルゴリズムと比較して、どちらがより優れた汎化能力を持つかということである。
初回なので、私のデータセットを添付します。
9つの入力パラメータ(冒頭)と1つの出力パラメータ(一番右の列)があり、すべて情報量が多い。
出力が1であれば、次のバーの始値 差がプラス、0であればマイナスとなります。
私のアルゴリズムより優れた汎化能力を持っているのは誰か、という問いに興味があります。
1.予測変数の情報量」はどのように証明されるのでしょうか?
2.一般化可能性」とは?
1.予測因子情報量」はどのように証明されるのか?
2.一般性」とは何か?
1.少なくとも1つの有益な予測変数が標本から取り除かれた場合、一般化可能性が著しく低下すること
2.動画をご覧ください。
1.少なくとも1つの情報量の多い予測変数が標本から取り除かれた場合、一般性が著しく低下する。
2.動画をご覧ください。
Yuriさん、こんにちは。データに目を通すようにします。
ごあいさつ
もしデータにご興味があれば、チャートから情報を収集してファイルに書き出す スクリプトをレイアウトすることも可能です。
1.少なくとも1つの情報量の多い予測変数が標本から取り除かれた場合、一般性が著しく低下する。
2.動画をご覧ください。
2.動画をご覧ください。
申し訳ないが、自分の愛する人以外にも、すべてを知っているだけでなく、ずっと進歩しているばかりか、何百万人もの人々(ここに学生を含めれば)が使うアルゴリズムに実装している人がたくさんいることをまだ説明されていない無学な博士課程学生のいつもの戯言だ
1.少なくとも1つの情報量の多い予測因子を標本から取り除くと、一般性が著しく低下すること
信じてください、残念ながらこれは何の証明にもならないのです。さらに、予測変数のセットが悪い(ノイズが多い)場合、この効果はノイズが多いほど強くなります。これは非常に簡単に説明すると、ノイズが多いほどアルゴリズムが「都合の良い」値を見つけやすくなるのです。
問題全般について。
与えられたターゲット変数に対する予測変数の重要度を決定するアルゴリズムはかなり多く存在します。これらのアルゴリズムは、モデル構築のアルゴリズムに組み込まれているものと、自律的に存在するものに分けられる。私の意見と、ブランチやここで引用したリンクの人々の意見では、これらのアルゴリズムはすべて1つの共通の欠陥に苦しんでいます。予測変数の中にノイズの多い予測変数がある限界数あると、アルゴリズムは機能しなくなり、さらにターゲット変数に関連する予測変数の廃棄を始めます。
そのため、この支店では、最初の予測因子セットをあらかじめクリーンアップし、残りの予測因子については標準的な手法で作業するようにしています。
ファイルについて
1.あなたのデータで6つの分類モデルを構築することができませんでした:エラーが50%を超えています。もしご希望であれば、ここに結果を掲載します
2.この結果の理由は、予測変数のセットが非常に貧弱であること、つまりノイズ、つまりターゲット変数に関連しない予測変数を持っていることです。予測因子6、7、8は、ある程度の予測力を持つが、ごくわずかである。私はそのような予想屋とは一緒に仕事をしない。他はノイズにしかならない。
PS.
本当に興味があるのなら、カレット。マスターしたら、ビデオに映っていたあの賢い人に教えてあげましょう。Caretは、約200のモデル+非常に便利なプリペイド機能+2つの非常に優れた予測器選択 アルゴリズムを持っています。
PPSS.
あるフォーラムで、「予測変数がターゲット変数に関連している」ことの意味について、私のビジョンを掲載したことがあります。
だから
ターゲット変数である男性/女性を例にとります。
予測因子:服装。
予測変数(衣服)がスカートとズボンだけを含む場合、多くの国の人口に対して、この予測変数はターゲット変数に100%関連することになります - 相互曖昧さです。しかし、服にはさまざまな種類があり、バラエティに富んでいます。したがって、100%ではなく、もっと少ない。つまり、ある服の集合は対象変数と関係を持ち、別の集合は原理的に全く関係を持たないということを得ることができるのです。すなわち、ノイズ。そこで、ある窓ではノイズになり、別の窓ではノイズにならない、そのような非ノイズ予測器をどのように見つけるかが問題となります。そして、この「うるささ」の尺度は何なのか。
ごあいさつ
もしデータに興味があれば、チャートから情報を集めてファイルに書き出す スクリプトを掲載することもできる。
私も質問があります。訓練時に予測器を構築し、テスト時に誤差を測定した方が良いのでしょうか?そして、あなたの結果と比較することができますよね?
同僚たち、もし時間があれば、記事の下で質問してくれませんか?https://habrahabr.ru/company/aligntechnology/blog/303750/。
Habrは全く沈黙している!