В этой статье описаны цели выбора характеристик и приводятся примеры, поясняющие его роль в совершенствовании данных в процессе машинного обучения. Эти примеры взяты из Студии машинного обучения Azure. Реконструирование признаков: этот процесс направлен на создание дополнительных признаков на основе соответствующих существующих необработанных...
こんな仕事もあるんですね。 ヘッジファンドとのことですが、契約したらどんなことをするんですか?
私は異なるモデルで実行していますが、今のところ、あなたと同じように0.5を得ました。
まあ、0.5と0.513は違いますよ、もちろん取引にはあまり関係ないですが、それでも。彼らは自分たちをヘッジファンドと呼んでいますが、法的にはどうなのか、アメリカには正式にはそのような組織はないのですが、間違っているかもしれません。登録すれば、1週間前から市場の予測に参加することができます。このようなデータセットで、誰かが1万ドル以上を集めることに成功していますが、個人的には数百ポンドしか稼げなかった人たちを知っています)))
データセットを投げてきて、それでネットワークを学習させて、それからどうするんですか? トリックがあると思うんですが、特徴選択をする必要があるんです )
https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features
つまり、どのように機能するのでしょうか?データセットを投げて、私はその上でネットワークを学習させなければなりません。)
https://docs.microsoft.com/ru-ru/azure/machine-learning/machine-learning-data-science-select-features
登録してロールケーキを読むと、そこに半分のページがあります。このセットをダウンロードし、学習し、テスト用で実行し、それを彼らに送るだけで、結果がどのように見えるかの例があるので、idとカラム名は彼らのものと同じであるべきです。
そうですね、後で試してみます。要するに、このデータセットは絶望的です、パターンがありません )
numeraiは今年、何度かルールを変えている。
以前は、訓練テーブルでモデルを訓練し、テストテーブルで誤差をチェックし、予測値を送ると、隠されたテストテーブルにそれを外挿し、その誤差をカウントするというシンプルで良い方法でした。隠しテーブルの誤差が少ない方が勝ち。テストデータセットでの誤差が、彼らの隠れデータセットでの誤差と本当に一致していたので、自分のモデルを確認することができたのは、非常に良かったし正解でした。
その後、何かを変更したところ、テストデータセットでのエラーと、隠していたチェックデータセットでのエラーの相関がなくなってしまったのです。トップからの指導者はすべて消え、ただ運良く自分のモデルを隠しチェック台に入れた人がランダムに勝ちました。numerai側の失敗をイミフ、いくつかのランダムなゴミとコンテストではありません。
そして、適当な人たちばかりが乱入してきたのを見て、自分たちの間違いに気づき、何かを変えたのです。ここで、予測値はいくつかの基準に従って評価される。一番腹が立つのは、「独自性」の基準で、もし誰かが以前に同じような結果を送っていたら、あなたの結果は盗作として拒否されることです。つまり、複数の人が同じフレームワークを使ってモデルを作った場合、早起きして予測を送った人がお金を手にすることができるのです。
モデルの精度は、利益を計算する上で全く意味をなさなくなった。エラー0が出て、トップで1位になっても、何も稼げません。トップは、自分たちがダウンロードするテストデータで結果を示すので、トップは、自分たちが隠したチェック表の結果を示さなくなったのです。
今のコンテストのあり方はナンセンスだし、透明性もないし、すべてがめちゃくちゃです。またコンテストの何かを変更するのを待っている、願わくば再び適切なものになることを。
そうですね、後でやってみます。要するにこのデータセットは絶望的で、パターンがないんです)
このテーブルを試してみてください。data_type=="validation "の行に対してのみ、モデルを学習させます。これはモデルを評価するためのデータで、トップに入るためのものです。100%の精度を達成すれば、上位の1位となります。でも、このチートで賞金はもらえませんよ。
明日やってみます。)
このテーブルを試してみてください。data_type=="validation "の行に対してのみ、モデルを学習させます。これはモデルを評価するためのデータで、トップに入るためのものです。100%の精度を達成すれば、上位の1位となります。でも、そんなズルいことをしても金賞はもらえない。
また0.5
トレーニングデータセットと評価データセットでの結果がどのように一致するかを理解することが重要である。論理的には(間違っているかもしれませんが)データはランダムに2つのグループに分けられ、最初のグループはモデルによって学習され、2番目のグループはモデルによって予測・評価されるだけなのです。
学習させたデータと同じものを予測すると、どのような結果になるのでしょうか?
そして、学習させなかったデータを予測し、両方の場合のモデルの精度を比較します。
もし、学習済みデータでは100%の精度で予測できるのに、推定データでは50%しか予測できないとしたら、そのモデルは過度に学習されすぎていて、悪いモデルです。
トレーニングデータセットと評価データセットでの結果がどのように一致するかを理解することが重要である。論理的には(間違っているかもしれませんが)データはランダムに2つのグループに分けられ、最初のグループはモデルによって学習され、2番目のグループはモデルによって予測・評価されるだけなのです。
学習用と同じデータを予測したらどうなるか?
そして、学習に使わなかったデータを予測し、両方の場合のモデルの精度を比較します。
もし、学習済みデータでは100%の精度で予測できるのに、推定データでは50%しか予測できないのであれば、そのモデルは過剰に学習されすぎていて、悪いモデルだと言えます。
私も50%の予測を学びました。 分割された日付を削除して、同じセットをテストとして提出しました。
まず、集合が非常に大きいこと、次に特徴の性質がわからないこと、ベクトルやForestのような線形モデルが明らかに合わないこと、複雑な非格子を作る必要があること、などが理由でしょう。このスタジオのニューラルネットワークをより複雑なものにするために、例えばコンボリューションを行うなど、どのように修正すればよいのか、まだよく分かっていません。
これよりhttps://gallery.cortanaintelligence.com/Experiment/Neural-Network-Convolution-and-pooling-deep-net-2
私はまだグリッドに慣れていないのですが.)