記事「CatBoostモデルにおける交差検証と因果推論の基本、ONNX形式への書き出し」についてのディスカッション

 

新しい記事「CatBoostモデルにおける交差検証と因果推論の基本、ONNX形式への書き出し」はパブリッシュされました:

この記事では、機械学習を使用してボットを作成する方法を提案しています。

結論が間違っていることが多く、検証する必要があるように、機械学習モデルによる予測結果も再確認する必要があります。再確認のプロセスを自分に向ければ、自制心が生まれます。機械学習モデルの自己制御は、異なるが似たような状況で何度も予測に誤りがないか確認することに尽きます。モデルのミスが平均的に少なければ過学習ではないことを意味しますが、頻繁にミスをする場合は、そのモデルに何か問題があることを意味します。

選択したデータでモデルを一度訓練すると、自己制御ができなくなります。無作為なサブサンプルでモデルを何度も訓練し、それぞれの予測の質を確認し、すべての誤差を合計すれば、実際に間違っているケースと、よく当たっているケースについて、比較的信頼性の高い図を得ることができます。これらのケースは、2つのグループに分けられ、互いに分離することができます。これは、ウォークフォワード検証や交差検証の実施に似ているが、追加要素があります。これが自制心を獲得し、よりロバストなモデルを得る唯一の方法です。

したがって、訓練データセットで交差検証をおこない、モデルの予測値と訓練ラベルを比較し、すべてのフォールドで結果を平均化する必要があります。平均的に誤って予測された例は、最終的な訓練セットから誤りとして削除されるべきです。また、予測可能なケースと予測不可能なケースを区別し、すべての可能な結果をより完全にカバーできるようにするために、すべてのデータに対して2つ目のモデルを訓練する必要があります。 

作者: Maxim Dmitrievsky

理由: