035.相互検証(Cross-Validation)[Kaggle日本語訳]

このチュートリアルでは、モデルのパフォーマンスをより適切に測定するために相互検証を使用する方法を学習します。

はじめに

機械学習は反復的なプロセスです。

使用する予測変数、使用するモデルのタイプ、それらのモデルに提供する引数などの選択に直面します。これまでは、検証（またはホールドアウト）セットを使用してモデルの品質を測定することにより、データ駆動型の方法でこれらの選択を行ってきました。

しかし、このアプローチにはいくつかの欠点があります。これを確認するために、5000行のデータセットがあるとします。通常、データの約20％つまり1000行を検証データセットとして保持します。しかし、これはモデルのスコアを決定する際にランダム性を残します。つまり、モデルは、別の1000行では不正確であっても、1000行の1つのセットでうまく機能する可能性があります。

極端な場合、検証セットに1行のデータしかないことを想像できます。代替モデルを比較する場合、単一のデータポイントでどのモデルが最良の予測を行うかは、ほとんどの場合運の問題です。

一般に、検証セットが大きいほど、モデル品質の測定におけるランダム性（別名「ノイズ」）が少なくなり、信頼性が高くなります。残念ながら、トレーニングデータから行を削除することによってのみ、大きな検証セットを取得できるので、トレーニングデータセットが小さいほど、モデルが悪化します。

相互検証とは何ですか？

相互検証では、データのさまざまなサブセットに対してモデリングプロセスを実行して、モデル品質の複数の測定値を取得します。

たとえば、完全なデータセットを5つの部分に分割して、それぞれが全体の20％になるようにすることから始めることができます。このことを、データを5つの「フォールド」に分割したと言います。

次に、フォールドごとに1つの実験を実行します。

実験1では、最初のフォールドを検証（またはホールドアウト）セットとして使用し、その他すべてをトレーニングデータとして使用します。これにより、20％のホールドアウトセットに基づいたモデル品質の測定値が得られます。
実験2では、2番目のフォールドを検証（またはホールドアウト）セットとして使用し、2番目のフォールド以外をトレーニングデータとして使用します。これにより、2番目のフォールドを使用して、モデル品質の2番目の推定値を取得します。
すべてのフォールドを1回ずつホールドアウトセットとして使用して、このプロセスを繰り返すことで、ある時点でデータの100％がホールドアウトとして使用され、データセット内のすべての行に基づくモデル品質の測定値が得られます（すべての行を同時に使用しなくても）。