036.XGBoost[Kaggle日本語訳]

このチュートリアルでは、勾配ブースティングを使用してモデルを構築および最適化する方法を学習します。この方法は、多くのKaggleの競争を支配し、さまざまなデータセットで最先端の結果を達成します。

はじめに

前書きこのコースの多くでは、ランダムフォレスト法を使用して予測を行いました。これは、多くの決定木の予測を平均するだけで、単一の決定木よりも優れたパフォーマンスを実現します。

ランダムフォレスト法を「アンサンブル法」と呼びます。定義上、アンサンブル手法は、いくつかのモデルの予測を組み合わせます（たとえば、ランダムフォレストの場合はいくつかの木）。

次に、勾配ブースティングと呼ばれる別のアンサンブル手法について学習します。

勾配ブースティング

勾配ブースティングは、サイクルを経てモデルをアンサンブルに繰り返し追加する方法です。

それは、単一のモデルでアンサンブルを初期化することから始まります。その予測はかなり単純なものになる可能性があります。（予測が非常に不正確であっても、その後のアンサンブルへの追加により、これらのエラーに対処できます。）

次に、サイクルを開始します。

まず、現在のアンサンブルを使用して、データセット内の各観測値の予測を生成します。予測を行うために、アンサンブル内のすべてのモデルからの予測を追加します。
これらの予測は、損失関数（たとえば、平均二乗誤差など）を計算するために使用されます。
次に、損失関数を使用して、アンサンブルに追加される新しいモデルを適合させます。具体的には、この新しいモデルをアンサンブルに追加することで損失が減少するように、モデルパラメーターを決定します。（補足：「勾配ブースティング」の「勾配」は、損失関数で勾配降下法を使用して、この新しいモデルのパラメーターを決定するという事実を指します。）
最後に、新しいモデルをアンサンブルに追加し、…
…繰り返します！

例えば

X_train、X_valid、y_train、およびy_validにトレーニングおよび検証データをロードすることから始めます。

この例では、XGBoostライブラリを使用します。 XGBoostは、極端な勾配ブースティングの略で、パフォーマンスと速度に焦点を当てたいくつかの追加機能を備えた勾配ブースティングの実装です。（Scikit-learnには別のバージョンの勾配ブースティングがありますが、XGBoostにはいくつかの技術的な利点があります。）

次のコードセルでは、XGBoost用のscikit-learn API（xgboost.XGBRegressor）をインポートします。これにより、scikit-learnの場合と同じように、モデルを構築して適合させることができます。出力に示されているように、XGBRegressorクラスには多くの調整可能なパラメーターがあります。これらについてはすぐに学習します。

また、予測を行い、モデルを評価します。

パラメータチューニング

XGBoostには、精度とトレーニング速度に劇的な影響を与える可能性のあるいくつかのパラメーターがあります。理解しておくべき最初のパラメーターは次のとおりです。

n_estimators

n_estimatorsは、上記のモデリングサイクルを通過する回数を指定します。これは、アンサンブルに含めるモデルの数と同じです。

値が低すぎると、適合が不十分になり、トレーニングデータとテストデータの両方の予測が不正確になります。
値が高すぎると過剰適合が発生し、トレーニングデータの予測は正確になりますが、テストデータの予測は不正確になります（これが私たちの関心事です）。

一般的な値の範囲は100〜1000ですが、これは以下で説明するlearning_rateパラメーターに大きく依存します。

アンサンブル内のモデルの数を設定するコードは次のとおりです。

Early_stopping_rounds

Early_stopping_roundsは、n_estimatorsの理想的な値を自動的に見つける方法を提供します。早期停止により、n_estimatorsのハードストップが行われていなくても、検証スコアの改善が停止するとモデルの反復が停止します。 n_estimatorsに高い値を設定してから、early_stopping_roundsを使用して、反復を停止する最適な時間を見つけるのが賢明です。

ランダムな偶然により、検証スコアが改善されない単一のラウンドが発生することがあるため、停止する前に許容するストレート劣化のラウンド数の数を指定する必要があります。 Early_stopping_rounds = 5を設定するのが妥当な選択です。この場合、検証スコアが5回連続して低下した後に停止します。

Early_stopping_roundsを使用する場合は、検証スコアを計算するためのデータも確保する必要があります。これは、eval_setパラメーターを設定することによって行われます。

上記の例を変更して、早期停止を含めることができます。