ウォームアップとして、いくつかの機械学習の基礎を確認し、最初の結果をKaggleコンテストに提出します。
セットアップ
以下の質問はあなたの仕事についてのフィードバックを与えるでしょう。 次のセルを実行して、フィードバックシステムを設定します。
実行結果
Kaggle Learn Usersの住宅価格コンペティションのデータを使用して、住宅の(ほぼ)すべての側面を説明する79の説明変数を使用して、アイオワ州の住宅価格を予測します。
変更せずに次のコードセルを実行して、X_trainおよびX_validのトレーニングおよび検証機能を、y_trainおよびy_validの予測ターゲットとともにロードします。 テスト機能はX_testにロードされます。 (機能と予測ターゲットを確認する必要がある場合は、この短いチュートリアルを確認してください。モデルの検証について読むには、こちらをご覧ください。または、コース全体を確認してこれらすべてのトピックを確認する場合は、こちらから始めてください。 )
次のセルを使用して、データの最初の数行を印刷します。 これは、価格予測モデルで使用するデータの概要を取得するための優れた方法です。
実行結果
次のコードセルは、5つの異なるランダムフォレストモデルを定義します。 このコードセルを変更せずに実行します。 (ランダムフォレストを確認するには、こちらをご覧ください。)
5つから最適なモデルを選択するには、以下の関数score_model()を定義します。 この関数は、検証セットから平均絶対誤差(MAE)を返します。 最良のモデルが最低のMAEを取得することを思い出してください。 (平均絶対誤差を確認するには、こちらをご覧ください。)
変更せずにコードセルを実行します。
実行結果
ステップ1:いくつかのモデルを評価する
上記の結果を使用して、以下の行に入力してください。 どのモデルが最適なモデルですか? 答えは、model_1、model_2、model_3、model_4、またはmodel_5のいずれかである必要があります。
実行結果
ステップ2:テスト予測を生成する
すごい。 あなたは正確なモデルを作るものを評価する方法を知っています。 次に、モデリングプロセスを実行し、予測を行います。 次の行で、変数名my_modelを使用してランダムフォレストモデルを作成します。
実行結果
変更せずに次のコードセルを実行します。 コードはモデルをトレーニングおよび検証データに適合させ、CSVファイルに保存されるテスト予測を生成します。 これらのテスト予測は、コンテストに直接送信できます。
結果を送信する
ステップ2を正常に完了すると、結果をリーダーボードに送信する準備が整います。 まず、まだ参加していない場合は、コンテストに参加する必要があります。 したがって、このリンクをクリックして新しいウィンドウを開きます。 次に、[コンテストに参加]ボタンをクリックします。
次に、以下の手順に従ってください。
- ウィンドウの右上隅にある青い[バージョンの保存]ボタンをクリックして開始します。これにより、ポップアップウィンドウが生成されます。
- [保存してすべて実行]オプションが選択されていることを確認し、青い[保存]ボタンをクリックします。
- これにより、ノートブックの左下隅にウィンドウが生成されます。実行が終了したら、[バージョンの保存]ボタンの右側にある番号をクリックします。これにより、画面の右側にバージョンのリストが表示されます。最新バージョンの右側にある省略記号(…)をクリックし、[ビューアで開く]を選択します。これにより、同じページの表示モードになります。これらの手順に戻るには、下にスクロールする必要があります。
- 画面右側の[出力]タブをクリックします。次に、送信するファイルをクリックし、青い[送信]ボタンをクリックして、結果をリーダーボードに送信します。
これで、コンテストへの応募に成功しました。
パフォーマンスを向上させるために作業を続けたい場合は、画面の右上にある青い[編集]ボタンを選択します。次に、コードを変更してプロセスを繰り返すことができます。改善の余地はたくさんあり、作業しながらリーダーボードに登ります。
次に進もう
あなたはあなたの最初のモデルを作りました。 しかし、どうすればすぐに改善できますか?
値が欠落している列を組み込むことにより、競争結果を改善する方法を学びます。
データサイエンスの森 Kaggleの歩き方 [ 坂本俊之 ] 価格:2,904円 |
価格:3,608円 |
すぐに使える!業務で実践できる!PythonによるAI・機械学習・深層学習アプリ [ クジラ飛行机 ] 価格:3,520円 |