このノートブックは、機械学習入門コースの演習です。 このリンクでチュートリアルを参照できます。
はじめに
この演習では、Kaggleコンペティションの予測を作成して送信します。 次に、モデルを改善して(たとえば、機能を追加することによって)、このコースを受講している他の人とどのように積み重なるかを改善して確認できます。
このノートブックの手順は次のとおりです。
1.すべてのデータ(Xおよびy)を使用してランダムフォレストモデルを構築します。
2.ターゲットの値を含まない「テスト」データを読み込みます。 ランダムフォレストモデルを使用して、テストデータの住宅価値を予測します。
3.それらの予測をコンテストに提出し、スコアを確認します。
4.オプションで、機能を追加したりモデルを変更したりしてモデルを改善できるかどうかを確認します。 次に、再送信して、それが競争のリーダーボードにどのように積み重なっているかを確認できます。
概要
これまでに作成したコードは次のとおりです。 もう一度実行することから始めます。
実行結果
競争のためのモデルの作成
ランダムフォレストモデルを作成し、Xとyのすべてでトレーニングします。
実行結果
予測を行います
「テスト」データのファイルを読み取ります。 モデルを適用して予測を行います
実行結果
送信する前に、テストを実行して、test_predsの形式が正しいことを確認してください。
あなたの仕事をテストする
結果をテストするには、コンテストに参加する必要があります(まだ参加していない場合)。 したがって、このリンクをクリックして新しいウィンドウを開きます。 次に、[コンテストに参加]ボタンをクリックします。
次に、以下の手順に従ってください。
1.ウィンドウの右上隅にある青い[バージョンの保存]ボタンをクリックして開始します。これにより、ポップアップウィンドウが生成されます。
2.[保存してすべて実行]オプションが選択されていることを確認し、青い[保存]ボタンをクリックします。
3.これにより、ノートブックの左下隅にウィンドウが生成されます。実行が終了したら、[バージョンの保存]ボタンの右側にある番号をクリックします。これにより、画面の右側にバージョンのリストが表示されます。最新バージョンの右側にある省略記号(…)をクリックし、[ビューアで開く]を選択します。これにより、同じページの表示モードになります。これらの手順に戻るには、下にスクロールする必要があります。
4.画面右側の[出力]タブをクリックします。次に、青い[送信]ボタンをクリックして、結果をリーダーボードに送信します。
これで、コンテストへの応募に成功しました。
パフォーマンスを向上させるために作業を続けたい場合は、画面の右上にある青い[編集]ボタンを選択します。次に、コードを変更してプロセスを繰り返すことができます。改善の余地はたくさんあり、作業しながらリーダーボードに登ります。
進歩を続ける
モデルを改善する方法はたくさんありますが、この時点で実験することは学習するのに最適な方法です。
モデルを改善する最良の方法は、機能を追加することです。 列のリストを見て、住宅価格に影響を与える可能性があるものについて考えてください。 一部の機能では、値の欠落や数値以外のデータ型などの問題が原因でエラーが発生します。
中級機械学習コースでは、これらのタイプの機能を処理する方法を学びます。 また、ランダムフォレストよりもさらに高い精度を提供する手法であるxgboostの使用方法も学習します。
その他のコース
Pandasコースでは、データ操作スキルを習得して、概念的なアイデアからデータサイエンスプロジェクトへの実装にすばやく移行できます。
また、コンピュータービジョンタスクで人間レベルよりも優れたパフォーマンスを備えたモデルを構築するディープラーニングコースの準備もできています。
データサイエンスの森 Kaggleの歩き方 [ 坂本俊之 ] 価格:2,904円 |
価格:3,608円 |
すぐに使える!業務で実践できる!PythonによるAI・機械学習・深層学習アプリ [ クジラ飛行机 ] 価格:3,520円 |