はじめに
機械学習を実際のデータに適用する場合、プロセスには多くのステップが含まれます。データの収集から始まり、予測の生成で終わります。 (ここでYufeng Guoによって定義されているように、機械学習の7つのステップを使用します。)
すべては「ステップ1:データを収集します」から始まります。
機械学習入門コースと中級機械学習コースでは、次の方法を学ぶことができます。
- ステップ1:データを収集する
- 業界では、ターゲットリークなど、データセットを構築するときに考慮する必要のある重要な考慮事項があります。 Kaggleコンテストに参加する場合、このステップはすでに完了しています。
- ステップ2:データを準備する
- 欠測値とカテゴリデータを処理します。 (機能エンジニアリングについては、別のコースで説明します。)
- ステップ3:モデルを選択する
- モデルにはさまざまな種類があります。あなたはあなたの問題のためにどれを選ぶべきですか?始めたばかりの場合、最善の選択肢は、すべてを試して独自の直感を構築することです。普遍的に受け入れられているルールはありません。他のKagglerがさまざまなモデルをいつどのように使用したかを確認できる便利なKaggleノートブック(このようなもの)も多数あります。
- ステップ4:モデルをトレーニングする
- 決定木とランダムフォレストをトレーニングデータのパターンに適合させます。
- ステップ5:モデルを評価する
- 検証セットを使用して、トレーニングされたモデルが見えないデータに対してどの程度うまく機能するかを評価します。
- ステップ6:パラメーターを調整する
- XGBoostモデルのパフォーマンスを向上させます。
- ステップ7:予測を取得する
- トレーニング済みのモデルを使用して予測を生成し、結果をKaggleコンテストに送信します。
機械学習プロセスを習得するには、多くの時間と練習が必要です。まだ学習している間に、自動機械学習(AutoML)ツールを使用してインテリジェントな予測を生成できます。
自動機械学習(AutoML)
このノートブックでは、Google Cloud AutoMLTablesを使用して機械学習プロセスを自動化する方法を学習します。 Kaggleはすでにデータ収集を処理していますが、AutoMLTablesが残りのすべての手順を処理します。
AutoMLTablesは有料サービスです。 このチュートリアルに続く演習では、独自のモデルのトレーニングに使用できる300ドルの無料クレジットを請求する方法を紹介します。
注:このレッスンはオプションです。 機械学習入門コースを完了する必要はありません。
コード
ニューヨーク市のタクシー料金予測コンペティションのデータを使用します。このコンペティションでは、ニューヨーク市でのタクシーの運賃(通行料を含む)を、乗車場所と降車場所、乗客数、乗車日時を考慮して予測してください。
これを行うには、AutoMLテーブルを呼び出すPythonクラスを使用します。このコードを使用するには、次の変数を定義するだけで済みます。
- PROJECT_ID:GoogleCloudプロジェクトの名前
- Google Cloudで行うすべての作業は、「プロジェクト」にまとめられています。
- BUCKET_NAME:GoogleCloudストレージバケットの名前
- AutoMLを使用するには、Kaggleデータセットをアップロードするストレージバケットを作成する必要があります。
- DATASET_DISPLAY_NAME:データセットの名前
- TRAIN_FILEPATH:競技会からのトレーニングデータ
- train.csvファイルのファイルパス。
- TEST_FILEPATH:競合他社のテストデータ
- test.csvファイルのファイルパス。
- TARGET_COLUMN:予測する値を含むトレーニングデータの列の名前
- ID_COLUMN:IDを含む列の名前
- MODEL_DISPLAY_NAME:モデルの名前
- TRAIN_BUDGET:モデルをトレーニングする時間
- 1000を1時間、2000を2時間など。
次の演習で独自のコードを実行すると、これらの変数はすべて意味があります。
次に、モデルをトレーニングし、それを使用してテストデータセットの予測を生成します。
これらの手順を完了すると、コンテストに提出できるファイルができました。 以下のコードセルで、この送信ファイルをロードし、最初の数行を表示します。
そして、それはどれくらいうまく機能しますか? さて、競争は、ピックアップとドロップオフの場所の間の距離に基づいて運賃額を予測する単純な線形モデルを備えたスターターノートブックを提供します。 このアプローチはそのノートブックよりも優れており、コンテストへの提出総数の約半分よりもランクが高くなっています。
次に進もう
AutoMLテーブルを使用して独自のコードを実行し、Kaggleコンテストに提出してください!
データサイエンスの森 Kaggleの歩き方 [ 坂本俊之 ] 価格:2,904円 |
価格:3,608円 |
すぐに使える!業務で実践できる!PythonによるAI・機械学習・深層学習アプリ [ クジラ飛行机 ] 価格:3,520円 |