このノートブックは、機械学習入門コースの演習です。 このリンクでチュートリアルを参照できます。
はじめに
このノートブックでは、Google Cloud AutoML Tablesを使用して、Kaggleコンテストの提出物を生成します。
House Price:Advanced RegressionTechniquesコンペティションで作業します。 競争は単純です。79の異なる説明変数(屋根のタイプ、寝室の数、浴室の数など)を使用して、住宅価格を予測する必要があります。
ノート
始める前に、重要な注意事項です。
注:Google Cloud AutoMLTablesは有料サービスです。 公開時には、トレーニング中のコンピューティング1時間あたり19.32ドル、バッチ予測のコンピューティング1時間あたり1.16ドルが課金されます。 詳細については、こちらをご覧ください。
さらに、このノートブックはオプションであり、機械学習入門コースの完全な単位を取得するために完了する必要はありません。
ノートブックをセットアップする
まず、ノートブックがコードを実行するように設定されていることを確認する必要があります。 ノートブックの右側にある[Settings]メニューを確認することから始めます。 メニューは次のいずれかになります。
「Internet」設定が「Requires phone verification」リンクとして表示されている場合は、このリンクをクリックしてください。 これにより、新しいウィンドウが表示されます。 次に、指示に従ってアカウントを確認します。 この手順を実行すると、右の例のように、「Internet」設定が「Off」に表示されます。
「Internet」設定が「Off」と表示されたら、クリックしてOnにします。 プロセスを完了し、設定を「On」に切り替えるには、「同意する」必要があるポップアップウィンドウが表示されます。
上記の手順を実行すると、次に進む準備が整います。
GoogleCloudを設定する
次に、こちらの手順に従ってGoogleCloudアカウントを作成します。 また、300ドルの無料クレジットを請求する方法も学びます。
次に、[Add-ons]> [Google Cloud Services]を選択して、GoogleCloudアカウントをこのノートブックに接続します。
ポップアップウィンドウで、[Cloud Storage and AutoML(beta)]を選択します。 次に、[LinkAccount]をクリックします。
GoogleAutoMLの価格について説明する別のポップアップが表示されます。 この情報を確認したら、[ENABLE]をクリックします。
次に、GoogleCloudアカウントにリンクされているメールアドレスでサインインします。
アカウントがノートブックに添付されたら、ポップアップを閉じることができます。
AutoMLを始めましょう
次の変数の値を提供しています。
- DATASET_DISPLAY_NAME:データセットの名前
- 最大32文字を使用する必要があります。使用できる文字:ASCIIラテン文字A〜Zおよびa〜z、アンダースコア( ““)、およびASCII数字0〜9)。
- TRAIN_FILEPATH:競技会からのトレーニングデータ
- train.csvファイルのファイルパス。
- TEST_FILEPATH:競合他社のテストデータ
- test.csvファイルのファイルパス。
- TARGET_COLUMN:予測する値を含むトレーニングデータの列の名前
- ID_COLUMN:IDを含む列の名前
- MODEL_DISPLAY_NAME:モデルの名前
- 最大32文字を使用する必要があります。使用できる文字:ASCIIラテン文字A〜Zおよびa〜z、アンダースコア( ““)、およびASCII数字0〜9。
- TRAIN_BUDGET:モデルをトレーニングする時間
- 1000を1時間、2000を2時間など
- 2000の値を入力した場合、モデルは最大2時間トレーニングされます。
- 公開の時点で、AutoMLはトレーニングの1時間ごとに19.32ドルを請求します。この値を選択する方法に関するいくつかの一般的なガイドラインについては、このリンクでトレーニング予算に関するメモを確認してください。
次の値を入力する必要があります。
- PROJECT_ID:GoogleCloudアカウントを作成する手順に従って作成したプロジェクトID
- BUCKET_NAME:GoogleCloudストレージバケットの名前
- AutoMLを使用するには、Kaggleデータセットをアップロードするストレージバケットを作成する必要があります
- コードセルを実行すると、バケットが作成されます。バケット名を作成するときは、次のガイドラインを使用してください。
- バケット名には、小文字、数字、ダッシュ( “-“)、およびアンダースコア( “_”)のみを含める必要があります。スペースは許可されていません。
- バケット名は、数字または文字で開始および終了する必要があります。
- バケット名には3〜63文字を含める必要があります。
それが終わったら、コードセルを実行します。
モデルをトレーニングする準備ができたら。 結果として、次に進む準備ができました!
次のステップは、ノートブックをコミットすることです。
注:ノートブックをコミットする前に、次のコードセルを実行しないでください。 これらの行は、ノートブックをコミットするときに実行されます。
ノートブックをコミットする(そして予測をコンテストに提出する)には、
- ウィンドウの右上隅にある青い[Save Version]ボタンをクリックして開始します。これにより、ポップアップウィンドウが生成されます。
- [Save and Run All]オプションが選択されていることを確認し、青い[Save]ボタンをクリックします。
- これにより、ノートブックの左下隅にウィンドウが生成されます。実行が終了したら、[Save Version]ボタンの右側にある番号をクリックします。これにより、画面の右側にバージョンのリストが表示されます。最新バージョンの右側にある省略記号(…)をクリックし、[Open in Viewer]を選択します。これにより、同じページの表示モードになります。これらの手順に戻るには、下にスクロールする必要があります。
- 画面右側の[Output]タブをクリックします。次に、青い[Submit]ボタンをクリックして、結果をリーダーボードに送信します。
これで、コンテストへの応募に成功しました。
パフォーマンスを向上させるために作業を続けたい場合は、画面の右上にある青い[Edit]ボタンを選択します。次に、コードを変更してプロセスを繰り返すことができます。改善の余地はたくさんあり、作業しながらリーダーボードに登ります。
次は何ですか?
このノートブックでは、自動機械学習を使用して、Kaggleコンテストへの提出物を生成しました。 予測を生成するまでのすべてのステップが完了しました。
詳細については、こちらのGoogle CloudAutoMLテーブルをご覧ください。
ここに示されているコードを使用して他のデータセットでモデルをトレーニングするには、ラッパーにいくつかの変更を加える必要がある場合があります。これはここにあります。 (現在、コードは回帰タスクに対してのみ機能しますが、分類タスクのためにコードを修正するために知っておく必要のあるすべてがここにあります。)
データサイエンスの森 Kaggleの歩き方 [ 坂本俊之 ] 価格:2,904円 |
価格:3,608円 |
すぐに使える!業務で実践できる!PythonによるAI・機械学習・深層学習アプリ [ クジラ飛行机 ] 価格:3,520円 |