コース02-機械学習の概要

022.基本的なデータ探索(Basic Data Exploration)[Kaggle日本語訳]YourTurn

  • LINEで送る

965 views

     

この演習では、データファイルを読み取り、データに関する統計を理解する能力をテストします。

後の演習では、データをフィルタリングし、機械学習モデルを構築し、モデルを繰り返し改善する手法を適用します。

コースの例では、メルボルンのデータを使用しています。 これらの手法を自分で適用できるようにするには、新しいデータセットに適用する必要があります(アイオワの住宅価格を使用)。

演習では、「ノートブック」コーディング環境を使用します。 ノートブックに慣れていない方のために、90秒の紹介ビデオを用意しています。

演習

次のセルを実行してコードチェックを設定します。これにより、作業が進むにつれて検証されます。

実行後

 

ステップ1:データをロードする

アイオワデータファイルをhome_dataと呼ばれるPandasDataFrameに読み込みます。

実行後

 

ステップ2:データを確認する

学習したコマンドを使用して、データの要約統計量を表示します。 次に、変数を入力して次の質問に答えます

実行後

 

データについて考える

あなたのデータの最新の家はそれほど新しいものではありません。 これに関するいくつかの潜在的な説明:

1.彼らはこのデータが収集された新しい家を建てていません。
2.データはずっと前に収集されました。 データ公開後に建てられた家は表示されません。


理由が上記の説明#1である場合、それはこのデータを使用して構築するモデルへの信頼に影響しますか? それが理由#2である場合はどうですか?

どの説明がより妥当であるかを確認するために、どのようにデータを掘り下げることができますか?

このディスカッションスレッドをチェックして、他の人の考えを確認したり、アイデアを追加したりしてください。

次に進もう

これで、最初の機械学習モデルの準備が整いました。

データサイエンスの森 Kaggleの歩き方 [ 坂本俊之 ]

価格:2,904円
(2020/11/25 23:14時点)
感想(0件)

Kaggleで勝つデータ分析の技術 [ 門脇大輔 ]

価格:3,608円
(2020/11/24 23:50時点)
感想(0件)

すぐに使える!業務で実践できる!PythonによるAI・機械学習・深層学習アプリ [ クジラ飛行机 ]

価格:3,520円
(2020/12/10 11:12時点)
感想(1件)

  • LINEで送る