こんにちは。アイティーシーの藤原です。
今回も、機械学習初心者の私が取り組んだ、Kaggleコンペティションについてご紹介いたします。
前回、私が挑戦しましたコンペティションに関する記事は以下から閲覧できます。
【今回取り組んだコンペティション】
Housing Prices Competition for Kaggle Learn Users
「家の敷地面積」や「築年数」などの81の特徴量データから家の販売価格を予測するコンペティションとなります。
これらの特徴量の中には欠損値や前処理が必要なものも含まれております。
こちらのコンペティションの特徴は、Kaggleで用意されている学習コース「Intro to Machine Learning」の最終課題として位置づけされていることです。
kaggleではコンペティションの他にも、「Learn」という学習コースが数多く用意されています。
その中に上述しました「Intro to Machine Learning」という、機械学習の基礎や決定木などの手法について学べる入門コースがあります。
全7ステップほどあるコースなのですが、その最終課題として用意されているのが今回のコンペティションです。
【作成したモデル】
アルゴリズムは決定木の手法をベースとしたランダムフォレストを採用いたしました。
(今回の取り組みの主旨として、学習コースで学んだことを使いたかったため)
詳細な説明についてはこちらを参照ください。
https://www.kaggle.com/code/dansbecker/random-forests
まずは、学習コースで学んだとおりにモデルを作成。MAE(平均絶対誤差)は 21857でした。
MAEとは、モデルが出力した予測値と正解値との誤差を計算した予測精度の評価に有効な指標です。
こちらについても詳細はこちらをご参照ください。
https://www.kaggle.com/code/dansbecker/model-validation
その後、もう少し精度を上げようと「YearRemodAdd(改築年月日)」や「OverallCond(全体の品質)」といった欠損値のないかつ精度向上に有効な数値型の特徴量を選定、結果10項目追加し、再度検証。
MAE(平均絶対誤差)は17342でした。
有効な特徴量を用いることで、およそ4500点ほど誤差を少なくすることに成功いたしました。
作成したコードはこちらから
https://www.kaggle.com/code/shutafujiwara/exercise-machine-learning-competitions
【所感】
学習コースの課題として設定されているだけあって、誘導などが分かりやすく非常に取り組みやすかったです。
データ分析経験が全くない方でも、迷うことなく取り組める課題だと思います。
玄人向けのみならず、こういったデータ分析の取っ掛かりのようなテーマも用意されていて大変ありがたいです。
また更なるスコア向上のためには、欠損値のある特徴量の利用や別のアルゴリズムの活用が必要不可欠かと思われますので、
学習と経験を積み重ね、再度取り組んでみたいと思います。
最後までご精読ありがとうございました。
————————————————
自己紹介
所属:株式会社アイティーシー Data Analytics事業部所属
経歴:2022年度入社。
入社後は、ローコード開発ツールを用いたシステム開発やニアショア開発を担当。
kaggleアカウントページはこちら:https://www.kaggle.com/shutafujiwara