コンテンツへスキップ

AI・データ分析

DA事業部案件からのお知らせ
・FDUA活動
・Kaggle活動
・その他AI開発、データ分析関連

金融データ活用推進協会とアイティーシーが経済リポートに取り上げられました!

金融データ活用推進協会(FDUA)とアイティーシーが、経済リポートに取り上げられました!
対象の記事はこちら
経済リポートは、岡山・備後エリアの情報誌です。
金融データ活用推進協会への参画は、アイティーシーが岡山県内で唯一であるため今回記事として取り上げられました。

協会の活動情報も随時更新していくのでお楽しみに!

関連記事
金融データ活用推進協会が日本経済新聞に取り上げられました!
一社)金融データ活用推進協会加盟の目的
一社)金融データ活用推進協会にアイティーシー加盟

金融データ活用推進協会主催の標準化委員会に参加しました!

アイティーシーが特別会員として参画している、金融データ活用推進協会(FDUA)主催の「第一回標準化委員会(2022年7月27日開催)」に参加しました!
詳細はこちら

本委員会は、「金融機関におけるデータ活用の標準化」を推進するため、金融機関の「データ活用チェックシート」の作成と、金融各社の壁を越えて業界横断で交流を図りデータ活用の連携を進めることを目的としています。

~イベントに参加後の感想~
第一回目のテーマは、「金融機関におけるデータ活用人材育成」についてで、テーマについて各社の現状や事例について情報交換を行った後、グループワークを実施しました。そこで興味深かったのは、データ活用人材育成の”現状”については各社で多種多様な状況であるにもかかわらず、グループワーク後に共有されたデータ活用人材育成に対する”課題”についてはグループごとでほぼ同じような結果が出たところです。また、事例紹介については、各社本当に多様な取り組みを行っており、とても勉強になりました。7月以降も随時標準委員会が開催される予定なので、今後も参加していきたいと思います!

金融データ活用推進協会HPはこちら

関連記事
金融データ活用推進協会(FDUA)主催のMeet-Upイベントに参加しました!
金融データ活用推進協会(FDUA)が日本経済新聞に取り上げられました!

金融データ活用推進協会主催のMeet-Upに参加しました!

アイティーシーが特別会員として参画している、金融データ活用推進協会(FDUA)主催の「金融業界若手データサイエンティストMeet-Up(2022年7月26日開催)」に参加しました!
詳細はこちら

本イベントは、データサイエンス歴が浅い若手人材が相互にレベルアップを図る機会を創設し、金融業界全体でのデータ活用の水準を向上させることを目的としています。

~イベントに参加してみた感想~
今回は初回ということで、各参加者の自己紹介と今後のイベントでやりたいことについて意見を出し合いました。イベント名のとおり、金融業界の若手データサイエンティストが集まったわけですが、取り組んでいる内容は多種多様、いずれも興味深いもので、とても刺激になりました。

今後も協会の活動情報を更新していくのでお楽しみに!

金融データ活用推進協会HPはこちら

関連記事
一社)金融データ活用推進協会にアイティーシー加盟
一社)金融データ活用推進協会加盟の目的
金融データ活用推進協会(FDUA)が日本経済新聞に取り上げられました!

金融データ活用推進協会が日本経済新聞に取り上げられました!

アイティーシーが特別会員として参画している、金融データ活用推進協会(FDUA)が、日本経済新聞に取り上げられました!対象の記事はこちら

協会の目的は大きく3つあります。
(1)金融機関のAI・データ活用推進のためのデザインパターンの作成
(2)金融業界内・関係諸団体等との情報交換や連携
(3)金融データの魅力を発信するデータ分析コンペティションの開催、運営
特に、日経新聞でも取り上げられた、(1)金融機関のAI・データ活用推進のためのデザインパターンの作成活動は、ITCメンバーも積極的に参加しています。

協会の活動情報も随時更新していくのでお楽しみに!

金融データ活用推進協会HPはこちら

関連記事
一社)金融データ活用推進協会にアイティーシー加盟
一社)金融データ活用推進協会加盟の目的

Kaggle活動記録-1

こんにちは。アイティーシー DA事業部の岡です。

Kaggle活動記録では、岡が参加したKaggleコンペティションの内容と、実績について詳しく書いていきます。
※本記事は、機械学習を勉強し始めた方や、これからKaggle等のコンペティションサイトに参加しようとされている方向けの記事です。以降で出現する専門用語について、1つひとつの説明を割愛しているので、何卒ご容赦ください。

Kaggleについて
皆さま、Kaggleについてご存じでしょうか?
Kaggle(サイト)は、企業や研究者がデータやコードを投稿・共有し、世界中のデータサイエンティストがその最適モデルを競い合うプラットフォームサイトです。https://www.kaggle.com/
Kaggle社はGoogle傘下の、予想モデリングおよび分析手法関連プラットフォームを提供している企業です。

今回ご紹介するコンペティション
Tabular Playground Series-6月版
「Tabular Playground Series」は、他のコンペティションと比較し、参加しやすい初心者向けのコンペティションです。
~Tabular Playground Series 参加しやすいポイント~
◎学習/分析対象データは、表形式のデータで、ほとんどの場合、データファイルは1種類のみです。
◎ほとんどのSeriesのデータで、提供されるデータに欠損値は存在しません。
◎コンペティションで競う評価指標はメジャーなものが多く分かりやすいです。
正答率や絶対平均誤差がよく使用される評価指標になります。

コンペティション内容詳細
上記『参加しやすいポイント』で記載した内容とは相反しますが、6月版コンペティションは、欠損値が多く存在するデータ群が提供され、これ(欠損値)を予測/補完するモデルを作成、精度を競い合う、という内容でした。評価指標はRMSE(二乗平均平方根誤差)で、RMSEが小さいほど精度が高いモデル(予測)である、と評価されます。

予測値算出までの主な流れ
Tabular Playground Seriesで、予測値を提出するまでの”個人的な”作業の流れは決まっていて、以下のようになります。
データ状態の確認(EDA)
・・
学習データの準備
・・
モデルの構築(学習)
・・
精度評価
・・
提出用データ作成
この流れに沿って、実際にモデル構築を行ったソースコード、フェーズ毎の詳細な説明などは以下Kaggleページで公開しています。ご興味があれば、是非ご覧ください。
https://www.kaggle.com/code/imnaho/tps-jun22-eda-predict

考察
今回のコンペティションは、個人的にはとても納得できる結果が出ました。
今回の分析対象のデータは、ID列を除いた80列、1000000行のデータ群でしたが、データ状態を確認したところ、単相関で相関が強い列と相関がほぼ0なデータ列が極端に分かれていることが分かりました。

(↑公開コードより単相関のheatmap画像を抜粋。黒色箇所が相関ほぼ0です。↑)
このことから、特に相関が強い列については回帰やランダムフォレストなど、数値予測としてポピュラーなアルゴリズムを利用することで、精度が高くなることが予想できますし、逆に相関ほぼ0な列については他の列はあまり気にせず、単純な平均値や中央値により補完する方が良いのではないか?と予想することができます。
上記URLで記載している公開コードでは、補完が必要な列に対し、列ごとに複数のアルゴリズムで学習させ、精度を評価しています。
具体的には、欠損値が存在しているデータ列数が55列、選定したアルゴリズムが4種類+単純な中央値補完1種類で精度を評価したため、学習と評価(RMSEの計算)は55×5=275回行っています。
結果は想定通り、相関が高い列は数値予測アルゴリズムで精密(精密さはパラメータで指定します)に予想した方が精度が高く、相関がほぼ0な列では時間をかけて学習したモデルより、単純な列毎の中央値の値の方が精度が良い、もしくはほぼ変わりなしという結果になりました。
実際にデータ補完を依頼される場合には、これで終わりではなく、結果をレポートにまとめ、特に相関が0に近いデータ列について、お客様によくよくヒアリングを行い、相関が0になる理由や、データ自体が間違っている可能性がないか、相関が高くなる可能性があるデータを追加できないか等、追加検討し、より精度の高いモデルの構築を目指します。
ともあれ、仮説がぴったり当たっているととても気持ちがいいものです。
データ状態の確認から、仮説、仮説検証の道筋を綺麗に書けたのと、これに沿って構築したモデルの予測値スコアが上場の結果だったため、公開したNotebookに対しシルバーを獲得することができました。upvoteいただいた方に感謝です。

今後もKaggle活動記録を追加していきますのでお楽しみに!

————————————————–
自己紹介
所属:株式会社アイティーシー データアナリティクス事業部
経歴:約6年間、SEとして基幹システムの運用保守、開発を担当していました。
データサイエンティストへのキャリアチェンジを試み、日々奮闘中です。
Kaggleアカウントページはこちら:https://www.kaggle.com/imnaho
LinkedInページはこちら:https://www.linkedin.com/in/naho-oka-9ba89322b/

一社)金融データ活用推進協会加盟の目的

一般社団法人金融データ活用推進協会(略称 FDUA )が6月22日の発足と同時に株式会社アイティーシー(ITC)も特別会員として加盟しました。

FDUAの主な活動内容は、
(1)金融機関のAI・データ活用推進のためのデザインパターンの作成
(2)金融業界内・関係諸団体等との情報交換や連携
(3)金融データの魅力を発信するデータ分析コンペティションの開催、運営
です。

FDUAが掲げるミッションのひとつに「地方創生」があります。
当社も地方創生を目指して活動を続けております。
趣意が一致するため、当社も特別会員として加盟いたしました。
当社はFDUAへの加盟を通じて、大手金融機関やデータ分析・AI開発のトップ企業と切磋琢磨し、最先端の情報やそれらの技術を共有および活用することで、より多くの企業にデータ分析・AIの魅力を発信し参ります。
それと並行して、岡山に最先端のデータ利活用・AI開発のノウハウを持ち帰り、企業各社がデータ活用・AIをリーズナブルに早期導入出来るようにすることで、地方の人手不足解消につなげたいと考えております。

また、地方大学でのデータ分析コンペティション開催等を通じて、地方でのデータサイエンス人材育成を盛り上げ、リスキリングすることで、企業ニーズに即した実践的なDX人材を増やし、地方活性化・地方創生に少しでも貢献できるように努力して参ります。

一社)金融データ活用推進協会にアイティーシー加盟

株式会社アイティーシーは、金融機関とAIスタートアップ社で発足された、一般社団法人金融データ活用推進協会(FDUA)に特別会員として加盟しました。

FDUAのHPはこちら↓
FDUA | 金融データで人と組織の可能性をアップデートしよう

本協会は、金融業界におけるデータ活用を推進する横断的組織であり、金融機関の実務目線に立ち、AI・データ活用の推進、業界・各社の発展、および個人のキャリアアップの貢献を目的としています。

理事会員
 
一般会員

     
特別会員一覧

【協会の主な活動】

(1)金融機関のAI・データ活用推進のためのデザインパターンの作成
(2)金融業界内・関係諸団体等との情報交換や連携
(3)金融データの魅力を発信するデータ分析コンペティションの開催、運営

アイティーシーでは、これらの活動に参画し、金融業界における最先端情報や技術に触れることで、お客様により良いAI開発・データ分析のご提案ができるようになることを目指します!