こんにちは!ICT4D Labメンバー兼PeaceTech部 部長の大石です。
本ブログでは、「機械学習を使って難民の移動を予測する」プロジェクトの第4週目の様子をお伝えします。
前回は、プロジェクトキャンバス・仮説設定で予測モデルの大枠を決定しました。設定した仮説に基づき、使えそうなデータセットを探し出すのが今回のメインイベントです。
【ステップ8】機械学習チュートリアル
本格的にデータ探しを始める前に、部員の機械学習に関するナレッジギャップを埋めるべく、皆で学ぶ時間を設けました。Chief Data Scientistが40分程度のプレゼンをする形で、機械学習について分かりやすく解説したのですが、目から鱗!Data Scienceを学んだ経験のある者にも全く無い者にも分かりやすい、とても丁寧な説明で、部員からも大好評でした。
このブログを読んでくださっている(物好きな笑)方は恐らく違うと思いますが、データや統計と聞くとアレルギーが出てしまう昔の私の様な方々、もしかしたら、良い解説者に出会えて無いだけかも知れません。
ちなみに、PeaceTech部Chief Data Scientistのおすすめ自習用教材はこちら↓
- 【柔らかく学びたいなら】Andrew Ngの「非エンジニア向けAI講座」
- 【がっつり学びたいなら】機械学習プロフェッショナルシリーズ
【ステップ9】データ一覧作成
さて、機械学習について大枠を理解し、データの重要性を学んだら、いよいよデータ一覧の作成に取り掛かります。データ一覧は分析な必要な変数を示すデータセットの所在を示した資料です。社会科学の研究では、必要なデータセットを研究者自ら作成し分析する事もありますが、機械学習プロジェクトは一般的に使うデータの量が膨大である事もあり、オープンデータと呼ばれる無料公開されているデータセットをどう上手く活用するかがキーになってきます。
これらデータセットの所在に関する”土地勘”が、国際開発✕Data Scienceのプロジェクトを実施する上で非常に重要です。例えば、国毎の難民数の情報が必要な時、多くの方はどこかにはあるだろう、と想定がつくと思います。国連のレポートでも頻繁に見ますしね。ただ、そういった日々目にする情報が提供しているのは、難民総数や特定の期間についてのみの限定的な情報である事が多いのです。機械学習プロジェクトが必要とする粒度で(例えば月次・州毎など)や経年の情報(機械学習では教師データとなる過去の情報が必要です)が存在しなければ、機械学習で分析する事は出来ません。つまり、ただ情報があるだけではなく、”機械学習に使える情報”がどこにあるかの土地勘が必要なのです。
ちなみに。。。国際開発の領域でフィールド調査を多く経験してきた方は、やはりインタビューやコミュニティワークショップを通じたデータ取得を想定する事が多いようです。それら調査が必要ない、とは必ずしも言い切れませんが、機械学習が強みを発揮するプロジェクトで必要となるデータは多くの場合、数千~数万件。フィールド調査では恐らく取得出来ない規模のデータ数です。どう既に存在するオープンデータを活用するか、欲しい情報が既存のデータセットに無い場合、どのように代理変数を設定するか、といった点にドメインエキスパートの真価が問われるのだと思います。
【学び】機械学習に使える情報の所在=土地勘を育むべし。既存データセットを賢く活用すべく、クリエイティブに考えるべし。
私達が作成したデータ一覧の一部がこちら。提供元やURL等の基本的情報に加えて、データのカバー期間、記録頻度、更新頻度、API接続可否等を整理しています。例えば記録頻度が年次だと月次予測のデータとしては使えませんし、更新頻度が年次だと、2019年までの情報しか取得出来ない事になります。
【土地勘を育もう!国際開発界隈のデータセット】
あくまでも一例ですが、よく国際開発界隈で活用されているデータセットを少しだけ共有しますね。
次回
さて、データ一覧作成が完了したら、次はデータサイエンスチームによる成功指標と使用モデルの候補出しです。これまで主にリサーチチームが動いてきましたが、いよいよデータサイエンスチームが暴れます!
===========
文責:大石彩夏
PeaceTechに興味ある方はこちら(Facebookの有志グループ)にJoin!
コメント
[…] 前回は、リサーチチームが中心となり分析に使えそうなデータセットを特定しました。HDXやDTM等、国際開発や平和構築領域でもデータ化が進んでいる事が良くわかりました。9月に突入し […]