はじめまして!ICT4D Labメンバー兼PeaceTech部 部長の大石です。
PeaceTech部ではこの度、「機械学習を使って難民の移動を予測する」プロジェクトを始めました。
これから連載形式で、リアルタイムにプロジェクト状況をお伝えしていきます。
計画より遅れるかも・・
思ったような成果が出ないかも・・
廃部になるかも・・
一抹の不安を抱えつつも、読者の皆さんと「国際開発業界におけるデータサイエンスプロジェクトの実情」についてリアルタイム&ざっくばらんに、共有出来たらと思っています。
プロジェクト成果は、本ブログに加えて国際開発学会での発表を目指しています。
現時点での計画では、10月には成果を発表出来る予定。
さぁ、どこまで延びるか。。笑
早速本日の作戦会議の様子をご覧下さい!
【ステップ1】チーム編成
有志で活動するICT4D Labですが、本プロジェクト実施にあたり以下の様な布陣でスタートしました。志願制&プロボノワークです。
- プロジェクトマネージャー1名:国際開発✕データサイエンス プロジェクトの経験者
- チーフデータサイエンティスト1名:機械学習の専門家
- ITエンジニア2名
- ITと開発業界双方の経験者 7名! (うち4名のドメインエキスパート含)
【ステップ2】ブレーンストーミング
機械学習を使って「何か」を予測したい。その「何か」を決めるのが結構大変。
PeaceTech部ではブレストの材料として、PeaceTech界隈でよく使われるデータセットを洗い出した上で話し合いました。
- 紛争発生に関するデータセット
- ACLED/UCDP/GDELT
- 貧困/政治体制/民族分離度に関するデータセット
- Poverty and Equity Database/Polity Dataset/Ethnic Power Relations
- 鉱物採掘データセット
- IPIS
- その他
- FAO Desert Locust Tracker/Meteostat/Twitter等
結果、本プロジェクトでは難民の移動を予測するプロジェクトを始動することに!
参加メンバーの関心が高く、需要もあり、かつデータも存在しそうな事が理由です。実際のプロジェクトでは、ビジネス需要や長期計画等に基づいて、プロジェクト内容を決める事になるのだと思います。
メンバーはほぼ全員ITのバックグラウンドがあり、統計的な仮説検証の基礎知識(目的変数/説明変数等)もあるため、「データは存在するか・データをどう使うか」を考えながらブレストする事が出来ました。技術的に助言が必要な箇所(費用が発生する作業や、機械学習に関する具体的な話)はデータサイエンティストがカバー。
この様に、両領域(国際開発とデータサイエンス)に関する知識を持つメンバーを集めると、プロジェクトのQDCはより高まりそうです。
【学び】プロジェクト設計時は、メンバーはデータサイエンスに関する大まかな知識を入れとくべし。プロジェクトの上流から、ドメインエキスパートに加えて、データサイエンティストを巻き込むべし。
次回
次回は要件定義書作成にとりかかります!
何をどう定義すべきか、皆さんはイメージつきますか?
===========
文責:大石彩夏
PeaceTechに興味ある方はこちら(Facebookの有志グループ)にJoin!
コメント
[…] 前回のブログで告知した通り、今回は要件定義フェーズの様子をお伝えします。 […]
[…] るなら、出版を目指してガチな翻訳をしよう!」という目標を掲げて始動しはじめました。折角なのでPeachTech部を見習って、進捗やぶつかる困難をブログにも記録しておこうと思います。 […]