こんにちは!ICT4D Labメンバー兼PeaceTech部 部長の大石です。
本ブログでは、「機械学習を使って難民の移動を予測する」プロジェクトの第5週目の様子をお伝えします。
前回は、リサーチチームが中心となり分析に使えそうなデータセットを特定しました。HDXやDTM等、国際開発や平和構築領域でもデータ化が進んでいる事が良くわかりました。9月に突入した5週目は、データサイエンスチームが成功指標・モデルの選定に向けてデータの取得・格納に取り組みました。
【ステップ10】データの取得・格納
データ一覧で整理した情報を元に、データサイエンティストがひたすらデータを取得していくこの作業。インターネット上から簡単に取得出来るデータはダウンロードし、データ量が多い・もしくはファイル数の多い情報は、スクリプトを書いてダウンロード作業を自動化しました。GitHub(解説はこちら)にファイルを格納してデータ取得完了!
と言いたいところなのですが、、、、。
目的変数として利用予定の、Displacement Tracking Matarix (DTM)に少し問題があることが分かりました。
【ステップ11】データの確認
今回のプロジェクトでは、”難民/IDPの移動情報”を目的変数としています。この目的変数データとして有力なのが、DTMです。DTMは国際移住機関(IOM)が取りまとめている、国毎の難民/IDPデータ。「どのキャンプ」に「何人の難民/IDP」が「どこから」来ているのか、月次で報告しています。毎年国際電気通信連合(ITU)が出している報告書によると、IOMでもAIとDTMを使って分析するプロジェクトを実施している模様です。
DTMは難民に関する膨大な情報を無料で提供してくれる、大変ありがたいソースではありますが、ダウンロードをしてからデータの中身を確認すると少し想定と異なることが分かりました。例えば国毎に保持しているデータが違ったり、特定の月の情報が抜けていたり、データが公表されていない国があったり。各国のオペレーションのために最適化されたデータセットとしてスタートしている印象を受けました。今回のプロジェクトの様に複数の国を分析するためには向いていないのかも知れません。当初は9/7迄に成功指標やモデル候補を洗い出す予定でしたが、1週間予定を遅らせ、まずはデータ確認に専念する事としました。現在3人のデータサイエンティストが、DTMデータを細かく確認しています。
【学び】初期調査で利用するデータを特定したら、データサイエンティストが細かくデータの中身を確認する期間を設けるべし。場合によっては多くの時間を要する。
【ステップ12】質的調査
データサイエンスチームによるデータ確認と並行する形で、リサーチチームが質的調査を開始しました。質的調査の内容は①コンゴの難民問題概要調査と、②機械学習を用いて難民課題に取り組んでいる先行事例の洗い出し。①を通し機械学習に取り込む変数の妥当性を確認し、②で以って我々の方法論の、学術領域への貢献ポイントを明確にします。
①に関しては、特にドメインエキスパートとデータサイエンティスト間で大きな知識ギャップがあるものです。以前データサイエンティストが機械学習の説明をしてくれた様に、次回ミーティングにて、リサーチチームが①に関する30分程度のプレゼンテーションをしてくれる予定です。
両者の知識ギャップを埋めるための活動(例えば①に関するプレゼンテーション)に関して、どの内容をどのタイミングで共有すべきか、正解を導くのは結構難しいと感じました。闇雲に知識を共有した所で、両者の知見を生かしたモデルを構築できる訳ではありません。PMやアーキテクト的役割のメンバーが、チーム横断で共有すべき事項に当たりをつけ、Intersectionを見定める必要があるかも知れません。
今回の場合だと、対象となるコンゴ3州でどう紛争ドライバーが異なり、難民移動に関して地域別にどういった特性があるのかに着目してプレゼンテーションをしてもらう予定です。これは予測に用いる変数を地域毎に変える可能性を考慮した結果です。また、プロジェクト開始直後ではなく、データ確認を進める現段階で知識共有を図ることにしました。これまで難民に関するプロジェクトに従事して来なかったデータサイエンティストが、ある程度社会科学系のデータに詳しくなってから、紛争・難民に関する背景知識を共有したいという狙いがあったからです。
上記アプローチが果たして正解だったかどうか、また皆さんに本ブログで報告しますね!
【学び】ドメインエキスパートとデータサイエンティストが、効果的に協業するためプロジェクトデザインが大事。協業推進担当をチーム内に設けてもいいかも?
今後の予定
要件定義に取り組んだ8月も(ほぼ)終わり、いよいよモデリング・質的調査を行う9月に突入です。9月の予定はこちら。果たしてどこまでスケジュール通りに進むでしょうか。。。
次回
次回はデータサイエンスチームからの成功指標・モデル候補の共有と、リサーチチームからコンゴ難民問題概要に関してのプレゼンしてもらう予定です!プレゼンには、コンゴにてIDP課題に取り組むUNHCRの専門家もお招き予定。楽しみです!
===========
文責:大石彩夏
PeaceTechに興味ある方はこちら(Facebookの有志グループ)にJoin!
コメント
[…] 前回は、リサーチチームが中心となりコンゴの難民問題等の質的情報を整理すると同時に、データサイエンスチームはデータセットの確認作業を進めました。第6・7週は各チームの調査 […]