こんにちは!ICT4D Labメンバー兼PeaceTech部 部長の大石です。
本ブログでは、「機械学習を使って難民の移動を予測する」プロジェクトの第8・9週目の様子をお伝えします。
前回は、リサーチチームは質的調査結果のプレゼンを、データサイエンスチームはデータ分析計画を作成し認識を合わせました。プロジェクト終盤の第8・9週目は、論文執筆とデータクリニング・モデリングを並行して行いました。
【ステップ14】論文執筆
PeaceTech部では本プロジェクトの成果を英語論文にまとめ、12月に開催される国際開発学会全国大会での発表と、海外学会誌へ投稿する事を目指しています。今回の研究の軸は「機械学習の難民移動予測への活用可否と課題を探る」事にあるので、機械学習という1つの技術の有用性について、以下の章立てで論じる事となりました。モデリングの最中ではありますが、コンゴ難民問題の背景説明等、前回プレゼンテーション用に調査した内容を元に、書ける所から執筆を始めています。
- Introduction
- Review of Past Studies
- Issues and Argument
- Our Approach
- Refugee/IDP Crisis in DRC
- Methodology
- Empirical Results
- Discussions
- Policy Implications
- Conclusion
社会科学系の論文だと、例えば難民移動に関する理論を立てて仮説検証する事がメインの目的となりますが、今回の論文で論じるのは方法論の検証結果なので、投稿する学会誌も同様の目的を持つ媒体がベスト。調査した結果、以下のような団体が寄稿論文を募集している事が分かりました。国際開発領域におけるデータ&AIの活用に関する関心の高さが伺えますね!
- BRIGHT Network “Digital Innovations, Business and Society in Africa”
- アフリカに焦点を当て、デジタルトランスフォーメーションや、次世代の国際開発の形について特集する本への寄稿論文を募集中。特にテーマの1つである「Evaluation of adoption, use and impact of open data innovations」は今回のプロジェクトで実施している事そのもの!
- Freedom and Social Inclusion in a Connected World
- 来年5月にペルーで開催予定の学会。テーマは「Digital Entrepreneurship for Development 」「Artificial Intelligence, Inequalities, and Human Rights」「Pushing Boundaries – New and Innovative Philosophical, Theoretical and Methodological Approaches to Researching ICT4D」等、PeaceTech部の活動趣旨に合うものばかり!
(今回は幅広い読者に研究を知ってもらうべく海外学会誌への寄稿を目指していますが、日本でも国際開発✖️データ&AIに特化した学会誌があったらいいですね!)
【ステップ15】データクリーニング
今回使うデータはこちら。これらのデータ内容を見て、歯抜けを処理したり、必要な粒度のデータに成型したりする作業を行いました。
- 被説明変数:移動先地点(destination)の一覧(粒度は「Territory」)
- 例.地点1,2,3に移動したが地点4,5,6には移動しなかった,など
- 説明変数
- 紛争発生地点とDestinationの関係特徴量
- 直前数週間のACLEDの紛争発生地点のリスト(可変長)
- 地点間の距離(道路状況も加味して)
- 民族分布の類似度
- Destinationの特徴量
- 民族分布・言語
- 街の規模
- (幹線情報)
- 民族的な類似度
- 採掘場情報
例えば、被説明変数となるIDMCは人々の移動先となるDestination情報の粒度がバラバラです。町/Villageレベルと市/Territoryレベルの情報が混在しています。一方で、民族分布情報を持つデータセットは、市/Territoryレベルしか保持していません。こういったデータセット間のばらつきも補正して(今回は市/Territoryレベルに統一)、モデリング出来る状態までに持っていくのがデータクリーニングです。
データクリーニングの作業は一般的にはデータサイエンスチームが担う事がほとんど。成型箇所の抽出もデータサイエンティストの知見が必要ですし、クリーンにすべきデータの量が多いので手作業ではなく自動化したりコードを書いて対応する必要があるからです。
一方で、今回のDestination粒度の様に質的な情報を含む場合は、リサーチチームが貢献できることも結構あります。コンゴに関わる実務者ならば土地勘があるのでより効率的に粒度のばらつきを補正できますし、例えば「2015年に区画変更があったため地名の更新が必要」等の背景情報を付加する事もできます。データサイエンスに興味があるけど経験がない開発実務者の方は、データクリーニングの様な一見地味な作業を経験すると、作業イメージが付きやすく&データサイエンティストと会話しやすくなるかも知れません。
【学び】データに関する事でも、開発実務者が価値を発揮出来る箇所は結構ある。実務者はデータサイエンスの大枠を理解したら、データの中身を見て見るのもいいかも?
【ステップ16】モデリング
前回作成したデータ分析計画では、まずコンゴの様なジャングル地帯で、衛星データを使って人の移動を把握できるか分析し、確認できた場合は衛星データを代理目的変数として利用し、“戦闘発生時(説明変数:ACLED)に人の移動(被説明変数:衛星データ)を予測する”プランを立てました。こうすることで、IDMCが対象としているIDPだけでなく、難民の移動も予測できる様になるからです。この2週間で第一段階である「衛星データを使って人の移動を把握できるか分析」を試みているのですが、今のところあまりいい結果は出ず。。。私達が人の移動と相関があると仮定して分析しているのは:
- GSI (Grain Size Index)土壌表面の粒度サイズが小さいほど値が大きくなる指標。人的移動によって砂漠化の進んだエリアなどはGSI値が高くでる
- NDVI (Normalized Difference Vegetation Index) :植生の分布状況や活性度を示す指標。活性度が低下した場合、人的活動が活発になったと考えれる
- NDWI (Normalized Difference Water Index): 地表面における水域(雪を含む)や、植生に含まれる水分量の存在を示す指標。水分量が現象した場合、人口増加により水利用量が増加したと考えられる
- SAVI (Soil Adjusted Vegetation index): 背景土壌の影響を補正した植生指標
- TIRS (Thermal Infrared Sensor) 熱赤外センサ
- NDBI (Normalized Difference Built-up Index)正規化都市化指数
幸運にもデータサイエンスチームの中に、本業で衛星データを扱うエキスパートがいるので、現在追加分析をしてもらっています。最悪の場合、衛星データが人の移動を表す代理変数として使えない場合もあるため、残りのメンバーは万が一に備え、取得済みのデータを使ったIDPの移動を予測するモデリングに取り組んでいる所です。
次回
コンゴの様なジャングル地帯でも衛星データは人の移動の代理変数として使えるのか&初期モデリングは精度はどうだったのか、次回ブログにて報告します!
===========
文責:大石彩夏
PeaceTechに興味ある方はこちら(Facebookの有志グループ)にJoin!
コメント