こんにちは!ICT4D Labメンバー兼PeaceTech部 部長の大石です。
本ブログでは、「機械学習を使って難民の移動を予測する」プロジェクトの第3週目の様子をお伝えします。
前回は、要件定義フェーズの1stステップとして、予測対象を決定しました。それに基づきプロジェクトキャンバスを作成し、仮説を設定するのが今回のステップです。
【ステップ5】チーム分け
要件定義フェーズ突入にあたり、プロジェクト推進の効率化と各自の強みを生かすため、まず部員を2つのチームに分けました。
- リサーチチーム
- 主に難民・紛争問題のエキスパートを主とするチーム。ドメイン知識を駆使して仮説設定や質的調査に貢献。クライアントのいない本プロジェクトではビジネス要件を抽出するのも役目。
- データサイエンスチーム
- データサイエンスや統計、画像解析のエキスパートを主とするチーム。データ取得・加工やモデリングがミッションだが、上流工程からリサーチチームと連携し最適解を探る。
クライアントのいる実プロジェクトでは、リサーチチームを配置せずデータサイエンスチームがクライアントへのインタビューを通してビジネス要件を抽出する事も可能だと思います。ただ参画するデータサイエンティストに全くドメイン知識がない場合は、クライアントとデータサイエンティストをつなぐ通訳者としてのリサーチメンバーを配置する方が、プロジェクトのQCDを高められるというのが私個人の考えです。
一方で、ドメイン知識のみでデータサイエンス知識が全く無いリサーチメンバーが通訳者になることは難しいのも事実。将来的にAIや機械学習を用いたプロジェクトに参画したい/する可能性のあるドメインエキスパートの方は、PeaceTech部のような実験プロジェクトに参加して、+αの知識を身につけると良いかも知れません。
(実験プロジェクトに興味のある方はこちらを通して大石までご連絡下さい。ドメイン知識が欲しいデータサイエンティストも、データサイエンス知識が欲しいドメインエキスパートも大歓迎です。今後、別プロジェクト立ち上げの際に出来る限りお声掛けします。)
【ステップ6】プロジェクトキャンバス作成
さて、チーム分けが出来たら次はプロジェクトキャンバスの作成です。前回ブログでもお伝えしたとおり、様々な機関が機械学習用のキャンバステンプレートを提供しています。私達が利用したこちらは、作成ガイドも合わせて提供しているため、非常におすすめです。
作成したキャンバスがこちら。
今後検討をすすめる事項もいくつかありますが、例えば利用者の抽出や最終システム形のイメージ等、上流で検討する事項をカバーする事が出来ました。
また目標で言及している「精度」に関して、データサイエンスチームのメンバーから非常に面白い知見をもらったのでシェアします。
「精度」については少し考慮が必要。例えば、X君が、70%の確率でA州に移動する、30%の確率でB州に移動するという結果がでているときに、どちらの州(A or B)に移動すると予測するかは、完全に私達次第です。B州は難民が増えた場合にいろいろ物資の都合をつけるのが難しい地域であれば、安全のため、確率は低い(30%)が、「B州に移動する」と予測することも可能。
しびれる・・!
上記の様なビジネス要件を検討し、機会に「思い」を入れ込むのが、本来はドメインエキスパートの腕の見せどころだと感じた一幕でした。一方で、データサイエンスで何が出来るのか知らなければ、恐らくドメインエキスパートは上記発想を持つことは難しいでしょう。両フィールドの知見を掛け合わせて、よりよい成果を出す。そんな存在になりたいものです。
【学び】AIや機械学習のプロジェクに「思い」を入れ込む事こそ、人間の価値。これを実現するためには両フィールドの知識が必須。
【ステップ7】仮説の設定
さて、プロジェクトキャンバスで目指す姿の大枠が決まったら、次は仮説の設定です。紛争・戦闘・武力衝突の発生(説明変数)→難民が発生し移動する(目的変数)までに影響しそうな要因を仮説として設定し、変数を洗い出します。
前回ブログでお伝えした通り、通常の機械学習では予測結果は因果を説明しません。そのため、この因果を検討し設定した仮説が予測精度向上に貢献するかは、不明です。しかしながら、今回はドメインエキスパートの知識を総動員して出来るだけ解釈可能なモデルを立てる事を目的としているので、以下の様な仮説を設定してみました。
実は、目的変数である難民数に関して、私達が目指す粒度で表すデータセットが見つかっていません。そのため、例えば衛星データを用いて森林伐採量や水の使用量の増減を見る事で、人の移動を表す代理変数として出来ないか探っている所です。これから行う「データ一覧作成」の過程で明らかになるでしょう。
また本仮説に関して、9月以降にリサーチチームで質的調査を実施する予定です。調査結果は、最終成果物である論文に掲載予定ですので、乞うご期待!
次回
さて、プロジェクトキャンバス作成・仮説設定で予測モデルの大枠が決まったら、次はデータ一覧の作成です!
皆さんは紛争・難民に関連してどんなデータセットが利用可能か、知っていますか?
===========
文責:大石彩夏
PeaceTechに興味ある方はこちら(Facebookの有志グループ)にJoin!
コメント
[…] 前回は、プロジェクトキャンバス・仮説設定で予測モデルの大枠を決定しました。設定した仮説に基づき、使えそうなデータセットを探し出すのが今回のメインイベントです。 […]