機械学習によってインパクト評価(RCT)の課題が埋まるかも？？

アカデミック

2020.12.05

経済学者の
友人

最近、経済学者も若手を中心に機械学習を取り入れるようになってきててね。Counterfactual Model（反事実的状況モデル）を作るのに使うんだ。

なるほど！それはランダム化比較試験（RCT）の課題をおぎなえるかもしれない！

こんにちは、Kanot（狩野）です。今日は、機械学習を活用することでランダム化比較試験（RCT）の弱点が埋まり、インパクト評価が簡単にできるようになるかもしれない、という未来予想図の話を書いてみます。（あくまで評価方法の選択肢が増えるという意味で、RCTを完全に代替することになるというつもりはありません。）

先日、知人の経済学者と話をしていた時に、「最近、経済学者も若手を中心に機械学習を取り入れるようになってきててね。」と言われました。「へー、どんな使われ方をしているの？」と聞いたところ、「Counterfactual model（反事実的状況モデル）を作るのに使うんだ」との回答。

それを聞いて私は、「なるほど！それはランダム化比較試験（RCT）の課題をおぎなえるかもしれない！」と興奮を隠しきれませんでした。ここからはその理由を書いていきたいと思います。

さて、ここまで読んで、「インパクト評価？RCT？反事実的状況モデル？？？はて？？」と思った方は、読み進める前にこちらのインパクト評価を解説した記事をご覧いただくことをおすすめします。

RCTを用いたインパクト評価の課題
機械学習の特徴と限界
機械学習とインパクト評価のコラボレーション

RCTを用いたインパクト評価の課題

ランダム化比較試験（RCT）を用いたインパクト評価はプロジェクトの因果関係が特定できるという点で優れた手法ですが、私の知っている範囲では、以下のような問題点が挙げられています。（ここでは今回の記事に関連する点のみを挙げていて、他の課題は上記記事に書いてあります。）

・事前のデザインが全て（過去は振り返れない）
RCTは、事前にプロジェクトを実施するグループとしないグループをランダムに決めなくてはなりません。つまり、プロジェクトの実施中などに、後付けでRCTを用いたインパクト評価を実施することは不可能です。

・対照群（プロジェクトを実施しないグループ）を作る倫理的不公平感
例えば、教科書改善プロジェクトをインパクト評価しようとすると、新しい教科書のグループだけでなく、比較対象となる古い教科書のグループを作らなければなりません。このうち「古い教科書を使うグループ」は明らかに不利に見えるため、不公平感という形で住民から不満が出る懸念がありますし、倫理的にどうなんだという指摘があります。
実際のプロジェクトでは、こういった不公平感が出ないように、古い教科書のグループにもプロジェクト終了後に新しい教科書で補講をするなど、様々な対策が取られています。

・お金と時間がかかる
RCTを行うには、事前の綿密なデザインとデータ収集、そしてプロジェクト開始後のモニタリングとデータ収集、と非常に手間と時間がかかります。なので、コスト的にも大きなものになり、気軽には実施できません。

このような「事前のデザインが全て」「倫理的不公平感」「お金がかかる」といった課題を克服しうる可能性を秘めているのが、今回注目する機械学習を活用するという分析手法です。

機械学習の特徴と限界

機械学習の特徴

AlphaGo（アルファ碁）が囲碁の世界チャンピオンを倒したあたりからよく聞くようになった機械学習（マシン・ラーニング）や深層学習（ディープ・ラーニング）といった言葉ですが、今回取り上げるタイプの機械学習は、すごくざっくり言うと、過去のいろいろな学習データを大量に読み込ませることで、そのデータから未来を予測する手法、と定義しておきます。

機械学習以前の予測モデルは、回帰分析のように、明確にこの変数がこのように影響して結果につながる（例えば、親の年収と教師の力量が成績アップにつながる）と説明可能な形だったのが、機械学習になってくると、データが膨大であることなどから、人間の理解レベルを超えて、「なんでかは説明できないが、過去データから推定される予測はこうである」といった形の予測も出てきます。例えば、アルファ碁が予想外の一手を打った場合に、なぜその一手が打たれたのかは人間には理解・説明できないこともあると思います。

また、このように機械学習では、過去の学習データをもとに予測する形になるので、基本的には過去・現在の延長線上に未来があるという考え方に近くなります。

過去・現在の延長線上に未来がある・・・そうです。この方法で導き出せる予測はまさに、先ほどの教科書プロジェクトの例だと、「教科書が変わらなかったらどうなるか」という「Counterfactual model（反事実的状況モデル）」に似てるわけです。つまり、わざわざRCTで古い教科書で授業をする（保護者が怒りそうな）グループを作らなくても、過去のデータが十分にあれば、それをモデルとして機械学習でCounterfactual model（反事実的状況モデル）を作り出すことが可能になるかもしれないわけです。

機械学習の限界

そんな機械学習ですが、色々と課題もあります。まずは、未来は現在の延長線上にあるため、今後起きる新しいイベント等を組み込むのは難易度が高いです。また、過去の学習データがないと動きません。つまり、十分なデータが必要になります。また、ブラックボックスに近く、なぜその予測がなされたかを説明するのは大変です。

機械学習とインパクト評価のコラボレーション

以上のRCTの特徴と課題、機械学習の特徴と課題を合わせると、RCTの対照群を機械学習に代替させることで、前述したインパクト評価の課題として考えられる「事前のデザインが全て」「倫理的不公平感」「お金がかかる」を埋められる可能性が出てきます。

まず、「事前のデザインが全て」については、データさえあればという前提付きですが、後から評価を行うこともできることになります。「倫理的不公平感」については、機械学習が対照群の代わりになりますので、先ほどの例だと古い教科書のグループは不要になります。「お金がかかる」については、RCTと比べてランダム化や事前事後のデータ収集という手間がだいぶ減りますので、コスト的にも安上がりになるはずです。

こういったメリットが活用できれば、インパクト評価をする際も、介入群だけの実施で評価できることになり、インパクト評価が容易になる未来があるのかもしれません。というか、ランダム化する必要すらなくなってくるので、RCTを実施せずにRCTを用いたインパクト評価に近い評価ができるようになる、という言い方が正しいかもしれません。

なお、もちろんRCTでできることの全てを機械学習でカバーすることはできないため、機械学習がRCTに取って代わるというつもりはなく（アイキャッチではバトン渡してますが（笑））、インパクト評価の選択肢が一つ増えるくらいの感覚でいていただく方がいいかとは思います。

実際の事例

このモデルが実際に活用された事例を一つ紹介しましょう。以下のリンクはシカゴ大学のFiona Burligらによる研究に関する記事で、小学校に省エネ機器を導入した場合の成果を測るために、Counterfactualとして機器を導入しなかった場合を機械学習で推定し、その両者（実際の導入後の効果と、導入しなかった場合の機械学習推定）を比較した結果、期待していたほど導入効果は出ていなそうだというのを指摘しています。

DOE Science news source | Newswise

This feature news channel highlights experts, research, and feature stories related to alternative and renewable energy ...

おわりに（個人レベルでの推定ができるかも？）

さいごに、開発の文脈からは少し離れますが、機械学習を活用してモデルを作ることができれば、ランダム化したり数を集めて統計的な有意性を高める必要もないので、個人レベルでのcounterfactualが作れ、自分に合った学習方法や生活習慣などが簡単に検証できるようになるのかもしれませんね。

この辺で今回の記事は終わりにしたいと思います。ちょっとボリューミーかつアカデミックな内容になってしまいましたが、私としては久々に「この組み合わせは面白いな！」興奮を覚えた話でしたので、記事として書かせていただきました。おそらく開発経済専門の方や機械学習専門の方から見ると、色々と突っ込みどころがあると思いますので、間違いあれば、ぜひご指摘ください。

Ozaki Yuji より:

2020年12月5日 11:52 PM

機械学習の応用、大変興味深いですね。RCTをある程度カバーできればいいですね。

『「なんでかは説明できないが、過去データから推定される予測はこうである」といった形の予測』であっても、マトモに事象を理解している・理解しようとしている人にとっては実に有用な道具でしょう。

2017年7月に『AIに聞いてみたどうすんのよ!? ニッポン』という番組がNHKで放送されました。NHKが独自に開発した（という触れ込みの）「AI」に過去の統計データを分析させ、そのAIを通じてさまざまな社会問題の背景をあぶりだす、という趣旨であったと理解しています。
しかし、その内容が、番組制作側の主張が先にあり（結果ありき）、その裏付けやイイワケとして（責任の押し付けどころとして）「AI」というバズワードを冠している（だってAIがそういう答えを出したんもん。制作側はワルクナイんだもん）ようにも見えました。「分析」と呼ばれるものも、相関と因果をごっちゃにしている感触を受けました。
機械学習やAIを技術として否定はしませんが、それをあたかもエビデンスのように扱おうとしたり、いざとなったら、AIが悪い、AIを作った奴らが悪い、だからそれに基づく主張をしたアテクシはワルクナイ（騙された善良な被害者である）、という妙な使い方をしようとする人間の行動を危惧しています。

返信
Kanot より:

2020年12月6日 12:10 AM

Ozakiさん、コメントありがとうございます。そうなんですよ。ブラックボックス化したAIの責任はどこにあるのか、これは今後進めていく議論ですよね。自動運転の車が人を轢いた時の責任は、オーナーなのか自動車会社なのかAI企業なのか・・・。

返信
- Ozaki Yuji より:
  
  2020年12月9日 12:17 AM
  
  https://www.itmedia.co.jp/news/articles/2012/08/news090.html
  来年度から自治体がAI婚活システムを調達する際に、政府から補助金が出る方向で内閣府が予算案を提出するみたいですね。虚構新聞ネタではありません。
  
  Web上の広告におけるユーザーレコメンドのように「ロジックは分からなくても、（結果的にマッチングの）精度さえ高くなれば良い」と考えるならば、AIを婚活の最初の段階であるマッチングへ応用するのもアリやもしれないですね。
  ただし気になるのは、古来より、縁結びは神事幽界の領分（だから出雲大社）とされてきたこと。どうも、機械学習含む「AI powered」と銘打った仕組みを、（縁結びに限らずとも）ご神託製造機っぽく捉えたいと考えている人たちが一定数いるような気がします（苦笑）。
  
  他人に論拠やアルゴリズムを説明する必要があるものは、従来通り統計学的アプローチ（データの構造を調べてそこから知見を得る）になるんでしょうけどね。
  
  返信
Yukke より:

2020年12月7日 12:26 AM

機械学習でCounterfactual Modelを代替させるのは面白そう、わくわくします。

ただ、ご存知だと思いますが、機械学習は線形問題の再現性には優れていますが（なので画像認識や音声認識では成果をあげている）、一方で非線形問題を扱った場合（典型的な意思決定は一般に組合せ最適化などの離散数学の領域になります）、機械学習の学習結果が教師データなり過去データから上手く特徴を再現できているのかは、非常に説明が困難です。私の修士論文のテーマは生産計画問題でしたが、あまり上手くいったとは言えませんでした。

将棋のような対戦ゲームだとほぼストレートに確率過程モデルに落とせるといった具合に、機械学習で非線形問題を上手くモデル化する技法が発展しないと、多くの現実の開発課題では？？の学習結果ばかりになってしまいそうに思えます。

返信
- Kanot より:
  
  2020年12月7日 5:50 AM
  
  Yukkeさん
  
  コメントありがとうございます。その点はおっしゃる通りで、非線形のモデルにはあいにくそうですよね。実際に私が紹介した事例の論文も、省エネ対策前の電力消費量といったもので、比較的線形な予測がしやすいものという印象でした。
  
  返信
Miwa より:

2020年12月27日 6:05 PM

来年度から、社会人のままデータサイエンスの修士課程に行く予定の者です。
非常に面白いですね。政策評価はこの手法で劇的にしやすくなるのでは、と思ったのですが、Yukkeさんのコメントを拝見すると、内容により合う合わないがありそうですね。

また、別の記事ですが、海外PhDの記事を非常に興味深く読みました。
キャリアに迷っているところなのですが、メール等でご相談にのっていただくことはできないでしょうか。突然の厚かましいお願いで、大変申し訳ありません。

返信
- Kanot より:
  
  2020年12月28日 12:23 AM
  
  Miwaさん、コメントありがとうございます。メールもOKですよ。お問い合わせフォームからご連絡ください。
  
  返信
  - Miwa より:
    
    2020年12月28日 4:52 PM
    
    快く応じてくださり、ありがとうございます。
    お問い合わせフォームに記載させていただきました。
    
    返信