, コンテンツにスキップする

27歳データ科学者、コロナ予測のスーパースターに-名門研究所を圧倒

  • データサイエンティストのヨウヤン・グ氏、独自の予測モデル開発
  • コロナ死者数を相次ぎ正確に予想、大手研究機関をしのぐ実績

2020年春、その優れた統計モデルは生まれた。しかし、新型コロナウイルスがどれほど深刻な影響を及ぼすのかに関心が高まっていた時期に盛んに取り上げられたのは、2つの別の予測システムだった。一つは英インペリアル・カレッジ・ロンドンが作成した統計モデル、もう一つは米シアトルにあるワシントン大学医学部の保健指標評価研究所(IHME)のものだ。

  この2つのモデルは当時、互いにかなり異なる予測を導き出した。インペリアルは米国内の新型コロナウイルス感染症(COVID19)による死者数について、20年夏までに最大200万人に達する恐れがあると警告。一方、IHMEの予想では8月までに約6万人と大幅に少なかった。結局、そのどちらも外れた。同年8月初めまでの米国内の死者数は約16万人だった。

  名高い研究機関の予測にこれほど大きな差が生じたことで、にわかに注目を集めたのが当時26歳のデータサイエンティスト、ヨウヤン・グ氏だった。グ氏はマサチューセッツ工科大学(MIT)で電気工学とコンピューターサイエンスの修士号を取得したほか、数学も修めたが、医学や疫学などパンデミック(感染の世界的大流行)に関する分野で正式な訓練を受けたことはない。それでもデータモデルを扱ってきた自身の経歴が、パンデミック中に役立つかもしれないと考えていた。

  4月半ば、カリフォルニア州サンタクララで両親と暮らしていた時期、グ氏は1週間かけて新型コロナによる死者数を予測する独自モデルを開発し、ウェブサイトに情報を公開した。大手研究機関が数億ドルの資金と数十年に及ぶ経験をつぎ込んで構築したモデルより、グ氏の統計モデルの方が正確であることが分かるのに、そう時間はかからなかった。

  サンフランシスコ大学のリサーチサイエンティストで、著名なデータ専門家であるジェレミー・ハワード氏は複数の統計モデルを比べ、「まともに思えたのはグ氏のモデルだけだった」と評価する。

  グ氏が開発した予測モデルはある意味シンプルだった。当初はコロナ検査や入院、その他の要素の相互関係を探ろうとしたが、最も信頼の置ける数字は日々の死者数であると思うに至った。「他のモデルはもっと多くのデータソースを取り込んでいたが、自分は過去の死者数を基に将来の死者数を予測しようと決めた」とグ氏は説明。「入力データをそれに絞ったことが、ノイズから信号をフィルターするのに役立った」と語った。

relates to 27歳データ科学者、コロナ予測のスーパースターに-名門研究所を圧倒

「過去の死者数データから将来の死者数を予測しようと決めた」と語るグ氏

Photographer: Justin Wee for Bloomberg Businessweek

  完璧ではなかったものの、グ氏のモデルは最初から好結果を示した。昨年4月下旬には、米国の死者数が5月9日までに8万人に達すると予想。実際の死者数は7万9926人だった。IHMEは同じく4月下旬、米国の死者数が2020年に年間8万人を超えることはないとの予測を示していた。グ氏は死者数の予想を5月18日に9万人、同月27日に10万人としたが、これらの数字もほぼ正確だった。

  IHMEはソーシャルディスタンシング(社会的距離の確保)や他の対策の効果で、感染は徐々に収束すると予想。一方、グ氏は多くの州がロックダウン(都市封鎖)からの経済活動再開を進めることで大きな第2波がやってくるとみていた。

  IHMEのクリストファー・マレー所長は、4月を過ぎて新型コロナ問題への対応を見直して以降、同組織の予測は急速に改善したとしている。

  新型コロナの感染が拡大する中、グ氏は米疾病対策センター(CDC)や疫学者らとの定期会合に出席するまでになった。中国からの移民家族としてイリノイ州とカリフォルニア州で育ち、27歳になった現在はニューヨークのアパートで暮らすグ氏。パンデミック前にはスポーツ分野の分析などで起業したいと思っていたが、今は公衆衛生の分野にとどまろうと考えている。

原題:The 27-Year-Old Who Became a Covid-19 Data Superstar(抜粋)

    最新の情報は、ブルームバーグ端末にて提供中 LEARN MORE