2023年3月31日にデジタル庁より発表された、最終アップデート版アプリによる収集データ詳細(Excel)より読み解ける統計の特徴について説明した記事です。

変更履歴

  • 初版:2023年3月31日: 連続ツイートを取り込み、若干表現を加筆して掲載

要旨

  • COCOAの通知発生に関するデータは、公衆衛生の研究・政策に資するデータであった可能性が高い
    • COCOAの通知発生回数の増減は、人流データよりも人々の行動をくっきりと捉えていた可能性がある
    • COCOAの通知発生回数の増減率から、新規感染者数の増加傾向を早く気づけたかもしれない
  • 最終アップデート版で収集した300万件以上のデータの集計結果を、今後の「デジタル技術を活用した感染症対策」に活かしてほしい
    • 細かめの集計データもExcel形式で公開されたので、専門家の方にも検討していただきたい
    • COCOAが捉える人々の行動を踏まえて、アプリからの通知の内容を検討してほしい

詳細

以下で取り扱う統計データは、2023年3月31日にデジタル庁より発表された、最終アップデート版アプリによる収集データ詳細(Excel)より読み解ける統計の特徴について説明した記事です。

2023年2月17日に、総括報告書が掲載された時点では詳細な検討が行えず、専門家の検討を促すにはデータが不足していた部分を補うために、可能な範囲で、仮説に対するデータの状況を整理したものです。

COCOA最終アップデート版では、v2.0.0アップデート以降にアプリ内に蓄積されていた、接触確認の履歴を加工して提供いただくアンケートを実施していました。このデータからは、

  • 陽性者からの信号(接触符号)の受信の有無(接触日別)
  • 陽性者からの信号を受信したときに、通知を表示する閾値を超えたか否か(接触日別)

がわかり、これを元に、アンケート回答者に占める通知発生率を計算しています。

そして、COCOAの稼働台数の変化は大きくはなかったため、通知発生率はほぼ通知発生回数と同義と言えます。 以下では、見出しや要旨・示唆では、通知発生率を通知発生回数と見なして記載しています。 そして、特段の理由がなければ、COCOAの陽性登録率の大きな低下に繋がった、全数届出の見直し(2022年9月27日)以前について分析をしています。

また、このデータ形式の制約上、通知は「接触した日」ベースでしか集計できず、「通知が表示された日」ベースの統計は出せていない点にも留意して、このあとの分析をご覧頂けますと幸いです。

COCOAの通知発生回数の増減は、人流データよりも人々の行動をくっきりと捉えていた可能性がある

通知発生率と新規感染者数には相関が見られる

COCOAの通知発生率の増減と、新規感染者数の増減は、以下の折れ線グラフのように、非常に似た形で連動しています。

日次の新規感染者数・通知発生率の比較

この相関関係を確認したところ、相関係数R2=0.68程度と強めの相関が見られました。 先行して通知発生率が上がった後、新規感染者数が増加しています。 減少は、通知発生率・新規感染者数ともにほぼ同じ歩みです。

日次の新規感染者数・通知発生率の比較

COVID-19に関する多くの分析・研究では、母集団を絞ることで強い関係を見いだしていますが、ここにおける相関関係は、通知発生回数を、回答者の属性等で区分しない状態でも見られるものです。

COCOAに対する批判として、「プライバシーに配慮して個人の属性を取得していないために、感染症対策に資する情報が得られない」というものが多く見られましたが、プライバシーに配慮して単純に集計するだけでも、日本全体の感染傾向を的確に、かつ、少し早めに捉えることができています。COCOAを運用している間に、専門家・政治家等が活用を考え、COCOAのプライバシー保護の範囲内で取れる匿名の統計を活用するよう意思決定できていたら、意味がある情報がえられたのではなかったでしょうか。

通知発生率を、信号受信率・閾値越え率に分解すると、市民の行動の変化が分かりやすくなる

通知発生率を、信号受信率(通知がでないものも含めた信号受信をした台数)・閾値越え率(信号受信をしたうち、通知を出す基準である閾値を超えた割合)に分解すると、より市民の行動の変化がみて取れるように思います。

ここでは、新規感染者数の増減率(直近7日間新規感染者数÷直近14日~8日前新規感染者数)と比較しています。また、グラフの都合上、高い割合になった時期がある信号受信率のグラフは分けて示します。

日次グラフ比較(閾値越え率・通知発生率 vs 新規感染者数増減率) 日次グラフ比較(信号受信率 vs 新規感染者数増減率)

感染者が一度ふえると、信号受信率はなかなか低下しません(周囲に感染者が多い状況ですから当然ですね)が、よりリスクの高い接触をする割合を示す閾値越え率は早く低下傾向に移っています。これは、「感染者が増えたので、慎重に行動しよう」という市民の意識・行動の変化がくっきり見えているようにも思えませんか。

(このような部分について、専門家・研究者のご意見を伺いたいのです!)

単純な人流データよりは、接触の質も踏まえた統計が出せるのは便利ではないか?

このように、市民の意識・行動の変化を捉えるようなデータは、 名古屋工業大学 平田先生のレポート(リンク先PDF p.38) では「人流と感染者数の関係の質的変化」という表現があったのですが、COCOAは接触の質的変化を捉えていたといえるのではないでしょうか。

少なくとも、これまでに日本で公開されていた人流データでは、感染者数の増減との綺麗な関係は、今までは見いだされていなかったように思います。例えば、Googleが公開していた人流データと並べてみたグラフや、

Google人流データと新規感染者数の関係

Agoop社が携帯電話の位置情報をもとに集計した人流データと並べて見たグラフ

V-RESAS(Agoop)人流データと新規感染者数の関係

では、ここまで分かりやすいグラフにはなっていません。

ですので、COCOAのこのデータは、より丁寧に分析していただく価値があるデータなのではないかと思います。

COCOAにおける「閾値を超えない接触を通知すべきか」という議論への材料となる

少し余談ですが、COCOAの運用においては、2021年末から連携チーム・GitHub上等で「閾値を超えない接触も分かるようにすべきでは」という議論が行われていました。

その機能リクエストは何らかの問題に関連しますか / Is your feature request related to a problem? discussion #532 の 接触通知が出なかった場合も含めた、接触状況を知らせる定期的な通知の追加 を起点とするIssue。 #532 (comment) 接触通知を発生させる閾値以下の接触があったことを(OSの設定画面ではなく)COCOA内...

当時は自分も「閾値を超えない接触も積極的に見せて行くべき」と考えていました。

ですが、今回の以下のグラフをみると、信号受信率の減少が感染者増加率の減少に比べて落ちにくいことがわかりました。 COCOAの通知が「注意喚起」の意味を持つとしたら、より注意してもらうべきは感染拡大直前~感染拡大中にあたるはずです。

日次グラフ比較(信号受信率 vs 新規感染者数増減率)

ですので、結果的に、標準機能としては持たせなくて良かったのではないか、とも言えたかもしれません。 リスクを通知するアプリには、より小さなリスクも通知してほしいという意見が寄せられがちですが、どのくらいのリスクを通知すべきかの参考になるよいデータといえるかもしれません。

COCOAの通知発生回数の増減率から、新規感染者数の増加傾向を早く気づけたかもしれない

このように、データの公表に向けて準備していたところ、厚生労働省の行政官から、「時差相関分析を行ってはどうか」というアドバイスがありました(厚生労働省の中でも「労働」に関する専門知識もお持ちで、その分野では比較的メジャーな考え方のようでした)。

時差を1日ごとに変えて相関係数を比較したのが以下のグラフです。

時差相関分析(時差日数別の相関係数)

9日目にピークがありましたので、通知回数は感染者数より接触日ベースで9日早く増加していた、と示すことができ、(全数届出の見直し前までの)相関係数R2は0.9前後とより高い相関を示すようになりました。これは、折れ線グラフに時差を反映してみると分かりやすいかと思います。

新規感染者数 vs 通知発生率 9日間の時差を反映させたグラフ

この日付はCOCOAが接触を捉えた日で、COCOAから通知が出た日ではないのですが、接触から通知まで5-6日程度の遅れ※だったことを加味しても、COCOAの通知発生の状況が、感染拡大の先行指標に出来た可能性があるように思います。

※遅れの日数を示す明確な根拠はないのですが、推定(潜伏期間3~4日・発症から陽性登録まで2~3日)と幾つかの状況証拠(Twitterでの「通知が出たときには潜伏期間が過ぎている」という不満ツイートなど)から、通知が表示されるのは接触してから5~6日目が多かったであろうと考えています。

増減率についても時差相関分析を行いました。

信号受信率増減率の増加が感染者数増減率の増加に先行する一方、閾値越え率増減率は先行しないので、「感染者数が増えた」という認知が、高リスクな接触を減らしていることをくっきり確認できたのではないかと思います。

新規感染者数との増減率の関係の時差相関 各々の指標の増減率の比較

参考: 初出時のtweet/toot内容

Twitterへの投稿内容

Mastodonへの投稿内容

COCOA最終アップデート版による収集データが先ほど公開されました。 https://digital.go.jp/policies/cocoa/ 感染者数の増加傾向を実際の届出よりも早く捉えていた可能性があることと、Excelで細かめの集計データも公開されたので、研究等にも使えるようになったので、研究者にも注目してもらいたく連続Tootします。 なお、この連続Tootの内容は、少し丁寧な文章にした上で、個人サイト https://dyb.jp/2023-03/31/cocoa-stat-summary/ でも公開予定です。
添付: 2 枚の画像 【COCOAの通知発生回数の増減は、人流データよりも人々の行動をくっきりと捉えていた可能性がある】 COCOAの通知発生回数の増減と、新規感染者数の増減は、回答者の属性等による区分が無くてもR2=0.68程度と強めの相関が見られました。 COCOAに対する批判として、プライバシーに配慮して個人の属性を取得していないことがありましたが、プライバシーに配慮して単純に集計するだけでも、日本全体の感染傾向を少し早めに捉えることができているので、匿名の統計がとれていたら、十分に意味があったのではないでしょうか。
添付: 2 枚の画像 通知発生率を、信号受信率・閾値越え率に分解すると、より市民の行動の変化がみて取れるように思います。 感染者が一度ふえると、信号受信率はなかなか低下しませんが、よりリスクの高い接触をする割合、閾値越え率は早く低下傾向にうつりますので、「感染者が増えた!慎重に行動しよう!」という市民の行動の変化がよりくっきり見えているように思います。 (研究者のご意見を伺いたいところですが) 名古屋工業大学 平田先生のレポート https://corona.go.jp/prevention/pdf/report_by_drkitano_20211207.pdf (p.38)では「人流と感染者数の関係の質的変化」という表現があったのですが、COCOAはその質的変化を捉えていたといえるのではないでしょうか。
添付: 2 枚の画像 少なくとも、これまでに日本で公開されていた人流データでは、感染者数の増減との綺麗な関係は、今までは見いだされていなかったので、より丁寧に分析していただく価値があるデータなのではないかと思います。
添付: 1 枚の画像 また、2021年末からGitHub上で議論が続いていた、「閾値を超えない接触も分かるようにすべきでは」という議論については、信号受信率の減少が感染者増加率の減少に比べて落ちにくいことから、「注意喚起」の標準機能としては持たせなくて良かったのではないか、とも言えると思います。
添付: 2 枚の画像 【COCOAの通知発生回数の増減率から、新規感染者数の増加傾向を早く気づけたかもしれない】 データの公表に向けて準備していたところ、厚生労働省の行政官から時差相関分析を行っては、というアドバイスがありました。 公式ドキュメント内のコメントにも記載できたのですが、通知回数は感染者数より接触日ベースで9日早く増加していました。 この日付はCOCOAが接触を捉えた日で、COCOAから通知が出た日ではないのですが、接触から通知まで5-6日程度の遅れだったことを加味しても、感染拡大の先行指標に出来た可能性があるように思います。
添付: 2 枚の画像 増減率の時差相関分析を行うと、信号受信率増減率の増加が感染者数増減率の増加に先行する一方、閾値越え率増減率は先行しないので、「感染者数が増えた」という認知が、高リスクな接触を減らしていることをくっきり確認できたのではないかと思います。