API & DATA

#COVID_19WordMap : Words Shape Our Quarantined Moments

#COVID_19WordMap : 新型コロナ関連記事可視化マップ

突如出現し、世界を一変させた新型コロナウイルス。刻々と変化する状況に、私たちの行動や生活、感情は翻弄され続けています。#COVID_19WordMap は、国内でも感染が拡大し始めた2020年2月から現在までの日本の姿を、キーワードと地図で表現し、その当時の記憶を呼び覚まします。それは、コロナ以前とは確実に変わってしまったこの世界や私たちの歩みを振り返り、改めて理解するための試みです。

本プロジェクトは、コロナ禍における日本全国の状況を<自然言語処理>と<地図表現技術>の掛け合わせにより可視化する、朝日新聞社メディアラボと株式会社Strolyの共同研究によるものです。朝日新聞社の保有するコロナ関連記事からキーワードを抽出し、極性判定、記事の位置情報推定を行った上で地図上にプロットしています。いつ、どこで、どんなことが語られたかが可視化される、数字だけからは見えてこない社会の状況を把握するためのビジュアライゼーションです。

使い方

ワードクラウドのキーワードを選択すると、そのキーワードの抽出元である新聞記事を見ることができます。 日付を選択すると、その時期に起こった出来事から作られたワードクラウドに遷移します。

地図中のアイコンの機能は下記のとおりです。

自分の位置を表示

SNSにシェア

・沖縄県および北方領土は、キーワード表示のためにリサイジングした画像を使用しています。
・記事の緯度経度情報/キーワード/極性情報は、機械により自動付与・判定されたものです。一定割合は人手で確認しつつ掲載しておりますが、中には誤りを含む場合があります。

開発メンバーから

新聞記事は、その日に起こった出来事や感情を伝える、ニュース性が高いメディアというだけでなく、あとから振り返るときには当時の状況を伝えるもっとも生々しい情報源となります。今回のコロナウイルスの流行も、新聞記事とそこから表出されたエモーショナルなムードが並んで見えたら、数カ月後・数年後にもこの状況をありありと伝える事のできるメディアになるのではないかと考えています。

2020年2月中旬は「新型肺炎」のキーワードを中心に、全国的にネガティブなムードがありますが、5月に入ると「マスク」「手作り」「支援」といったキーワードが増え、全国がポジティブな記事に覆われます。高校野球の地区予選が始まる6月中旬は、その大会中止を客観的に捉えるニュートラルな記事が増えます。さらに7月には、感染者が2週間で2万人から4万人に拡大すると、全国的にネガティブなムードが一気に広がっています。

このように時系列に振り返ってみると、ネガティブなムードと、それに対するポジティブな取り組み、という闘いの痕跡が見えるような気がしています。

単純な記事の羅列では、何が起こったかの確認になってしまいますが、このようにネガティブ/ポジティブのムードの変遷を辿ることで、数年後に振り返るときにも記憶を呼び起こす助けになるのではないかと考えています。

100年前のスペイン風邪や、中世のペストのように、感染症が大規模に拡大する状況は数世紀に一度のことです。事実を羅列するだけではなく、このような稀有な状況を、その時の感情ととともに振り返られるようにすることもメディアの役割と考えます。事実だけでなく、そこに向き合った人々の気持ちも伝えるメディアとして機能することを願っています。

用いられた技術について

記事キーワード抽出

見出しおよび本文から記事キーワード(記事の内容をよく表す語)を、グラフベースの抽出手法であるMultipartiteRankにより最大5つ抽出。キーワードは、単語の登場位置、他単語との接続、記事中で表されるトピックなどを考慮し自動で抽出されます。

極性判定(キーワードの表示色)

約3,000件の見出しに、人手で「ネガ・ポジ・ニュートラル」の3つの極性を付与し学習データを作成。このデータを用いて朝日新聞社保有の言語モデル(RoBERTa)をFine tuningすることで、極性判定モデルを作成しました。このモデルは、記事の見出しを入力とし、ネガ/ニュートラル/ポジの3値を判定します。各極性の強さによって、グラデーションによる表示色が決定されます。

重要度スコアリング(キーワードの大きさ)

各期間における記事キーワードの頻度を数え上げ、登場回数の多いキーワードをより多く含む記事を重要な記事と捉え、スコアを計算。重要度スコアの高い記事は地図上でより大きく表示されます。

地理情報抽出(キーワードの位置)

地理情報の抽出は、記事本文を入力にGeoNLPを用いて取得しています。

地図生成(位置情報を加味したワードクラウド生成)

単語の位置がランダムに決定される従来のワードクラウドを、任意の点(の描画可能な最近点)へ描画するように改良することで、関連する地理情報に紐付けて記事ワードを表示する地図生成を行なっています。

位置情報変換

#COVID_19WordMap の地図は1枚の画像です。この画像の地図に対して実際の緯度経度情報を反映させる機能を実装しています。あらかじめ、画像の地図上からいくつかの任意の地点をXY座標として抽出して、対応する実際の場所の緯度軽度情報と結びつけて、マッピングポイントリストと呼んでいるリストを作成しています。ある緯度経度の地点を、この画像の地図上の対応する場所に反映させたい場合、このマッピングポイントリストを元に、線型結合などを使って実際の緯度経度情報を画像の地図のXY座標に変換する計算を行なっています。

アプリケーション

この #COVID_19WordMap は、TypeScriptによるオブジェクト指向で設計のしやすいGoogle製のWebフレームワークAngularを使用してSPA(シングルページアプリケーション)として構築し、AWSのS3とCloudFrontを使用して配信しています。

地図を扱う部分の処理は、Leafletというライブラリを使用して、フレームワーク外で動くような仕組みとしています。ワードクラウドとして使用している画像が1,000枚以上あり、これらを予めダウンロードしてキャッシュするために、AngularでService Workerを扱うための@angular/pwa Schematicを使用しました。結果として、オフラインでも利用できるPWA(Progressive Web Apps)として機能するようになりました。

クレジット

株式会社朝日新聞社メディアラボ研究チーム

浦川 通
杉野 かおり
田森 秀明

株式会社Stroly

Enrique Arriaga
前田 貴範
Sunhee Park
池谷 薫
桑原 彩

お問い合わせ先

(Strolyへのお問い合わせ) info[at-mark]stroly.jp、桑原宛て
(朝日新聞社へのお問い合わせ)media-lab-rndpr[at-mark]asahi.com

利用ライブラリ

Wordcloud for Python
Shapely
Geopandas
OpenCV
Pillow
Matplotlib
GeoNLP