API & DATA

言語モデル

言語モデル

朝日新聞の膨大な日本語記事で学習された言語モデル(RoBERTa, GPT-2)について紹介します。

概要

言語モデルとは、人間が話したり書いたりする「言葉」を、単語の出現確率でモデル化したものです。昨今ではニューラルネットワークによる言語モデル (ニューラル言語モデル) が広く使われています。言語モデルには、左から右に順々に単語を予測するCausal Language Model (CLM) と、文中の単語を一部隠して「穴埋めクイズ」を解くMasked Language Model (MLM) があります。大規模な言語データを用いて、CLMやMLMのような方式で学習することで、高品質な言語モデルの構築が可能になります。

最近では、MLMのBERTやCLMのGPT-3などがメディアに取り上げられることも多くなってきました。メディアラボでは、過去30年にわたって蓄積してきた記事データを用いて言語モデルの構築と、自動要約や文書分類などのタスクへの応用研究を行っています。

各言語モデルのご利用につきましては、こちらからお問い合わせください

RoBERTa

モデルの説明

RoBERTaは、2019年に発表された言語モデルで、BERTの性能やロバスト性の向上を目的として様々な改良が施されたものです。メディアラボでは現在、1984年以降に蓄積された記事でこのRoBERTaを学習させています。

デモンストレーション

[穴埋め式]世界ことわざ辞典」は、このRoBERTaを使って海外のことわざを再構成して作られた、新しいことわざ辞典です。世界の様々な国からことわざを収集、文中における単語をいくつかマスク=黒塗りしたうえで、RoBERTaにその黒塗り箇所に入る単語を推測させます。各ことわざについて、単語を100個推測させることで新たなテキストを生成。それらが原文と意味の近い順に掲載されています。

推測された単語が、文脈から逸脱していないことがご覧いただくことができ、この日本語の言語モデルが精緻なものであることが確認できます。

立ち読み版はこちら。

#COVID_19WordMap」では、このRoBERTaを用いて記事の極性(ネガ・ポジ・ニュートラル)判定モデルを作成し、新型コロナ関連記事の極性の変化を時系列で可視化しました。

アルキキでは、音声化に向いた記事の選定や、注目が集まりそうな記事の推定アルゴリズムにRoBERTaを利用しています。

GPT-2

モデルの説明

GPT-2は、2019年に発表された言語モデルです。メディアラボでは1984年以降に蓄積された記事を活用してGPT-2言語モデルの構築を行っています。今年5月にはGPT-2よりも遥かに大規模なパラメータ (1,750億) を持つGPT-3OpenAIより公開され話題となりました。

デモンストレーション

#この記事は実在しません」は、架空の記事タイトルおよびその本文をGPT-2言語モデルで生成して掲載しています。GPT-2言語モデルは、朝日新聞記事で事前訓練した後に、2020年9月1日時点の 日本語Wikipedia記事を用いてfine-tuningしています。

Wikipediaは約120万記事ですが、今回は朝日新聞記事での事前学習による性能を見て頂くために、そのうち1万記事のみを用いてfine-tuningしています。「#この記事は実在しません」では、Wikipediaのようなスタイルで文章が生成できており、スタイル学習用のデータが少量でも学習できているのを確認できます。

お問い合わせ先

各言語モデル共通

media-lab-rndpr(アットマーク)asahi.com

脚注

#この記事は存在しません」は、This Word Does Not Existに影響を受け作成されました。