『ニュースQ』は、様々なジャンルのニュースをもとに作成された、時事情報に関する日本語QAベンチマークです。朝日新聞社の編集者が作問し、事実関係の確認を含む校正・校閲を経ているため、情報の正確性が高いことが特徴です。
『ニュースQ』は、様々なジャンルのニュースをもとに作成された、時事情報に関する日本語QAベンチマークです。大規模言語モデル(LLM)が持つ知識の事実性を測定することが主な利用用途です。
本データは朝日新聞デジタル公式アプリで提供されている時事クイズ・ニュースQをベースとしており、朝日新聞社の編集者が作問し、事実関係の確認を含む校正・校閲を経ているため、情報の正確性が高いことが特徴です。問題数は2022年度(穴埋め形式・4 択)が434問、2023年度(QA形式・3 択)が335問で、計769問です。
LLMが持つ知識をより多角的に分析できるようにするため、各問題に対して、それがどこで起きた出来事についてなのか(場所)、時間的に変化する対象(例:首相、人口、流行語)を考慮して解く必要があるか(時間依存)、どのジャンルに属する知識を問うているか(ジャンル)を表すラベルをアノテーションしています。
主要なオープンモデルと商用モデルのベンチマーク正答率を算出したところ、様々なタスクで高性能な最先端の商用モデルであっても、海外の出来事と比べて日本国内の出来事について理解に乏しい傾向が確認されています。
植木快, 川畑輝, 田口雄哉, 新妻巧朗, 浦川通, 田森秀明, 岡崎直観, 乾健太郎. 時事情報に関する日本語QAベンチマーク『ニュースQ』. 言語処理学会第31回年次大会, March 2025. [link]
時事情報に関する日本語QAベンチマーク『ニュースQ』はHugging Faceにて無償で配布します。こちらからお申し込みください。