English page is here.
JNCとJAMULは朝日新聞の記事から構築した、自動見出し生成の研究のためのコーパスです。JNCは学習用で約180万件の記事と見出しの対が収録されています。JAMUL/JAMUL2020は一つの記事に様々な長さの見出しが付与されたコーパスです。
JNCとJAMUL/JAMUL2020は朝日新聞の記事から構築した、自動見出し・自動要約生成の研究のためのコーパスです。
自動見出し生成の研究を通じて、記事全文ではなく「記事の先頭の一部(3文程度)」と見出しの対のようなデータでも機械学習の研究用途では有用であることがわかりました。新聞記事はいわゆる逆三角形のパターンが多く、先頭数文だけでも機械学習には有用なためです。
JNCは、10年間(2007年~2016年)分の記事のリード3文(記事の最初から最大3文)と、朝日新聞紙面に掲載された見出しのペア1,828,231件を収録したコーパスです。JNCには、新聞紙面に掲載された様々な長さの見出しを含まれるため、一般的な見出し生成モデルだけでなく、出力長を考慮した見出し生成モデルの学習データとしても適切です。
データの公開範囲や用途を限定することで従来販売しているコーパスよりも価格を下げ、購入しやすくしました。
JAMULには、2017年9月から2018年3月の間に配信された記事と紙面に掲載された見出し、およびデジタルメディア向けに付与された10文字、13文字、26文字の見出しが1,524件収録されています。プロの編集者によって各記事に対して複数の長さの見出しが大規模に付与されている点が、従来のコーパスとは大きく異なる点です。自動見出し生成の評価に利用されることを期待しています。
JAMUL英語版はJAMUL(日本語版)を元に国立大学法人東京工業大学 情報理工学院 情報工学系 知能情報コース・岡崎研究室が独自で翻訳・開発したものであり、株式会社朝日新聞社はその内容や正確性を担保するものではありません。JAMULの著作権その他の権利は朝日新聞社に帰属し、英語版の著作権は国立大学法人東京工業大学に帰属します。
詳細はこちらの論文をご参照ください。
JAMUL 2020は2014年5月から2019年6月までに朝日新聞社が展開する要約サービス ANDES で配信された 30,656 件のデータから構成されます。それぞれの記事に対して最大で5種類の見出し・要約が付与されています。JAMULに収録された4種類の見出しの他、新幹線の電光掲示板などに配信される短文要約(上限:50文字)も収録されています。紙面向け見出し以外は、表示するデバイスやレイアウトの都合からそれぞれ異なる文字数の上限があるのが特徴です。JAMULよりも収録件数を多くし、評価のみならず学習も可能な件数としています。
人見雄太, 田口雄哉, 田森秀明, 岡崎直観, 乾健太郎. 小規模リソースにおける生成型要約のためのスタイル転移. 言語処理学会第26回年次大会, A4-1, March 2020. [link] (言語資源賞受賞)
Yuta Hitomi, Yuya Taguchi, Hideaki Tamori, Ko Kikuta, Jiro Nishitoba, Naoaki Okazaki, Kentaro Inui, Manabu Okumura. A Large-Scale Multi-Length Headline Corpus for Analyzing Length-Constrained Headline Generation Model Evaluation. In Proceedings of the 12th International Conference on Natural Language Generation (INLG 2019), Tokyo, Japan, October 2019. [link]
人見雄太, 田口雄哉, 田森秀明, 菊田洸, 西鳥羽二郎, 岡崎直観, 乾健太郎, 奥村学. 出力長制御を考慮した見出し生成モデルのための大規模コーパス. 言語処理学会第25 回年次大会, P6-11, pp.1225-1228, March 2019. [link][Poster](若手奨励賞受賞・最優秀ポスター賞受賞)
論文中で利用されているJNCおよびJAMULのフィルタースクリプトはこちらから入手できます。
Sho Takase, Naoaki Okazaki. Multi-Task Learning for Cross-Lingual Abstractive Summarization. arXiv:2010.07503. October 2020.[link]
JNCは有償にて配布します。下記までご連絡ください。別途、ご契約内容などのご確認のために弊社担当者からご連絡を致します。
JAMUL/JAMUL英語版は無償にて配布します。利用規約及び下記の「個人情報の取り扱い」を読み同意された方のみ入手が可能です。同意される方は、
を明記の上、下記までメールにてお問い合わせください。
頂いた内容を確認させていただき、ご申請内容が利用規約および弊社基準に準じている方にはお問い合わせ頂いてから3営業日以内にメールの返信にてデータのURLをお送りします。
お預かりした上記の個人情報(お名前、所属、利用目的、メールアドレス)は、下記の目的で利用し、弊社の個人情報保護方針に従って取り扱います。
・本ツールの使用状況の確認
・本人の所属が正しく申請されているかの確認
・本ツールをご使用いただくために必要なご連絡(アップデートのご連絡等)
・本ツールを使用した感想等を調査するためのご連絡
JAMUL2020は有償にて配布します。下記までご連絡ください。別途、ご契約内容などのご確認のために弊社担当者からご連絡を致します。
JNC・JAMUL共通
mrad-contact(アットマーク)asahi.com