API & DATA

JNCとJAMUL

JNCとJAMUL

English page is here.

JNCとJAMULは朝日新聞の記事から構築した、自動見出し生成の研究のためのコーパスです。JNCは学習用で約180万件の記事と見出しの対が収録されています。JAMULは一つの記事に様々な長さの見出しが付与された評価用のコーパスです。

概要

JNCとJAMULは朝日新聞の記事から構築した、自動見出し生成の研究のためのコーパスです。JNCは学習、JAMULは評価のために利用できます。

JNC

自動見出し生成の研究を通じて、記事全文ではなく「記事の先頭の一部(3文程度)」と見出しの対のようなデータでも機械学習の研究用途では有用であることがわかりました。新聞記事はいわゆる逆三角形のパターンが多く、先頭数文だけでも機械学習には有用なためです。

JNCは、10年間(2007年~2016年)分の記事のリード3文(記事の最初から最大3文)と、朝日新聞紙面に掲載された見出しのペア1,828,231件を収録したコーパスです。JNCには、新聞紙面に掲載された様々な長さの見出しを含まれるため、一般的な見出し生成モデルだけでなく、出力長を考慮した見出し生成モデルの学習データとしても適切です。

データの公開範囲や用途を限定することで従来販売しているコーパスよりも価格を下げ、購入しやすくしました。

JAMUL

JAMULには、2017年9月から2018年3月の間に配信された記事と紙面に掲載された見出し、およびデジタルメディア向けに付与された10文字、13文字、26文字の見出しが1,524件収録されています。プロの編集者によって各記事に対して複数の長さの見出しが大規模に付与されている点が、従来のコーパスとは大きく異なる点です。自動見出し生成の評価に利用されることを期待しています。

関連論文

人見雄太, 田口雄哉, 田森秀明, 菊田洸, 西鳥羽二郎, 岡崎直観, 乾健太郎, 奥村学. 出力長制御を考慮した見出し生成モデルのための大規模コーパス. 言語処理学会第25 回年次大会, P6-11, pp.1225-1228, March 2019. [link][Poster](若手奨励賞受賞・最優秀ポスター賞受賞)

論文中で利用されているJNCおよびJAMULのフィルタースクリプトはこちらから入手できます。

入手方法

JNC

JNCは有償にて配布します。下記までご連絡ください。別途、ご契約内容などのご確認のために弊社担当者からご連絡を致します。

JAMUL

JAMULは無償にて配布します。利用規約を読み同意された方のみ入手が可能です。利用規約に同意される方は、

  • お名前
  • 所属
  • 利用目的
  • メールアドレス
  • 「利用規約に同意します」という一文

を明記の上、下記までメールにてお問い合わせください。

3営業日以内に頂いた内容を確認させていただき、ご申請内容が利用規約および弊社基準に準じている方にはメールの返信にてデータのURLをお送りします。

お問い合わせ先

JNC・JAMUL共通

media-lab-rndpr(アットマーク)asahi.com