PRODUCTS

SJNC

SJNC

English page is here.

SJNC(Simplified Japanese News Corpus)は、朝日新聞の記事から構築したテキスト平易化研究のためのコーパスです。約700件の記事から、約7,000文対(元文と平易文)が収録されています。独自で設定したガイドラインに基づき、元文の持つ情報を保ったままの平易化操作が施されているのが特徴です。

概要

SJNCは朝日新聞の記事(2022年)から構築した、日本語テキスト平易化研究のためのコーパスです。

テキスト平易化は、入力された文章の意味を保ちながらより平易な表現に変換するタスクです。

既存の平易化コーパスやシステム生成には、元の内容と関係のない情報の追加や重要な情報の省略など、元文への忠実性が低い例が含まれることが知られています。この課題に対して、我々は元文に忠実な日本語平易化コーパスの構築に取り組んでいます。

本データは、可読性と元文への忠実性のトレードオフを考慮し作成されたガイドラインに従い、人手によって構築されました。実際に、既存の日本語平易化コーパスに比べ元文の情報を高度に保っていること、またSeq2Seqモデルの訓練データとしても、LLMに対するFew-shot法においても元文に忠実な平易化文の生成に効果的であることを確認しています。

バージョン

SJNC v1.0を配布開始しました。(2024.9.27)

  • v1.0では、データセットから公開可能な6706文対を収録しています。
  • 関連論文

    Toru Urakawa, Yuya Taguchi, Takuro Niitsuma, Hideaki Tamori. A Japanese News Simplification Corpus with Faithfulness. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Torino, May 2024.[link]

    浦川通, 田口雄哉, 新妻巧朗, 田森秀明, 岡崎直観, 乾健太郎. 元文に忠実な日本語平易化コーパスの構築. 情報処理学会第259回自然言語処理研究発表会,  Vol.2023-NL-259, No.15, pp. 1-7, March 2024. [link]

    入手方法

    SJNCは無償にて配布します。利用規約及び下記の「個人情報の取り扱い」を読み同意された方のみ入手が可能です。同意される方は、

    • お名前
    • 所属
    • 利用目的
    • メールアドレス
    • 「利用規約及び個人情報の取り扱いに同意します」という一文

    を明記の上、下記までメールにてお問い合わせください。

    頂いた内容を確認させていただき、ご申請内容が利用規約および弊社基準に準じている方には、お問い合わせいただいてから3営業日以内にメールの返信にてデータのURLをお送りします。

    • 利用規約はこちら
    • 個人情報の取り扱い
    • お預かりした上記の個人情報(お名前、所属、利用目的、メールアドレス)は、下記の目的で利用し、弊社の個人情報保護方針に従って取り扱います。

      ・本ツールの使用状況の確認
      ・本人の所属が正しく申請されているかの確認
      ・本ツールをご使用いただくために必要なご連絡(アップデートのご連絡等)
      ・本ツールを使用した感想等を調査するためのご連絡

    お問い合わせ先

    mrad-contact(アットマーク)asahi.com