API & DATA

自動要約生成API: TSUNA

自動要約生成API: TSUNA

入力された本文から、自然で読みやすい見出し・要約文を手軽に生成。新幹線の速報テロップ等で実用化されている独自の機械学習技術により、文字数や文書スタイルの指定も可能。各種媒体へのPR文書の出し分けや、大量の文書の内容を効率的に把握したい時などに、幅広くご活用いただけます。

概要

自動要約生成API TSUNA(Text SUmmarizatioN Application)は、入力された記事本文を機械学習を用いて要約し、見出しや要約文を生成するものです。

朝日新聞が大量に保有している過去30年分の記事データを、効率よく処理させるために前処理・フィルタリングをした上で、ディープラーニングの機構を用いて学習させています。

本APIは出力する見出しや要約文の長さをコントロールできるのが特徴です。これは、掲載するメディアによって文字数制限がある場合が多いため、実用上必要な技術として注目しています。さらに、利用する状況に合わせ、同時に複数の候補を出力することもできます。出力された複数の見出しから、ユーザーが取捨選択した上でより良い見出しに修正をする、などのシチュエーションでの利用が考えられます。

朝日新聞社メディア研究開発センターでは、自動見出し生成の研究を2016~2017年に株式会社レトリバと進めました。本APIにはその共同研究の成果を進化させ、メディア研究開発センター独自のノウハウが活かされています。

本ページで公開されているデモやAPIは、TSUNAの用途などの検証のためのものですので、ご利用に関してはデモに関するご注意や、「利用規約」を十分ご確認の上、ご利用頂きたくお願い致します。エラーのご報告やお問い合わせ、商用利用に関してのご相談はこのリンクで受け付けております。

特徴

要約文を様々な長さやスタイルで生成

教師データのスタイルを学習することで、例えば「体言止め」、「スペースの有無」、「文体(です・ます調、だ・である調)」のような特徴が再現されます。※教師データの性質によっては、スタイルが正確に反映できない場合もあります。

最大10案の要約案を生成

指定した文字数で、複数の見出し・要約文案の 生成が可能。文脈や媒体のトーン&マナーにふさわしい生成結果をご利用いただけます。

小規模な教師データでの学習も可能

高品質な要約文生成のためには100万件規模の教師データが必要となりますが、TSUNAは朝日新聞社で蓄積した大規模データ(約500万件)を組み合わせて学習する独自技術(※)により、数万件程度の小規模な教師データにも対応可能です。

(※)人見雄太ら、小規模リソースにおける生成型要約のためのスタイル転移. 言語処理学会第26回年次大会, A4-1, March 2020.

社内活用事例

活用イメージ

導入について

料金例

既成モデル: 月額 15,000 円(税別)/1,000 APIコール

カスタマイズモデル: ご相談下さい

サービスの提供形式

API形式またはDockerイメージによる自社運用可能なオンプレミス形式など。ご相談下さい。

現在のモデルバージョン

モデルは皆様から頂いた声を反映させ、随時更新していきます。

  • Ver. 0.41: 2019年7月18日 ベータ版リリース。
  • Ver. 0.4: 2019年7月15日 ベータ版リリース。
  • Ver. 0.3: 2019年7月9日 ベータ版リリース。見出し生成の性能が向上したほか、長めの要約も出力できるようになりました。
  • Ver. 0.2: 2019年5月21日 ベータ版リリース
  • Ver. 0.1: 2019年3月12日 ベータ版リリース

リファレンス

本APIは、記事本文の入力に対して、自動で見出しや要約を生成します。

入力

九州電力玄海原発3、4号機(佐賀県玄海町)の運転差し止めを住民らが求めた仮処分申し立ての即時抗告審で、福岡高裁(山之内紀行裁判長)は10日、住民側の抗告を棄却した。主な争点は、耐震設計の基になる基準地震動(想定される最大の揺れ)の合理性、原発周辺の火山の噴火リスク、配管の安全性の3点。 住民側は「基準地震動が過小評価されている」と主張。原子力規制委員会の安全審査の内規(火山影響評価ガイド)は、破局的噴火が予測できることを前提としている点は不合理と指摘。阿蘇カルデラ火山の噴火による火砕流が原発の敷地に到達する可能性も、十分小さいとは言えないと訴えていた。配管については「九電の検査方法では損傷が見逃されることがありうる」としていた。九電側は、基準地震動の評価について「各種調査で地域的な特性を把握した上、過小にならないようにしており合理的だ」と反論。「原発の運用期間中に破局的噴火が起きる可能性は極めて低い」と主張していた。配管については「健全性の確保に向け万全を期している」としていた。佐賀地裁は2017年6月、「安全性に欠けるところがあるとは認められない」などとして、仮処分の申し立てを却下。住民側が即時抗告していた。

紙面用(長さ指定なし)

  • 玄海原発運転差し止め、即時抗告を棄却 福岡高裁

紙面用(32文字指定)

  • 玄海原発運転差し止め、高裁も即時抗告棄却 火山噴火リスクなど争点

26文字見出し

  • 玄海原発、高裁も即時抗告棄却 再稼働差し止め申し立て

13文字見出し

  • 玄海原発運転差し止め認めず

10文字見出し

  • 玄海原発の抗告棄却

新幹線の電光掲示板風

  • 九州電力玄海原発3、4号機の運転差し止め申請を却下。福岡高裁、再稼働差し止めの即時抗告を棄却

より長い要約

  • 九州電力玄海原発3、4号機の運転差し止めを求めた仮処分申し立ての即時抗告審で、福岡高裁は住民側の抗告を棄却した。耐震設計の基になる最大揺れ動の合理性、火山の噴火リスク、配管の安全性の3点が争点だった。

エンドポイント

URL:https://clapi.asahi.com/headline-generation

method:POST

レスポンス: JSON

リクエストパラメータ

パラメータ名 説明 サンプル 制約 必須
text 記事本文を指定します。 米ホワイトハウスは18日、トランプ大統領と北朝鮮の金正恩朝鮮労働党委員長による2回目の米朝首脳会談が2月下旬に開かれることを明らかにした。 最長で1000文字まで。それを超える入力は内部処理でトリミングされます。
types 見出しや要約文の種類を指定します。 head26   
       
  • paper :(デフォルト)新聞紙面らしい見出しを出力します。任意の長さの見出しを出す場合はこれを利用してください。後述のlengthとあわせて利用します。
  • head26 :特に26文字の見出しを出力するのに特化したモデルを使用します。
  • head13 :特に13文字の見出しを出力するのに特化したモデルを使用します。
  • head10 :特に10文字の見出しを出力するのに特化したモデルを使用します。
  • shinkansen :新幹線の電光掲示板に表示されるような要約(約56文字)を出力します。
  • long_sum :平均して70文字程度の、より長い要約を出力します。
特にshinkansenやlong_sumを指定した場合は、処理速度が遅くなります(返却まで8秒程度)。
length 出力文字数を指定します。types=paper以外の場合では無視されます。 26 0または8以上40以下で指定。0は指定なし(デフォルト値。本APIが長さも推測します)。範囲から外れた値が設定されている場合はエラーします。 -
n_head 出力する見出しの数を指定します。 5 1以上10以下で指定。デフォルトは1。範囲から外れた値が設定されている場合はエラーします。 -
diverse 複数出力する場合に、バリエーションをより強く出すかどうかを決められます。 1 1を指定するとバリエーションが出る設定になります。デフォルトは0。1以外の数字を設定すると無視します。数字を設定しない場合はエラーします。1を指定すると、精度が低下する傾向があります。 -

レスポンス

フィールド名 説明 サンプル 返却条件
message 処理メッセージ。下記参照。 ok string 常に返却
headline 出力見出し ["来月米朝首脳会談開催","米朝会談、2月下旬に","米朝首脳会談、2月下旬","米朝首脳会談、2月に","米朝首脳会談、来月に"] list messageがokのときのみ

メッセージ

message HTTP Status 説明
ok 200 正常応答
forbidden 403 メソッドが不正
bad parameters 400 パラメータが不正
Missing Authentication Token 403 APIキーが不正
Internal server error 500, 503 サーバ処理で異常が発生
Limit Exceeded 429 アクセス数の制限を超過(1日50アクセス)

サンプルリクエスト

正常時

- Request
curl https://clapi.asahi.com/headline-generation -X POST --header 'x-api-key:<APIKEY>' -d "text=米ホワイトハウスは18日、トランプ大統領と北朝鮮の金正恩朝鮮労働党委員長による2回目の米朝首脳会談が2月下旬に開かれることを明らかにした。開催場所は未定。トランプ氏が正恩氏の最側近、金英哲党副委員長と約1時間半会談して決まった。&types=paper&length=10&n_head=5"
- Response
{"message":"ok", "headline":["来月米朝首脳会談開催","米朝会談、2月下旬に","米朝首脳会談、2月下旬","米朝首脳会談、2月に","米朝首脳会談、来月に"]}

異常時

- Request
curl https://clapi.asahi.com/headline-generation -X POST --header 'x-api-key:<APIKEY>' -d "text=米ホワイトハウスは18日、トランプ大統領と北朝鮮の金正恩朝鮮労働党委員長による2回目の米朝首脳会談が2月下旬に開かれることを明らかにした。開催場所は未定。トランプ氏が正恩氏の最側近、金英哲党副委員長と約1時間半会談して決まった。&types=head26&n_head=100"
- Response
{"message": "bad parameters"}

ご注意・制限事項

  • 本APIは評価版となります。
  • 1APIキーに対して、1日50回までのご利用が許可されています。また、公開は2020年3月末までを予定しています(期間を延長しました)。
  • 商用では利用できません。商用利用をご検討の際は、お問い合わせフォームよりご連絡をお願い致します。
  • 出力された見出しは、必ずしも事実関係や文法が正しいわけではなく、破綻している場合もありますので、十分にご確認の上、ご利用ください。弊社は出力された内容に関して一切の責任を放棄致します。
  • 文字数を指定された場合でも、必ずしもその文字数が守られて出力されるわけではありません。場合によっては指定した文字数よりも短かったり、長かったりする場合がございます。
  • 入力する記事については、個人情報を含むものや、利用者または弊社が著作権を持つもの以外は送信しないでください。

以上について、詳しくは「利用規約」をご確認ください。

デモ

APIキー取得の上、下記のフォームで見出し生成をお試しいただけます。

APIキー

見出しの種類

長さ指定(見出しの種類は「新聞紙面用」を選んでください)

出力数

(Experimental) バリエーション
「あり」にすると、複数出力する場合にバリエーションが増えますが、精度が低くなる傾向があります

記事本文(8文字以上)

送信

結果は下記に表示されます。

  • 送信ボタンを押してください…