朝日新聞単語ベクトル：朝日新聞社メディア研究開発センター人工知能研究の取り組み

朝日新聞単語ベクトル

朝日新聞単語ベクトル」は約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。word2vecのSkip-gram・CBOW、GloVeを用いて学習させています。さらに「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも提供します。

概要

「朝日新聞単語ベクトル」は、朝日新聞社が保有する1984年8月から2017年8月までに掲載された記事のうち、約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。

単語分割には MeCabを使用し、辞書はIPADIC-2.7.0を用いています。単語ベクトルのモデルは、Skip-gramとCBOWを word2vecのツールで学習したほか、GloVeによって学習したモデルを提供します。

さらに、Skip-gram、CBOW、GloVeに対して「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも用意しました[1]。合計6モデルを提供します。

本データは、株式会社レトリバとの共同研究の一環として作成されたものです。共同研究についてはこちらをご覧ください。また、本件に関するプレスリリースはこちらをご覧ください。

word2vecおよびGloVeの訓練パラメータは下記の通りです。

word2vecの訓練オプション
Skip-gram or CBOW	`-cbow`	`{0, 1}`
次元数	`-size`	`300`
文脈長	`-window`	`8`
負例サンプリング	`-negative`	`5`
階層化ソフトマックス	`-hs`	`0`
最低頻度閾値	`-sample`	`1e-5`
単語最低出現回数	`-min-count`	`3`
反復回数	`-iter`	`15`

GloVeの訓練オプション
次元数	`VECTOR_SIZE`	`300`
文脈長	`WINDOW_SIZE`	`8`
単語最低出現回数	`VOCAB MIN COUNT`	`3`
反復回数	`MAX_ITER`	`15`

使用方法

単語ベクトルは、全てword2vecのフォーマットで統一されています。

ファイルの1行目に語彙数とベクトルの次元数が記載され、2行目以降は単語とベクトルが記載されています。

下記では、Pythonでgensimを用いたサンプルコードは下記の通りです。


      >>> from gensim.models import KeyedVectors
      >>> # ある単語に似た単語(上位5個)を探す
      >>> vec = KeyedVectors.load_word2vec_format("./cbow.txt")
      >>> vec.most_similar("暗い", topn=5)
      [('暗く', 0.7123910188674927),
       ('明るい', 0.6702773571014404),
       ('暗かっ', 0.5876639485359192),
       ('薄暗い', 0.58516526222229),
       ('真っ暗', 0.5563079118728638)]
     >>> # Retrofittingを適用したベクトルで似た単語を探す
     >>> retro_vec = KeyedVectors.load_word2vec_format("./cbow-retrofitting.txt")
     >>> retro_vec.most_similar("暗い", topn=5)
     [('薄ぐらい', 0.8090516328811646),
      ('グルーミー', 0.7773782014846802),
      ('もの淋しい', 0.7517762780189514),
      ('陰気臭い', 0.7295931577682495),
      ('暗く', 0.7175554037094116
     >>> # 「王」という単語から「男」を引いて「女」を足すと
     >>> retro_vec.most_similar(positive=['女', '王'], negative=['男'], topn=5)
    [('女帝', 0.6063517332077026),
     ('女王', 0.6007771492004395),
     ('君王', 0.5941751003265381),
     ('クィーン', 0.583606481552124),
     ('后', 0.5781991481781006)]

データの入手

データの入手は、下記の利用規約を読み同意された方のみ入手が可能です。

利用規約

利用規約に同意される方は、

お名前
所属
利用目的
「利用規約に同意します」という一文

を明記の上、

research-pr（アットマーク）retrieva.jp

までお問い合わせください。

３営業日以内に頂いた内容を確認させていただき、利用目的が利用規約に準じている方にはメールの返信にてデータのURLをお送りします。

こちらのQRコードからメールを送信いただくと便利です。

脚注

[1]. 参考文献1に記載されているRetrofitting(自動)がこれに該当します。

参考文献

田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸. 同義語を考慮した日本語単語分散表現の学習. 情報処理学会第233回自然言語処理研究会, Vol.2017-NL-233, No.17, pp.1-5. October 2017[pdf]
Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." arXiv, 2013. [pdf]
Jeffrey Pennington, Richard Socher and Christopher D. Manning. "GloVe: Global vectors for word representation." EMNLP2014. [pdf]
Manaal Faruqui, Jesse Dodge, Sujay Jauhar, Chris Dyer, Eduard Hovy, and Noah Smith . "Retrofitting Word Vectors to Semantic Lexicons" NAACL2015. [pdf]

朝日新聞単語ベクトル

概要

word2vecの訓練オプション

GloVeの訓練オプション

使用方法

データの入手

脚注

参考文献