朝日新聞単語ベクトル」は約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。word2vecのSkip-gram・CBOW、GloVeを用いて学習させています。さらに「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも提供します。
「朝日新聞単語ベクトル」は、朝日新聞社が保有する1984年8月から2017年8月までに掲載された記事のうち、約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。
単語分割には MeCabを使用し、辞書はIPADIC-2.7.0を用いています。単語ベクトルのモデルは、Skip-gramとCBOWを word2vecの ツールで学習したほか、GloVeによって学習したモデルを提供します。
さらに、Skip-gram、CBOW、GloVeに対して「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも用意しました[1]。合計6モデルを提供します。
本データは、株式会社レトリバとの共同研究の一環として作成されたものです。共同研究についてはこちらをご覧ください。また、本件に関するプレスリリースはこちらをご覧ください。
word2vecおよびGloVeの訓練パラメータは下記の通りです。
Skip-gram or CBOW | -cbow |
{0, 1} |
次元数 | -size |
300 |
文脈長 | -window |
8 |
負例サンプリング | -negative |
5 |
階層化ソフトマックス | -hs |
0 |
最低頻度閾値 | -sample |
1e-5 |
単語最低出現回数 | -min-count |
3 |
反復回数 | -iter |
15 |
次元数 | VECTOR_SIZE |
300 |
文脈長 | WINDOW_SIZE |
8 |
単語最低出現回数 | VOCAB MIN COUNT |
3 |
反復回数 | MAX_ITER |
15 |
単語ベクトルは、全てword2vecのフォーマットで統一されています。
ファイルの1行目に語彙数とベクトルの次元数が記載され、2行目以降は単語とベクトルが記載されています。
下記では、Pythonでgensim
を用いたサンプルコードは下記の通りです。
>>> from gensim.models import KeyedVectors
>>> # ある単語に似た単語(上位5個)を探す
>>> vec = KeyedVectors.load_word2vec_format("./cbow.txt")
>>> vec.most_similar("暗い", topn=5)
[('暗く', 0.7123910188674927),
('明るい', 0.6702773571014404),
('暗かっ', 0.5876639485359192),
('薄暗い', 0.58516526222229),
('真っ暗', 0.5563079118728638)]
>>> # Retrofittingを適用したベクトルで似た単語を探す
>>> retro_vec = KeyedVectors.load_word2vec_format("./cbow-retrofitting.txt")
>>> retro_vec.most_similar("暗い", topn=5)
[('薄ぐらい', 0.8090516328811646),
('グルーミー', 0.7773782014846802),
('もの淋しい', 0.7517762780189514),
('陰気臭い', 0.7295931577682495),
('暗く', 0.7175554037094116
>>> # 「王」という単語から「男」を引いて「女」を足すと
>>> retro_vec.most_similar(positive=['女', '王'], negative=['男'], topn=5)
[('女帝', 0.6063517332077026),
('女王', 0.6007771492004395),
('君王', 0.5941751003265381),
('クィーン', 0.583606481552124),
('后', 0.5781991481781006)]
データの入手は、下記の利用規約を読み同意された方のみ入手が可能です。
利用規約に同意される方は、
を明記の上、
research-pr(アットマーク)retrieva.jp
までお問い合わせください。
3営業日以内に頂いた内容を確認させていただき、利用目的が利用規約に準じている方にはメールの返信にてデータのURLをお送りします。
こちらのQRコードからメールを送信いただくと便利です。
[1]. 参考文献1に記載されているRetrofitting(自動)がこれに該当します。