テキスト×機械学習

Python+Word2Vecで似た意味を持つ単語を調べる

文章中に含まれる「単語の使われ方」を見て、そこから単語同士の類似性を測ってみます。

そのためには単語を数字のベクトルで表現する必要があるのですが、今回はGoogleが2013年に発表した「Word2Vec」という技術を用いて行ってみます。
当時、「王様」-「男」+「女」=「女王」といった単語の足し算・引き算が出来るとの事で話題になりました。

Web上で単語の計算を実験できるツールを作りましたので、ご興味のある方は遊んでみてください。(少々、読み込みに時間が掛かります。)

今では単語をベクトル化する技術は様々ありますが、細かいことは考えずにパッと計算したい時はWord2Vecで充分です。
今回は、PythonでWord2Vecを動かす方法についてご紹介します。

学習モデルの読み込み

何はともあれ、単語をベクトルにするためには「学習モデル」が必要です。
その準備の方法は大きく2通りあります。

1つは、Wikipediaなど大量の多様な文章データから学習させたモデルを使う方法。
多くの場合、Web上で学習済みのモデルを無償公開して頂いている方がおり、無料でダウンロードできます。
モデルの作成が不要なので楽ですが、モデルの読み込みや計算に時間が掛かるなどのデメリットがあります。

もう1つは、「会社内のメール」「Twitter上」など、自分でモデルを作る方法。
○○特化、のようにオリジナルな学習モデルを作ることができますが、モデル作成の手間が掛かったり、データ量が少ないと正しく計算できなくなってしまうなどのデメリットがあります。

それぞれのメリット・デメリットを踏まえ、適切に使い分けて下さい。
以下、Pythonを用いてそれぞれの方法で単語をベクトル化して行きます。

既存の学習モデルを用いる場合

まずは既存モデルを使う場合の方法です。

今回は「東北大学 乾・岡崎研究室」にて公開頂いているモデルを拝借しました。
まずは、このファイルを自身の作業環境にダウンロードします。
任意のディレクトリに配置し、以下のように読み込みます。

ダウンロードすると「bin」「txt」の2ファイルありますが、binの方がファイルサイズが小さいのでこちらを使用します。
その際には、オプションの「binary=True」を忘れないように気をつけて下さい。

読み込みに少々時間が掛かる可能性があります。
計算実行の度にモデル読み込みをすると面倒なので、Jupyterなどで別セルを作って実行し、読み込ませた状態で以降の計算を行うことをオススメします。

学習モデルを作成する場合

自分でモデルを作る場合は、人間がデータを準備して読み込ませ、形態素解析しておく必要があります。
手間はかかりますが、オリジナルの学習モデルを作るためですので仕方ありません。

今回は無償公開されている「livedoorニュースコーパス」のデータを全て読み込ませ、学習に使ってみます。
形態素解析は、既存モデルではMeCabを使用しているとの事なので、それに合わせます。

データの形式に応じて読み込ませ方は変わりますが、livedoorニュースコーパスの場合は上記のようにすれば読み込めます。
形態素解析できたら、Word2Vecメソッドにそのデータを与えれば勝手に学習してくれます。

単語のベクトル取得

モデルの作成が完了したら、いよいよ単語をベクトル化してみます。
今回は、試しに日本の都道府県名47語をベクトル化して、その傾向を調べてみることにします。

まずは、調査したい単語を以下のようにリストに格納しておきましょう。(途中省略)

既存の学習モデルを用いた場合

ベクトルの取り方はmodel[“単語”]とするだけです。
ちなみに、調べたい単語が、学習済の単語で無ければ計算しようがありません。
なので、ifで「単語が存在するのか」をまずチェックして、それがOKならばベクトルを取得するようにしています。

学習モデルを作成した場合

処理は同様ですが、単語の存在チェックの関数が少し違います。
学習モデルの形式によって変わるようですが、もし「(モデル名).vocab」で取得できなければ上記のように「(モデル名).wv.vocab」を使って下さい。

また、自作の学習モデルを使う場合は、「学習済みの単語」に「調べたい単語」が存在しない可能性が高くなります。
現に、libedoorニュースコーパスには「和歌山」が存在しませんでした。

結果のグラフ化

さて、ベクトル化できたので、この後は自由自在です。
今回は、主成分分析をして単語の近さを視覚化してみます。

デザインはお好みで。では結果を見てみます。

既存モデル

見てみると、「東京」「大阪」「京都」といった都心部が右下に固まっており、近い単語と判断しています。
「北海道」と「沖縄」も、地理的には遠くても意味は近いと出ています。
「広島」「長崎」が近いことも考えさせられますね。

「地理」の近さではなく、「意味」の近さとしてはなかなか納得感のある結果が得られているのでは無いでしょうか。

自作モデル

ほとんど団子状態です。
既存モデルに比べたら圧倒的に学習データが少ないので、これらの単語が「県名」という仲間であるという面くらいしか捉えられなかった可能性はあります。

しかし、「東京」だけは圧倒的に特別な単語だと捉えられていますね。
「香川」が特徴的だと評価されている点も気になる所です。

本記事ではこれ以上の細かい分析は行いませんが、livedoorニュースコーパスで「東京」や「香川」の現れている記事がどんな記事なのか、実際に見てみると面白い示唆が得られるかもしれません。

まとめ

このように、単語を数値ベクトル化すると、我々が文章を読んだだけでは分からない示唆を与えてくれます。

例えば社内アンケートやメール文なんかで解析すると、その会社の問題点などが見えてくる事もあります。
あくまでも「示唆」を考えるのは人間ですが、それを考えるネタを与えてくれる方法としてはかなり使えるものですので、ぜひ活用してみてください。

単語でなく、文章をベクトル化する方法は以下にて説明しています。

Python+Doc2Vecで似た意味を持つ文章を調べる以前、単語をベクトル化できる技術「Word2Vec」を用いて似た意味を持つ単語を調べてみました。 今度は、文章をベクトル化できる技術「...