MENU

データサイエンス塾

自然言語処理– tag –

自然言語処理（テキストマイニング）系の記事です。

YouTubeで学ぶPythonデータ分析・講座一覧【ファイルダウンロードあり】

YouTubeチャンネル「データサイエンス塾!!」にて公開しているPythonデータ分析講座の一覧です。当ページにて、動画内で使用しているソースコードやファイルの共有も行っておりますので、ご自由にお使いください。(アップロードの都合上、ファイル名やソー...

2021年2月20日
Pythonによるテキストデータの表記揺れ対策あれこれ

アンケートデータなどのテキスト情報を集計・分析する時、"表記揺れ"には非常に悩まされます。例えば、同じ単語でも「Windows10」「Ｗｉｎｄｏｗｓ１０」「WINDOWS10」「Windows-10」・・・といって、人によって様々な書き方があります。このような表記揺...

2020年3月8日
Pythonで同時に使われやすい単語ペアを調べる(共起分析)

Pythonで共起分析を行います。共起分析とは、文章の中で「同時に使われやすい言葉」を調べる分析手法です。（ネットワークをグラフィカルに図示したものを「共起ネットワーク」と呼びます。）以前、文章中の頻出単語を調べてみましたが、単純に文章中の...

2019年10月13日
Python+Doc2Vecで似た意味を持つ文章を調べる

以前、単語をベクトル化できる技術「Word2Vec」を用いて似た意味を持つ単語を調べてみました。今度は、文章をベクトル化できる技術「Doc2Vec」を用いて、似た意味を持つ文章を調べてみます。 https://analysis-navi.com/?p=2258 Doc2Vecは2014年に発表され...

2019年10月5日
Pythonによるワードクラウドの作成方法

「ワードクラウド」とは、文章中に現れる出現頻度の高い単語を抽出し、1枚の絵にしたものです。ある文章がどんな傾向なのか視覚的に"パッと見"で分かるので、手っ取り早く、かつ取っつきやすい方法のひとつです。オンラインでワードクラウドが作成できる...

2019年9月21日
Python+Word2Vecで似た意味を持つ単語を調べる

文章中に含まれる「単語の使われ方」を見て、そこから単語同士の類似性を測ってみます。そのためには単語を数字のベクトルで表現する必要があるのですが、今回はGoogleが2013年に発表した「Word2Vec」という技術を用いて行ってみます。当時、「王様」-「...

2019年9月8日
Pythonで文章中の頻出単語を抽出する方法

文章の中に出てくる頻出単語のカウント方法です。シンプルな分析ではありますが、頻出単語が分かるだけでもその文章データの持つ傾向を大まかに知ることができます。今回は例題として、夏目漱石「こころ」に出てくる頻出単語ランキングをPythonで作成して...

2019年8月25日
Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜

Pythonで、2つの文章の類似度計算をしてみます。理論編は以下をご覧ください。 https://analysis-navi.com/?p=569 今回は例題として、以下の3つの文章について、それぞれの類似度を計算してみます。文章A「私は犬が好きです。」文章B「私は犬が嫌いです。...

2019年2月2日
２文章の類似度の計算〜Bag-of-wordsとcos類似度のしくみ〜

翻訳システムやチャットボットなど、文章の内容を理解する（ように振る舞う）AIが日常の様々なシーンに登場するようになりました。翻訳サイトで和文・英文の翻訳をした事のある方は多いと思います。・・・が、その翻訳結果を見ると、どうも変な文章だな…...

2019年1月19日

1