2020年3月8日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki Pythonデータ分析 Pythonによるテキストデータの表記揺れ対策あれこれ アンケートデータなどのテキスト情報を集計・分析する時、“表記揺れ”には非常に悩まされます。 例えば、同じ単語でも「Windows10」「Windows10」「WINDOWS10」「Windows- […]
2019年10月13日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonで同時に使われやすい単語ペアを調べる(共起分析) Pythonで共起分析を行います。 共起分析とは、文章の中で「同時に使われやすい言葉」を調べる分析手法です。 (ネットワークをグラフィカルに図示したものを「共起ネットワーク」と呼びます。) 以前、文章中の頻出単語を調べて […]
2019年10月5日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Python+Doc2Vecで似た意味を持つ文章を調べる 以前、単語をベクトル化できる技術「Word2Vec」を用いて似た意味を持つ単語を調べてみました。 今度は、文章をベクトル化できる技術「Doc2Vec」を用いて、似た意味を持つ文章を調べてみます。 Python+Word2 […]
2019年9月21日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonによるワードクラウドの作成方法 「ワードクラウド」とは、文章中に現れる出現頻度の高い単語を抽出し、1枚の絵にしたものです。 ある文章がどんな傾向なのか視覚的に”パッと見”で分かるので、手っ取り早く、かつ取っつきやすい方法のひとつ […]
2019年9月8日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki Pythonデータ分析 Python+Word2Vecで似た意味を持つ単語を調べる 文章中に含まれる「単語の使われ方」を見て、そこから単語同士の類似性を測ってみます。 そのためには単語を数字のベクトルで表現する必要があるのですが、今回はGoogleが2013年に発表した「Word2Vec」という技術を用 […]
2019年8月25日 / 最終更新日 : 2021年4月15日 Takuma Nishimaki Pythonデータ分析 Pythonで文章中の頻出単語を抽出する方法 文章の中に出てくる頻出単語のカウント方法です。 シンプルな分析ではありますが、頻出単語が分かるだけでもその文章データの持つ傾向を大まかに知ることができます。 今回は例題として、夏目漱石「こころ」に出てくる頻出単語ランキン […]
2019年2月2日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonで文章の類似度を計算する方法〜TF-IDFとcos類似度〜 Pythonで、2つの文章の類似度計算をしてみます。 理論編は以下をご覧ください。 2文章の類似度の計算〜Bag-of-wordsとcos類似度のしくみ〜 今回は例題として、以下の3つの文章について、それぞれの類似度を計 […]
2019年1月19日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 2文章の類似度の計算〜Bag-of-wordsとcos類似度のしくみ〜 翻訳システムやチャットボットなど、文章の内容を理解する(ように振る舞う)AIが日常の様々なシーンに登場するようになりました。 翻訳サイトで和文・英文の翻訳をした事のある方は多いと思います。 ・・・が、その翻訳結果を見ると […]